Press "Enter" to skip to content

利用Minitab中的全新Python集成,进行文本挖掘探索

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

现如今,内容无处不在,随时可供访问!尼尔森 (Nielsen) 的一项研究发现,美国成人每天用于阅读、聆听、观看媒体以及与媒体互动的时间超过 11 小时。当下大家宅在家中,想必这个数值只会更高。可用内容层出不穷,您或许会想知道:是否存在一种定量方式,让我们能够深入了解可用文本?

 

文本挖掘 也称为文本 数据挖掘 ,指的是从文本撷取高质量信息的过程,其终极目标是从文本变量中提取度量数值,供定量建模之用。

 

文本挖掘为何重要?

 

文本挖掘可用来找出简单的模式,也可用于复杂程度大得多的情感分析。可使用基本统计来进行简单的分析,如,对某个词被提及的次数进行计数,或者,计算出字母全大写词语的数量。

 

获得汇总统计后,可以通过条形图等可视化功能,以图形方式显示出现频率最高的词语;也可以通过文字云,以富表现力的图像显示这些词语。若需要感受人们对某款产品或某个过程的感觉和态度,这项功能尤为实用。

 

好消息! Minitab 最新版搭载全新 Python 集成,可供您充分利用文本挖掘!

 

让文本变得栩栩如生:探索葡萄酒评论和逆向文件频率

 

为方便说明,我们用一个简单的例子,分析对某葡萄酒的 5 个不同评论。通过 Minitab 调用 Python 来执行分析,您就可以拿到一份非常简单易懂的汇总统计表格,如下所示:

 

如您所看到的,在 5 个评论中,词语“葡萄酒 (wine)”出现了 3 次,词语“喜爱 (love)”出现了 2 次,而其他词语均只出现 1 次。Minitab 还会提供每个词语的逆向文件频率 (IDF),其计算方法如下:

 

IDF = ln (N/DF)

 

其中,N = 观测值数量(在这个案例中,总数 5 个评论中的全部评论),DF = 出现特定词语的文件数量。

 

从数学角度讲,若一个词语出现于所有观测值中,则其 IDF = 0。因此,IDF 最低的词语出现次数最多,而只出现在一个观测值中的词语的 IDF 最高。

 

在这个案例中,可以清晰看出,“葡萄酒 (wine)”的 IDF 最低,因为其出现次数最多。基于这些汇总统计,我们可以推断,喜欢葡萄酒的人比不喜欢的居多,而且在总体上,评论是正面的。

 

我们中有很多人偏好视觉资料,可以用文字云来查看此样本分析:

 

如您所见,“葡萄酒 (wine)”出现次数做多,因此字体最大;看一眼文字云即可看出总体评论呈正面。

Be First to Comment

发表评论

您的电子邮箱地址不会被公开。