Press "Enter" to skip to content

[机器学习读书笔记] – 基于朴素贝叶斯的舆情分类器

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

1. 公式

 

朴素贝叶斯的公式如下:

 

 

2. 应用

 

基于朴素贝叶斯的舆情分类模型:

 

 

假设我们有2条pos(正向),2条neg(负向)语料,下面我们基于这些语料计算 pos, neg 的概率以及在这些类别下各个单词出现的概率。

 

如下所示计算 pos, neg:

 

 

如下所示计算在 pos, neg 类别下单词出现的概率:

 

 

 

根据公式判断最终类别:

 

 

平滑处理:如图所示单词 because 在 neg 类别下的概率为0, 为了避免 zero division error, 我们需要做拉普拉斯平滑处理,即假设每个单词在每个类别下都至少出现了1次。

 

 

 

进过平滑处理后,最终每个单词在各个类别下出现的概率如下图所示:

 

 

同时为了避免 floating-point underflow, 我们可以做 log 将乘法运算转换为加法,如图所示:

 

 

此时,最终的结果需要与0进行比较:

 

Be First to Comment

发表评论

邮箱地址不会被公开。 必填项已用*标注