本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.
1. 公式
朴素贝叶斯的公式如下:
2. 应用
基于朴素贝叶斯的舆情分类模型:
假设我们有2条pos(正向)语料,2条neg(负向)语料,下面我们基于这些语料计算 pos, neg 的概率以及在这些类别下各个单词出现的概率。
如下所示计算 pos, neg:
如下所示计算在 pos, neg 类别下单词出现的概率:
根据公式判断最终类别:
平滑处理:如图所示单词 because 在 neg 类别下的概率为0, 为了避免 zero division error, 我们需要做拉普拉斯平滑处理,即假设每个单词在每个类别下都至少出现了1次。
进过平滑处理后,最终每个单词在各个类别下出现的概率如下图所示:
同时为了避免 floating-point underflow, 我们可以做 log 将乘法运算转换为加法,如图所示:
此时,最终的结果需要与0进行比较:
Be First to Comment