Press "Enter" to skip to content

一文搞懂数据分析经典模型:朴素贝叶斯

贝叶斯模型在数据分析中一般用来解决先验概率、分类实时预测和推荐系统等问题,为了理解一下贝叶斯的概念,我们先来看一个例子:

 

某零售企业有三家供货商,记为A1、A2、A3,其供应量和不合格率如下图所示,如果随机从该零售企业中抽取一个产品,其不合格的概率有多大呢?如果抽到的某个产品是不合格的,最有可能是来自于哪个供货商呢?

如果大家了解过概率论统计学的,应该可以看出来,上面的两个问题分别需要用先验概率和后验概率进行解答。所以,我们先来了解一下 先验与后验 的概念。

 

先验与后验

 

我们直接举个例子来说明:

 

今天早上我喝了一杯凉水,那幺中午我会不会拉肚子?

 

这里可以看出“拉肚子”是一种事实结果,而造成拉肚子的影响因素假设只有喝凉水,那幺这个问题实际上是要求出在“喝凉水”条件下“拉肚子”的概率,也就是求:

 

P(拉肚子|喝凉水)——先验事件当中的条件概率

 

通俗点说,先验事件就是由因求果,先验概率也就是根据以往经验和分析得到的概率,最典型的代表就是抛硬币,抛一个硬币求其正面的概率,就是已经知道了“硬币正反面概率都是0.5”的条件,求出“硬币是正面”的“结果”的概率。

而后验事件则是由果求因,也就是依据得到”结果”信息所计算出的最有可能是哪种事件引起的,用上面这个例子就是:

 

中午我拉了肚子,那幺我早上喝了一杯凉水的概率是多大?

 

换言之,“拉肚子”是结果,我在已经知道结果的前提下,求“喝凉水”的原因的概率,也就是:

 

P(喝凉水|拉肚子)——后验概率

 

而先验与后验的基础都是条件概率,其公式是:

朴素贝叶斯概率

 

很多人可能会疑问,我们求后验概率和先验概率的意义是什幺呢?

 

因为传统频率主义是无法解决实际问题的,换言之抛硬币问题只存在于理论中,实际生活中某个事件的发生条件或结果一定是复杂的,不可能是抛个硬币就能解释的。

而实际问题一般是由多个条件组成的复杂事件,那幺什幺是 复杂事件 呢?

 

比如拉肚子这个事件,可能是由于早上喝凉水造成的,也可能是喝过期酸奶造成的,也可能是昨晚吃火锅造成的等等,这就是复杂事件。

 

而如果我们已经知道了引起拉肚子的所有条件,且这些条件都是相互独立且互斥的,那幺想要求出拉肚子的概率,就可以将这个复杂事件拆分成几个条件概率。

 

比如,假设引起拉肚子的条件只可能是喝凉水或者喝酸奶,且这两个条件不可能同时发发生,那幺我们就可以利用条件概率计算最终的拉肚子事件概率:

 

P(拉肚子)=P(喝凉水且拉肚子)+P(喝酸奶且拉肚子)

 

=P(喝凉水)*P(拉肚子|喝凉水)+P(喝酸奶)*P(拉肚子|喝酸奶)

 

这就是全概率公式,全概率公式是用来计算复杂事件的概率,用公式表示就是:

而如果我们想要计算复杂事件的简单条件概率,就要用到贝叶斯概率,比如中午我拉了肚子,那幺我早上喝了一杯凉水的概率是多大?那幺根据条件概率和全概率公式可以得到:

 

P(喝凉水|拉肚子)=P(喝凉水且拉肚子)/P(拉肚子)

 

=P(喝凉水)*P(拉肚子|喝凉水)/P(拉肚子)

 

=P(喝凉水)*P(拉肚子|喝凉水)/P(喝凉水)*P(拉肚子|喝凉水)+P(喝酸奶)*P(拉肚子|喝酸奶)

 

用公式表示就是:

这就是贝叶斯公式的推导过程,其核心思想是当你不能准确知悉一个事物的本质时,你可以依靠与事物特定本质相关的事件出现的多少去判断其本质属性的概率。

 

如果你看到一个人总是做一些好事,则那个人多半会是一个好人。用数学语言表达就是:支持某项属性的事件发生得愈多,则该属性成立的可能性就愈大。

 

贝叶斯的应用

 

现在我们再去计算开头例子的结果,就可以直接套用全概率公式和贝叶斯公式了:

问题1:随机从该零售企业中抽取一个产品,其不合格的概率有多大呢?

 

典型的由因及果,可直接使用全概率公式计算,我们将不合格用B表示:

 

P(B) = P(B|Ai) * P(Ai)

 

=P(B|A1) * P(A1) + P(B|A2) * P(A2) + P(B|A3) * P(A3)

 

=(500/1500*10%)+(400/1500*13%)+(600/1500*11%)

 

= 11.2%

 

因此,随机从该零售企业中抽取一个产品,其不合格的概率是11.2%;

 

问题2:如果抽到的某个产品是不合格的,最有可能是来自于哪个供货商呢?

 

典型的由果及因,可直接使用贝叶斯概率公式计算,我们先求A1供货商的概率:

 

P(A1|B)=P(A1) * P(B|A1) / P(B)

 

=(500/1500*10%)/ 11.2%

 

= 29.8%

 

同理,我们再求出A2、A3供货商的概率是30.9%、39.3%,所以如果抽到的某个产品是不合格的,最有可能是来自于A3供货商。

 

总结

 

在实际的数据分析过程中,我们经常会用到贝叶斯概率的思想,比如我们去分析营销活动的渠道拉新效果,我们不能只针对结果进行分析。按照贝叶斯定律,我们不能忽略导致这个结果的前提条件。

这个前提条件的忽略最终可能影响了我们对整件事情的判断,这个前提条件就是:我们的投放渠道,这就是朴素贝叶斯的本质。

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注