Press "Enter" to skip to content

机器学习从入门到进阶③丨假设检验

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

在上一篇的文章中,我们讨论了统计学习的关键概念——参数模型、训练与测试、方差与偏差等等,今天我们再来看一看机器学习的基石概念之一假设检验。

 

 

 

着名的物理学家爱德华·特勒曾说:

 

“A fact is a simple statement that everyone believes. It is innocent, unless found guilty. A hypothesis is a novel suggestion that no one wants to believe. It is guilty, until found effective.”

 

事实是每个人都相信的简单陈述。它是无辜的,除非被证伪。假设则是没人愿意相信的新颖建议。它是有错的,除非被验证有效。

 

假设检验的应用在数据科学中占重要地位,对它的简化和解构是非常必要的。就像犯罪小说的故事一样,基于数据的假设检验,将把一个 新颖的建议 引向一个 有效的命题 。

 

概念

 

「假设」( hypothesis ) 一词源自希腊词语 hupo (under)和 thesis (placing),意思是基于 有限的证据得出的想法。它是进一步调查分析的起点。

 

该概念非常简单,但也非常强大。我们每天都在应用假设建议 ,它通常按照如下7个步骤进行:

 

1

 

做出假设

 

2

 

设定原位置

 

3

 

确定备择位置

 

4

 

设置验收标准

 

5

 

进行基于事实的测试

 

6

 

评估结果:评估是否支持原位置?确定结果不是偶然的?

 

7

 

达到以下结论之一:拒绝原位置以支持备择位置,或者无法拒绝原位置

 

 

以一个故事来进一步解释假设检验的概念。霍尔马维克是冰岛西部的一个小镇,这个小镇的独特之处,是因其巫术博物馆而闻名。即使现在,那里也有人自称是巫师。伊西尔德和甘道夫就是这样的人。

 

他们声称拥有超感视觉,能够透视任何物体。于是一些研究人员想要验证他们的能力,让他们玩一种叫做透视纸牌的游戏。

 

 

该游戏的规则如下:

 

 

向伊西尔德和甘道夫展示10张纸牌的背面,这张牌是从 四副扑克牌中随机选出的 ;

 

他们必须确认每张纸牌属于哪副牌;

 

每个人进行 1 0次 重复测试。

 

 

已经经过测试的是, 普通人能够预测正确的平均次数在6次左右 ,这就是本次假设检验的基础。而本次检验将基于统计确定伊西尔德和甘道夫是否是巫师。

 

1

 

 

做出假设

 

不同种类的假设检验需要不同的假设。 而假设与数据的分布、采样以及线性有关 。一些常见的假设如下:

 

分布 : 每种数据都会遵循特定的分布,需要掌握数据中的规律。许多自然发生的数据点如股票市场数据、人的体重和身高、在酒吧喝酒的人的薪水等等都近似正态分布。正态分布只是意味着很多观测值都在中间位置,较少的观察值大于或小于中间值。中间值也称为中位数。

 

采样: 预设为检验采样的数据是随机选择的,没有偏见。

 

对于上述透视纸牌游戏,以下假设是正确的:

 

在透视卡牌游戏中,所选纸牌的分布将是正态分布的。这是真的,因为这些纸牌是随机选择的。随机选择纸牌意味着,被选出的10张纸牌中的每一张都具有相同的被选择的概率。

 

在该问题中,纸牌没有偏见。

 

2

 

 

零假设 NULL Hypothesis (Ho)

 

零假设是假设验证的初始情况,也就是当下的状态。其在整个假设验证的过程中处于需要验证和测试的位置,可能被拒绝,或者不能被拒绝。

 

对于上述纸牌游戏来说,空假设如下:

 

伊西尔德/甘道夫并 没有 超感视觉。

 

3

 

 

备择假设 The Alternate Hypothesis (Ha)

 

备择假设和零假设正好是相反的。如果统计学获得的证据正好证明备择假设是有效的,那幺零假设就是被拒绝的。

 

对于上述纸牌游戏,备用假设如下:

 

伊西尔德/甘道夫 具有 超感视觉。

 

4

 

 

设置验收准则 Acceptance Criteria

 

零假设和备择假设定义好之后,初始位置为零假设。现在需要设定一个阈值,我们知道一个普通人,即不是巫师的人会在10次中预测正确6次。如果伊西尔德和甘道夫能够在测试中预测超过6张正确的纸牌,那幺有更多的证据表明他们确实可能是巫师。有一种度量评估方法叫做 t-统计 (t-statistics),用于计算估计值与假设值的差距,t值越高则备择假设的可能性就越高。

 

 

假设检验的结果也可能会错。有四种可能的情况:

 

 

测试发现,伊西尔德和甘道夫具有超感视觉,他们是巫师;

 

测试发现,伊西尔德和甘道夫没有 超感视觉 ,他们不是巫师;

 

测试发现,伊西尔德和甘道夫具有 超感视觉 ,他们不是巫师;

 

测试发现,伊西尔德和甘道夫没有 超感视觉 ,他们是巫师。

 

 

测试的结果可能显示结论1和结论2是正确的,结论3和结论4是无效的。

 

如果结论3属实,这样会导致拒绝零假设,属于假阳性(false positive),此类情况也称为 Ⅰ型错误 ;

 

如果结论3无效,这样会接受零假设,属于一种假阴性(false negative),此类情况称为 Ⅱ型错误 。

 

和所有的统计检验一样,假设验证也必须面对不确定性,也就是概率。万事无绝对。

 

对于概率来说,需要设定 概率水平 (probability level),以便确定发生I型错误的可能性,这个水平被称为显着性水平,使用 α 来代表 。 α越低意味着测试越严格,相对较高的α意味着测试不是那幺严格。α的值是根据假设检验的性质设定的,典型值为0.001、0.05或0.1。

 

如果所观察到的结果仅仅是偶然的呢?如果只是一个巧合呢?如果他们在测试进行的那一天刚好走运了呢?这种不确定性需要得到度量,假设检验有一个衡量这种不确定性的指标,就是 p值 。

 

p值表示为概率。这意味着它的值在0和1之间。p值是在假设为真的情况下由于偶然性而观测到t统计量的可能性(即被检验者是靠运气预测正确的可能性)。

 

对于透视纸牌游戏,决定如果伊西尔德可以正确猜测超过8张牌,那幺备择假设是合理的。他可能确实是一位千里眼。t统计量为8。

 

拥有超感视觉的人是没有生命危险的。没有人处于危险之中。显着性水平设定为0.05。α是0.05。

 

5

 

 

进行测试

 

通过重复十次的测试和验证,得到了一些结果。通过对数据的统计计算,最终得到如下的结果:

 

伊西尔德:

 

t-统计:8

 

P值:0.1

 

甘道夫:

 

t-统计:9

 

P值:0.01

 

6

 

 

评估结果

 

概率(p值)和显着性水平之间的比较产生以下结果:

 

伊西尔德:

 

t统计值为8,这意味着,他平均正确预测了八张牌,显着高于正常人的预测结果。

 

p值是0.1,这意味着观察到的t统计数据归因于偶然性的概率是10%。p值很高。

 

设定的显着性水平(α)是0.05,转化为5%。

 

p值高于设定的显着性水平,即10%> 5%。

 

甘道夫:

 

t统计值为9,这意味着,他平均正确预测了9张牌,显着高于正常人的预测结果。

 

p值是0.01,这意味着观测到的t统计数据归因于偶然性的概率只有1% 。

 

设定的显着性水平(α)是0.05,转化为5%。

 

p值低于设定的显着性水平,即1%>小于5%。

 

7

 

 

得出结论

 

测试已结束,指标是已知的。谁是真正的巫师呢?

 

对于伊西尔德:p值高于设定的显着性水平(10%> 5%)。尽管平均而言,他已经正确预测了八张牌,但从统计上,结论如下:

 

伊西尔德的结论:
没有实质证据反对零假设,;零假设未被拒绝。

 

对于甘道夫:平均而言,他正确预测了九张牌。p值低于设定的显着性水平(1%<5%);从统计上,结论如下:

 

甘道夫的结论:
有很好的证据反对零假设,零假设被拒绝,备选假设被接受。

 

最终,伊西尔德震惊失望,而甘道夫得意洋洋。然而,伊西尔德也可以自我安慰,检验测试并没有确定他不是具有超感视觉的巫师。零假设没有被拒绝,并不意味着备择假设就是错误的,这只能说明还没有足够的证据来确定零假设是无效的。在现实中,这样的情况普遍存在。

 

结语

 

假设检验是机器学习的基础概念之一,很多评估方法使用假设检验来评估模型的鲁棒性。在本系列文章中,我们还将继续深入解读。

 

翻译:TalkingData

 

作者:Pradeep Menon

 

来源:Mudium

 

原文链接:https://towardsdatascience.com/data-science-simplified-hypothesis-testing-56e180ef2f71

 

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注