Press "Enter" to skip to content

数理统计及最优化方法

在人工智能中线性代数和概率论是数学基础,而数理统计是用于人工智能结果检测和解释必不可少的武器。

 

数理统计:根据观察或实验得到的数据来研究随机现象,并对研究对象的客观规律做出合理的估计和判断。

 

一、数理统计

 

数理统计以概率论为理论基础,但两者之间存在方法上的本质区别。

概率论:作用的前提是随机变量的分布已知,根据已知的分布来分析随机变量的特征与规律。
数理统计:研究对象是未知分布的随机变量,研究方法是对随机变量进行独立重复的观察,根据得到的观察结果对原始分析做出推断。

在数理统计中,可用的资源是有限的数据集合,这个有限的数据集叫做 样本 。而观察对象所有的可能取值被称为 总体 。数理统计的任务就是根据样本推断总体的数字特征。样本通常由对总体进行多次独立的重复观测而得到,这保证了不同的样本值之间相互独立,并且都与总体具有相同的分布。

 

在统计推断中,统计量是用来进行统计推断的工具。样本均值和样本方差是两个最重要的统计量:

样本均值:
样本方差:

统计推断的基本问题分为两大类:参数估计和假设检验

 

1.1、参数估计

 

参数估计是通过随机抽取的样本来估计总体分布的方法,进一步划分为 点估计 和 区间估计 。

 

1.1.1、点估计

 

在已知总体分布函数形式,但未知其中一个或者多个参数时,借助于总体的样本来估计未知参数的取值就是参数的点估计。点估计的具体方法包括: 矩估计法 和 最大似然估计法 。

 

矩:表示随机变量的分布特征。k阶矩的定义为随机变量的k次方的均值,即E(X^k)。

 

矩估计法:用样本的k阶矩估计总体的k阶矩。理论依据是样本矩的函数几乎处处收敛于总体矩的相应函数。

 

最大似然估计法:既然抽样得到的是已有的样本值,就可以认为取到这一组样本值的概率较大,因而在估计参数的时候就让已有样本值出现的可能性最大。

 

矩估计法和最大似然估计法代表了两种推断总体参数的思路,但对于同一个参数,用不同的估计方法求出的估计量很可能存在差异,这就引出了如何对估计量进行评价的问题。对估计量的评价通常要考虑以下三个基本标准:

无偏性:估计量的数学期望等于未知参数的真实值。
有效性:无偏估计量的方差尽可能小。
一致性:当样本容量趋近无穷时,估计量概率收敛于未知参数的真实值。

1.1.2、区间估计

 

在估计未知参数的过程中,除了求出估计量,还需要估计出一个区间,并且确定这个区间包含真实值的可信程度。在数理统计中,这个区间被称为置信区间,这种估计方式则被称为区间估计。

 

每个置信区间都存在两种可能性:包含参数的真实值或不包含参数的真实值。如果对所有置信区间中包含参数真实值的比率进行统计,得到的比值就是置信水平。区间估计相当于在点估计的基础上进一步提供了取值范围和误差界限,分布对应着置信区间和置信水平。

 

1.2、假设检验

 

参数估计的对象时总体的某个参数,假设检验的对象则是关于总体的某个论断,即关于总体的假设。

 

假设检验中包含原假设H0和备择假设H1,检验过程就是根据样本在H0和H1之间选择一个接受的过程。

 

从数理统计的角度看:监督学习算法的任务就是在假设空间中搜索能够针对特定问题做出良好预测的假设。学习器通过对测试数据集的学习得到具有普适性的模型,这个模型适用于不属于测试集的新样本的能力被称为泛化能力。显然,泛化能力越强,学习器就越好。

 

假设检验的作用就在于根据学习器在测试集上的性能推断其泛化能力的强弱,并确定所得结论的精确程度,可以进一步推广为比较不同学习器性能。

 

二、最优化方法

 

本质来说,人工智能的目标就是最优化:在复杂环境与多体交互中做出最优决策。几乎所有的人工智能问题都会归结为一个优化问题的求解。

 

最优化理论:判定给定目标函数的最大值(最小值)是否存在,并找到令目标函数取到最大值(最小值)的数值。

 

要实现最小化或最大化的函数被称为目标函数或评价函数。当目标函数的输入参数较多,解空间较大时,绝大多数实用算法都不能满足全局搜索对计算复杂度的要求,因而只能求出局部极小值。但在人工智能和深度学习的应用场景下,只要目标函数的取值足够小,就可以把这个值当作全局最小值使用,作为对性能和复杂度的折中。

 

根据约束条件的不同,最优化问题可以分为无约束优化和约束优化两类。

 

2.1、约束优化

 

约束优化:把自变量的取值限制在特定的集合内。

 

线性规划就是一类典型的约束优化问题,其解决的问题通常是在有限的成本约束下取得最大的收益。约束优化问题通常比无约束优化问题更加复杂,但通过拉格朗日乘子的引入可以将含有n个变量和k个约束条件的问题转化为含有n+k个变量的无约束优化问题。

 

拉格朗日函数最简单的形式如下:

 

L(x,y,r) = f(x,y) + r*Q(x,y)

 

f(x,y): 目标函数,Q(x,y)为约束条件,r为拉格朗日乘数。

 

2.2、无约束优化

 

无约束优化:把自变量的取值没有限制。

 

求解无约束优化问题最常用的方法是梯度下降法。梯度下降法就是沿着目标函数下降最快的方向寻找最小值,就像爬山时要沿着坡度最陡的路径寻找山顶一样。在数学上,梯度的方向时目标函数导数的发方向。

 

在梯度下降算法中,另一个重要的影响因素是 步长 ,也就是每次更新f(x)时x的变化度。较小的步长会导致收敛过程较慢,当f(x)接近最小值点时,步长太大反而会导致一步迈过最小值点,正所谓“过犹不及”。

 

因此在梯度下降法中,步长选择的整体规律是逐渐变小的。

 

这是针对单个样本的梯度下降法,当可用的训练样本有多个时,样本的使用模式就分为两种:批处理模式和随机梯度下降法。

批处理模式:计算出每个样本上目标函数的梯度,再将不同样本的梯度进行求和,求和的结果作为本次更新中目标函数的梯度。每次更新要遍历训练集所有样本,运算量较大。
随机梯度下降法:每次更新中只使用一个样本,下一次更新再使用另外一个样本,在不断迭代更新过程中实现对所有样本的遍历。

2.3 牛顿法

 

梯度下降法只用到了目标函数的一阶导数,并没有使用二阶导数。一阶导数描述的是目标函数如何随输入的变化而变化,二阶导数描述的则是一阶导数如何随输入的变化而变化,提供了关于目标函数曲率的信息。曲率影响的是目标函数的下降速度。当曲率为正时,目标函数会比梯度下降法的预期下降得更慢;反之,当曲率为负时,目标函数则会比梯度下降法的预期下降得更快。

 

梯度下降法不能利用二阶导数包含的曲率信息,只能利用目标函数的局部性质,因而难免盲目的搜索中。已知目标函数可能在多个方向上都具有增加的导数,意味着下降的梯度具有多种选择。但不同选择的效果显然有好有坏。

 

如果将二阶导数引入优化过程,得到的典型方法就是牛顿法。在牛顿法中,目标函数首先被泰勒展开,写成二阶近似的形式(相比之下,梯度下降法只保留了目标函数的一阶近似)。此时再对二阶近似后的目标函数求导,并令其导数等于 0,得到的向量表示的就是下降最快的方向。相比于梯度下降法,牛顿法的收敛速度更快。

 

不管是利用一阶导数的梯度下降法,还是利用二阶导数的牛顿法,其寻找最小值点的基本思想都是先确定方向,再确定步长,因而统称为“线性搜索方法”。

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注