最大似然估计的应用

 

之前我们已经介绍过最大似然估计的概念,这种估计法在机器学习领域有广泛的应用。本文将用线性回归举例,阐述最大似然估计在寻找模型最优参数方面的具体用途。

 

最大似然估计在线性回归中的应用

 

先来回顾一下线性回归的公式:

 

 

假设共有 N 个样本,其中 x 是一个样本, y 是当前样本的已知输出,w 是模型的参数,是未知量,ϵ 是当前数据的噪声,假设它服从均值为 0,方差为 σ 平方的高斯分布,即:

 

 

假设数据集中每一个样本发生的概率都是相互独立的,那幺似然函数可以表示为如下公式:

 

 

在最大似然估计中,我们要求的是当参数 w 为何种情况时,似然函数最大,即当前数据产生的可能性最大。概率 P(X) 无论在何种情况下都是一定的(且介于 0-1 之间),不会影响最终结果,因此上式可以简化成如下形式:

 

 

为了方便计算,对上式采用 log 变化。

 

为什幺可以采用对数似然函数呢?

 

因为自然对数是一个单调递增的函数,概率的最大对数值出现在与原始概率函数相同的点上,如下图所示。

 

 

因此取对数不会影响 θ 的结果。

 

据此,我们可得到如下推导:

 

 

这样连乘的问题就变成了连加的问题。

 

已知噪声服从均值为 0 ,方差为 σ 平方的高斯分布,根据线性回归公式,可以得出下式:

 

 

根据高斯分布的概率密度公式,我们可以得出:

 

 

将上式带入到似然函数中,得:

 

 

有一些参数我们是不关心的,最后得到的公式的第一项和第二项的常数项,因为他们并不影响 w 取何值时 L(w) 最大,或者可以从这个角度理解:求最优解的时候,求对 w 的偏导数时,第一项和第二项的常数项最终都会被消去。

 

据此,我们可以得到最后的公式:

 

 

我们得到的损失函数(cost function)和通过最小二乘法得到的损失函数是完全一致的。在线性回归中,对于同一个损失函数,既可以通过最小二乘法从线性代数的视角解释,也能通过最大似然估计以统计估计的角度解读。

 

本文中我介绍了最大似然估计在线性回归中的应用。对于逻辑回归的损失函数,同样可以用最大似然估计以统计学的视角解读,你可以尝试推导一下,具体的推理过程将在逻辑回归的章节阐述。

发表评论

电子邮件地址不会被公开。 必填项已用*标注