Press "Enter" to skip to content

机器学习——入门基础(线性模型)

文章目录

 

西瓜书机器学习第三章

 

贴上又一位宝藏up主的传送门 二次元的Datawhale的个人空间_哔哩哔哩_bilibili

 

对于在机器学习线性模型的属性判别的时候,分为多种的情况,由上而下依次添加了多个属性,这里着重讲解最后一个无序的离散特征,是将x4、x5、x6三个值作为标准,比如黄色,那保留x4,x5和x6置为0

 

 

线性回归

 

线性关系

 

函数模式:f(x)=w1x1+w2x2+w3x3+…+wdxd+b

 

 

上图举例,数据集D由(x1,y1),(x2,y2)…(xm,ym)组成,其中每个(xi,yi)中的x有由(xi1,xi2…xid)组成,此时有参数w,w由(w1,w2…wd)组成,预测关系为wx1+b=y1’(注意这里面的w和x1是对应的w1 * x11+w2 * x12+wd * x1d;y1‘是预测值),wx2+b=y2’…wxd+b=yd’,我们想要的是预测值ym’和真实值ym差距最小,使用的方法是 均方差

 

所以要求出[(y1-y1’) 2+(y2-y2’) 2+…+(yd-yd’)^2]min,这个公式观察发现,yd’是由wxd+b所求,xd、yd是已知的,要求的就是w和b

 

一元线性回归

 

如果是一元线性回归,上述公式的d=1,w和b为单个的数,如下图所示

 

 

其实可以很形象的看做矩阵的相乘,比如 x * w +b =y,可以理解成是 X(m * d矩阵) * W的转置(d * 1矩阵)+b(m * 1) = Y(m * 1矩阵),将上述的公式单独拿出对w求导可得

 

 

对b求导可得

 

 

导数为0求解

 

 

极大似然估计

 

其实这是有一段解释的话语,用来估计概率分布的参数值,形象理解,其实就是用所看到的样本值估计总体的一个分布值

 

 

这里引入正态分布的公式

 

 

其实引入极大似然估计是为了计算后面的模型,对于线性模型,其实我们清楚,y=wx+b+e,这个e可以理解为误差,那根据常识,误差其实有正负,也有一定范围,默认是服从均值为0的正态分布e ~ N(0,o’^2),那很显示e就满足了如下的公式,并且用e=y-(wx+b)代替可得第二个公式(就是可以将wx+b看作是μ)

 

 

将上式进行极大似然估计法处理后如下

 

 

最终要求此公式的最大值,后面有个负号,那不就是求负号连接的最小值嘛?却突然发现,这不就是最小二乘法估计

 

 

下面的一系列是为了求出w和b,上面最终的公式是为了求出最小值,那具体点就是凸函数求最值的问题,所以下面采取的方法是:

 

1、证明上述公式(yi – wxi -b)^2(i从到m累加) 是关于w和b的凸函数

 

2、用凸函数求最值的思路求w和b

 

凸集、凸函数

 

这里的凸函数并不是形状有关的,y=x^2是凸函数一个代表

 

 

求梯度其实就是求偏导数,比如求y=w1x1+w2x2+b求梯度,那就是对x1、x2求导分别为w1、w2,所以其梯度/一阶导数就是[w1 w2] (注意这里是列向量(分母布局))

 

 

海塞矩阵(Hessian)

 

 

引入海塞矩阵最终还是为了证明E(w,b)是关于w和b的凸函数,这里我们可以看到是需要证明半正定的

 

 

下面是四个二阶导推导过程

 

 

下图就是计算出了二阶导数组成的矩阵,最终的判断是下图最终的式子是否为非负, 注意 这里补充顺序主子式的含义

 

 

 

阶矩阵

 

 

则A的顺序主子式为:

 

 

所以A是正定的,由其构成的实二次型 是正定的。

 

 

推导的过程如下,这里运用了x均值的知识,最终得证是凸函数

 

 

既然得证凸函数,那势必就有最小值点(想象y=x^2),也就是该点导数为0,那不就是求E(w,b)的梯度嘛

 

 

在上述推导4个二级导数的时候,已经求过w、b的导数,直接拿来,下面是求b,化简为y的均值-w*x的均值

 

 

再求出w的值,将b值代入即可,这就是求出了最开始给出的w、d的值

 

 

多元线性回归

 

默认的布局是分母布局,也就是列向量

 

 

对于上图中3.10公式求导,其实我们还可以利用一元线性的知识,证明凸函数再用最小值求出w

 

 

公式求导

 

 

注意上述求出的是一阶导数,海塞矩阵是二阶导数

 

 

证明完凸函数后,一阶导数为0,求出w

 

 

对数线性回归

 

 

广义线性模型

 

形象理解就是y和x并没有直接线性关系,但是g(y)和x有线性关系,上述的对数线性回归,实则是加了ln,这种得到的模型也就属于广义线性回归

 

对数几率回归(逻辑回归)

 

熟知的逻辑回归,字面上是回归,其实是一种分类算法

 

设想一种情况,y的取值只有几种,这就转换为了分类的问题,y的取值就被分成三个区间

 

 

根据上图公式求解

 

 

线性判别分析

 

LDA的思想十分的朴素,就是给定训练的样例集,设法将样例投影到一条直线上,使得同类的投影点尽可能的近,非同类的尽可能的远,形象理解:二维坐标好多点,是有类别的,这一块,那一堆,我们作一条直线,所有的点按照垂直线映射在这条直线上(详述不全,后补)

 

 

类别不平衡的问题

 

处理方法

 

设想之前提及的逻辑回归,分类问题,当数据正反例可能性相同 y/(1-y) >1,也就是大于0.5,预测为正例,反之则为反例

 

假设出现训练集样本是总体样本的无偏采样(解释无偏采样,就是总体样本什幺比例,采集的就是什幺比例),当正例数量为m+,反例的数量为m-,有 y/(y-1) > m+/m- ,此时为正例,也可以改为 (y/(y-1) ) * m-/m+ = y’/(y’-1),等同于上面的y/(1-y) >1

 

假设不知道采样的几率,可以采用如下方法:

 

1、欠采样:就是删除数据,使得正反比例数目接近,但可能会丢失一些重要的信息

 

2、过采样:就是增加一些,但不能重复采样,简单重复采样会造成过拟合

 

3、阈值移动:

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注