Press "Enter" to skip to content

单变量线性回归(Linear Regression with One Variable)

文章目录

 

一、模型描述

 

前面我们了解到监督学习,给定学习算法一个数据集,这个数据集由“正确答案”组成,最常用的监督学习算法解决的两类问题:

 

1.回归问题:使用监督学习算法预测线性输出,通过房子的面积来预测房价

 

2.分类问题:使用监督学习算法预测离散输出,例如通过肿瘤的大小来预测肿瘤是良性的还是恶性的

 

所以,在监督学习中我们有一个数据集,数据集也被称训练集

 

训练集( Training Set)

 

以房屋交易为例,如下图

符号定义:

 

푚 代表训练集中实例的数量

 

푥 代表特征/输入变量

 

푦 代表目标变量/输出变量

 

(푥, 푦) 代表训练集中的实例

 

(푥(푖), 푦(푖)) 代表第푖 个观察实例

 

ℎ 代表学习算法的解决方案或函数也称为假设( hypothesis)

 

监督学习算法的工作方式

可以看到训练集里有房屋价格,把它喂给学习算法,学习算法的工作后,然后输出一个函数,通常表示为小写 ℎ表示, ℎ 代表 hypothesis(假设)函数,输入是房屋尺寸大小, ℎ 根据输入的 푥值来得出 푦 值, 푦 值对应房子的价格 ,因此, ℎ 是一个从푥到 푦 的函数映射

 

我们可以选择最初的使用规则ℎ代表 hypothesis,来解决房价预测问题,我们实际上是将训练集“喂”给我们的学习算法, 进而学习得到一个假设ℎ,然后将我们要预测的房屋的尺寸作为输入变量输入给ℎ,预测出该房屋的交易价格作为输出变量输出为结果

 

但是,对于的房价预测问题,我们该如何表达 ℎ?

一种可能的表达方式为: ℎ휃(푥) = 휃0 + 휃1푥,因为只含有一个特征/输入变量,因此这样的问题叫作单变量线性回归问题

二、代价函数

 

代价函数(cost function)有助于我们弄清楚如何用一条更好的直线将我们的训练集中的数据进行拟合

 

假设在线性回归中我们有一个训练集, 假设函数也就是用来进行预测的函数形式: ℎ휃(푥) = 휃0 + 휃1푥

 

给定数据集与假设函数,如何为模型选择合适的参数( parameters) 휃0 和 휃1,在房价问题中就是是直线的斜率和在푦 轴上的截距,我们选择的参数决定了我们得到的直线相对于我们的训练集的 准确程度

 

建模误差( modeling error):模型所预测的值与训练集中实际值之间的差距

如图,蓝色的一段距离便是建模误差。

 

我们的目标便是选择出可以使得建模误差的平方和能够最小的模型参数。

即使得代价函数最小。

 

绘制一个等高线图,三个坐标分别为휃0和휃1 和퐽(휃0, 휃1),则可以看出在三维空间中存在一个使得퐽(휃0, 휃1)最小的点

代价函数被称作平方误差函数,也被称为平方误差代价函数。之所以要求出误差的平方和,是因为误差平方代价函数,对于大多数问题,特别是回归问题,是一个合理的选择。可能还有其他的代价函数也能很好地发挥作用,但是平方误差代价函数可能是解决回归问题最常用的手段了

 

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注