Press "Enter" to skip to content

数据分析:线性回归

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

回归分析的英文是regression analysis,它是现在数据分析里面用的最多的方法之一吧,也可以说是非常重要的一种统计思想,大学学习的第一个模型就是回归模型,回归分析是一门特别重要的专业课,所以足见这个方法的重要性。

 

首先回归分析能解决什幺问题。

 

在做实际数据分析的时候我们经常会遇到这样的问题,比如说产品的价格是不是会显着的影响它的销量,比如说不同性别的人在某一个领域,他的收入是不是有显着的差异。这些问题呢,都可以用回归分析的方法来回答,所以可见回归在解决实际问题的时候确实是非常的实用的。

 

回归需要了解几个要素。

 

第一个要素呢,叫做因变量,我用大写的Y来记。因变量,英文又叫做response,它顾名思义就是因为别人的改变而变化的量,这个量很重要,它是我们的研究目标,或者在企业里边可能是我们关心的一个核心的业务问题,所以在做数据分析的时候呢,我们往往要先确定因变量,就是明确我们研究的目标和我们核心关心什幺问题。

 

根据因变量的数据类型,可分为不同的回归模型的类型,所以对于因变量的数据类型的把握,实际上是非常重要的。

 

比较常见的有这幺几种:连续型、0-1型、计数型、定序型、生存数据。

 

连续型比如个人消费金额,

 

0-1型:比如借款人贷款后会不会还款,

 

计数型:比如一天内致电客服的人数,

 

定序型:比如问卷调查里面的满意、一般、不满意,

 

生存数据:比如半年内客户是否欠款。

 

确定了研究问题之后就确定了这个因变量,搞清楚它的类型,选对回归模型的形式。

 

回归分析干的事情就是首先明确这个因变量Y,因变量是因为其他的量的改变而变化的量,

 

那其他变量是谁?这些就是自变量,我们通常用X来记。
自变量是指会去影响到因变量的可能的因素,

 

比如说我们的因变量是收入,我特别关心收入哪些因素会影响到它,那这里边可能有学历,有职业,有年龄等等,你可以头脑风暴一大堆。

 

自变量的类型不决定回归模型的类型,自变量不管是定性的还是定量的,它不决定回归模型的基本形式,所以这一点要牢记。

 

回归模型的基本形式由因变量所决定,那再去确定自变量的时候呢,有一些办法,比如头脑风暴。

 

头脑风暴是一方面,

 

另一方面也要看这个数据能不能获取到,有的时候可能头脑风暴想的很好,以及这个指标特别的关键,但没法获取这部分数据,那也是肯定不行的,所以自变量的选择往往就是看数据的一个可获取性,这是因变量和自变量。

 

那自变量到底是怎幺去影响因变量的呢,这个就是我们回归模型的基本的形式了。

 

自变量呢,通过一个函数去影响因变量,函数的形式可以多种多样,

 

可以是线性或非线性,

 

我们看到还有一个很特殊的变量ε,

 

如果没有这个量就变成了Y=F(X),这是一个数学函数,比如说Y=a+bX,那他就是一个直线的方程,比如说Y=aX**2+bX+c,那他就是一个抛物线的方程。

 

在回归模型里边最特殊和最重要的,实际上就是这个ε,它的读法是Epsilon,就是经常拿这个符号来记,

 

ε这一项,叫做随机误差,它英文叫做random Error,Random error是说除了自变量之外,肯定还有观察不到的因素,

 

对于Y有影响,但是一方面可能是由数据可获取性的原因,实在是拿不到它,

 

另一方面有可能认识不充分,还没有考虑周全,有一些因素没有被纳入模型里边,

 

所以呢,把这些通通的合起来放到这个随机误差里边,管它叫做一个这个除了X之外对Y有影响的因素的这幺一个集合。

 

注意他可是观察不到的观测不到的,unobserver的,所以这就是一个回归模型或者一个统计模型最基本的形式了,

 

我们也管这个F(x)叫做一个确定性或者系统性的一个因素。

 

随机的误差,看不到的一个因素,Y是由这两部分共同决定的,那统计模型的特殊性就在你不能忽略随机误差,就是它是一定要在的,它也是特色所在,如果没有它的话,就一切都是确定的形式,那就变成了一个数学,而不是统计了。

 

所以希望大家通过随机误差来理解好到底什幺叫做一个统计模型。

 

那我们举一个具体的例子,比如说我有两个自变量,Y是我的收入,然后我的X1呢,比如说是我的年龄,X2呢,可能是性别。我的Y呢,就等于α0+β1×1+β2×2+ε。这就是特别简单的一个线性回归模型的基本形式,这个模型里边我们注意到啊,实际上F(x)=α0+β1×1+β2×2,你说你怎幺知道F(x)这个形式。

 

实际上F是什幺形式,也没人知道,就是不知道这个数据产生的机制是什幺样子的,我们就都会有各种假定,各种尝试,那往往都从最简单的开始学习和研究对吧,

 

线性模型是最简单的一个形式了,所以我们就先会学习线性回归模型,研究它的各种性质哦,那这里边真实情况是怎幺样不知道,而且大概率真实情况也不会是一个线性的,但不妨碍我们就是去学习回归或者统计模型,这种思想作为一个起点来理解它。

 

所以这个线性回归模型虽然简单,但也是最常用的,往往越简单越朴素的越好用,就是效果越好,然后咱们再一起来看一下呗。α0、β1和β2是未知的,他们叫做一个回归系数,我们的核心任务是要去把他估计出来啊,估计出来,比如说β1他就代表了年龄对收入的一种影响,比如说估计出来它是正的,那也就是年龄越大,收入就平均水平就会越高哦,就可以做这种类似的解读,

 

所以呢,我们的核心任务是把它去估计出来,估计它呢,需要利用到样本数据,我们能获得的样本数据实际上就是X和Y,那是我们能获得的,比如说第一个人,X11她的年龄30岁,X2性别女性,然后收入是多少等等,我们能拿到,就是样本量,N组观测就是我们的样本数据,我们会去估计它,这个是我们的核心的任务,估计完了它之后呢,就把β0、β1和β2算出来了,把她它带进去,这个函数表示这是根据样本数据预测出来的,这就是我的预测的方程,

 

回归模型的第二个任务就是要做一下整体的一个评价,就是我去用这样一个线性的方程到底整个的效果是怎幺样的啊。那把这个评价好了之后,觉得它可用可行,就要去做一个很重要的任务,叫做预测,

 

比如说一个人,他过来来贷款了对吧,我有一个已有的模型,那我是已知他的X,他填了他的性别,他的收入,我想要去预测它是不是会还不了款。

 

这时候就要利用已有的模型去预测未知的一个Y,所以从这几个核心的步骤也能看出来,我们建立回归模型就是要完成了两个非常重要的任务,

 

第一个就是解读。解读,也就是去看这个未知的回归系数啊,比如说估计出来β1=3,它代表着X1对Y的一种影响。这种解读呢,挺重要的,在业务上我可以获得各个因素对我核心的业务指标的一种影响,我可以基于这样的一种数据分析和解读对我的业务提供各种建议和帮助,

 

第二呢就是预测。预测,就像刚才说的,我来了一个人申请贷款,他只有X,但是我又特别关心他的Y,我就特别想知道他会不会欠款,这对于我来说很重要啊,由已知的X预测未知的Y,是这个回归的另外一个非常重要的任务,

 

所以总结了两点回归模型能做什幺,把他估计出来之后呢,一方面去做解读,另一方面去做预测。

Be First to Comment

发表评论

您的电子邮箱地址不会被公开。