Press "Enter" to skip to content

100种分析思维模型(011号)

你好,我是林骥。

 

上次介绍的 线性回归模型 ,与下面将要介绍的模型有很大的关系,但是侧重点有所不同。

 

线性回归模型中的两个变量,分别称为自变量和应变量,它们之间有逻辑上的主次之分,侧重于分析自变量给应变量带来的影响。

 

比如说,广告费是自变量,商品销量是应变量,我们重点分析的是广告费能给商品销售带来多少增量,而不是反过来。

 

今天介绍的第 011 号分析思维模型: 相关分析模型 ,是寻找变量之间的「相互」关系,并没有主次之分,侧重于解释变量之间的关联。

 

1. 模型介绍

 

相关分析,其实就是寻找变量之间相互关联的程度。

 

如果一个变量改变的时候,另一个变量也朝着相同的方向发生变化,那幺我们就说这两个变量之间存在正相关性。

 

反之,我们就说这两个变量之间存在负相关性。

 

如果一个变量无论怎幺改变,另一个变量都不会跟着变,那幺我们就说这两个变量之间没有相关性。

 

比如说,个子高的人,通常体重会重一些,个子矮的人,通常体重也会轻一些,所以说身高和体重存在正相关性。

 

当然,也会有例外的情况,因为有些人是又高又廋,但总体而言,大多数人是符合相关规律的。

 

相关分析通常包括以下几个步骤:

 

第一步,收集相关数据。

 

首先,收集相关数据,一般是成对出现的数据,从而为后面的相关分析做好准备。

 

第二步,绘制散点图形。

 

把一个变量作为横轴,另一个变量作为纵轴,画出散点图形,观察数据的分布,大致判断相关性。

一般情况下,我们所说的相关,都是指线性相关。

 

第三步,计算相关系数。

 

相关系数有两大特点:

 

(1)是介于 -1 到 1 之间的常数

 

相关系数等于 -1 表示完全负相关,等于 0 表示完全不相关,等于 1 表示完全正相关。

 

在实际应用中,我们通常把相关系数的取值,分成几个不同的区间,来表示不同的相关程度:

 

0.0 ≤ |相关系数| < 0.3,表示不相关

 

0.3 ≤ |相关系数| < 0.5,表示弱相关

 

0.5 ≤ |相关系数| < 0.8,表示中度相关

 

0.8 ≤ |相关系数| < 1.0,表示强相关

 

(2)它不受变量单位的限制

 

相关系数可以将单位不统一的数据,加工成一个简洁的描述性数据。

 

比如说,身高的单位是厘米,体重的单位是千克,我们也能计算出它们的相关系数。

 

需要注意的是,相关系数与显着性检验的 p 值不同,相关系数用来反映相关性的强弱,而 p 值用来检验是否存在相关关系,一般情况下,当 p 值小于 0.05 时,才可以判断存在相关关系。

 

2. 应用举例

 

以 Tableau 自带的超市数据为例,我们应用相关分析模型,分析技术类产品的子类别之间是否有相关关系。

 

第一步,收集相关数据。

 

(1)打开 Tableau Desktop 2021.1 版本,在已保存的数据源中,点击【示例 – 超市】。

 

(2)导航到【数据源】选项卡,把左边的【订单】表,拖动到右边的画布区域。

 

(3)编辑关系选择【订单 Id = 订单 Id(订单1)】,如下图所示:

第二步,绘制散点图形。

 

(1)双击【工作表 1】,重命名为【散点图】。

 

(2)把【子类别】和【销售额】拖到【列】功能区。

 

(3)把【子类别(订单1)】和【销售额(订单1)】拖到【行】功能区。

 

(4)把【订单 Id】拖到【标记】卡的【详细信息】。

 

(5)把【类别】拖到【筛选器】功能区,选中【技术】后,点击【确定】。

 

(6)把【类别(订单1)】拖到【筛选器】功能区,选中【技术】后,点击【确定】。

 

(7)依次点击菜单:【分析(A)】→【趋势线(T)】→【显示趋势线(T)】。

把鼠标放在趋势线的上方,可以看到其中的 p 值都大于 0.05,基本可以判断不存在相关关系。

 

从散点图的分布中也可以看出,产品的子类别之间基本都没有相关性。

 

第三步,计算相关系数。

 

(1)复制【散点图】工作表,并重命名为【相关系数】。

 

(2)依次点击菜单:【分析(A)】→【创建计算字段(C)…】。

 

(3)将字段命名为【相关系数】,输入以下公式并点击【确定】:

 

CORR( { INCLUDE [订单 Id] : SUM([销售额 (订单1)])},             { INCLUDE [订单 Id] : SUM([销售额])})

 

(4)分别将【相关系数】拖到【标记】卡的【颜色】和【标签】。

 

(5)移除【列】中的【销售额】和【行】中的【销售额 (订单1)】。

 

(6)将【标记类型】改为【方形】,移除【标记】卡的【订单 Id】。

 

(7)编辑颜色,选择【绿色-蓝色-白色发散】,点击【确定】,调整字体大小之后,如下图所示:

从上面的相关系数矩阵中,可以看出,除了对角线相同子类别的相关系数为 1 以外,其他相关系数的绝对值都小于 0.3,事实上,其中相关系数的平方,就等于散点图趋势线中的 R 平方值。

 

综上进行业务判断,我们可以得出相关分析的结论:从订单层面的销售额指标来看,技术类产品的子类别之间没有相关性。

 

最后的话

 

即使两个变量之间有相关关系,也不代表其中一个变量的改变,是由另一个变量的变化引起的。

 

比如说,国家的诺贝尔奖数量,与巧克力消费量之间呈现正相关关系,但这并不是说,多吃巧克力有助于获得更多的诺贝尔奖。

一种合理的解释是,诺贝尔奖的数量与巧克力的消费量,很可能都是由其他变量导致的,例如国民的受教育程度和富裕程度。

 

最后,请一定要牢牢记住, 相关关系不等于因果关系 。

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注