Press "Enter" to skip to content

如何用决策树找到你的细分目标用户

在近期的项目中,业务方提到了一个问题:因为内容的曝光量少,没有很好的基础数据作为推荐算法输入,希望通过调研指导内容投放的冷启动,知道要给哪些特征的用 户投放哪些内容。

 

针对这个问题如果只是单单分析一个特征的结果,可能会把一些重要的属性组合淹没在了特定人群中 。 比如举一个不真实的例子,如果对用户购买美妆产品行为进行分析,只看男女数据分析,我们会发现相比于女性,男性几乎是不购买美妆产品的。但是如果针对性别进一步拆分年龄,我们会发现95后的男性也有较高的美妆购买行为,如果只看性别分析这个对美妆有高需求的特殊男性人群就会被忽视。

 

 

但是可以分析的用户属性很多,如果手动组合分析就非常的不方便。这个时候就可以用决策树分析来解决这个问题。

 

什幺是决策树?

 

决策树是一种细分用户的方式。不同于聚类细分用户,决策树细分用户中有一个目标变量的概念。决策树的细分目的就是通过逐层划分不同解释变量值获得多属性组合细分人群,使得细分人群在目标变量上表现区隔度尽可能的大。

 

解释变量就是用户特征,比如人口学、消费特征、用户行为数据等。

 

目标变量则是我们调研中关心的核心指标。它有两种类型,分别服务于两种不同目的。

 

1) 描述目的:在市场调研中目标变量一般是二分变量。比如在上述问题需求中,就是用户对某个内容是否偏好,通过决策树我们可以知道有哪些特征组合的用户群体对产品偏好度高,哪些更低。

 

2) 预测目的:这种情况下目标变量是类别变量。比如目标变量有四个值,分别代表A\B\C\D四个品牌,通过决策树可以知道哪些特征组合的人群更偏好哪个品牌,可以输出判别的规则作为预测模型。

 

决策树的原理是什幺?

 

决策树算法中CHAID和exhaustive CHAID在结果的简洁度和区隔度上表现都更好是最常用的算法。而exhaustive CHAID与CHAID区别在于计算了更多的组合情况,可能获得更好的分割,但本质上两者计算方式是统一的。因此本次就以CHAID为例进行具体介绍。

 

CHAID算法又称卡方自动交互检测法。顾名思义,CHAID就是自动对解释变量和目标变量进行交叉分析并进行卡方检验,通过比较卡方检验显着性程度来寻找最佳细分维度。然后在此基础上继续细分直到卡方不再显着或达到数生成的条件限制。最终输出的树如下图1。

 

输出的决策树结果向我们传达了两个重要的信息:

 

1) 树结构与分组情况:从结果图上可以看到某个节点会根据解释变量不同的取值细分为多个节点。该节点叫做父节点,分节点叫做子节点。父节点和子节点构成了决策树的结构。如果不再向下继续划分,则子节点称为最终节点,即最后的分组。最后分组的属性即为到达这个最终节点的所有子节点属性交集

 

2) 目标变量分布:每一个节点都会显示目标变量分布。比如下图中的节点一就表示一线城市的用户中73.5%都对这个权益感兴趣。

 

 

图1 决策树结果示意

 

有的时候决策树会过于庞大复杂,可以通过设置树的层级数、父节点、子节点最小样本数来修剪决策树:如果决策树达到树最大层级限制则不往下细分;如果节点样本达不到父节点数量要求则不往下继续分割;如果节点样本数达不到单个子节点的数量要求即与其它节点合并。

 

但是如果从决策树图中找哪些最终分组是对目标变量更感兴趣的比较费劲。所以决策树除了输出决策树图之外还可以输出目标类别收益表(比如内容偏好中将有偏好设为目标类别,示意见图2),收益表包含4个数:

 

节点:指的是分组在节点中的百分比

 

增益(收益):指的是分组目标类别样本在整体目标类别样本中的占比

 

响应:该节点中回答目标类别的人占该分组的比例

 

指数:增益/节点*100%,如果超过100%说明该分组对目标类别的偏好高于平均

 

 

图 2 收益表示意

 

收益表将对目标类别偏好度从低到高进行排列,所以能很快找到哪些最终节点分组对目标类别偏好度高。比如上图就显示节点5是对目标变量最感兴趣的人群。同时因为收益表还包含了节点百分比,所以可以知道这些分组在整体市场中的大小,用于判断可以将哪些分组包含进来扩大目标人群范围。比如上图中虽然节点5是目标变量最感兴趣的群体,但人数较少,在整体市场中只占到7.1%。所以我们可以将节点5、16、1、12都作为目标群体,将市场覆盖率提高到37%。

 

SPSS中如何操作?

 

1)描述目的下如何操作

 

数据准备:每一行代表一个用户样本,数据包括目标变量和所有的解释变量。

 

选择决策树:spss分析à分类à树

 

输入变量:将目标标量(如用户对内容偏好:偏好-不偏好)输入到因变量中,解释变量(如用户属性)输入到自因变量中。因变量下方还有一个分类对话框,在其中将目标变量的偏好勾选作为目标值,该操作可以用于在后续输出收益分析表。

 

选择建树方式(增长方式):默认选择CHAID

 

条件:可设置树的最大层级、父节点和子节点的最小样本数

 

输出:输出的统计量里面可以选择输出收益表和收益图

 

 

图 3 描述目的决策树面板操作说明

 

2)预测目的下如何操作

 

如果是预测目的,前期计算设定操作与描述目的一致,但是还有模型风险估计和预测。

 

验证:如果是描述目的下,不需要进行这个步骤操作。如果是预测目的下,可选择进行交叉验证。SPSS会将样本分为多个样本组分别进行决策树计算并算出风险均值作为整体风险值。

 

保存:在保存按钮中可以选择输出预测值和预测概率。预测概率会输出每个用户在因变量各个取值上的预测概率,预测值会输出该用户在因变量是预测概率最大的值。

 

 

图 4 预测目的下验证和保存预测变量操作

 

决策树的应用与局限

 

如果分析的目的就是希望能找到在目标指标上尽量差异明显的细分人群,决策树是一种不错的方式。如果是以聚类的方式细分,我们可以将目标指标作为其中一个细分输入变量,但是因为聚类是为了让用户在空间的距离尽可能远,目标指标可能并不是最重要的影响因素,所以最终的结果可能目标指标上用户区分并不明显。而决策树的目的就是尽量在目标变量上拉开差距,所以细分结果上差异会更加明显。所以决策树经常被运用在市场产品、品牌来定位最核心的目标人群特征上。特别适合一开始业务方提出来的业务问题:特定内容应该给哪些用户投放更加合适。

 

但是决策树也有其局限和问题。

 

1) 相比聚类细分,决策树只能设定一个目标指标。如果希望在两个指标上找到差异性较大的用户就需要用聚类分析来实现。

 

2) 无法控制分组数量,非常容易细分出十几组甚至更多的分组。分组数量增加后描述和理解成本都会增加。在市场人群细分和定位问题中我们不关心所有的分组,只关心最重要的那几组,所以分组多不会带来问题。而如果需要对整个目标用户进行细分和理解,聚类能控制分类数量,是更加合适的方法。

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注