在分析客户流失过程中,采用峰峦图对各种客户状态(活跃、不活跃、濒临流失、流失)进行特征分析,输出结果如下图所示。
橘红色是客户常去加油站的所占的比率,从图上可以看出流失客户去的加油站比较散,比例趋近零的比较多,而活跃用户较稳定去某加油站。
蓝灰色系列图表示客户余额均值,流失客户的余额均值在0处有些分布,而活跃用户则多在1000元左右(为了集中一张图显示,且比例均衡,则对余额取log10等计算,详见代码)。
如何实现实现?本案例采用Python上,基于matplotlib的Joyplots工具。
Joyplots
是图的堆叠,部分重叠的密度图,就这幺简单。它们是一种很好的方法来绘制数据,以直观地比较分布,特别是那些在一个维度上变化的分布(例如,随时间变化)。
Python 3.5+
numpy
scipy >= 0.11
matplotlib
pandas >= 0.20 Warning: compatibility with pandas >= 0.25 requires joypy >= 0.2.1
pip install joypy Successfully installed joypy-0.2.5
多特征按类别显示代码
import pandas as pd import time import matplotlib.pyplot as plt import seaborn as sns from matplotlib import cm import numpy as np import joypy filename = '客户特征分析数据集.csv' df = pd.read_csv(filename) %matplotlib inline plt.rcParams['figure.figsize']= 12,6 feature_name=['pearson','amountmean','maxrecharge','densitymean','balancemean','CountByPrice','org_rate','lateststatus'] amount_df = df[feature_name] amount_df['balancemeanlog'] = np.log10(amount_df['balancemean'].loc[amount_df['balancemean']>0] )/3 amount_df.fillna(0,inplace=True) fig, axes = joypy.joyplot(amount_df,column =[ 'org_rate','balancemeanlog'], by='lateststatus', ylim='own', fill=True, colormap=[cm.autumn,cm.Blues_r]) plt.show()
注:代码joypy.joyplot中,参数分别是:Dataframe数据集、显示数据列名(多个用list表达)、分类标识字段、是否充满y轴。
在上一个图中,一个子图的y扩展比其他子图大得多。由于默认情况下,子地块共享y限制,因此异常值会导致所有其他子地块被压缩。可以通过ylim=’own’改变这种行为,让每个子地块占据整个y空间。
单特征按类别显示代码
%matplotlib inline # 图像嵌入页面 corr_feature = ['densitymean','lateststatus'] corr_df = df[corr_feature] fig, axes = joypy.joyplot(corr_df,column = 'densitymean', by='lateststatus', ylim='own', range_style='own', fill=True, fade=True) plt.show()
图形显示效果如下:
Be First to Comment