Press "Enter" to skip to content

王茂霖:数据挖掘提分三板斧!

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

作者:王茂霖,华中科技大学,Datawhale成员

 

内容概括

 

数据挖掘提分三板斧:

 

1.金斧-数据清洗和特征工程

 

2.银斧-模型参数调节

 

3.铜斧-模型集成

 

PPT下载: 后台回复“ 210406 ”可获取

 

视频地址:https://www.bilibili.com/video/BV1MU4y1h75G

 

数据清洗和特征工程

 

 

一、关于数据清洗

 

 

1.缺失值处理:

 

 

2.异常值处理:

 

 

数据清洗 – 数据分桶

 

3.数据分桶:

 

 

4.数据标准化: 在不同的问题中,标准化的意义不同

 

(1)在回归预测中,标准化是为了让特征值有均等的权重;

 

(2)在训练神经网络的过程中,通过将数据标准化,能够加速权重参数的收敛;

 

(3)主成分分析中,需要对数据进行标准化处理;默认指标间权重相等,不考虑指标间差异和相互影响。

 

 

数据清洗的示例:

 

 

二、关于特征工程

 

 

1.特征构造:

 

 

 

2.

 

 

特征工程的示例:

 

 

模型参数调节

 

 

一、关于建模调参

 

 

1.理解模型

 

 

2.性能验证

 

 

3.模型调参

 

 

模型集成

 

 

一、关于模型集成

 

 

1.加权融合

 

 

2.Boosting/Bagging

 

 

3./Blending

 

 

模型集成示例:

 

 

本文作者

 

王茂霖,Datawhale重要贡献成员 ,Datawhale&天池数据挖掘学习赛开源内容发起人,全网阅读超10w。

 

参赛30余次,获得BCIC-数字中国创新创业大赛亚军,全球城市计算AI挑战赛,Alibaba Cloud German AI Challenge等多项Top10。

 

分享地址

 

复制链接打开(或阅读原文)

 

https://www.bilibili.com/video/BV1MU4y1h75G

 

Be First to Comment

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注