Press "Enter" to skip to content

智能模型训练流程

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

1 数据清洗

 

数据清洗是大数据建模过程中需要进行的第一项工作。数据清洗费时费力, 可能建模项目50%以上的时间都要花费在处理 “脏数据” 上。大型互联网金融机构通常会组建一个数仓团队, 通过建设一套完整的大数据平台体系, 将这些ETL工作规范化和自动化, 从而大大缩短建模人员的项目周期。在数据清洗过程中, 我们需要注意5个方面的问题:缺失值、异常值、重复值、 一致性和有效性。

 

1.1 缺失值处理

 

缺失值是数据清洗中经常会遇到的一类问题。如果只是暴力删除缺失率过高的字段,可能会导致错过很多有用的信息。因此对于缺失值,我们要先明确数据缺失的原因,再根据不同的情况采取相应的处理方式。

 

1.2 异常值处理

 

异常值是数据清洗中的另一类常见问题, 数据采集、数据传输、数据加工过程中都有可能产生异常数据, 这些数据如果不处理, 容易造成下游任务的数据倾斜和报错, 影响线上模型的鲁棒性。

 

1.3 重复值处理

 

1.4 一致性检验

 

1.5 有效性检验

 

2 特征工程和特征筛选

 

通常特征筛选可以通过探索性数据分析、 稳定性、重要性、相关性、解释性这几个方面来进行。

 

3 模型训练

 

确定了最终的入模变量,终于进入模型训练的环节了,在这个环节我们需要选定模型结构,调节模型超参数,以及评估模型的效果 。为了得到一个兼具区分 度和稳定性的模型,我们需要将样本集分为三部分:训练集( training set)、 验证集( validation set)和测试集( testing set)。

 

4 模型部署

 

相比于传统评分卡, 机器学习和深度学习模型的部署要复杂得多, 需要专门的工程团队配合模型团队完成。在这个环节, 建模人员通常需要提供两个文件, 即特征工程脚本和训练好的模型。

 

5 监控预警

 

至此整个模型的训练和上线工作都已经完成, 但是这并不代表着建模项目的结束, 因为还有最后一个环节, 那就是对于线上模型的监控预警。

Be First to Comment

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注