Press "Enter" to skip to content

训练数据有缺陷?TrustAI来帮你!

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

 

2022年5月,百度正式发布了首个集可信分析和增强于一体的可信AI工具集-TrustAI。近日TrustAI迎来重大更新。本次升级针对NLP领域数据标注的常见问题,如『训练数据中存在脏数据阻碍模型效果提升』、『数据标注成本太高但又不清楚该标注什幺数据』、『数据分布有偏导致模型鲁棒性差』等,TrustAI发布了多项功能帮助NLP开发者解决训练数据缺陷问题,用最小的标注成本获得最大幅度的效果提升。

 

TrustAI开源地址如下:

 

https://github.com/PaddlePaddle/TrustAI

 

下面将介绍TrustAI如何解决3类数据缺陷问题:

 

一、解决训练数据存在脏数据的问题:自动识别脏数据,降低人力检查成本

 

训练数据标注质量对模型效果有较大影响,往往会成为模型效果提升的瓶颈。但当标注数据规模较大时,数据检查就成为一个难题。

 

TrustAI提供了脏数据(即标注质量差的数据)自动识别功能,帮助降低人工检查数据的成本。如图一所示,在两个公开数据集上,TrustAI自动识别的脏数据比例远高于随机选择策略。

 

 

图一 不同策略识别出的脏数据比例

 

进一步通过对10%的脏数据进行人工修正后,在相似度计算任务的原始测试数据和鲁棒性测试数据上,模型效果可以分别提高2.13%和4.01%,如表一所示。

 

表一 修正脏数据后的实验结果

 

 

二、解决训练数据覆盖不足的问题:标注尽量少的数据,提升模型效果

 

训练数据覆盖不足会导致模型在对应的测试数据上表现不好。数据扩充是提升模型效果直接的方法,然而数据标注是一个费时费力的工作,如何标注更少的数据带来更大的效果提升是大多数NLP开发者面临的难题。

 

TrustAI可识别因训练数据覆盖不足而导致的预测效果差的测试样本(这些样本构成的集合称为目标集),并能帮助开发者从未标注数据中选择有效数据进行标注,提高训练数据对目标集的覆盖度,进而提升模型效果。如表二所示,当增加20%的训练数据时,TrustAI选择的数据可显着提升模型效果,在目标集上效果提升了14.41%,而随机选择的数据仅能带来0.01%的提升。

 

表二 有效增强训练数据的实验结果

 

 

三、解决训练数据分布偏置的问题:缓解数据偏置对模型训练的影响,提升模型鲁棒性

 

研究表明,神经网络模型会利用数据集中的偏置作为预测的捷径,如在情感分析任务中,遇到否定词模型会倾向预测为“负向”情感。这种偏置会导致模型没有真正理解语言,导致模型的鲁棒性降低。

 

TrustAI提供了数据权重修正和数据分布修正两种优化策略,在不需要人工介入的条件下,缓解训练数据偏置对模型训练的影响,提升模型的语义理解能力,进而提升模型的鲁棒性。如表三所示,在相似度计算任务的鲁棒性测试集上,数据权重修正策略可带来准确率0.94%的提升。在表四中,数据分布修正策略在情感分析任务的鲁棒性数据集上,可使模型准确率提升1.41%。

 

表三 数据权重修正的实验结果

 

 

表四 数据分布修正的实验结果

 

 

以上是本次TrustAI开源的功能介绍,欢迎大家前往TrustAI主页进行体验和使用。

 

TrustAI支持pip一键安装,欢迎大家了解更多技术详情和使用方法,并贡献你的 Star 和 Fork !!!

 

TrustAI项目地址: (点击 阅读原文 即可直达)

 

https://github.com/PaddlePaddle/TrustAI

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。