Press "Enter" to skip to content

面向NLP场景应用的智能辅助建模(三)要素树和概念树建模

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

我们以前文介绍的一个场景本体的实例,银行领域客服投诉分析挖掘的场景本体模型,来说明本体树辅助建模。模型包括三部分:本体模型、要素模型、概念模型。本文说明本体树模型的辅助建模。

 

 

要素树辅助建模

 

要素树辅助建模(也称要素发现)实现的功能是,对输入的客服投诉文本数据,利用深度学习等技术,对输入的要素“种子词”,自动发现种子词相关的实体,并对实体按照属性进行聚类,给出多种属性的下级要素,以自动对要素种子词的自动扩展,自动发现其下级要素。

 

 

以种子词“信用卡”为例,辅助建模给出的结果为:(冒号前是信用卡相关的语义聚类维度,冒号后是此维度下的相关实体)。

 

“业务”:“申请、升级、开卡、退款、签约”等

 

“卡种”:“白金卡、金卡、联名卡、招行金葵花卡”等

 

“费据”:“账单、年费”等

 

……

 

要素树辅助建模流程

 

步骤一

 

机器学习自动发现相关实体。利用深度学习算法,从客服投诉文本数据中自动计算出“信用卡”的相关实体和概念,并给出每个实体与种子词“信用卡”的相关度(用距离表示)。机器学习结果见上图。

 

步骤二

 

OEC Tagging语义聚类。利用DINFO-OEC平台提供的常用语义资源,对机器学习发现的实体进行有指导的语义聚类,如这里根据信用卡的业务知识,种子词“信用卡”的语义聚类结果包括“业务”、“卡种”、“费据”、“额度”等,这些结果构成信用卡要素的直接下级要素节点。这里的语义聚类的维度,可以由业务人员来指定,也可以自动聚类来发现。

 

 

步骤三

 

在DINFO-OEC平台中,要素树辅助建模的输出结果,就是要素树的节点,可直接加入到要素树上。在要素模型中可以方便查看。

 

 

概念树资源

 

在DINFO-OEC平台中,分类体系辅助建模的输出结果,就是本体树的节点,在本体模型中可以方便查看。

 

DINFO-OEC平台提供的语义资源包括2大类:

 

1、常用语义资源库,包括8万多常用概念,可以分为“心理概念”、“语言学概念”、“异常类概念”等类别。每类概念按上下位的类进行组织,如“心理概念”,其下级有“评价”、“情感”等,“情感”的下级有“高兴、悲伤”等概念。

 

2、领域资源库,包括60多个领域的3000万个概念,如银行领域、保险领域、快递领域等。

 

平台提供的语义资源,会定期自动更新。有专业的语言资源建设团队负责维护和更新。

 

 

概念树辅助建模

 

在特定的场景应用下,对概念的使用,可能会相当灵活,一个概念的表达不仅可以是一个词语,而且可以是一个短语,或一个子句,如“等了两天了还没送到”(表达“不及时”的概念),甚至可以是一段话。

 

对这种不是词语的概念,一般在平台提供的常用语义资源中不可能完整,而需要利用机器学习算法,从场景应用的数据中自动学习得到。概念树辅助建模,就是帮助自动发现这些复杂概念。

 

概念树辅助建模,输入一个种子词语,或者一个复杂概念的组合,如“态度+好”,建模工具会利用机器学习算法,对语料自动进行概念相似度计算,发现其相关概念。如“态度+好”的相关概念有“温柔、利索、忙前忙后、谦虚、和蔼可亲”等,“态度+不好”的相关概念有“蛮横、傲慢、冷淡、恶劣、冷漠”等。

 

Be First to Comment

发表评论

邮箱地址不会被公开。 必填项已用*标注