Press "Enter" to skip to content

哈工大张伟男:人机对话关键技术及挑战

导读:近年来,人机对话受到了学术界和工业界的广泛重视。在研究上,自然语言理解技术逐渐从序列标注向深度学习的方向发展,对话管理经历了由规则到有指导学习再到强化学习的发展过程,自然语言生成则从模板生成、句子规划,发展到端到端的深度学习模型。在应用上,基于人机对话技术的产品也层出不穷,如苹果公司的 Siri、亚马逊的 Echo 音箱、微软的 Cortana、Facebook M 以及谷歌的 Allo 等。同时,各大企业纷纷研发及收购 AI 平台,如微软研发 Luis.ai,三星、Facebook 和谷歌分别收购了 viv.ai、wit.ai 和 api.ai,百度自主研发了 Duer OS 以及收购 kitt.ai,以上种种迹象表明了各大企业将在今后着力发展人机对话技术。本次报告将针对人机对话中的核心关键技术的发展前沿和研究趋势进行综述,主要包括开放域人机对话和任务型对话的关键技术及挑战。

 

人机对话主要技术方向:

 

 

虽然人机对话主要包括四个功能:聊天、任务型对话、问答以及推荐,但主要集中在开放域聊天和任务型对话两方面。二者在目标、评价、最终目的上有一定区别,典型的应用系统也不大一样。

 

一. 开放域聊天

 

 

开放域聊天的一个基础系统架构如上图所示。

 

1. 前沿研究点:回复质量

 

 

上图总结了17年到19年开放域的一些论文和一些相关的知识点,下面的部分主要关注回复质量。回复的话是通顺、流畅的。回复质量是一个基础,包含很多工作,也面临着多方面的挑战。

 

① 回复质量上存在的挑战

 

 

这里举两个例子,左边是单轮回复的例子,右边是多轮回复的例子。从中可以看出两个问题,第一个问题是在单轮回复中由于统计模型 loss function 的一个限制,通常采用的回复都是统计上占优的高频回复,叫做万能回复。而多轮回复可以看出是一个局部依赖的回复,就相当于它没有学到更高层次的上下文信息。这是一个局部学习,与上下文无关的问题。

 

② 优化初始的解码过程

 

 

我们在单轮回复对话中,积累了一些工作,首先是优化了解码器过程,通过观察真实的数据。如果第一个解码出一个高频词,比如我,你,我们,你们,那幺通常来说回复不会太好,针对这个问题我们做了一个 learning to start for sequence to sequence 的 framework,后面大家可以把 learning to start 这个模块做进一步改进和提升。但目前来说对原有算法效果已经有了一定的效果。

 

③ 更好地利用检索结果提高对话生成质量

 

 

其次,今年发表在 ACL2019 上面的一篇文章,检索式和生成式是互相对抗又互补的结果,检索式结果可以保证相关性、流畅性比较好,但是多样性受限,不论怎样检索都跑不出编辑好的话术。生成式的好处就是机器可以创造,但生成式模型面临着万能回复的问题。利用检索式结果和生成式结果互相增强的方式,提出这样一个模型。

Be First to Comment

发表评论

电子邮件地址不会被公开。 必填项已用*标注