Press "Enter" to skip to content

【交易技术前沿】证通云外呼系统智能化实践

本文选自《交易技术前沿》总第四十期文章(2020年9月)

 

王晴 / 证通股份有限公司

 

wangqing@ect888. com

 

何浩 / 上交所技术有限责任公司

 

[email protected]

 

 

本文主要叙述了证通股份基于上交所技术证通云在智能外呼平台建设过程中的探索与实践,具体阐述了外呼系统的整体设计及实现模式,希望对智能客服+专有云建设的“一站式”云SAAS解决方案有较好的借鉴价值。秉承“降低投入成本,提供持续服务”的机构服务理念,深入研究证券行业外呼对话策略设计方案,实现基于文本精准分类的意图识别,语义深度匹配的智能问答,模块关键计算的流程引导等技术能力。核心智能引擎云部署通过云管理平台统一管理,业务流程与关键数据安全隔离,确保业务运营安全合规。

 

一、概述

 

伴随人工智能的不断演进,人机对话技术能力取得了突破性进展,尤其是 “语音识别”、“语音合成”以及“语义理解”上述三个关键任务的执行效果获得了大幅提升,识别能力已接近人类水平,这使得“机器人给人类打电话”的科幻场景走进了我们的生活。通过基于人机对话技术能力打造的智能外呼系统,可大幅降低机构给客户拨打电话的成本,并充分利用机器人的核心计算能力收集客户反馈、通知客户关键事项、挖掘客户行为线索等方式,为机构提供更有效的客户触达手段。目前,智能外呼的应用已受到行业内机构广泛关注。

 

然而在业界逐渐接受智能外呼作为新触达客户的有效手段的同时,笔者也发现了一些机构通过智能外呼服务客户中暴露出的一些问题。首先,智能外呼作为人工智能技术的应用产品,需要机构花费高额成本进行智能语音相关产品采购。其次,人工智能技术的应用依托于人力持续的维护,良好的智能外呼服务效果需要机构组织专职人员持续对话术模型进行调优才能达到,而大部分机构在这方面的人员投入难以保障,从而影响了智能外呼的服务效果。除此之外,由于工信部对外呼电话线路资源的管控,使得诸多机构难以获得足够的外呼线路资源为客户提供服务,导致了机构即使购买了相关服务也难以顺畅开展外呼业务。

 

基于此,上交所技术有限责任公司(以下简称“上交所技术”)联合证通股份有限公司(以下简称“证通股份”)为行业通过提供云模式的智能外呼服务,大幅降低机构投入成本,为机构提供话术模型的持续优化服务,节省了机构的话术模型维护成本。同时,通过与运营商达成合作帮助机构获取外呼线路,解决了大量机构外呼线路资源不足的问题。同时,深入研究证券行业外呼对话策略设计方案,将自然语言理解及深度学习等AI技术嵌入智能外呼系统,实现基于文本精准分类的意图识别,语义深度匹配的智能问答,模块关键计算的流程引导等技术能力,有效提升智能外呼业务的成功率及服务满意度。同时,将核心智能引擎云化部署,业务流程和关键数据安全隔离,在保证业务运营合规安全的基础上,实现智能能力资源充分复用,有效降低机构用户使用成本。本文将基于证通股份与上交所技术联合建设的证通云智能外呼平台,阐述外呼系统的整体设计及实现模式。

 

二、价值

 

证通云智能外呼伴随业务的发展为机构客户带来多重价值。首先,智能外呼技术解决了传统呼叫中心的关键矛盾点“业务发展不断增加的外呼量VS呼叫中心人工坐席不足”,通过智能机器人辅助客服中心有效完成外呼任务。其次,由于智能外呼低成本服务的特性,可满足机构以更低成本为提升客户投资体验进行服务。同时,作为触达客户的有效手段,通过机器人外呼可以通过与客户的交流,挖掘客户的行为背后的意图,并通过人工智能与数据分析对客户行为进行记录并了解其背后的原因,从而更好的帮助机构进行用户运营与数据分析。在带来业务价值的同时,证通云智能外呼通过云模式有效降低了机构采购相关服务的投入成本,并通过证通云的针对话术提供的运营服务降低了机构维护的成本。机构可以通过证通云向运营商申请外呼线路资源,全面降低机构开展智能外呼投入成本。

 

三、技术应用

 

智能外呼在证券与期货机构的合规服务回访、服务通知等领域具有广泛的应用场景,例如:开户断点回访、存量回访、新开户回访、新股中签通知等。

 

 

图3.1. 开户断点漏斗模型

 

(一)业务需求背景

 

针对进入开户流程但没有完成开户的客户,进行机器人电话回访,通过解答客户在开户中遇到的问题,引导客户完成开户流程。

 

(二)机器人外呼模型介绍

 

开户断点场景主要针对开户过程中的5个环节设计外呼流程,通过主动询问客户“是否遇到了什幺问题?”,获取用户开户过程中遇到的难点,并针对不同的客户情况智能化解答。

 

目前,通过话术模型的调优与实际运营,行业经营机构通过开户断点回访可达到16%以上的客户开户召回率,计算公式如下:

 

(呼叫后完成开户的客户量)/ 总外呼客户量 * 100%)。

 

四、建设思路

 

1、整体方案设计

 

证通云智能外呼服务采用IaaS+多租户的设计模式,各租户享有独立的业务运营空间和数据存储空间的同时,充分复用底层硬件资源和核心AI技术,包括:自动语音识别/合成、自然语言理解,以及深度学习网络,以及外呼系统的关键组件IVR、CTI等,其总体的方案架如图4.1所示。

图4.1 证通云智能外呼服务的整体架构图

 

整体设计思路:IaaS的基础资源使用证通云成熟、安全的计算、存储、网络及运营商资源,从而提供高安全等级、高稳定性的资源服务,支持应用层的即取即用、安全稳定、弹性扩展。同时,将核心的智能模块(语音识别/合成、自然语言理解、IVR/CTI等)封装成平台层的公共服务,实现智能服务的按需即取、动态扩展。系统基于平台层的智能服务输出,结合机构用户的应用场景,构造独立的业务运营空间和数据存储空间,保证机构用户可快速借助云外呼机器人,实现独立运营管理本机构的外呼业务和相关业务数据。

 

2、逻辑架构

 

证通云智能外呼服务整体的逻辑架构分为基础资源层、技术层、平台管理层、机构管理层、机构应用层和接入层,如图4.2所示:

 

 

图4.2 证通云智能外呼服务的逻辑架构图

 

上交所技术证通云提供基础资源服务,支撑上层应用的快速构建。证通股份基于自身在软交换、智能语音、自然语言处理等AI技术上的积累构建智能云服务平台,为其上层业务系统输出核心AI能力,实现不同场景下的智能化服务应用。平台管理层围绕业务的核心功能,提供辅助性的公共服务,如机构管理、权限管理、应用配置和平台监控等,并围绕话术模型的创建、训练、分配等管理功能,设计数据标注、训练和管理的闭环解决方案。独立于公共的平台管理之上,每个机构形成各自独立运营管理空间,保证功能应用和数据存储的有效隔离。机构应用层则根据具体的业务场景来设计,实现相应的业务流程和业务功能,为机构提供如智能外呼、人工坐席、智能培训、智能质检等智能服务。目前机构仅需与云平台完成系统和线路对接、将业务场景话术提供至证通股份进行模型配置,即可通过上传外呼名单创建任务,实现智能自动化的外呼服务。

 

3、整体流程设计

 

证通云智能外呼服务通过使用智能机器人与终端客户进行对话沟通,辅助证券基金经营机构开展外呼业务,其主要流程围绕智能机器人与客户的语音交互进行,通过发起外呼——客户应答——语音路由——语音识别——语义理解——语音合成——响应回复,形成一个完整的语音流转、交互的闭合回路,如图4.3所示。

 

 

图4.3 证通云智能外呼服务的交互流程图

 

业务流程简单归述如下:①预测外呼系统发起预测式外呼;② PBX接收外呼指令后拨打客户电话;③客户接听后,PBX将线路转到IVR;④如果首次接通,则向MRCP适配器发送首次接通指令;⑤ MRCP适配器发指令给智能外呼管理系统;⑥智能外呼管理系统从NLU(语义理解)中获取接听后首次需要播报的文本(外呼流程已预先配置好);⑦ MRCP将第6步获取的文本发送至TTS获取语音播报内容,通过IVR播报给客户;⑧客户根据TTS播报内容进行回答,MRCP从IVR获取语音流发送给ASR进行识别,并获取识别结果;⑨重复第⑤、⑥步骤,直至预先设置流程的挂机指令。

 

五、关键技术

 

证通云智能外呼系统使用多租户技术实现多机构单环境下共用系统组件,并且确保各租户数据的有效隔离。同时作为任务型对话管理系统,智能外呼旨在完成机构的特定任务需求,通常需经过多轮交互为用户提供服务,为此,对话模块整体架构的设计参考了Steve Young提出的POMDP框架。

 

1、 多租户技术

 

多租户技术(Multi-Tenancy Technology)是一种软件架构技术,保证租户内独立的业务运营空间和数据存储空间的同时,充分复用底层硬件资源和核心AI技术。

 

♦ 数据隔离方面

 

证通云智能外呼使用独立数据库的方式实现机构数据存储空间的隔离,相比于共享数据库的数据隔离方案,证通云智能外呼使用的数据隔离方案具有数据隔离级别最高,安全性佳等优点,相反带来的缺点是部署成本较高。

 

♦ 应用程序方面

 

针对核心模块对话模型,系统使用多进程的方式进行隔离,各进程之间互相独立,互不影响,可充分保障外呼过程中的通话效果。

 

同时系统使用微服务架构来保障系统的高可用性和可扩展性。系统按照功能分为统一运营平台、外呼管理平台、人工坐席系统、对话引擎等4大模块。每个模块都由若干微服务组成。根据业务运行情况,系统可便捷扩充相关模块的性能指标,满足支持证券行业上百家机构的外呼的需求。同时,任何微服务都采用双活方式部署,可保障在单点服务出现问题时,系统继续保持可用。

 

2、对话引擎

 

证通云智能外呼对话引擎综合利用智能语音交互技术(包括语音识别(ASR)、语音合成(TTS))、自然语言处理技术(包括自然语言理解(NLU)、对话状态跟踪(DST)、回复决策(DPL)及语言生成(NLG)),实现基于电话线路的人机对话。系统可在会话过程中的数据实时识别获取,客户意图解析,需求追踪并判断当前对话状态的功能,并基于用户意图识别及回复策略生成系统对话语句,通过语音合成技术返回给客户,从而实现“一问一答”的多轮人机对话交互。整体实现如下图所示:

图5.1

 

♦ 智能语音交互

 

语音识别(ASR):提供将录音文件或者实时音频流转成文字的服务,能够支持中文、英文、方言普通话等多个语种,支持噪音环境下和带背景音的语音识别,支持机器自动分离不同人声,支持快速定制识别中的热词以提升准确度。

 

在智能外呼场景中,语音识别的准确率和响应时间是核心指标,目前证通云智能外呼对语音识别引擎进行了深度定制,已经形成证券行业语言学模型和证券行业声学模型,确保在人机对话过程中,语音识别准确率可达到一个很好的效果。

 

语音合成(TTS):通过先进的深度学习技术,将文本转换成自然流畅的语音。使用海量的音频数据训练合成数据,合成音真实饱满、抑扬顿挫、富有表现力,MOS评分达到业内顶级水准。目前有多种音色可供选择,并可以调节语速、语调、音量、停顿等多项指标。

 

♦ NLU 自然语言理解

 

在面向任务的对话系统中,基于NLU技术将识别出来的文本信息转换为机器可以理解的表达方式,包括句子检测,分词,词性标注,句法分析等。自然语言理解参考了框架语义分析的解析模式,针对会话中的语法、语义进行分析,将用户输入的内容包括用户表述及语境映射为用户的意图和相应的槽位值,并采用计算机可读的结构化形式,结合上下文语境完成槽位填充(slot-value)及意图排序,最终输出用户意图(user intention)。即通过语义分析输出所谓的用户需求,为对话系统提供任务执行方向及执行该任务时输出的参数值。

 

意图识别流程如图5.2。

图5.2

 

针对外呼任务执行时用户输入的内容,基于NLP处理实现用户意图的识别功能。首先,系统对输入词法进行基础的分析,包括中文分词及词性标注两部分,即将一句话的每个词标注为名词、动词、形容词等等。词性标注完成后,对句子中的实体进行命名实体识别,此处采用 CRF条件随机场算法进行提取操作,并根据正则算法判断是否为规则配置的实体,有效得将命名实体及正则从输入内容中抽取出来,为后期意图的精准分类奠定基础。其中,系统将正则实体根据配置好的正则意图分类规则进行匹配,如若匹配成功则完成 NLP 处理操作,并将结果返回;如若尚未匹配成功,系统则进入词向量阶段,将文本编码为一个向量,生成意图分类的输入内容,基于模型的深度学习神经网络来预测文本的意图,最终实现将预测结果返回的功能。

 

♦ DST 对话状态追踪

 

DST(Dialogue State Tracking)对话状态追踪模块是在某一时刻结合当前用户的输入及历史对话状态及相应信息追踪用户需求并推断对话状态和目标用户。该模块针对每一轮次对用户的目标进行预估,以多轮对话历史、当前的用户输入作为数据依据,结合上下文总结、推理和理解,管理每轮会话的输入和历史,输出用户含义。此模块采用上下文替换和主体补全技术,综合考虑用户的多轮动作辅助对话系统精准识别用户的真正需求。目前对话状态表示主要包括三个部分:目前槽位填充情况、本轮对话过程中的用户输入、对话历史。其中槽位填充情况是对话状态追踪的核心指标。

 

然而,由于在ASR和NLU这两个环节会存在误差,因此语音识别和语义理解输出的每个句子或者每个意图结果都带有一个相应的置信度值,DST往往也是输出各个状态的概率分布。为提升追踪精准度,DST 在判断当前的对话状态采用两种不同的规则方式:1-Best 方式和 N-Best 方式。

 

(1)1-Best方式

 

1-Best 方式是指 DST 判断当前对话状态时只考虑置信度值最高的情况,输出的状态也是确定型,因此维护对话状态的表示时,只需要等同于槽位数量的空间,在较为复杂的场景下适用性不强。

 

(2)N-Best方式

 

证通云智能外呼使用此方式。N-Best方式是指 DST 判断当前对话状态时给出多个置信度值,综合考虑所有槽位,以更好的保证结果。因此,DST模块在上述多个置信度值的基础上,不仅要维护一个对话状态,而是要考虑每个槽位的结果,输出组合后用户意图的整体概率分布。最终,通过整体置信度值判断当前对话状态。

 

♦DPL 对话策略学习

 

DPL(Dialogue Policy Learning)即为对话策略,又被称作对话策略优化(Optimization),是系统根据对话状态追踪DST输出的对话置信状态,设计对话策略决定下一步执行系统动作的过程。比如根据 DST 知道有哪些槽位未填充,用规则的方法选取一个优先级最高的槽位进行提问,DPL 即为一个序列的决策过程,因此常用的方法有规则方法、CRF 方法和强化学习等。

 

目前证通云智能外呼系统是基于神经网络及框架管理的方式,预先搭建真实业务场景模型,供机器离线学习对话策略,并通过规则对用户输入的槽位填充情况进行管理,实现对话过程中直接应用学习结果、明确槽位相应执行动作,从而生成当前对话的回复策略。

 

♦NLG 自然语言生成

 

NLG(Natural Language Generation)自然语言生成的任务是将对话策略DPL 模块输出的语义内容表示转化成自然语言,最终反馈给用户。NLG 模块主要基于规则,将各个系统动作映射生成自然语言表达,此过程的每个动作都配有相应的回复话术作为生成文本,包括固定文本和通过函数及API调用返回动态结果两种。目前,为了实现机器回复的多样性,团队正在积极尝试使用基于深度学习的神经网络模型技术来生成回复话术,以提升交互友好度。

 

六、 难点与挑

 

(一)难点:

 

1、创新性

 

自然语言需要具有强大的创新活力,需实时引入对最新概念、表述和意义的表达能力,常见于新词以及旧词新意的出现。比如:科创板。

 

2、递归性

 

递归性(Recursion)是人类语言的最重要的特性。比如:政府部门层层转发通知导致的“转发《上海市教育厅关于<教育部关于做好放假安全工作的紧急通知>的通知》的通知”的标题,两个通知,读起来就非常费力。

 

3、多义性

 

语言中本身存在不确定性,同一句话存在大量同音字和一词多义的现象,即一个字或词往往兼顾多个词义。同样的意思可以使用多种句式表达,且同一句话在不同的上下文语句中,表达的意思不同。一句话,调整一个词或者调整顺序及语调,也可能表达意思相差甚远。比如:单身狗单身的原因有两个:(1)(单身狗)谁都看不上;(2)谁都看不上(单身狗)。

 

4、主观性

 

不同的个人经历和认知水平带来强烈的主观性,且往往出现不流畅、错误、重复等情况,而对于机器人来说,这句话都是一个意思。例如:A说你这是什幺意思?B回答没什幺意思,意思意思。

 

5、社会性

 

不同社会地位的人在相互交流时,地位低的人会从语言风格上适应地位高的人,而地位高的人则不会主动调整自己的语言风格适应别人。

 

(二)挑战:

 

1、结构语义表示空间构建

 

现在的语义表示方案中,符号表示过于粗略,无法考虑语言符号背后反映的丰富语义信息;而分布式表示虽然具有更强大的表示能力和自由度,但目前只能通过特定任务下的数据学习,建立满足特定需求的语义表示,缺少可解释性,鲁棒性差,通用性和迁移性不足;同时,这些与人类丰富的语义表示能力相比,仍差之千里,未来需要探索更强大的结构化语义表示空间。

 

2、多模态复杂语境理解

 

人类并非孤立地使用语言,通常会夹杂着复杂的语境。在多义的语言单元情况下,往往需要其外部的复杂语境信息进行消歧:例如字的多义性利用所组成的词来消歧;词的歧义性需要所在的句子来消歧;句子的意思时常要放在语篇或对话语境中,甚至需要复杂的知识来辅助理解。

 

然而,语境是开放的,也是多模态的,如上下文句子的文本信号、对话者的语气等语音信号、所处环境的视觉信号等往往会存在差异。因此,理解多模态复杂语境是目前技术难以突破的难点问题。

 

七、 总结及展望

 

证通云智能外呼系统的应用,将自然语言理解和深度学习能力与现有规则判断相融合,致力于为行业机构提供精准文本解析的用户意图识别,深度语义理解的智能化问答。与此同时,力争实现在及时响应用户需求的基础上,根据流程模型策略,智能化引导用户完成任务,提升成功率,从而实现低成本高效率的一站式外呼服务管理体系。而针对目前遇到的技术实现难点和挑战,将作为云外呼系统的建设目标,深入探究技术方案,优化对话系统策略及技能,助力企业实现高效、精准的云智能外呼服务,最大程度降低企业运营成本。

 

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注