Press "Enter" to skip to content

【交易技术前沿】基于NLP的客服交互数据应用研究

本文选自《交易技术前沿》总第四十一期文章(2020年12月)

 

肖钢/中信建投证券股份有限公司[email protected]

 

刘国杨/中信建投证券股份有限公司[email protected]

 

潘建东/中信建投证券股份有限公司[email protected]

 

王赵鹏/中信建投证券股份有限公司[email protected]

 

刘逸雄/中信建投证券股份有限公司[email protected]

 

客服系统作为证券公司连接客户的重要渠道,其内部存储了大量有价值的客服交互数据。对于监督服务质量、挖掘客户需求都有重要的意义。过去由于技术手段的不足,对数据的分析主要依赖于人工,无法满足大规模实际应用的需求。近年来自然语义理解技术不断发展并走向成熟,为我们解决该问题提供了重要的思路。本文将围绕着这个课题展开分析应用研究,希望能够给证券行业、客户服务等领域的同行提供一些参考。

 

一、 概述

 

经过20多年的信息化发展,证券公司已经建立起了较为完善的、覆盖多种渠道的客服信息系统。通过这些系统快速触达客户,在第一时间倾听客户的声音,为整体业务发展提供有效的支持。在这个过程中,在每一套客服信息系统中通常保存了大量的与客户沟通的交互记录,这些记录中包含了丰富的、有价值的信息,例如客户意向线索、企业产品满意度等等。但是由于这些交互记录具有形式多样(如文本、音频、视频等)、内容非结构化等特点,利用传统大数据技术对其分析难度较大,因此长期以来主要依赖人工手段进行分析,其价值无法得到深入的发掘。

 

NLP(Natural Language Processing,自然语言处理)技术是一种利用计算机智能地分析、理解、提取人类语言中表达的真实用意的并将其合理应用的人工智能技术。随着近年来该技术的不断成熟,其已经被广泛应用在智能外呼、在线客服、智能客服质检等领域。在这种情况下,利用机器替代人工实现对客服交互数据的处理已经具备条件。本文将围绕这一方向展开研究实践,希望能够抛砖引玉,为证券行业客户服务领域的同行提供一些参考。

 

二、 现状分析

 

在证券公司中,围绕着客服业务建立了多种客服系统以实现全渠道触达客户。表1以中信建投证券为例归纳了主要的客服业务及其对应的信息系统。

 

表1:常见客服业务对应信息系统

 

每个客服系统为满足监管或自身管理需求,都保留了完整的与客户交互的数据记录。这些记录呈现出多源、异构的特点。如表 2所示:

 

表2:客服系统产生数据情况

 

这些数据中蕴含着大量的与业务相关的信息,对于指导业务开展、提升管理工作效率都有十分重要的意义。表 3整理了可以从客户交互数据中挖掘的重要信息。

 

表3:客户交互数据包含的重要信息

 

通常这些数据是由公司的运营管理团队进行收集、整理、分析的。一方面,由于缺少自动化手段,分析方式主要以人工为主,效率不高;另一方面,分析内容主要侧重于客户投诉、合规隐患等常见问题,缺乏对信息多维度、进一步深入地挖掘,遗漏了大量有价值的信息。在当前证券行业竞争日趋激烈的情况下,显然不能够满足业务快速发展的需要。在这种情况下,引入NLP技术实现对客服交互数据的自动化分析就成为一个值得研究的课题。

 

三、 实现方案

 

中信建投证券经过近几年在AI领域的不断积累,对如何充分利用客服交互数据,进行了大量的探索。我们构建了针对客服交互数据的分析平台。该平台的数据处理流程如图 1所示。

图1:客服交互数据处理分析流程图

 

如上图所示,分析平台主要由格式化预处理、数据仓库、分析引擎三部分组成。

 

格式化预处理平台利用语音识别、声纹识别等技术,对来源于呼叫中心、在线客服等系统的不同类型的数据进行预处理,形成符合规范格式的数据记录,并集中存储于客服交互数据仓库中。

 

数据仓库采用了“文件对象存储+非关系数据库”的混合存储方式,同时存储了客户交互数据原始文件(包括文本、音频文件等)以及客服交互数据的元数据(描述信息)。基于元数据,数据仓库实现了对异构多源的客服交互数据快速检索,为数据分析提供有力保障。

 

分析引擎基于NLP技术构建了大量的数据分析模型,如文本分类、实体分析等等。其主要工作就是通过分析客服交互数据的内容,分析出其中包含的语义、情感或实体等多种维度的信息,为各种类型业务提供数据支持。

 

四、 关键技术

 

(一) 格式化预处理

 

为了简化后续存储管理工作,便于数据的分析和应用,对于客服交互数据的格式化预处理至关重要。通过格式化预处理,可以将多源、异构的数据(如聊天文本记录、音频流、电话录音等)转换为统一规范化格式,降低后续数据分析、存储的难度。

 

目前设计客服交互数据的规范格式可包含两部分:交互原始数据和元数据。原始数据一般包括客服电话的原始录音文件、在线客服保存的原始聊天记录文件等。交互记录的元数据是指对原始数据进行描述的信息。这些信息一方面可以从源客服系统中采集获得。例如客服会话发生时间、持续时间、客服渠道、客户标识、坐席标识等,也可以通过对原数据文件的简单分析获取,例如原始数据大小、音频数据采样频率、位速等信息。

 

对于原始数据存在的大量音频数据,我们采用了语音识别技术(ASR)将转换为文本,与其他文本格式的客服记录一起进行存储。以此降低后期对数据NLP分析的复杂度。

 

(二) NLP分析引擎

 

通过NLP技术,我们构建了专门用于分析客服交互数据的NLP分析引擎,对数据仓库中分析挖掘隐含的业务线索、语义及要点信息。

图 2展示了目前我们构建的用于客服交互记录分析引擎架构。整个引擎可以从下到上可以分为三个层次:(1)基础算法库;(2)建模工具;(3)功能组件。

图2:NLP分析引擎

 

1、 基础算法库

 

分析引擎底层提供了常见的NLP基础算法库,如分词、词法分析、句法分析、实体识别等等。以及主流的机器学习和深度学习算法库。机器学习算法库提供K-means、LDA、GBDT等算法,深度学习算法库提供CNN、RNN、AutoEncoder等。

 

2、 建模工具

 

在基础算法库的基础上,引擎为分析人员提供了分析建模工具,可以根据具体业务需求定制建模。经过定制的模型可以通过预置的结果评估组件进行性能测试,以此来方便分析人员掌握模型的性能指标(如准确率、召回率等)是否满足实际应用的需求。

 

3、 功能组件

 

完成训练测试的模型将封装为标准的功能组件。分析引擎建立对功能组件的版本控制,并对其生命全周期(包括发布、升级、下线等)进行管理。

 

(三) 多标签文本分类

 

对于客服交互记录进行多标签分类是目前NLP引擎分析的重要功能组件,也是目前获取、管理、应用交互文本语义的最有效的方式之一。各业务场景的应用大多可以围绕着客服交互数据的一个或若干个标签展开。例如在对客服质检时,可以通过分析识别对话记录中客户的问题标签以及坐席回答的知识点标签,并对两者的匹配情况来分析判断坐席的服务质量。

 

目前我们采用的多标签文本分类模型如图 3所示:

图3:多标签文本分类模型

 

分类模型主要分为输入编码层、注意力层、解码层、分类模块组成。其中输入解码层负责对文本词向量特征进行编码,并通过Highway Network门控制机制对词向量维度进行调整。注意力层负责对经过编码的文本特征给予不同的权重,并筛选出对类别标签重要的文本特征。编码层使用LSTM按顺序生成标签,通过LSTM结构处理标签序列之间的依赖性,以此来考虑标签的相关性。最后编码层输出标签序列,经过分类模块找到最优的标签序列。

 

五、 应用实践

 

围绕着客服交互记录的分析,我们在多个业务领域进行了应用的探索:

 

(一) 客服质量检验

 

中信建投证券于2019年开始进行了客服记录自动化质检系统的建设。前期该系统主要通过规范用语、说话语速、禁用词语等简单、易于判断的维度进行质量检测。但是通过NLP技术,使得我们可以进一步对客户服务过程中客户的情绪、坐席的情绪、坐席解答问题的情况等信息进行评估,从而进一步丰富了质检的内容,为公司准确把握客服质量提供了依据。

 

表 4列出了我们对电话客服质量主要的检测项:

 

表4:客服质量项

通过为每一个质检项建立语义标签。质量检测时,通过对交互数据的标签的识别,来进行对服务质量的评估。例如当我们识别出对话记录中出现“客户要求核实信息”的标签时,判断对话记录中否同时出现“坐席帮助客户反馈”的标签,由此来判断服务是否满足客户的需求。图 4为目前我司质检系统质检项的配置界面:

图4:质检评估项配置界面

 

图 5、图 6展现了目前智能质检系统的运行的情况。目前智能质检系统已经覆盖了公司所有的电话客服的服务业务。

图5:客服质检统计情况

 

 

图6:客服质检详细信息

 

(二) 话术辅助训 练

 

2020年上半年,我们为全公司客户经理构建了一套话术演练系统。客户经理可以在设定的50个营销业务场景中与智能对话机器人模拟的客户进行对话沟通,从而实现对自己营销话术能力的训练。每一个客户经理在完成话术练习后,演练的过程将通过分析平台进行评估。通过对话的情绪、标准型、语义完整性等多个维度进行量化评分,从而有效的监督指导客户经理的话术学习。

 

目前话术演练系统已经在公司的企业微信中发布,支持了两融业务的8个话术训练场景。系统运行效果截图如图7、图8。

 

 

图7:话术演练场景选择

 

 

图8:话术训练及评估得分

 

(三) 投诉事件监控预警

 

中信建投证券在线客服优问是公司触达客户的主要途径。上线四年来,历经了多次突发事件,已经成为公司获悉问题、安抚客户、解决问题的重要环节。但是我们注意到,在每次信息系统异常事件出现时,在优问上通常会出现大量客户的集中投诉反馈。但是由于对客户的服务模式采用一对一的方式。当发生问题时,从客服人员反馈后台运营人员,再到运营人员察觉问题,再到故障解决,往往需要很长的时间。这就导致客服人员无法即使安抚客户,给客户带来了不好的体验。

 

针对上述问题,利用交互数据分析平台,对实时的客户服务记录进行分析,为不同场景下的投诉事件打上标签。在短时间内,如果发现某类投诉事件标签出现陡增的情况,进行实时报警,以便运营人员第一时间跟进解决问题。

 

图 9展示了通过交互记录分析系统获得的标签情况。

图9:客服交互记录标签

 

图 10展示了我们对公司2019年2月26日的客服交互数据的分析情况。可以看到在当天开市(9:30)以后,在短时间内客服系统接到大量的客户反馈:“手机炒股软件无法登陆”,即标签“咨询-无法登陆”的出现频率急剧增加。因此可以预测出:相关系统可能出现异常。通过对此类情况加以监控,一方面可以及时向运维人员提供预警,另一方面,也为客服人员第一时间做好客户安抚工作提供了依据。

图10:客户投诉记录实时分析

 

六、 总结

 

本文基于NLP技术,设计并构建了客服交互数据分析平台。利用该平台对多种渠道客服系统的客服对话记录进行收集、整理、存储、分析,进而充分发掘客服交互数据的价值。目前该平台已经在多个业务场景中开展应用,取得了较好的效果。下一步的研究工作主要有两个方面,一方面是进一步深入研究NLP、ASR等技术,优化技术精度和性能,为数据分析工作夯实基础。另一方面是继续探索针对交互记录的新的应用场景,最大化地发挥数据的潜在价值。

 

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注