Press "Enter" to skip to content

京东零售焦文健:挖掘客户意见,驱动经营改善

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

 

 

分享嘉宾:焦文健 京东零售 数据产品专家

 

编辑整理 :吴祺尧 加州大学圣地亚哥分校

 

出品平台:DataFunTalk

 

导读: 现在大家越来越重视用户研究。 一个公司成功的核心要素首先要去确定目标市场的需求和需要,并且要能够比竞争对手更好地提供顾客满意度。 本次分享会从产品和业务的角度去展 示在实际京东的业务场景下文本挖掘技术是如何发挥作用和价值。

 

今天的介绍会围绕下面四点展开:

 

客户意见的重要性

 

文本挖掘方案及架构

 

场景化产品洞察方案

 

应用案例

 

01

 

客户意见的重要性

 

 

市场营销的成功四大要素中,基本上都是围绕着顾客价值、顾客满意、顾客的信任感和顾客维系体系来建立。在IDC的研究中发现在擅长用户研究并收获良好客户体验的公司中,它们会比竞争对手的收入高出4%到8%。

 

 

京东主要经营电商业务,我们也研究了用户买单的动机。传统上商品基本上围绕着客户核心功能上的需求来进行销售。现在越来越多的商品对概念进行了延伸。除了核心的物理功能外,如外观设计、售后、配送服务等构成了中间的形式层面的产品。在最外层,在精神层面,商品需要和用户进行更深入的交流,属于附加产品。基本上任何一款产品想要成功都需要在这三个层面上有不同程度的完善。

 

 

我们如果仅仅针对用户的行为进行分析,比如通过浏览、点击、收藏、加购等,还不能完全满足对消费者的刻画、理解以及认知,具有一定的局限性。它无法去捕捉客户的主观意见,难以对用户心智层面进行洞察。在电商的环境下,用户的行为分析更多的是分析用户在下单前、购买前的用户行为数据,但是在用户购买产品后的使用体验是用户行为无法捕捉到的。这更多地需要使用用户的评论,售后的咨询或者与客服的电话沟通中的文本信息进行分析。对于文本的通用分析有较高的门槛,在未来潜力巨大。根据IDC的研究,整个结构化的数据目前只占到全部数据量的20%,另外80%会以文件的形式存在。这种非结构化的数据增长非常快,所以未来有很大的潜力。

 

02

 

文本挖掘方案及架构

 

每天有近五亿的用户活跃在京东的平台上,每日新增的评价、咨询、搜索等信息达到几千万条。这背后蕴含了大量的文本信息,我们希望从中挖掘用户的根本需求,即他们在使用一款产品后会用到什幺,遇到什幺样的问题,还有哪些方面还没有得到需求上的满足。这就需要使用我们对非结构化数据的解析以及分析能力。

 

 

整体业务逻辑如上图所示。最左边是用户的原始反馈数据,包含用户对商品提出的各种意见和问题。在此基础上,我们会使用NLP算法对数据做抽取,并在此基础上把用户的正负向情感做分类,之后在结构化地抽取客户在吐槽什幺类型的问题。最后,我们会将得到的结果产品化,变成一种给予业务分析师直接使用的功能,使得他们可以从分析的视角更直观地应用数据。从文本的分析角度来看,比如最左侧的一列是用户的原声,即包含用户的吐槽,我们需要把每一句中大家在吐槽哪一种类型的问题提取出来。这是一个分类问题,我们还需要对类型做梳理,将类型层层拆解,分为大概五级的细粒度类别。例如,“我买完就降价”这一句话,首先把它理解成吐槽商品的价格问题,而进一步我们可以把它理解成吐槽商品降价快这一问题点,从而使得问题可以有一个相应的改善。

 

 

京东的品类非常多,不同类目的商品的问题结构或者标签结构不太一样,需要我们逐步地做一些梳理。比如食品,快消,电脑数码这些品类,它们的问题点不太一样。我们使用五个级别进行梳理,其中到了第四级就是偏产品属性的维度,例如是在描述材质问题还是CPU内存方面的问题,也有可能是外观不好看,用料差,内存不够用的一些细粒度的观点。

 

 

我们文本挖掘的架构设计会首先将原始的用户评价的文本做清洗与切词。有的时候一句很长的评论里面可能会包含多种情感与观点,此时我们需要切成短句之后再进行抽取和分析。中间我们还加入了业务侧的知识沉淀,因为在京东的场景下,每一个品类的内部会有自己的分析师,他们会通过关键词等方式积累一些业务的分类。为了更好地拓展整个中台的能力,我们会把他们的知识引入来丰富我们的标签结构,也可以用来丰富标注数据。如果文本命中了业务维护好的信息,就可以直接输出业务维护的标签内容;反之则输入情感模型来判断当前短句是属于中性情感,正向情感还是负向情感。中性情感和正向情感我们会进行其他的处理。对于负向情感,我们会将其分为两大类。第一类是服务类的问题,比如物流、配送、客服等通用性问题,不同品类之间这类问题相差不大,所以我们可以直接对文本使用TextCNN这种多分类模型识别属性,最后使用USE对属性与标签进行相似度的识别,最终输出多级标签的分类结构。第二类是商品类的问题,如材质、外观、CPU内存等。这类问题品类之间差异化比较大,我们通过引入Roberta模型进行属性分类,并在此基础之上使用USE进行标签与属性的相似度识别,最后形成模型的分类结果。

 

 

下面和大家分享一下文本挖掘架构中几个关键的设计要点。

 

首先是业务知识的引入。在前期使用业务数据的关键词可以对架构做一个补充,一方面能够提高效率,另一方面也能够提供给我们很多可以用于在标注时参考的短句。另外,有时候业务会针对用户文本中的一些短句直接判断出所属的问题以及背后的原因,属于专业性的业务知识判别。比如我们看到显示器边角存在黑屏或者暗角的描述,我们往往会认为这个可能是在描述屏幕本身出现了什幺样的问题,但是从专业的电脑行业知识来看,很大的概率是背后的电路或者显像管发生故障。所以在架构中维护业务知识可以直接去指导改善文本中反映的问题。

 

第二部分是我们在模型层面的优化。我们的业务分析师会通过建立关键词库的方式处理每一个品类中一些问题的标签关键词以及其对应的短句。在此基础之上,我们做了深度模型的训练和召回,使得准确率和观点识别量均有非常大的提升。最近京东线上跑的模型全部都已迁移成了预训练的roberta base加上对比学习的方式来支持。当然这对于硬件的成本会有很大的消耗,它需要有GPU的支持。如果我们不需要很高的精准度,那幺将roberta替换成两层的lstm也可以实现类似地效果,而且它直接通过CPU就可以完成训练,成本的消耗相对较小。

 

 

第三部分是标注环节的规范化和优化。对于文本类的处理,标注环节决定了模型的上限效果。如果标注做得好,那幺模型的上限以及效果会比较好。对客户的文本意见进行处理和分析时,因为模型是一个多分类问题,标注的类目和分类非常多。此时遇到的问题是如何提高标注效率和精准度。京东的经验是通过多次标注的方式。在第一阶段,我们先通过多分类标注为所有商品提供每一类的属性。每一类属性下提供了一定量级的样例样本,例如外观、工艺材质、活动介绍等。在标注人员调整完标定的标签之后,我们可以对标注结果进行扩散,最终使用USE在样本的范围中做一些其他相似语料的扩散。第二阶段是对扩散完毕的数据进行进一步标注,只不过这里只需要进行一个二分类的标注即可。具体地,我们对扩散完毕后新扩充的语句交由标注人员去判断是否真正属于扩散的属性。综上所述,每一个模型的训练需要经过两轮标注,但是每一轮标注的数据量可以大幅减少,同时这种方式可以更好地扩展出一些优质的标注数据。对样例较少的数据,这种方式还可以解决数据失衡的问题。针对第五级的标签,即观点层面上,比如细粒度的语句“外观不好看”等,由于它的分类特别多,所以我们采用USE相似度的方式找到衍生的短句,并在它们中标识是否真正属于我们提取的标签。如果它属于当前标签,我们会使用聚类的方式形成新的标签。通过这一流程,我们可以扩充、完善前期没有总结出来的标签类别。

 

在最后一个环节,我们需要在训练集和测试集上由模型跑出一个效果来,但是在最终业务应用的环节里我们还会给业务人员一些具体的样例数据去做验证,以此来观察模型是否符合实际业务经验。这个环节往往会耗费较大的精力和时间。模型迭代之后,我们会抽取一些文本进行人工评估,基本上1000条数据平均需要三个小时才能完成。此外,验收过程中不同的评估人员会存在理解偏差。为了解决这些问题,我们构建了一个标准化的测试集。具体地,我们预设了一批文本和对应答案。当模型进行迭代需要验证效果时,我们直接可以使用建立好的测试集进行实验,标准化的结果(准确率、召回率等)可以直接被计算出来,省去了耗时耗力的人工过程,提高了工程效率。

 

03

 

场景化产品洞察方案

 

 

基于前述文本挖掘的设计架构,我们制作了一个产品使其能运用到不同的场景中解决用户的问题。它最直观的应用是在业务人员的使用体验的改善。我们把大量的文本语义做了结构化处理后,通过对不同品类、品牌、产品的聚合,使用产品化的方式提供给业务人员,让他们更方便地分析、定位用户的吐槽以及吐槽背后的原因。

 

 

我们拆解的逻辑是结合NPS的十大要素。NPS是行业里比较通用的净推荐值,用来度量用户满意度。传统上,它通过采样调研的方式手机用户反馈,通过问卷的形式来让抽样用户对自己的产品进行打分。但是这样的指标,虽然它在一定程度上能够度量客户的满意度,但是它无法解释指标产生变化的背后原因。我们通过大小数据结合的方式,就可以通过产品评价、售后中用户的吐槽来分析哪些问题比较集中。或者哪些问题是影响用户体验的核心问题。

 

 

第二个应用场景是需求的洞察,包括针对特定的消费者去挖掘它们背后的观点。因为在每一款产品、每一个品牌背后都有自己特定的目标人群。我们可以结合京东的大数据,基于用户画像做用户的分群。通过这种方法,我们可以针对不同年龄,不同性别或者新用户、首购用户、复购用户、流失用户等群体,观察他们的吐槽分别是什幺样子的,收到什幺样因素的影响,流失到了其他哪些品牌。这样的信息对业务有着更实际的指导意义。

 

 

在意图洞察中,我们对搜索词进行了词性的划分和分析。每一个品类里,我们把用户长搜词和热词,或者最近增长最快的一些词找出来,评估每一个词的需求满足度。每一个词可能就代表着背后的一种需求,如果它的需求满足度不高,就意味着用户有大量的搜索是没有找到自己需要的商品。上述未被满足的需求在细分的品类和市场当中可能蕴含着一些机会等着我们去发掘。此外,比如“老年手机”是手机中一个细分的品类,它最近的增长趋势较好,那幺用户可能同时会搜索“超长待机”、“大屏”、“大字体”、“大声”等信息。从搜索词里就蕴含着围绕老年手机我们应该去主打什幺类型的功能卖点。

 

 

同时,我们也支持一些灵活的批量文本自定义上传。如果有些其他源的文本也可以直接上传至产品系统,形成简报或者通过API来调用数据。本质上来说,我们通过产品化的方式,将算法与模型的结果做了封装,从而让它们更好地在业务中进行应用。

 

 

洞察结果产品化的核心价值是通过研究海量的文本数据,实现用户研究的智能化升级以前我们的品牌或者业务想要了解用户的体验以及用户人群差异需要通过调研问卷等方式去实现。这种方法覆盖的样本量比较少,研究周期很长,成本也比较高。对于一些小公司,根本没有时间与精力投入这样的用户研究中。通过洞察结果产品化的方式可以大大简化流程环节,通过海量的数据覆盖到核心的目标用户群体。智能分析可以快速地提高可供决策参考的结果。

 

04

 

应用案例

 

下面展示几个实际的业务场景的例子。

 

 

比如耳机耳麦这个案例。我们最近完成完成了一个试点,它在特定的一个品类上做了上线,上图最左边就是上线后的效果。原来的评价都是用户的原始语义标签,现在我们将耳机耳麦中核心的、用户最关心的功能点,如音质、做工、电池性能、连接性能、佩戴舒适等进行抽取。然后,针对这一款产品,在每个功能点上展示用户的平均。例如大部分用户任务你的连接性能很好,但是觉得音质不太好,导致整个产品评价不高。所以,通过分析品类重点属性,可以把产品实际的表现拆解为各个方面呈现给消费者。以前大家只能通过商家的商品详情页上的描述来获取商品的功能介绍,现在我们也可以通过用户原始评价中抽取它们,省去了用户的翻阅操作。于此同时,商家也可以借此契机对展示的问题做一些相关的改善。对于一些质量不高,对质量把控不严的商家,这种展示形式会带来更大的压力。我们发现通过这样的方式,在不同维度上,商家对产品是会进行相应的改善。比如包装的破损,商家就从原来的塑料包装改成了纸盒进行替代。在整个品类中,我们也会去寻找质量问题较为集中的品牌,对低质量的品牌做清退;或者对于“佩戴不舒适”等这类型的问题,我们会推动品牌开放七天无理由退换货的政策,以此来保证更好的用户体验。

 

我们检测了上线一个月NPS的效果,分析用户的满意度得分,发现上线后的八月比七月的NPS上升了27%左右。包装的差评率也得到了很大程度的改善。

 

 

另外一个例子是SSD固体硬盘这一产品。很多用户回去吐槽“不配螺丝无法安装”这一问题。那幺我们就去推动近一半的品牌将螺丝作为赠品赠送给购买SSD的用户。通过这一做法,针对配件不满意的用户比例大幅下降,这其实在背后是大量用户的体验得到了改善,原本可能会流失或者不在这个品牌里进行购买的用户会被挽留。

 

 

在需求端,传统的用户分析有一个经典的Kano模型。它希望我们在做产品规划前分析用户需求时,能够基于需求的功能点和用户的期望程度进行划分。因为不同类型的功能用户的期待不同,有的技术需求必须要被满足,而且再次基础之上还会有用户的期望需求,以及用户还没有发现但做出来会给他们带来惊喜的需求。通过这一模型可以按照需求的不同层次去组织自己的资源。

 

 

虽然这是一个偏理论性的模型,但是我们可以基于用户的评价信息或者搜索信息,把客户的关注度以及市场上需求的满足度进行评估和划分。例如上图所示,最右下角是客户关注度很高,但是满足度比较低,有可能负向的声音较多或者搜索后没有找到心仪的产品,我们称这个区域为心智抢占区。在这个区域的产品,如果你能及时尽早地做出来,是可以较好地去抢占用户的心智,找到一个潜在的商机。

 

 

同样地,我们也需要去了解用户在选购每一款产品的背后关注的因素是哪些。比如笔记本,用户关注的属性有外观、尺寸、材质、CPU类型等。我们可以通过搜索词的分析和统计识别用户最关心的要素。笔记本品类下用户首先会去考虑品牌,其次会去考虑需要买多大尺寸的电脑。针对外观尺寸这一属性,下面又会有很多类型。我们可以从中找到目前市场潜力比较大,增长率会比较高,且市场竞争还相对没有那幺大、头部市场的集中度还没有达到饱和状态的类型,从而在组合的策略中优先去考虑如上图右上角的潜力趋势。

 

 

我们组织成了一个启明星系统,在里面把功能按照体验洞察、商机挖掘、用户超市进行拆分,以此把我们的核心算法能力,结构化、非结构化数据,结合我们的业务应用场景,整合成一个内外部统一的系统来给大家使用,使得我们的算法通过产品化的方式规模化地应用至业务中。

 

最后做一个简单的总结。现在我们越来越多地发现用户体验在经营中被重视,这也是因为我们可以把产品的价值分为实用功能价值以及创新体验价值,而能够带来溢价的往往是创新的这一部分。但是如何做创新,就需要从用户的洞察中去发掘。其次,整个数据的价值发挥依赖于三个条件,而且缺一不可。第一个是数据的资源,即你有多少的评价和搜索数据;第二个是数据的能力,比如算法、算力等;另外一点是应用的场景,如体验诊断、精准营销、推荐等。这三个条件组合在一起才能够把数据的价值发挥出来。最后,深度学习是无法单独地体现算法价值的。在使用深度学习之前,我们需要能够洞察和分析业务的场景以及问题,找到内在逻辑。在深度学习之后,还需要使用输出的结果指导业务的决策和优化。多方面协同才能够把深度学习的价值发挥出来。

 

05

 

精彩问答

 

Q:产品的五个属性等级是预定义好的吗?

 

A:定义需要不同的业务部门进行处理。其实产品的一些工作也会有业务人员的参与。我们这产品上也有自助分析的功能,会把新词、高频词分析出来。通过这样的工具更有助于产品以及业务人员从数据中总结用户可能会关注的一些标签和问题。所以它不是一成不变的,而是持续地在应用过程中进行丰富和扩展。

 

Q:标注的标准由谁来决定?

 

A:标注的标准需要产品、研发、算法部门一起来跟进。我们会把标准清晰地给到标注人员。为了让他们更好地理解标注标准,我们会同时给出正例和反例。比如哪一句话属于外观问题,哪一些短句是相似的,还有那些不属于外观的短句等。因为文本分析和标注没有通用和统一的标准,所以我们尽量会让标注人员去做选择题,而不是人工地往文本数据中维护一些信息。我们两轮的标注,第一轮会给标注人员多分类任务,即选取文本中包含的属性是什幺;第二轮标注是判断一个短句是否属于一个属性标签。具体的标准是由产品的研发人员去指定,然而对于一些标注错误的情况,我们还会额外抽取出来,再进一步给标注人员做一些宣贯。

 

Be First to Comment

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注