Press "Enter" to skip to content

首个跨模态文档问答系统开源,AI客服24小时在线

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

在提高生产效率、调整产业结构、提高产品服务质量、降低人工运营成本等战略目标的驱动下,我国各行各业都在从传统模式向数字化、网络化、智能化转变。例如,制造业正在从粗放型向质量效益型转变,从高污染、高能耗向绿色制造转变,从生产型向“生产+服务”型转变,逐步走向智能化,其中, AI技术大大加快了智能制造的步伐 。

 

说起这两年AI领域的热门,跨模态绝对占有一席之地。跨模态指的是多种模态的信息,包括文本、图像、视频、音频、传感器数据、3D等。对跨模态文档(如PDF文件、PPT文件、扫描件、图片等)的分析和理解技术,包括 文档信息抽取、文档比对、文档问答 等,其广泛应用于 金融、能源、物流、医疗、制造业 等行业中。

 

 

图1:汽车说明书问答示例

 

例如,基于跨模态文档问答技术搭建的汽车说明书问答系统,能够对用户提出的问题,自动从汽车说明书中寻找答案,并高亮显示输出。这一系统极大地缓解了传统人工售后的压力,降低运营成本的同时,给用户带来满满的惊喜感。对于用户来说,该系统能够通过车机助手/APP/小程序为用户提供即问即答的功能,用户不再需要翻阅说明书,也无需拨打客服电话,排队等候;对于企业来说,该系统帮助客服人员高效查阅文档、快速定位答案、缩短客服的培训周期,为企业降本增效。

 

近期, 飞桨PaddleNLP开源了跨模态文档问答系统方案 ,可应用于产品说明书、工业制造维修手册、工厂设备操作手册等文本布局丰富的各种非单一模态问答场景,该技术深度融合了感知和认知的跨模态语义理解技术,机器能够在理解文本信息的同时,去进一步理解视觉信息,通过文字+图片示例的回答方式高效解决用户问题。

 

GitHub地址:

 

https://github.com/PaddlePaddle/PaddleNLP/tree/develop/applications/doc_vqa

 

所有源码及模型均已开源,欢迎大家使用,star鼓励~

 

 

图2:PaddleNLP跨模态文档问答整体流程

 

PaddleNLP跨模态文档问答整体流程分为三个模块:

 

文档解析模块:通过OCR技术对跨模态文档进行预处理,获取文本和坐标信息,这里采用了2.2w GitHub star、OCR业务必备的飞桨文字识别套件PaddleOCR。

 

文档检索模块:若逐个遍历所有的文档寻找答案,会非常耗费时间和资源,因此通过检索模块,找到与问题最相关的top N文档,作为候选集。

 

跨模态阅读理解模块:基于跨模态文档阅读理解技术深度解析非结构化文档中排版复杂的图文/图表内容,精准定位问题的答案。

 

下面我们对文档检索和阅读理解模块详细展开。

 

文档检索模块 – RocketQA技术

 

检索系统存在于人们日常使用的很多产品中,比如商品搜索、学术文献检索、通用搜索引擎等。传统方法匹配能力有限,只能捕捉字面匹配,而语义检索能够捕捉深层语义信息,达到更精准、更广泛地召回相似结果的目的,这里采用了语义检索技术,有如下亮点:

 

 

图3:基于字面的稀疏向量检索 vs 基于语义的稠密向量检索

 

领先:采用国际领先的端到端检索问答技术-RocketQA [1] ,效果远超传统检索问答系统,与国际知名公司的技术方案相比也有一定优势。

 

 

图4:RocketQA效果领先

 

中文:开源首个中文端到端问答模型,该模型基于知识增强的预训练模型ERNIE和百万量级的人工标注数据集DuReader_retrieval [2] 训练得到。DuReader_retrieval是源自百度搜索的工业级开源数据集,使得模型在真实场景中表现优异。

 

前往GitHub获取开源代码和模型:

 

https://github.com/PaddlePaddle/RocketQA

 

跨模态阅读理解模块

 

跨模态阅读理解,要求模型在图文文档中抽取相关问题的答案,需要模型在抽取和理解文档的文本信息的同时,还能充分利用文档的布局、字体、颜色等视觉信息,这比单一模态的信息抽取任务更具挑战性,尤其当布局复杂、答案不连续时,任务挑战更大。

 

 

图5:传统文本文档vs 图文复杂布局文档阅读理解

 

近年来,以LayoutLM为代表的基于文本、布局和图像的跨模态预训练模型,在视觉丰富的文档理解任务中取得了优异的性能,展现了不同模态之间联合学习的巨大潜力。这里我们使用 DuReader vis 数据集 [3] ——首个面向中文真实搜索场景的跨模态文档智能问答数据集 对跨模态预训练模型进行微调训练,得到具有跨模态能力的阅读理解模型。DuReader vis 样本中的答案源于文本、列表、表格等多种类型文档中,使得模型在跨模态问答任务上效果优异,该数据集发表于ACL’22。

 

论文地址:

 

https://aclanthology.org/2022.findings-acl.105.pdf

 

开源数据集地址:

 

https://github.com/baidu/DuReader/tree/master/DuReader-vis

 

经过OCR解析——文档检索——跨模态阅读理解三个步骤,即搭建完成跨模态文档智能问答系统,结果如图6所示:

 

 

图6:跨模态文档问答效果展示

 

飞桨产业实践范例

 

助力企业跨越AI落地鸿沟

 

PaddleNLP基于真实的汽车说明书数据集,开源了汽车说明书问答产业实践范例。通过完整的代码实现,提供从数据准备到模型调优的全过程解析,堪称产业落地的“自动导航”。

 

真实产业场景:与企业合作共建,选取企业高频需求的AI应用场景如智能制造-预测性维护、金融保险-问答系统等;

 

完整代码实现:提供可一键运行的代码,在AI Studio一站式开发平台上使用免费算力一键Notebook运行;

 

直达项目落地:百度高工手把手进行全流程代码实践,轻松直达项目POC阶段。

 

飞桨产业实践范例:

 

https://aistudio.baidu.com/aistudio/projectdetail/4051246

 

如果您想了解详细技术方案,欢迎关注GitHub Repo,也可在直播中与百度高级工程师交流哦:

 

PaddleNLP:

 

https://github.com/PaddlePaddle/PaddleNLP

 

RocketQA:

 

https://github.com/PaddlePaddle/RocketQA

 

DuReader vis :

 

https://github.com/baidu/DuReader/tree/master/DuReader-vis

 

精彩课程预告

 

6月1日,百度高级工程师将带来直播讲解,剖析跨模态文档问答技术难点,分享业务落地经验,深入讲解PaddleNLP的玩法和潜力,解读 汽车说明书问答产业实践范例 ,手把手实操,快速搭建系 统。 通过以下海报扫码预约,进群还有更多福利哦~

 

扫码获取视频课程链接, 加入技术交流群。

 

 

[1] RocketQA: An Optimized Training Approach to Dense Passage Retrieval for Open-Domain Question Answering

 

[2] DuReader_retrieval: A Large-scale Chinese Benchmark for Passage Retrieval from Web Search Engine

 

[3] DuReader vis : A Chinese Dataset for Open-domain Document Visual Question Answering

 

百度自然语言处理(Natural Language Processing,NLP)以『理解语言,拥有智能,改变世界』为使命,研发自然语言处理核心技术,打造领先的技术平台和创新产品,服务全球用户,让复杂的世界更简单。

 

Be First to Comment

发表评论

您的电子邮箱地址不会被公开。