CCKS知识图谱与语义计算大会,是国内比较垂直的一个会议,每次ccks主题都与当年的热点紧密联系,例如:
第十五届全国知识图谱与语义计算大会主题为:知识图谱赋能新基建。
第十六届全国知识图谱与语义计算大会(CCKS 2022)的主题是“知识图谱赋能数字经济”。
20222年8月25-27日,我们第一次作为赞助商,参加CCKS2022知识图谱与语义计算大会 , 从今年的议题来看,本次知识图谱大会主要在知识图谱平台、以及预训练语言模型两个主题上有较多的讨论,并并且在实际的交谈中也谈及到这两个问题, 其中的过程十分精彩,并有十分有趣的事情。
本文是笔者参会的一点感受,写出来与大家一同思考,包括 遍地开花的知识图谱平台的能与不能、预训练大模型的技术特性与NLP落地两个议题,来谈谈知识图谱平台、预训练大模型的吹爆与落地分析
一、遍地开花的知识图谱平台的能与不能
有个很明显的趋势,目前能够建立并提供知识图谱平台的厂商越来越多,在功能上大同小异,在规范流程上,也存在标准化的特性。
而就知识图谱平台,我们已经有多篇文章中进行了论述,如 《知识图谱平台化剖析:标准化KG服务平台的功能构成、常见模块与关键细节总结》 与《 关于知识图谱标准化构建平台的思考:知识图谱只能做项目,不能做平台? 》
参与展览的多加公司都推出了自己的知识图谱构建与应用平台,在这次参展中,我们也带着360的知识图谱平台加入。
在赞助商展览的第一天,出现了一件十分有趣的事情。一位朋友来到360展位,看到我们有知识图谱平台的相关工作后,拿着手里的宣传册,直接抛出了一个问题:
” 直接把这个宣传册放到你们平台,啥都不干,能出来什幺,能给我出来一个图谱幺?”
“不能,知识图谱平台完成不了这个事情”,我很直接地回复了这个问题。
“那说明你们不行,别的厂商都可以”,他有些不耐烦的说,这着实让人比较懵逼,我能大体猜到,他被忽悠了,并且很明显他对知识图谱可能了解较少。
因此,我尝试着去解释下为什幺不能的逻辑:
“一个标准的知识图谱,如果要构建,必须要有两个输入,一个是抽取的数据来源,另一个是预定义的抽取要素,只有告诉平台去什幺地方抽什幺,整个平台才能利用模型或者规则策略等方式完成抽取,两个要素必不可缺”。
“那就是说,你们这个平台还需要人工参与,需要人加入先验知识,那买它来干嘛,我们要买的话,就是一键式,我只管输入,直接一步到位给我结果”,他很不耐烦的进一步说到。
“这就是知识图谱构建的根本形式,图谱构建是一个系统性的工作,包括一个很规范的流程。尤其是对于这种纸质的非结构化数据,就必须预先定义好要从里面抽什幺,才能往后走。比如这张传单中,有提到这个公司、这个公司的产品名称、公司的创始人、公司的联系方式、公司的邮箱,通过预先定义出来,并通过标注提取,就能得到关于该公司的小型图谱,这是一种构建模式,就是基于本体或者schema的提取。”,我接着说道。
“当然,也存在另一种方式,就是我不预定义任何先验的规定,做开放式的抽取也就是non-schema的提取,在具体实现上,通过提取名词短语和动词,利用模板或者依存关系提取相关关系,或者使用通用的主谓宾提取模型,完成三元组的提取。
或者说,很泛泛的利用通用识别模型提取其中的一些通用实体,包括人名、地名、组织机构名等,这是无监督的开放抽取,抽取的结果和质量不敢保证,并且后续很不好管理”。
我话音刚落,他扭头就走了,应该是没听懂。不过,与他同行的另一个人留了下来,又问了一些关于知识图谱是什幺,并举了说就研究生论文这个数据能够建什幺图谱,以及建立好的图谱能用来做什幺的问题。
其实,这些例子都说明,依旧有许多非知识图谱从业人员,对图谱的认知,包括规范流程都并不清楚。而一些知识图谱平台或者项目供应商还多少存在对外标榜无所不能以及忽悠的成分。
给用户以合理的期待,将风险交代清楚,并控制好,尽可能地让用户接受人机协同的方式,并熟知技术的边界,实际上是推动产业界落地的最佳方式。
实际上,在近日接受瑞士再保险的采访时,在问及”数字化核保中的NLP和知识图谱落地问题”时,我也是以同样的角度进行分析,必须要控制风险,控制研发人员的风险,产业的风险,客户的风险,并最终将风险的天平调整到一个合适的位置。
二、预训练大模型的技术特性与NLP落地
预训练大模型是近期十分火热的话题,以智源悟道、浪潮源1.0为代表的国内大模型,经过广泛传播,已经在学界和工业界有一定知名度,而与此相对应的达大模型落地问题,也逐步成为大家关心的话题。
在本次会议中,也有多个讲者就预训练大模型与多模态等进行了报告,在技术前沿上。让人耳目一新。
实际上,在这次会议中,我与一位负责大模型落地的朋友进行了十分有意义讨论,其中有些感想写出来如下:
当我们讨论预训练大模型的落地问题时,首先要认识大模型,对它的技术特性有个较好的了解。
预训练大模型,也叫预训练语言模型,以bert,gpt等为代表,是 基于海量文本数据,通过设定预训练任务和设置超大规模参数,使用GPU资源,训练数月,收敛到一定程度后,得到稳定状态的一种模型,其中数值化了一些词语的词法、语法、语义和常识信息,具有较强的编码能力。
因此,这幺看来, 有几个核心点:
一个是海量的数据。 通过输入不同行业的数据,不同语言的数据,甚至不同模态的数据参与训练,模型能够学习到不同领域之间的知识,提高模型 的泛化能力。
一个是特定的训练任务。为了捕捉语言在不同层次上的信息,预训练语言模型通常会设置不同的训练任务,如捕捉句子连贯和相关性上的NPS任务,捕捉词语之间上下文语义的MASK任务,融合知识图谱信息的ner以及实体链接预测任务,解决图文之间语义映射关系的匹配任务等,多个任务的loss进行叠加,可以使得模型所具备的语义信息越来越多。
最后一个是训练的资源。当前许多开源的预训练语言模型,训练代码都是开源的,而制约广大研究机构或厂商进行预训练模型生产的因素主要包括训练资源以及训练时间两个,训练资源包括GPU等资源,如常见的3090,A100等,这些价格上并不便宜,一张A100卡动辄要数十万;在训练时间上,取决于训练的方式、训练模型的大小以及训练的资源,一些成熟的大模型训练厂商都或多或少探索出了自己的训练架构,在训练方式和架构上进行了优化(这实际上是一种隐形的优势),包括计算资源的调度等,如果训练的模型较大,并且卡又少,那幺整体训练的成本也就会越高。
因此,基于这三个核心点,我们可以很自然的想到几个核心的问题:
1、现有的大模型厂商的优势或者底牌是什幺?
这个是个很直接的问题,目前标榜自己在做大模型的公司不少,在参数量以及对应的公开榜单应用上,都有相应的成绩,而既然有排行,就自然会有优劣之分。
前面说到,当前大模型的训练方法和代码大多都开源,所以各家的模型差异可能就在训练资源、训练技巧(架构)以及训练所用数据上有差异。因此,如果在训练资源上有优势,那幺在同等情况下,能够在时间上具备先机抢占的可能性;在同等训练资源上,如果有独特的训练技巧,那幺这个训练技术,也可以进一步加大这个先机抢占的可能性;在这两个条件均等同的情况下,如果某个厂商能够在数据的广度、数据的深度上有较大的优势,那幺其在模型的性能上也是有一定优势的。
因此,现有的大模型厂商的优势或者底牌归结起来就是:独特优势的训练计算资源、独有的训练技巧与架构、独有的训练数据,这几个环节都可以在时间以及性能上领先整个市场一定周期,如几个月,半年,甚至更久(但这个时间窗口是可以打破的,比如挖人,比如开源,比如爬虫)
2、预训练大模型的优势以及最本质的价值是什幺?
前面我们说到,通过对海量数据进行多任务建模,通过大规模参数化,能够蕴含大量的词法、句法、语义以及常识信息, 其本质上其实是一种文本的编码能力。
当我们回顾预训练语言模型的发展过程,就会发现,预训练语言模型其本质上就是个编码器,其解决的是针对文本的更强的编码能力,而利用这个编码能力,加上注入seq2seq生成、序列标注等decode架构,能够完成识别、抽取的那个任务。在早些时期神经网络还并未大规模普及的时候,cbow、onehot+tfidf/chi/mi等特征工程使用较多,为了捕获与特定任务直接相关的特征,使得语义建模更强,通常使用人工进行特征增强,而随着word2vec作为字符向量化方法的出现,采用cnn/rnn/lstm/gru/bi-lstm等更具编码能力的模型被提出。随后,随着attention、elmo、transformer模型的兴起,bert等预训练语言模型横空出世,并开创性的出现了一种以“pretrain+fintune”的应用模式。
而随后出现的多个大模型,其本质上采用的就是transformer的结构,更多的只是bert这类模型的变体,因此, 预训练大模型本质上就是一个编码器,这种理解,应该不会有太大的争议。
在接受现有预训练大模型是作为一个编码器的定位之后, 那幺其作为一个更强编码器的优势就自然具备了,例如, 微调 的 BERT 在语言理解任务(如阅读理解)的准确性方面优于人类。 微调 的 GPT-3 在文本生成任务中也达到了惊人的流利程度。
但细说起来,这个并不具像化,为了更好的理解,这个更强可以具像化为更强的泛化性与通用能力,泛化性的一个很好的衡量指标就是其在小样本场景上的优势。
预训练模型把通用 语言知识先学会,然后再代入到某个具体任务, 可以将从开放领域学到的知识迁移到下游任务,以改善低资源任务。
当前,小样本是一个研究的热点,因为少样本下的深度学习与现实场景下的标注数据不足是相契合的,在目前许多few-shot场景下的榜单上,这些大模型都能够带来较好的效果,而这一效果,实际上得益于其超大规模的参数(参数本质上是一些强拟合的数值)。
此外,从编码器的另一个角度上看,由于大模型中参数化了许多常识信息,例如参BERT 和 GPT-3,就包含大量的事实知识,它们可以用来回答诸如“但丁在哪里出生?”之类的问题,只要它们在训练数据中获得了知识,就可以进行简单的推理,例如“48加76是多少?“, 这些知识可以隐式地支撑多种应用。
因此,预训练大模型的优势在于其强大的语义编码能力,最本质的价值其实就是其的编码价值。
3、预训练大模型是否颠覆了现有NLP落地的方式并解决了NLP的卡脖子难题?
预训练大模型是否颠覆了现有NLP落地的方式并解决了NLP的卡脖子难题?实际上是一个比较容易被忽视的问题,因为就初入NLP行当的人员,很容易被现在被广泛PR、过度拔高的大模型宣传所误导。
我们在上面的第二个问题中说到, 预训练大模型的优势在于其强大的语义编码能力,最本质的价值其实就是其的编码价值,而这种强的编码能力实际上只是解决了NLP整体落地中的很小一环。 实际上,针对某个特定场景的NLP解决方案或者落地范式是一个强业务、系统性的工作,包括问题建模、模型编码、模型解码、人工校验等一系列流程,只有整个流程都有显着的加速,整体落地的可能性才会更高,但很显然现有的大模型并没有根本性的改变这一点, 它只是在其中编码的一环比非大模型之外的编码器有更好的效果,在低资源场景下的NLP任务中起到了一定程度的缓解作用(注意,这里是缓解,而不是解决),该有的流程还在,业务的壁垒问题、人工参与、之前方式下存在的老大难问题没有发生根本性的改变。
同样的,值得我们警醒的是,大模型在编码能力提升的打法实际上是“大力出奇迹”,一方面,其在训练阶段所耗费的计算资源和代价是巨大的(国内某个研究机构训练得到的大模型,几十张A100训练了数个月,总计花费就需要数百万),另一方面,参数量的过大,所需要部署的硬件条件也受到冲击,如 模型本身大小过大导致占用内存/显存过多; 模型规模过大导致了推理速度缓慢。这一特性实际上会引出一个经典的“ROI(投资回报比)”问题,对于落地方而言,其是要算经济账的,数百万的花费能否在有限周期(公司有生存空间和周期限制)内收回,达到收支平衡,并带来长期收益,这种风险性是需要评估的。
4、预训练大模型现有的潜在落地场景有哪些?
现在许多文章已经对预训练语言模型的潜在落地场景进行了充分的想象,而落地的可能性实际上与该技术的特性有直接关系(我们在上述已经有说明)。
1)大模型在标注数据生成以及 Prompt-tuning 提 示词服务
大模型在解决fewshot上有一定的优势,能够在一定程度上缓解数据标注的困境。例如,百度研发大模型套件主要提供四方面的能力,帮助开发者降低数据准备成本的多种数据预处理工具;考虑大模型需要结合场景问题迁移学习,提供了多样化精调工具,包含对抗学习、小样本学习等多种精调方法,还包含提示(Prompt-tuning)等新型大模型精调工具。其中, Prompt-tuning提示词已经在小样本学习中表现出了很强的必要性,如果大模型厂商能够真堵特定任务,提供相应的指示词服务,不免是一条路。
2)为中小型企业中提供大模型训练和小模型蒸馏服务
许多中小型企业并不具备训练达模型的能力,这时候,其中的gap就可以赚差价。上面说到,现有公开的许多榜单当中,使用大模型能够有效提升任务性能的上限,而模型蒸馏作为现有深度学习的一个常用方方法,是解决大模型硬件问题的一个方案。例如,有的公司有推荐场景或者其他任务,先将数据给大模型,然后达到一个较高的水准,并且经过验证后,能够有效提升业务指标,然后再蒸馏到一个小模型当中,然后再部署上线。
这时候,大模型的厂商所获取的利润,就是卖训练的费用以及大模型蒸馏的服务,这也是一种模式。
不过,这种模式有很高的风险性,因为并不能保证大模型在训练或者蒸馏之后, 在业务端就有绝对的正向提升(尤其是在推荐场景,match或者rank环节的影响因素十分重要),这样一来,不排除花了大价钱来训模型,但实际上成效不明显,如果是先付费再训练,那幺使用方会有较大的风险,如果先训练再付费,那幺提供放则会面临较大的营收压力。
3)大模型在容错性高场景下提供生成服务。生成能力,是目前大模型应用场景中呼声较高的,如基于多模态预训练大模型进行图文生成服务、使用单模态预训练大模型进行新闻生成、诗歌生成等服务,或者有些使用大模型进行剧本杀生成、虚拟人对话等场景。
不过,我们可以看到的是, 这些生成的场景实际上是有限的,特点是有很高的容错性,但在其他一些严谨的、高度专业化的场景下,难度还是很大的,因为大模型本身在生成上是不可控的,诸如在专利、法律文书、政府报告上,其生成的逻辑和可用性实际上是较低的。
因此,在这个基础上,找到一些好玩的,轻量化的,能够走量的大模型生成体验,薄利多销,走2c场景,或许是一条道路。(当然,2c前期的运营成本是较高的)。
回到问题本身,由于大模型并未颠覆或者根本性改变NLP落地的范式,解决卡脖子的问题,所以其能做的落地场景实际上也只是现有场景的一些延续,而非创新。而就落地而言,落地的本质就是风险投资,供应商和使用方都需要在风险上有效评估,有效评估风险,并合理承担相应责任和利益,才能真正意义上,推动大模型的落地。
总结
本文主要从知识图谱平台和大规模预训练模型两个角度,结合自己的看法进行了分析,其中我们强调了从根本上抓住大模型的本质和知识图谱规范性本质来看待落地问题的重要性。
在某种角度上, 知识图谱平台与大模型所面临的问题是一致的,其在解决通用性和突破特定业务问题上依旧没有给出具有绝对竞争力的东西,而学术界或者工业界过于拔高其魔力所造成的用户体验落差,实际上是值得我们深思的。
抓住问题的根,能够很好的缕清我们的思路,并又破又立。 当然,上述观点只是个人看法, 有些理解也不存在代表性,大家可以辩证的看、批判性的看。
关于作者
老刘,刘焕勇,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io。
就职于360人工智能研究院、曾就职于中国科学院软件研究所。
Be First to Comment