Press "Enter" to skip to content

阅读海量文献,如何从几个月压缩到几分钟?

 

图片来源: pexels.com/@viktor-talashuk-191931

 

如今这个时代,人们跟上科学文献出版的速度越来越难,研究者可能需要好几个月的时间才能完成一篇文章的文献综述。 但假如某个机器能在短短几分钟内阅读完特定主题的所有出版文章,然后告知研究者最佳结果,情况又会如何? 当然,如今还远远无法实现这一点。 但下文中的实验可提供一种新的方法,仅需极少的人力监督就能在科学文献中找到合适资料。

 

使机器算法利用自然语言,需要用数字格式代表单词。 2013年,Word2vec [1, 2]算法的作者发现了一个自动从大量文本中习得该表示法的有趣方式。 文本中相似语境下出现的单词,语义也大体相同。 因此,如果神经网络能训练预测目标单词的近义词,那幺也就能学习相似目标单词的近似表达。 结果显示,独立单词可有效表示为高维矢量(嵌入),而单词之间的语义关系则表示为线性矢量运算。 语义关系有一经典例子: “国王”-“女王”≈“男人”-“女人”(1)。 在该表达式中,相应单词的矢量均执行了减法。 这两对单词(1)间的语义关系代表了性别概念。

 

 

图一: 几对单词之间的类比通过相应嵌入之间的线性运算表达出来。 右图源自[3]。

 

当然,假如使用的是纯科学文本(在此指几百万份材料科学文献的摘要),而非common crawl或维基百科这样常见的文本来源,线性运算会嵌入更多专业知识。 例如,“ZrO2” -“Zr” ≈ “NiO” – “Ni”就表示了氧化物的概念。

 

语义关系的另一例子是词汇相似度,由嵌入的点积(投影)决定。 在原始Word2vec模型中,单词“large”和“big”拥有相似的矢量(也即大点积),但其与“Armenia”的矢量非常不同。 然而,在专业模型中,与“LiCoO2”最为相似的单词是“LiMn2O4”,两者都是锂离子电池的正极材料。 事实上,如果使用t-SNE [4]来在2D平面上投射大约12000种最为普及的资料(文本中超过10种),会发现它们大都根据其应用情况和成分相似度聚集起来。

 

 

图二: 应用情况与化学成分相似的材料聚集起来。 “应用聚集”中最常见的元素与材料科学知识相匹配。 计算来自相应应用聚集的材料组合中的化学元素,得到上方底部的多个图表。 图表来自[3]。

 

现在可进行更有趣的操作,根据特定应用给图二左上角的“材料图示”填色。 每个点对应某一材料,根据其嵌入和嵌入的应用单词间的相似度填色,例如“热电”(形容热电转换的词,反之亦然)。

 

 

图三: 根据与应用关键词的相似度“点亮”材料。 图表来自[3]。

 

大家应该都能猜到,上图最亮的点就是与“热电”相关的科学摘要中明确提到的常见热电材料。 但其他一些亮点并不属于热点学的研究范围。 也就是说,算法会显示出文本中没有明确提到的关系。 问题是,这些材料会成为尚未被发现的良好热电材料吗? 出人意料的是,答案是肯定的!

 

测试这一假说的其中一种方式是用过去的文献训练单词嵌入。 首先按年份顺序依次移除2000年至2018年出版的科学文献摘要,然后训练18个不同的模型。 使用这些模型,根据单词与“热电”的相似度(图3中的颜色强度)给材料排序,并选出前50种当时还未纳入热电学研究范围的材料。 结果显示,在未来几年中,所选的很多材料最终成为热电材料,出现在报告中,如下图所示。

 

 

图四: 如果每次倒推一年,然后利用当时可获得的数据进行预测,会发现对很多材料的假说现在已成为现实。 每条灰线对应特定年份的预测,红线粗线和蓝线粗线则表示所有预测年份的平均值。 图表源自[3]。

 

事实上,2009年预测的前五名材料之一是CuGaTe2。 它仅在2012年就被发现,却被视作当前最佳热电材料之一。 有趣的是,虽然实验原稿仍有待准备和审查,利用所有可得摘要做出的50种材料预测中有3种被报告为良好热电材料。

 

那幺,这到底是如何运作的? 通过查看预测材料的上下文单词可获得一些线索,也能发现哪些上下文单词与材料和应用关键字“热电”均有高度相似性。 下图展示了前5个预测中的3个材料的重要上下文单词。

 

 

图五: 前5个预测中的3个材料的对预测结果影响最大的上下文单词。 连线宽度与单词之间的余弦相似性成比例。 图源自 [3]。

 

算法能有效捕捉上下文单词(更准确地说,上下文单词的组合)。 这些单词很大程度上决定了某材料是否为热电材料。 材料科学家知道,比方说,硫属化物(一类材料)通常是良好的热电材料,并且拥有带隙,这在大多情况下至关重要。 本文展示了算法如何利用共同出现的单词进行学习。 上图仅显示了一阶连接,但更高阶的连接也可能有助预测。

 

在科学应用领域,自然语言处理(NLP)通常用来从文献中提取已知事实,而非进行预测。 这与股票价值预测这样的领域不同。 比方说,这些领域会分析与公司有关的新闻文章来预测未来股票价格如何变动。 但即使在这种情况下,大多数预测方法都有赖于提取自文本的特征,以及使用来自结构数据库中的附加特征制成的大型模型。

 

本文旨在推动用于科学发现的、直接的、无督导的NLP驱动的推理方法。   Word2vec不是最先进的NLP算法。 因此,自然而然地,下一步可能是采用更新颖的上下文感知嵌入进行替代,如BERT [5]和ELMo [6]。 同时也希望,其他学科的研究人员也能利用本文描述的方法,仅需极少人力监督就能通过机器辅助加速科学发现。

 

注意!!!

 

获取良好预测的重要步骤是将输出嵌入(Word2vec神经网络的输出层)应用于材料,将单词嵌入(Word2vec神经网络的隐藏层)用于应用关键词。 这有助于在摘要中高效预测共同出现的单词。 因此,本算法能确定在研究文献中的潜在“空白”,例如在未来研究人员会用作功能应用研究的化学成分。

 

Word2vec训练的代码和训练前的嵌入传送门:  https://github.com/materialsintelligence/mat2vec

 

代码中的默认超参数是本研究使用的参数。

 

参考文献

 

[1] T. Mikolov, K. Chen, G. Corrado & J. Dean,Efficient Estimation of Word Representations in Vector Space (2013), https://arxiv.org/abs/1301.3781

 

[2] T. Mikolov, I. Sutskever, K. Chen, G. Corrado& J. Dean, Distributed Representations of Words and Phrases and theirCompositionality (2013), https://arxiv.org/abs/1310.4546

 

[3] V. Tshitoyan, J. Dagdelen, L. Weston, A. Dunn,Z. Rong, O. Kononova, K. A. Persson, G. Ceder & A. Jain, Unsupervised wordembeddings capture latent knowledge from materials science literature(2019), Nature 571, 95–98

 

[4] L. Maaten & G. Hinton, Visualizing Datausing t-SNE (2008), Journal ofMachine Learning Research

 

[5] J. Devlin, M.-W. Chang, K. Lee & K.Toutanova, Bert: pre-training of deep

 

bidirectional transformers for language understanding (2018), https://arxiv.org/abs/1810.04805

 

[6] M. E. Peters, M. Neumann, M. Iyyer, M. Gardner,C. Clark, K. Lee, L. Zettlemoyer, Deep contextualized word representations(2018), https://arxiv.org/abs/1802.05365

 

相关链接:

 

https://towardsdatascience.com/using-unsupervised-machine-learning-to-uncover-hidden-scientific-knowledge-6a3689e1c78d

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注