Press "Enter" to skip to content

论文浅尝 – ICLR2021 | BERTology 遇上生物学:在蛋白质语言模型中解释注意力

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

 

 

来源:ICLR2021

 

:https://arxiv.org/abs/2006.15222v3

 

一.动机

 

Transformer架构已经被证明可以学习有用的蛋白质分类和生成任务表示。然而,在可解释性方面存在挑战。

 

二.亮点

 

本文通过attention分析蛋白质Transformer模型,通过attention(1)捕获蛋白质的折叠结构,将在底层序列中相距很远但在三维结构中空间接近的氨基酸连接起来(2)以蛋白质的关键功能成分结合位点为靶点(3)关注随着层深度的增加而逐渐变得更加复杂的生物物理特性。这一行为在三个Transformer架构(BERT、ALBERT、XLNet)和两个不同的蛋白质数据集上是一致的。并提出了一个三维可视化的方法显示attention和蛋白质结构之间的相互作用。

 

三.方法论

 

Model:

 

 

Attention analysis:

 

 

计算高attention对( )在数据集X中存在的比例。

 

Datasets:

 

 

ProteinNet用于氨基酸和contact map的分析,Secondary Structure用于二级结构的分析,在Secondary Structure的基础上创建了第三个关于结合位点和转录修饰点的数据集,其中添加了从蛋白质数据库web api获得的结合位点和PTM注释。

 

四.实验

 

 

4.1蛋白质结构

 

 

Figure 2

 

Attention与contact maps在最深层强烈一致:图2显示了根据公式1定义的指标,在被评估的五个模型中,attention如何与contact map相一致。在最深层发现了最一致的头,对接触的关注达到44.7% (TapeBert)、55.7% (ProtAlbert)、58.5% (ProtBert)、63.2% (ProtBert- bfd)和44.5% (ProtXLNet),而数据集中所有氨基酸对的接触背景频率为1.3%。单个头ProtBert- bfd具有最好的效果,其含有420M参数,同时也是唯一在BFD预训练。

 

考虑到模型是在没有任何空间信息的情况下进行的语言建模任务训练,这些具有结构意识的head的存在值得关注。一种可能是接触更可能发生生物化学作用,在接触的氨基酸之间产生统计依赖。

 

4.2结合位点和转录修饰点

 

 

Figure 3

 

在模型的大多数层Attention意在结合位点:对结合位点的关注在ProtAlbert模型中最为显着(图3b),该模型有22个头,将超过50%的注意力集中在结合位点上,而数据集中结合位点的背景频率为4.8%。三种BERT模型(图3a、3c和3d)对结合位点的关注也很强,注意头对结合位点的关注分别达到48.2%、50.7%和45.6%。

 

ProtXLNet(图3 e)目标结合位点,但不像其它模型强烈:最一致的头有15.1%attention关注结合位点,平均头将只有6.2%的attention关注结合位点,而前四个模型均值以次为13.2%,19.8%,16.0%,和15.1%。目前还不清楚这种差异是由于架构的差异还是由于预训练目标的差异;例如,ProtXLNet使用双向自回归预训练方法(见附录a .2),而其他4个模型都使用掩码语言建模。结合位点是蛋白质与其他大分子的相互作用位置,这决定了蛋白质的高级功能,即使序列整体进化,结合位点也将被保留,同时结合位点的结构也局限于特定的家族或超家族,结合位点可以揭示蛋白质之间的进化关系,因此结合位点可能为模型提供对个体序列变化具有鲁棒性的蛋白质的高级描述。

 

一小部分Head的attention意在PTMs, TapeBert中的Head 11-6集中了64%的注意力在PTM位置上,尽管这些只发生在数据集中0.8%的序列位置上。

 

4.3跨层分析

 

 

在较深层attention意在高级属性:图4中较深的层相对更关注结合位点和contact(高级概念),而二级结构(低级到中级概念)则更均匀地跨层定位;Attention probe显示关于contact map的知识主要在最后1-2层被编码进注意权重,这与基于文本的Transformer模型在较深层次处理更复杂的属性相一致;Embedding probe(图5,橙色)也表明,模型首先在较低层构建局部二级结构的表示,然后在较深层完全编码结合位点和接触图。然而,这一分析也揭示了在接触图的知识如何在嵌入中积累的明显差异,embedding是在多个层次上逐渐积累这种知识,而attention权重则只在最后的层次上获得这种知识。

 

4.4氨基酸和可替代矩阵

 

 

根据图6,attention head关注特定氨基酸,那幺每个head是否记住了特定的氨基酸或者学会了与氨基酸相关的有意义的特性,为了验证这个猜想,计算了所有不同氨基酸对与头部注意力分布之间的皮尔逊相关系数(图7 左)并发现与BLOSUM62(图7 右)的皮尔逊系数为0.73,表明attention适度与可替代关系统一。

 

五.总结

 

本文将NLP的可解释性方法应用于蛋白质序列建模,并在此基础上建立了NLP与计算生物学的协同效应并展示了Transformer语言模型如何恢复蛋白质的结构和功能特性,并将这些知识直接整合到它的注意机制中。虽然本文的重点是将注意力与已知的蛋白质特性协调起来,但人们也可以利用注意力来发现新的关系或现有措施的更细微的形式

 

Be First to Comment

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注