作者:吴炜坤
参考:Shuai R W, Ruffolo J A, Gray J J. Generative Language Modeling for Antibody Design[J]. bioRxiv, 2021.
本文序
IgLM模型是上期主角AntiBERTy的姊妹篇,同样由RosettaCommons的Gray Lab团队所开发,IgLM主要关注的问题是单克隆抗体在商业化之路上的可开发性问题,通常在抗体的大规模表达、纯化过程中常见的问题如稳定性低、易聚集以及高的免疫原性等。IgLM的作者Richard尝试通过使用深度语言模型来生成或设计长度可变的抗体序列库,把抗体设计问题看成“条件性的词填空”问题(类似GPT2),并在OAS数据库的5亿抗体序列上进行了训练。
一、背景介绍
目前主流的单克隆抗体(MAB)生成是通过动物免疫-杂交瘤技术获得免疫组库,再通过结合噬菌体展示技术对库进行进一步地富集筛选,从而在体外得到选择特异性、高亲和力的单克隆抗体。但是传统步骤仅关注亲和力的高低,忽略了治疗性单克隆抗体面临的可开发性问题,如表达差、溶解度低、热稳定性低和易聚集性等。传统的解决方案是通过基于结构计算或生物信息学统计或构建新的抗体序列子库进行第二轮的改造。
合成DNA文库的方法进行抗体筛选和优化的一种重要手段,比较经典的是抗体药王阿达木单抗的筛选。这种技术通过在抗体的CDR区引入新的DNA片段来产生新的抗体,然而合成库的空间被约束在10的13次方左右,因此必须缩小序列库的空间,提高序列库的质量方能有效达到优化的目的。此前已有人通过自回归语言模型来生成抗体序列,但这些模型都是非定向性的,作者在本文中提出了基于条件的抗体序列生成模型来尝试提升序列生成的质量。
二、模型构建
作者把抗体生成问题当做句子的完型填空,具体做法是(微调GPT-2 Transformer):
给定抗体的氨基酸序列A=(a_1,a_2,a_3…,a_n)长度的张量,随机选择一个位点j以及后续的若干氨基酸作为Mask的区域S = (a_j, …, a_j+m−1),使用单个mask token将S替换;得到AS = (a_1, …, a_j−1, [MASK], a_j+m, ……i_n)。目的是学习给定AS条件下,S的序列的概率分布。
具体的训练数据格式X = (c_c , c_s , a_1 , …, a_j−1 , [MASK], a_j+m , …, a_n , [SEP], a_j , …, a_j+m−1, [ANS])。c_c,c_s为序列数据中的物种信息、链类型信息作为条件性label。[MASK]中代表随机替换的序列区段,[SEP]到[ANS] token 中的序列代表了原始mask的序列信息,[ANS]代表终止符。
模型参数为θ,训练的目标是最大化p(X | θ),使用链式法则可以将p(X |θ)进行分解,基本操作是吃掉整条重链或轻链的序列信息再来预测MASK区域的每一个氨基酸的类型分布概率。
三、模型评估
作者对模型的评估分为了3部分:
3.1 困惑度指标
在第一部分中,采用了NLP语言模型中常用的指标困惑度,作者仅计算了模型对[SEP] token之后区域的困惑度,称之为infilling perplexity(IP)。在测试集上,IgLM的IP困惑度平均达1.53,对比随机序列的为21。说明模型学习到了抗体序列的分布特点。但是抗体的CDR区的变异度较高,而框架区的序列保守性非常高,为了进一步评估模型能力,作者提出了一种基于滑动窗口的困惑度评估方法,以滑动的方式对序列进行Mask并预测。结果与设想一致,在抗体的Framework区困惑度低,而在CDR区困惑度高,特别是CDR-H3区域。同时值得注意的是骆驼组的纳米抗体的困惑度明显高于其他物种的传统抗体组,除了数据量不均衡的问题以外,纳米抗体本身的序列多样性就较高,另一方面纳米的CDR具有明显的特殊结构motif以及二硫键的影响。
3.2 抗体序列生成
在第二部分的评估中,作者将IgLM模型用于抗体序列生成测试(基于物种和抗体链的类型进行条件式生成)。由于模型是在ILM的框架下训练的,因此所有的特殊token都会被自动生成,因此需要增加一步filter将token预测顺序不正确的序列过滤。作者用温度采样的方式生成(T = 0.7~1.7)人源抗体和驼源纳米抗体各50条。结果可见对这些序列进行BLAST搜索并根据物种标签进行对其时,不同温度的序列平均相似性存在下降的趋势,在人类轻链的生成中现象更加地明显。
进一步地,这些生产的纳米抗体序列提交至ColabFold中进行结构预测,结果表明抗体结构均有明显的保守性,关键的保守氨基酸得到了很好地保留,也别是一些对纳米结构起关键稳定性作用的CDR-Framework远程相互作用二硫键,提示模型学到了一定的远距离依赖信息。
3.3 合成序列文库生成
合成序列文库生成的问题,可以被转化为CDR序列生成的问题。作者将序列C = (c c, c s, a 1, …, a j−1, [MASK], a j+m, …, a n, [SEP])输入模型,并生成对应的空缺序列,直到[ANS] token 被生成。作者选择了anti-issue factor antibody(PDB ID:1JPT)作为测试案例。
分别生成了3个序列文库:
baseline library:对照组为在原有抗体的CDR-H3区域的序列上进行5个随机突变的序列库。
designed library:将CDR-H3区域的序列进行masking, 并使用top-p samlping(p=0.5)的方式进行生成。
grafting library:从测试组中的数据中,随机选择了1000个抗体,并将1JPT的CDR-H3序列替换原有序列。
数据分析:
使用了ABlooper神经网络对CDR区的骨架结构进行预测,随后使用Rosetta对侧链进行预测和整体结构的快速优化。
获取大量的抗体结构后,作者基于结构和序列信息对物理特性和抗体可开发性,指标包括以下:等电点、序列的编辑距离 (Edit distance)、MHC免疫原性、聚集性倾向性 (SAP) scores、人源化程度(OASis)、溶解性(CamSol score)。
具体的设计和评估流程图如下:
从测试结果来看,等电点上各个文库的分布差异很小,生成的序列在聚集性倾向性、溶解度两个指标上有略微的提升。值得特别注意的是,使用NetMHC2pan对IgLM设计的序列进行评估时,序列具有比对其文库组更低的免疫原性,同时抗体的人源化程度高的序列比例更高。
后续作者进一步对不同的另外一个抗体Protein M antibody(PDB ID: 4NZU),也进行了相同的测试,但在这个案例中,生成的序列各项指标并没有提升的很明显。
四、结语
阿坤点评:IgLM在最新的OAS数据上进行训练,使用了条件式生成的语言模型来解决抗体定向生成和优化的需求,因为在抗体的优化改造问题上,模型必须获取全局序列信息作为基础,使用这种填空式生成的模型特别适合该问题。但缺点是IgLM本质上将抗体的重链和轻链进行分开处理和生成, 忽略了实际抗体的重链和轻链之间是相互packing的相互作用,提示后续的语言模型需要感知来自其他链的信息,方能更好地用于初始序列的优化或生成。 此外IgLM在两个测试组上的一些可开发性指标差异度较大,提示使用此模型在后续的实际项目应用时可以考虑适当进行fintuning和迭代式生成。
Be First to Comment