Press "Enter" to skip to content

Computational Protein Design with Deep Learning Neural Networks

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

针对特定结构和功能的蛋白质进行工程和设计,不仅加深了对蛋白质序列结构关系的理解,而且在化学、生物学和医学等领域都有广泛的应用。在过去的三十年里,蛋白质设计取得了显着的成功,其中一些设计是由计算方法指导的。最近一些成功的计算蛋白设计的例子包括新折叠,酶设计,疫苗,抗体,新的蛋白质组装,配体结合蛋白和膜蛋白。

 

Results

 

Networks architecture, input, and training

 

 

数据集:数据集来源于PDB且具有如下特征:

 

(1)用x射线晶体学确定结构;

 

(2)分辨率优于 $$2 \r A $$;

 

(3)链长大于50;

 

(4)结构没有任何DNA/RNA分子。

 

移除同源蛋白质后分为三个数据集非别是30%、50%、90%(SI30,SI50,SI90)

 

输入:对于每个数据集,提取每个残基及其基于Cα-Cα距离的N(N=10、15、20、25、30)最近邻残基为聚类。

 

过程:目标残基及其领域的残基的特征作为一个input输入到残基概率网络得到目标残基的概率(图A),同时也将input输入到权重网络中得到一个权重输出(图B)。残差概率网路和权重网络本文模型架构的子网络,将这两个输出concat后输入到后续网络最终输出概率。

 

训练:线性层 ReLU 作为所有层的激活函数。训练采用 交叉熵(categorical cross entropy ) 作为损失函数,采用 随机梯度下降 法进行优化,学习率为 0.01 ,批处理大小为 40,000 ,epoch是 1000 。

 

Overall and amino acid specific accuracy

 

表 神经网络在不同邻域残基的不同数据集上的交叉验证的总体精度

 

Indentity cutoffN=10N=15N=20N=25N=30
30%0.329

$$(0.001)^*$$

0.340

$$\mathbf{(0.005)} $$

0.333

$$(0.009)$$

0.331

$$(0.006)$$

0.321

$$(0.015)$$

50%0.353

$$(0.003) $$

0.364

$$\mathbf{(0.005)} $$

0.358

$$(0.005) $$

0.359

$$(0.006) $$

0.342

$$(0.007) $$

90%0.367

$$(0.001) $$

0.383

$$\mathbf{(0.004)} $$

0.382

$$(0.006) $$

0.379

$$(0.007) $$

0.352

$$(0.013) $$

 

*括号中为标准差

 

正如预期的那样,由于更多的数据样本和样本之间的相似性,具有更高蛋白质确定率的数据集显示出更好的准确性。但从SI30到SI90数据集的数据样本数量几乎翻了一番,精度的提高并不显着。N=15时准确性最好,小于15时较少的相邻残基可能不足以代表目标残基的环境,而大于15时包含太多的领域残基会在输入中产生噪声。

 

 

针对总体精度最好的SI90N15分析每种氨基酸的召回率和精确度。其中Gly(甘氨酸)和Pro(脯氨酸)的召回率和准确率都较好。因为Pro具有特殊的刚性构象,而Gly在主链二面体方面具有高度的灵活性。召回、精度较低的氨基酸在训练集中的丰度通常较低,例如Met、Gln和His。

 

 

计算了每个天然氨基酸被预测为20个氨基酸的概率,并将其绘制在二维天然氨基酸和预测的热图中(如上图)。x轴和y轴上的氨基酸是根据它们的性质和彼此之间的相似性来排序的。正如预期的那样,对角线网格显示出更高的概率。有趣的是,沿着对角线有几个组,包括

 

网络的输出是20个氨基酸的概率在一个目标位置,除了上面提到的准确性,也可以计算top-K精度:如果源氨基酸在top-K预测(K氨基酸概率最高),预测被认为是正确的。在SI90N15数据集上训练的网络的前2、3、5和10个准确率分别达到54.3%、64.0%、76.3%和91.7%。

 

表 Rosetta固定主干设计在三个蛋白质有/没有残基类型约束的平均序列准确率

 

ProteinNo-restrain*Top 1Top 3*Top 5*Top 10*
2B8I$$0.276 \pm 0.033 $$0.337$$0.306 \pm 0.017$$

(0.558)

$$\mathbf{0.354 \pm 0.021} $$

(0.688)

$$0.293 \pm 0.037 $$

(0.883)

1HOE$$0.408 \pm 0.026 $$0.338$$\mathbf {0.473 \pm 0.018} $$

(0.635)

$$0.441 \pm 0.018 $$

(0.689)

$$0.416 \pm 0.028 $$

(0.851)

2IGD$$0.409 \pm 0.034$$0.475$$0.473 \pm 0.023 $$

(0.705)

$$0.401 \pm 0.028 $$

(0.754)

$$0.408 \pm 0.032 $$

(0.967)

 

应用Top-3、5和10预测限制设计三个蛋白质包括all-α蛋白(2B8I60),all-β蛋白质(1HOE61)和混合αβ蛋白(2IGD),这些蛋白质都不包含在训练集中。蛋白质的晶体结构被用作在SI90N15数据集上训练的神经网络的输入。每个位置的固定主干设计程序中的Top-3、5和10个氨基酸作为约束条件。作为对照,列出了这些蛋白质上神经网络的最高准确性,并且进行了固定主干设计(每个位置允许所有20种天然氨基酸)。由于fixbb使用了一种随机设计算法,为每个蛋白质生成了500个序列,并计算出与天然蛋白质的平均序列一致性。

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注