Press "Enter" to skip to content

可重用性报告:使用图神经网络捕获生物对象的属性及其关系

编辑 | 萝卜皮

 

图神经网络(GNN),尤其是图卷积网络(GCN),已越来越多地用于对复杂交互进行建模。GNN 背后的一个基本思想是,对象的某些属性(由图中的节点表示)由与其直接或间接交互的对象的属性反映,其中直接交互由图中的边表示。在生物医学中,GNN 已被用于各种应用,例如预测蛋白质功能和药物-疾病关联。

 

之前,Schulte-Sasse 团队提出了 GCN 在生物医学中的新用途:识别癌症基因。他们的方法 EMOGI(可解释的多组学图集成)通过在蛋白质-蛋白质相互作用(PPI)网络上聚合信息来集成多组数据。综合信息显示出比单独使用多组数据或单独使用 PPI 连接更好地预测癌症基因。

 

 

论文链接: https://www.nature.com/articles/s42256-021-00325-y

 

在这里,香港中文大学曹沁、徐国荣的研究团队评估了 Schulte-Sasse 团队报告结果的可重复性。港中大研究人员还展示了其他生物网络可以用来代替 PPI 网络,并证明 GCN 方法可以用于另一个生物医学应用:预测必需基因。

 

该研究以「 Reusability report: Capturing properties of biological objects and their relationships using graph neural networks 」为题,于 2022 年 3 月 17 日发布在《 Nature Machine Intelligence 》。

 

 

重现报告的结果

 

港中大研究人员(以下称研究人员皆指港中大团队)从 github 下载了 EMOGI 的源代码,并根据 Schulte-Sasse 团队描述的程序在给定数据集上重新训练模型。对于每个实验,他们使用不同的随机种子进行了五次独立运行,并报告了平均性能和标准偏差。

 

EMOGI 地址: https://github.com/schulter/EMOGI

 

对于人类 PPI 网络的所有六个版本,他们的平均 AUPRC 值接近原始论文中报告的值,偏离其报告值的 -1.486% 至 0.298%。偏差可能是由于 EMOJI 代码中缺少固定的随机种子以及 TensorFlow 中某些图形处理单元(GPU)函数的非确定性实现。

 

然后研究人员仔细检查了下载的代码,发现输出层添加了一个冗余的 sigmoid 转换。他们与 Schulte-Sasse 团队确认这确实是一个错误。修复此问题后,EMOGI 的性能普遍得到改善。

 

 

图 1:再现 EMOJI 的主要报告性能结果。

 

接下来,研究人员测试了在没有多组学特征的情况下只有 PPI 信息可用时的预测性能。在原始代码中,这是通过将特征维度缩小为 1 并用常数值 1 填充所有条目来实现的。他们复制的结果与原始论文中报告的结果相似。

 

研究人员还测试了由此设置的多种技术变体,即修复错误和/或使用提前停止策略,该策略在优化期间根据与最终测试集分开的验证集的性能采用最佳中间模型。一般来说,在其中一些变体中性能有所提高,但没有达到同时使用多组学特征的水平。

 

研究人员认为,通过使用一个单一的特征矩阵来实现仅 PPI 设置并不理想,因为所有节点都将根据它们的特征变得无法区分,因此它们之间的区别仅在于它们的直接和间接交互伙伴的数量 。因此,他们沿用 GCN 的原始实现,改为使用方形标识矩阵(即 one-hot 编码)作为特征矩阵,直接为每个节点赋予唯一的 ID。

 

为了避免过度拟合,研究人员采用了早停策略。结果明显好于全一个矩阵的结果,这表明 PPI 网络中包含的一些额外的图形结构信息(除了交互计数之外)对于识别癌症基因很有用。

 

令人惊讶的是,基于 PCNet 的 PPI 网络(AUPRC = 0.784)的 one-hot 矩阵实现的 PPI-only 设置的性能甚至优于涉及 PPI 和多组信息的 EMOGI 设置(AUPRC = 0.745)。

 

允许节点可区分的另一种方法是创建一个高维随机节点特征矩阵,例如具有从标准高斯分布中采样的值的矩阵,这在概念上与 one-hot 编码相关。研究人员测试了这种随机高斯初始化方法,在学习节点嵌入的过程中,特征矩阵要幺是固定的(RGF),要幺是可学习的(RGL),具有不同长度的特征向量。RGL 的癌症基因预测性能始终高于 RGF。

 

在 PPI 网络的六个版本中,one-hot 编码的预测性能有五个高于 RGL,但随着特征向量长度的增加,RGL 的性能呈现上升趋势。

 

使用共表达网络预测癌症基因

 

为了使 GNN 变得有效,交互网络应该连接在目标应用程序的上下文中彼此相关的对象,通常以正强化的形式。对于预测癌症基因的应用,使用 PPI 连接基因的一个合理原因是,相互物理作用的蛋白质可能属于某些共同途径,如果一个途径中的一个成员在癌症中起关键作用,其他成员也可能起关键作用。

 

按照这个逻辑,连接可能属于相同途径的基因的其他相互作用网络,也可能有助于预测癌症基因。一个这样的候选者是共表达网络,其中如果两个基因在大量样本中具有强共表达,则它们是连接的。基本思想是,如果两个基因共表达,则可能有理由认为它们的基因产物应该同时可用,这可能表明它们在功能上是相关的。

 

为了测试共表达网络是否对预测癌症基因有用,研究人员从 COXPRESdb8 下载了人类基因共表达数据。使用相互等级阈值,构建了一个主共表达网络。为了直接与 PPI 结果进行比较,他们通过仅保留主共表达网络中也分别存在于六个版本的 PPI 网络中的基因,生成了六个不同版本的共表达网络;同时,使用共表达网络和多组学特征或仅使用共表达网络对癌症基因进行建模。基于共表达网络与来自 CPDB PPI 网络的基因的验证集性能,使用网格搜索调整超参数。

 

COXPRESdb8: https://coxpresdb.jp/download/Hsa-u.c2-0/coex/

 

从结果来看,当以共表达网络为输入时,EMOGI在预测癌症基因方面的表现不如以PPI网络为输入,但仍远优于随机预测器。例如,当 EMOGI 同时具有共表达网络和多组学特征时,共表达网络的平均 AUPRC 值为 0.532-0.669,而 PPI 网络的平均 AUPRC 值为 0.701-0.775。

 

这些结果是预期的,因为两个基因可以由于属于同一途径以外的原因共表达,例如在第三条途径下游的两条不同途径中。

 

此外,研究人员选择一个相当大的相互等级阈值导致一些共表达不是很强的基因也被连接起来。如果选择较小的阈值,网络边缘将代表更强的共表达基因对,但同时网络中的边缘数量会减少,这也可能会妨碍预测性能,因为整个网络会变得更加碎片化。

 

 

图 2:使用 EMOGI 预测癌症基因的性能(AUPRC 值),但其 PPI 网络被共表达网络取代。

 

尽管如此, 这个实验确实证明了 GCN 框架的灵活性,交互网络可以很容易地被另一个网络取代。

 

预测必需基因

 

必需基因是其功能丧失扰动具有有害影响的基因,其可能发生在不同水平,例如降低关键代谢物的产生和降低细胞存活率。现有的方法旨在,使用来自序列和蛋白质相互作用的特征来预测基因的重要性。

 

在原论文中,Schulte-Sasse 团队表明新预测的癌基因(NPCG)往往是癌细胞系中的必需基因。由于这种趋势,研究人员假设 EMOGI 捕获的多组学特征和 PPI 网络中包含的信息也可以直接预测必需基因。

 

为了测试它,他们从 DEG 数据库下载了 16 个人类必需基因数据集,其中总共包含 8,256 个独特基因。根据之前的一项研究,将至少五个数据集中包含的基因作为必需基因的正例,将 16 个数据集中未包含的基因作为负例。然后使用 EMOGI 预测必需基因,在每种情况下过滤 PPI 网络中未包含的基因,基于将所得基因随机划分为遗漏测试集、训练集和验证集。执行网格搜索以根据验证集的结果调整超参数。

 

结果表明,EMOGI 在预测必需基因方面取得了良好的表现,平均 AUPRC 值在 0.725 到 0.851 之间。与仅提供其中一个相比,同时提供 PPI 网络和多组学特征时,预测性能始终更好,再次证明了使用 GCN 聚合特征相对于网络邻域的优势。

 

 

图 3:使用 EMOGI 和基线方法预测必需基因的性能(AUPRC 值)。

 

图注意力网络

 

EMOGI 是在 GCN 之上开发的。随着图学习方法的快速发展,还有其他 GNN 结构已被证明在各种应用中优于 GCN,例如 GraphSAGE、图注意力网络(GAT)和图同构网络(GIN)。其中,GAT 被证明一直是表现最好的之一。GAT 背后的关键思想是注意力机制,它可以将不同的权重分配给邻域中的不同节点。

 

为了测试使用 GAT 是否可以比 GCN 更准确地预测癌症基因,将 EMOGI 的 GCN 结构替换为 GAT 结构。研究人员使用了两种不同的 GAT 实现,即原始 GAT 论文中提出的 TensorFlow 实现和 Deep Graph Library(DGL)中的 PyTorch 实现。

 

研究人员使用不同的随机种子重复每个实验 10 次,并报告性能值的整体分布。由于GAT最初的TensorFlow实现的训练时间较长,在每次运行中,他们只能为每个版本的PPI网络训练一个模型,而不是使用EMOGI最初的集成方法,该方法涉及通过十倍交叉验证获得的10个模型,研究人员只使用三个版本的PPI网络进行测试。

 

比较结果(图 4)表明,基于原始 TensorFlow 实现的 GAT 的性能在不同的运行中差异很大。相比之下,GAT 的 DGL 实现导致了更准确和稳定的预测。

 

总的来说,两种 GAT 实现的性能都低于 GCN,并且在 AUROC(area under the receiver–operator characteristics)方面的性能差距更小,这与之前一些研究的结果一致。

 

AUPRC 和 AUROC 的不同性能差距可能是由于 AUPRC 的特性,即当正负集的大小不平衡时,它比 AUROC 更具信息性和敏感性。

 

 

图 4:GATs和GCNs在癌症基因预测中的比较。

 

讨论

 

在这项研究中,港中大团队证明,使用 Schulte-Sasse 团队提供的代码和数据。通过修复编程问题和更改网络节点的编码,他们能够将再现结果分别提高 0.412-9.559%(图 1 中的第 2-3 行)和 7.965-45.455%(第 6-8 行)。后一个结果特别有趣,仅使用 PPI 网络中包含的信息,即使不考虑基因的多组学特征,也可以高精度地预测癌症基因。

 

从概念上讲,one-hot 编码使 GNN 能够记住节点 ID,从而区分具有相似图结构上下文的节点。它在社交网络应用程序中带来了良好的预测能力,而无需额外的节点功能。

 

另一方面,当引入在训练阶段未见的新节点时,它也会给应用模型带来困难,当节点集(大部分)固定时,这不是主要问题,就像蛋白质编码基因的情况一样。

 

此外,当节点特征也可以在很大程度上识别节点时,one-hot编码将变得多余。这可以解释为什幺连接 one-hot 编码和节点特征可能不会提高某些任务的性能。

 

除了重现 Schulte-Sasse 团队的结果外,研究人员还展示了 GCN 在替换交互网络(从 PPI 到共表达)和改变预测目标(从癌基因到必需基因)方面的灵活性。

 

该研究还揭示了使用 GAT 的实际困难,至少是他们使用的 TensorFlow 实现,因为它的训练时间长并且在他们的预测任务中结果不可重现。GAT 的性能似乎也对其超参数的值相当敏感。一般而言,GAT 在某些应用程序中可能有用,但显然有一些特定的先决条件仍未得到很好的表征。

 

论文链接: https://www.nature.com/articles/s42256-022-00454-y

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注