Press "Enter" to skip to content

针对大规模单细胞水平扰动实验的计算模型

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

如果说在单细胞(single cell)这个圈子有什幺方向具有商业化的可能,我可能第一反应就是将单细胞多组学测序和药物筛选(drug screen)或基因编辑(CRISPR editing)结合起来,使得研究者能看到单个细胞内部各个组学信息在特定药物干预或基因敲除手段下相应的结果。目前针对药物(或者说分子化合物,molecular compounds)的最近两年有名的工作可能是Srivatsan等人在2020年science上发表的工作,sci-Plex[1](说句题外话UW做出了很多nb的tech)。针对单细胞基因表达扰动方面最着名的可能就是Perturb-seq[2],另外Rahul组也把CRISPR screen在单细胞中推到了RNA+protein的多组学水平,ECCITE-seq[3]。

 

虽然实验技术确实发展如火如荼,但我认为,计算工作者,特别是CS出身的计算工作者,存在除了假设驱动(hypothesis driven)和数据驱动(data driven)两种研究思路,还有第三种就是技术缺陷驱动(technology‘s defect driven)。就好比单细胞测序刚出来那会儿质量还不太行的时候,很多工作都围绕着如何对数据进行缺失值填补(imputation)。但随着测序技术发展带来的数据质量的提高,这类计算工作其实都会面临逐步淘汰的问题,因为都仅仅解决一个技术刚出现时的“临时性缺陷”,必然随着其不断完善而丧失“意义”。

 

回到单细胞扰动实验上来,目前扰动测序存在两个重要的问题,第一数据质量确实很差,存在很多假阳(存在“标签”但未扰动成功的细胞),噪音强。第二是这些实验技术大多基于样本并(多)行技术(sample multiplexing techniques),文库构建昂贵,特别的无法scale到上千个不一样的compounds或sgRNA,或组合。而不同的compounds/sgRNA的可以有的组合必然是天文数字。所以针对单细胞扰动实验,利用计算的手段有潜力可以极大的促进和优化实验设计,从我看来这个方向是可以能很好结合实验技术和计算手段,来推进药物测试,研发和靶点研究。这一段时间围绕着扰动实验有了很多有意思的计算工作的preprints出来,总结一下目前该方向重要且有意思的问题主要是两个:

 

1. 如何对实验中未进行测定的扰动组合甚至没见过的扰动类型进行预测?

 

2. 如何利用单细胞扰动数据来推断潜在的分子调控机制?

 

对于问题1是很好理解的,假设在观测数据中我们看到compounds A/sgRNA A和compounds B/sgRNA B对细胞的扰动,希望能基于这样的信息预测compounds A + compounds B的效应,这种效应很有可能是非加性的,因而需要一些非线性的模型能够习得不同compounds的真正潜在效应。对于问题2,不同于一般的组学数据,扰动后的数据集已经引入了干预(intervention),基于干预的结果可以推定某compounds或基因与下游分子事件(例如基因的异常表达)之间的因果关系。

 

针对以上两个问题,我收集了最近一段时间单细胞扰动实验相关的算法工作,整理如下,推荐读者深入研究

 

1. Learning interpretable cellular responses to complex perturbations in high-throughput screens

 

第一篇工作是由Facebook AI(现在应该叫metaAI了= =)和Theis Lab合作的对药物组合扰动的转录谱预测,组合扰动自编码器(Compositional Perturbation Autoencoder)。首先对基因表达谱进行encoding,同时对one-hot-encode(并不完全是0-1向量,非0的元素中是该药物的剂量大小信息)以后的perturbation vector利用dosage encoder转变成一个scalar。CPA的idea在于,把观测到的扰动后的基因表达谱分解(disentangle)成基础表达状态(z)和扰动效应的叠加。为了学到基础表达状态z,对于encode后的embedding,类似GAN加入一个对抗网络(adversarial network)对Perturbation Label进行discrimination,这样就可以使得得到的embedding能够remove perturbation的效应,然后再单独引入一个perturbation embedding和习得的basal state z进行叠加再输入给decoder。

 

CPA的好处在于基于embedding中线性叠加模型的基础上可以很容易进行反事实推断得到新的组合扰动的结果,同时也可以很容易引入其他covariate再习得针对这些covariate的embedding,同时也可以习得不同剂量大小下药物具体的效应有多强。但缺陷在于对于从来没有在数据集中见过的药物,CPA很难进行预测。

 

2. GEARS: Predicting transcriptional outcomes of novel multi-gene perturbations

 

第二篇工作是Leskovec Lab提出GEARS模型,基于图神经网络对多基因扰动后的转录谱进行预测。首先需要构建基因关系图(GRG,Genetic Relationship Graph)和扰动关系图(PRG,Perturbation Relationship Graph),GRG可以从基因共表达关系中习得,而PRG可以利用基因本体的层次树信息(Gene Ontology),因而其潜在假设在于对于那些落在相同通路的基因应该在扰动以后具有相似的效应。基于这两个图习得不同节点上的embedding,然后基于观测到的扰动信息,将embedding的结果利用组合算子(Composition Operator)进行叠加。这里有个小细节,首先需要先对Perturbation embedding进行叠加再加上MLP得到新的维度和gene embedding一致的新的embedding,再和gene embedding进行叠加再输入到另一个MLP中得到最终的组合gene和Perturbation信息的embedding,最终将所有基因的embedding vector输入到Cross-gene MLP层习得跨基因之间的互作关系,再连接基因特异的MLP层去fit扰动后的转录谱。

 

类似于CPA的basal components + perturbation effects,GEARS通过图的关系习得gene embedding + perturbation embedding,但不同于CPA简单的线性叠加,GEARS在组合算子中考虑到使用了两层的非线性变换,同时在下游预测的时候考虑到了基因之间的互作关系,使得对组合扰动的非加性效应预测更加准确。另外这个工作也可以很容易外推到对compounds的预测,可以通过compounds之间结构的相似性得到一个新的PRG来替换Gene Ontology Graph即可。

 

3. PerturbNet predicts single-cell responses to unseen chemical and genetic perturbations

 

第三篇工作是Welch Lab提出的PerturbNet,这个工作从全新的角度来看待扰动预测。首先可以利用自编码器来对compounds或者gene perturbation进行学习得到不同扰动类型的表示,针对输入的drug/compounds,首先利用SMILES变换成string形式,再编码成one-hot matrix后再输入进VAE去习得表示,对于基因扰动,类似GEARS,也是利用基因本体图对每个基因所在的通路进行one-hot编码,再用VAE习得表示。其次对于扰动后的表达谱数据,直接输入进VAE学习其表示,这样就可以得到扰动表示网络和细胞表示网络。PerturbNet有趣的地方在于利用conditional invertible neural network去习得两种representation/domain之间的mapping function,这样对于新输入的Perturbation embedding就可以直接mapping到期所在的cell state space上的“位置”,然后decode出其对应的表达谱。同样的如果我想得到cell state space上一个具体的细胞状态,也可以看其相应的Perturbation应该是怎样的。

 

4. MultiCPA: Multimodal Compositional Perturbation Autoencoder

 

第四篇工作是Theis Lab新提出来的MultiCPA,其实可以简单理解为是totalVI+CPA,即在encoder之后得到embedding时利用对抗网络来习得一个basal state,再独立的学习perturbation embedding。这里MultiCPA相比于CPA的改进在于可以同时进行两种不同的modality在没见过的扰动组合条件下的预测。而在进行多模态的encode过程中MultiCPA考虑了两种方式,一种是直接concatenate然后embedding,另外一种是分别进行encode然后再利用PoE(Product-of-Expert)混合模型得到joint embedding。这里不再对MultiCPA进行多余的赘述,有兴趣可以延展阅读totalVI[4]和Theis Lab另一篇工作Multigrate [5]。

 

5. Causal identification of single-cell experimental perturbation effects with CINEMA-OT

 

利用intervention探究因果关系是很容易的,只需看某个特定的cell在有干预和无干预两种情况下观测(observation)的变化即可。但现实应用到扰动数据存在很多问题,第一不可能对于同一个cell同时进行两种处理(有干预或无干预),只能找到和处理(treatment)无关的状态相近的两个细胞去看有干预和无干预下的观测差异。但问题在于现实的高维数据又同时可能存在一些未观测到的hidden confounder,这就使得如何确保除了感兴趣的treatment,其他confounders要尽可能被控制相似成了个难题。David van Dijk Lab提出了一个模型来解决这个问题,即可以通过独立成分分析(ICA)来分离出和treatment相关的signal以及其他无关的代表confounder 的signal,对于confounder signal利用OPT去看perturbed cell和unperturbed cell的best matching,这样就使得能控制每个Perturb cell找到其confounder差异最小的Unperturb的状态,再相减就得到了某个扰动下具体的效应是怎样的。

 

推荐阅读:

 

[1] Massively multiplex chemical transcriptomics at single-cell resolution

 

[2] Perturb-Seq: Dissecting Molecular Circuits with Scalable Single-Cell RNA Profiling of Pooled Genetic Screens

 

[3] Characterizing the molecular regulation of inhibitory immune checkpoints with multimodal single-cell screens

 

[4] Joint probabilistic modeling of single-cell multi-omic data with totalVI

 

[5] Multigrate: single-cell multi-omic data integration

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。