1. 介绍

背景

  • 单细胞CRISPR实验成本高;

  • 目前两类预测模型:context generalization & perturbation generalization

  • Foundation model v.s. linear baseline model

  • 如何合理的评价模型的预测能力

分析概述

1)对于context generalization:14个模型(4 baseline models),12个数据集

2)对于perturbation generalization:18个模型(4 baseline models),17个数据集(可分为gene与chemical两类)

3)使用6个评价指标,比较模型效果:3个Population-average (MSE, E-distance, PCC-delta), 3个Population-distribution (Wasserstein distance, KL-divergence, Common-DEGs),其中重点关注了MSE与PCC-delta

4)使用了模拟数据进一步评价模型的效果(robustness)

结果概述

1)没有一种模型适合所有数据集场景,都有自身局限性,尤其是对于context generalization。(提供了user guidance,视情况选择合适的模型);

2)对于perturbation generalization,在小数据规模下,简单的baseline model表现更好;而大数据规模性,Foundation model/深度学习模型表现较好;

3)使用cellular context embedding strategy可提高context generalization的效果。


2. Results

Result-1:系统介绍

系统介绍了本文面向两类扰动场景所采用的(1)带比较的模型方法,(2)扰动数据集,(3)评价方法与角度。

Result-2:context generalization模型比较分析

1)context generalization的模型表现,主要基于out-of-distribution的leave-one-out cross-validation(逐一将每种细胞系数据作为外部验证);

2)在所有数据集的平均表现来看,部分模型在多种指标中整体表现较好,个别模型在特定指标中最好;

3)扰动的协同性信息可能会对提高模型预测有帮助,例如time-point/dosage。

Result-3:context generalization模型局限性分析

1)同一模型在不同数据集的表现差异非常大;

2)经多个角度实验,发现当外部验证的 context与训练集的context差异比较大的时候,验证效果会比较差;反之会比较好。

3)最后提供了一个user guidance,供用户在context generalization的场景下,根据自身情况,选择合适的模型。

Result-4:perturbation generalization模型比较分析

1)分为gene与chemical两类perturbation分别benchmark,主要还是对前者进行了分析讨论;

2)在训练数据集比较大的情境下,深度学习模型/foundation模型效果是会比较好;

3)先前研究指出的Linear模型反而更好的情况主是针对数据集较小的情况。

Result-5:perturbation generalization模型局限性分析

1)组合扰动预测的效果较差,尤其是相较于linear base model;

2)在扰动数据异质性比较大,或者扰动效应较大的情况下(strong perturbations and heterogeneous perturbations),模型的泛化性比较差;

3)population-distribution metrics指标整体都不好,尤其对于conmon-DEG;

4)最后同样提供了一个user guidance


3. Discuss

1)首先概述了文章的主体内容,给出了每种扰动场景下的最优模型

2)总结了现有模型方法的不足

  • 在context generalization上,对time-point/dosage的利用不足
  • population-distribution相关评价指标都偏低
  • linear base model在small-scale数据中优势
  • 在context generalization上的泛化性整体偏低,作者提出通过添加cell-line embeddings的先验知识来解决,具体在附件,正文没有详细介绍

3)本文研究的不足

  • 当前的扰动数据集还比较有限
  • 本文所提出的cell-line embeddings方法还比较初期
  • 由于数据异质性而导致population-distribution较差的问题,并没有解决
  • 本文所使用的模拟数据来评估robustness的方法仍有不足。(有必要参考scDesign3)

4)未来展望

  • 更多的扰动数据
  • 在建模时,考虑整合更多的生物先验知识
  • chemical perturbation prediction研究还较少

4. Personal thinking

  • 这篇文章的布局逻辑还是比较清晰的。首先系统介绍了研究框架,包括模型、数据、指标等。然后分为两种预测场景,比较了不同模型的效果,再分析其局限性;
  • 在分析的最后,会给出一个user guidance,介绍了每种具体预测场景下所建议的模型。这一点想的很周到,给读者以直观的参考;
  • 虽然正文比较凝练,但是细节很多,附件材料也很充分,值得课题直接相关的人员深入学习。