- Benchmarking algorithms for generalizable single-cell perturbation response prediction
- 11 December 2025, Nature Methods
- https://doi.org/10.1038/s41592-025-02980-0
- https://github.com/bm2-lab/scPerturBench/
1. 介绍
背景
-
单细胞CRISPR实验成本高;
-
目前两类预测模型:context generalization & perturbation generalization
-
Foundation model v.s. linear baseline model
-
如何合理的评价模型的预测能力
分析概述
1)对于context generalization:14个模型(4 baseline models),12个数据集
2)对于perturbation generalization:18个模型(4 baseline models),17个数据集(可分为gene与chemical两类)
3)使用6个评价指标,比较模型效果:3个Population-average (MSE, E-distance, PCC-delta), 3个Population-distribution (Wasserstein distance, KL-divergence, Common-DEGs),其中重点关注了MSE与PCC-delta
4)使用了模拟数据进一步评价模型的效果(robustness)
结果概述
1)没有一种模型适合所有数据集场景,都有自身局限性,尤其是对于context generalization。(提供了user guidance,视情况选择合适的模型);
2)对于perturbation generalization,在小数据规模下,简单的baseline model表现更好;而大数据规模性,Foundation model/深度学习模型表现较好;
3)使用cellular context embedding strategy可提高context generalization的效果。
2. Results
Result-1:系统介绍
系统介绍了本文面向两类扰动场景所采用的(1)带比较的模型方法,(2)扰动数据集,(3)评价方法与角度。
Result-2:context generalization模型比较分析
1)context generalization的模型表现,主要基于out-of-distribution的leave-one-out cross-validation(逐一将每种细胞系数据作为外部验证);
2)在所有数据集的平均表现来看,部分模型在多种指标中整体表现较好,个别模型在特定指标中最好;
3)扰动的协同性信息可能会对提高模型预测有帮助,例如time-point/dosage。
Result-3:context generalization模型局限性分析
1)同一模型在不同数据集的表现差异非常大;
2)经多个角度实验,发现当外部验证的 context与训练集的context差异比较大的时候,验证效果会比较差;反之会比较好。
3)最后提供了一个user guidance,供用户在context generalization的场景下,根据自身情况,选择合适的模型。
Result-4:perturbation generalization模型比较分析
1)分为gene与chemical两类perturbation分别benchmark,主要还是对前者进行了分析讨论;
2)在训练数据集比较大的情境下,深度学习模型/foundation模型效果是会比较好;
3)先前研究指出的Linear模型反而更好的情况主是针对数据集较小的情况。
Result-5:perturbation generalization模型局限性分析
1)组合扰动预测的效果较差,尤其是相较于linear base model;
2)在扰动数据异质性比较大,或者扰动效应较大的情况下(strong perturbations and heterogeneous perturbations),模型的泛化性比较差;
3)population-distribution metrics指标整体都不好,尤其对于conmon-DEG;
4)最后同样提供了一个user guidance
3. Discuss
1)首先概述了文章的主体内容,给出了每种扰动场景下的最优模型
2)总结了现有模型方法的不足
- 在context generalization上,对time-point/dosage的利用不足
- population-distribution相关评价指标都偏低
- linear base model在small-scale数据中优势
- 在context generalization上的泛化性整体偏低,作者提出通过添加cell-line embeddings的先验知识来解决,具体在附件,正文没有详细介绍
3)本文研究的不足
- 当前的扰动数据集还比较有限
- 本文所提出的cell-line embeddings方法还比较初期
- 由于数据异质性而导致population-distribution较差的问题,并没有解决
- 本文所使用的模拟数据来评估robustness的方法仍有不足。(有必要参考scDesign3)
4)未来展望
- 更多的扰动数据
- 在建模时,考虑整合更多的生物先验知识
- chemical perturbation prediction研究还较少
4. Personal thinking
- 这篇文章的布局逻辑还是比较清晰的。首先系统介绍了研究框架,包括模型、数据、指标等。然后分为两种预测场景,比较了不同模型的效果,再分析其局限性;
- 在分析的最后,会给出一个user guidance,介绍了每种具体预测场景下所建议的模型。这一点想的很周到,给读者以直观的参考;
- 虽然正文比较凝练,但是细节很多,附件材料也很充分,值得课题直接相关的人员深入学习。