题目:hECA: The cell-centric assembly of a cell atlas
期刊 | 日期:iScience | May 20, 2022
DOI:https://doi.org/10.1016/j.isci.2022.104318
简介:来自清华大学自动化系的张学工课题建立一个人类综合性单细胞图谱平台–hECA(human Ensemble Cell Atlas)1.0版本。这篇文章主要基于细胞为中心(cell-centric)的理念对来自人类多器官的上百万个细胞数据进行了系统性整合工作。
网址:http://eca.xglab.tech
1、数据规模
- 116份已发表单细胞数据集
- 38个人类器官(如下表)与11个组织系统
- 146种细胞类型
- 1,093,299个细胞(43,878个基因)
2、整合方法
-
(1)uGT:unified giant table
数据储存方式是基于NoSQL数据库语言直接将多数据集合并成巨大的表达矩阵(43878×1093299),以及每个细胞的metadata,例如样本来源、数据集来源,样本信息、细胞类型等等。
-
(2)uHAF:unified hierarchical annotation framework
使用相同的细胞类型标签体系对合并的数据集进行统一的146种细胞类型注释。
-
(3)ECAUGT
开发了一个python工具包提供了API接口用于上述大规模数据的有效提取。
3、应用场景
文章对该平台的三种可能应用场景进行了阐释。
3.1 ‘in data’ cell sorting
该平台提供了一种新型的基于数据的细胞分选方式。具体来说可从网页界面或者API工具快速筛选特定样本、特定器官、特定基因表达模式的细胞群。文章举了两个小例子。
- 多器官T细胞的代谢通路表达概况
首先使用ECAUGHT"分选"了来自18个器官的T细胞群,简单分为了CD4+与CD8+亚群
然后使用GSVA对代谢相关通路进行了单细胞水平的打分,分析相应的器官活性特征。
-
药物脱靶效应的副作用预测
CD19是CAR-T治疗B细胞淋巴瘤的常见靶点,其神经毒性是其主要副作用之一。
首先在hECA数据库中分选到2566个CD19+,其中53%是B细胞;其余细胞还包括脑内的内皮细胞、小胶质细胞与神经元,这验证了CART治疗的神经毒性。此外在心脏、肺等组织细胞具有高表达,提示了可能的脱靶效应。
3.2 quantitative portraiture
-
基因水平gene portrait
针对选定基因在hECA涉及全部(选定)器官/细胞的表达特征
-
细胞水平cell type portrait
针对特定细胞在不同细胞表达、表达marker等
-
器官水平organ portait
针对特定器官,分析其细胞组成比例等
3.3 label transfer
使用hECA人类特定器官的单细胞表达矩阵(已基于uHAF进行细胞注释)作为reference,使用SingleR建立模型,为用户自己的数据进行细胞类型注释。
文章建立的SingleR注释模型:https://ngdc.cncb.ac.cn/omix/release/OMIX001043
在文章举例说明中,对两个心脏组织细胞注释的准确率可分别达到0.954、0.904;对神经元细胞注释的准确率可达到0.887。
此外为了进一步验证平台数据的可用性,文章分别取其中的肺组织细胞、肺免疫细胞分别代替两篇文献内的control数据仍可得到相似的结果与结论。
- Example disease study: using hECA data as normal control for cancer study
- Example disease study: using hECA for label transfer and normal control in a COVID-19 study
4、不足之处
诚如文章所言,研究存在如下两个主要问题
(1)数据量有限:目前hECA1.0覆盖的人体器官组织单细胞数据较为有限,例如未涉及乳腺组织等。但目前平台已搭建的框架体系,例如uHAF注释系统等为以后纳入新的数据提供了基础。
(2)批次效应问题:hECA对不同数据集仅进行了细胞文库水平(log转换)的标准化处理。而测序平台等批次效应都交给用户自行鉴别、校正。此外平台也提供了器官内不同数据集harmony校正后的整合数据。https://ngdc.cncb.ac.cn/omix/release/OMIX001042