Single cell and spatial alternative splicing analysis with Nanopore long read sequencing
利用纳米孔长读长测序进行单细胞和空间可变剪接分析
创建:2026-01-08 | 神经蛙的藏宝阁
- 时间:19 July 2025
- 期刊:Nature Communications
Tip:文章的概念很多,但是没有做过多介绍,所以该文包含了一些背景介绍以及我个人的理解。
一、这篇 Longcell 文章在讲什么、为什么要做
1.1 研究动机:为什么要在单细胞/空间里搞长读剪接分析?
背景问题:
- 剪接/isoform 本质是「转录本结构多样性」的问题。
- 但传统 scRNA‑seq / Visium 都是 Illumina 短读:
- 读段短、跨外显子有限,很难还原整条 isoform;
- 定量剪接事件常常靠 间接推断(junction reads + 外显子覆盖),噪声大、歧义多。
- Nanopore / PacBio 等 长读测序 可以一条 read 穿过多个外显子:
- 理论上很适合做 isoform / 剪接分析;
- 但缺点是:错误率高 + 单细胞 UMI 条形码不好用 + 深度有限。
核心痛点:
- Nanopore 错误率 + 对 UMI 不友好
- 直接拿长读做剪接调用,会把 mapping error / indel 当作新剪接事件;
- 条形码/UMI 识别困难 → 很多 read 不能可靠分配到 cell/spot。
- 注释不全,尤其在肿瘤/特殊组织
- 很多 isoform 根本不在 Gencode 里,单纯基于现有转录本注释的分析框架会漏掉、或误判很多东西。
- 想回答的是“在单细胞/组织层面,剪接异质性到底长什么样”
- 例如:一个可变外显子,在同一个 cell type 内:
- 是 几乎所有细胞都「一半一半」共存多 isoform?
- 还是「有两类细胞,一个型用 isoform A,一个型用 isoform B」?
- 这需要能对 PSI 的分布和异质性(而不只是均值)建模。
- 例如:一个可变外显子,在同一个 cell type 内:
简化一句话: 如何在单细胞 & 空间转录组里,可靠地用长读去做 isoform/剪接,并把“剪接异质性”这件事说清楚。
1.2 Longcell 做的技术工作(方法核心)
Longcell 主要解决三个技术问题,可以记成三层:
(1) 先把 Nanopore 读段「拉回正轨」:UMI‑aware 纠错
- 使用 10x 的条形码/UMI 信息,把读段按(cell barcode, UMI)聚成 UMI‑cluster。
- 对每个 cluster:
- 看该 UMI 的所有长读的比对结果;
- 假定「同一 UMI 内真正的 isoform 应该一致」;
- 用类似「多数表决」(consensus)方式来纠正:错误的 splice junction、偶发的错配、indel。
- 纠错之后:
- 各种「看起来像剪接事件的噪声」大幅减少;
- 真实的 constitutive 外显子在长读中的 PSI 接近 1。
这一步的本质: 利用 UMI 这一「多次独立观测」来抵消 Nanopore 的高错误率。
(2) 不依赖现成注释的 meta‑splice site 建模
- 他们不是直接在「具体 isoform」上建模,而是先:
- 收集所有长读中出现的剪接位点(donor/acceptor);
- 根据 它们在 read 里共现的模式(co‑occurrence),把一堆近邻/相关的 splice sites 聚成一个 meta‑splice site。
- 每个 meta‑splice site 可以理解为一个「局部剪接事件/结构单元」,比如:
- 保留/跳过一个外显子;
- 两个互斥外显子;
- 某个外显子的 alternative 3’/5’ splice site 组合。
- 这么做的好处:
- 不完全依赖 Gencode:即使肿瘤里有新 isoform,只要读段有足够 coverage,新的 splice site 也能被聚进某个 meta‑site。
- 维度大幅压缩:不用处理上万条具体 isoform,只需在「meta‑site × 选项」上算 PSI;在统计上更稳健,样本量也够。
(3) 用 Beta–Binomial 同时刻画「平均 PSI(μ) + 异质性(φ)」
- 对每个 meta‑site,在单细胞或空间 spot 层面:
- 每个 cell/spot 给出一个「支持 splice 选项 A vs B 的 read 计数」;
- 记作:每个 cell 的次数是二项分布抽样,整个群体的真实 PSI 分布再是一个 Beta 分布;
- 于是整体是 Beta–Binomial(层级模型)。
- 模型参数:
- μ:整个群体(比如同一 cell type)中,该事件的「平均 PSI」。
- φ:类似「overdispersion」,反映 cell‑to‑cell 的 PSI 异质性有多大。
- 直观理解:
- φ 低:大多数细胞的 PSI 接近群体平均 → 说明 isoform 选择在细胞间很一致,更像是「每个细胞内部多 isoform 共存」。
- φ 高:不同细胞的 PSI 差异大 → 说明存在明显的细胞亚群在用截然不同的 isoform,更像是「binary splicing / subpopulation」。
这是文章的一个关键视角: 不只问“PSI ≈ 0.3 还是 0.7”,而是问「不同细胞的 PSI 是都差不多,还是分成两拨?」
1.3 文章整体给出的生物学图景(简单说一波)
- 在多个数据集(Jurkat, 其他 cell line, CRCLM 肿瘤, MOB 脑组织)中,针对 高表达、覆盖足够的基因和事件:
- 大多数剪接事件的 φ 都不高;
- 也就是说:对这些事件而言,「单个细胞内部多 isoform 共存 + 细胞间差别不大」是常态。
- 真正具有明显 cell‑to‑cell binary pattern 的事件(高 φ)是少数,但往往更有调控/功能兴趣。
- 通过 KO 剪接因子 + 长读,他们找出了一批这样的「高异质性/强调控」事件,并在特定基因上做了靶向长读验证。
二、CRCLM 肿瘤数据集:设计
这一块主要是「单细胞 + 空间 + 双平台」的组合。
2.1 实验设计:同一 CRCLM 样本,四路数据
对一个结直肠癌肝转移(CRCLM)样本,他们做了:
- 单细胞(10x Chromium 5’) – Illumina
- 单细胞(同一 cDNA) – Nanopore
- Visium 空间转录组 – Illumina
- Visium(同一 cDNA) – Nanopore
我理解的是相当于
sc 和 Visium 各自建好 cDNA 文库后,再把各自的文库一分为二,分别上 Illumina 和 Nanopore。
四路数据的分工
(1) scRNA‑seq – Illumina
- 用来做常规:
- UMAP、聚类;
- cell type 注释(肿瘤上皮、髓系、T cell 等)。
- 同时提供一个「高质量的 barcode/UMI 白名单」,方便:
- 对 Nanopore 读段的条形码识别与 UMI 校正;
- 在同一细胞空间上进行长读局部对照。
(2) scRNA‑seq – Nanopore + Longcell
- 用来做:
- 在单细胞层面定量 isoform / meta‑splice site;
- 用 Beta–Binomial 模型估计每个事件的 μ 和 φ。
- 通过和 Illumina 结果比对,检验:
- 基因表达和细胞类型结构能否在长读上被重构;
- φ 的估计是否稳定(只在高表达、覆盖好的基因上)。
这部分得出的重要结论之一: 对能可靠建模的高表达基因,大多数剪接事件的 φ 低:说明同一 cell type 内多数细胞的 isoform 比例类似,并不常见「一部分细胞纯用 isoform A,另一部分细胞纯用 isoform B」这种二元格局。
(3) Visium – Illumina
- 用来做标准的空间分析:
- 基于 gene expression 的 spot 聚类;
- 区分肿瘤区、免疫浸润区等空间 domain;
- 通过 marker 基因做 cell-type deconvolution(估计每个 spot 中各 cell type 的组成);
- 与 HE 染色的组织切片对位。
简单理解:Illumina 的 Visium 负责把“空间位置”这件事搞清楚:哪些区域是肿瘤主导,哪些富含免疫细胞等等。
(4) Visium – Nanopore + Longcell
- 在每个空间 spot 上:
- 用 Longcell 做 isoform 和 meta‑splice site 的定量;
- 看不同空间区域中,某些外显子/isoform 的使用情况;
- 也可以在「spot 层面」估计一个类似 φ 的指标(intra‑spot vs inter‑spot 异质性)。
这让他们可以绘制:
某个剪接事件的 “PSI 空间热图” —— 哪些区域中某个外显子 inclusion 高,哪些区域偏 skipping。
一个经典例子:MYL6
- 在单细胞 Nanopore 里:肿瘤上皮细胞普遍共存两种 isoform;髓系/T 细胞则偏向某一种 isoform。
- 在配套的 Visium Nanopore 里:肿瘤区域的 spot 中,两个 isoform 都高;富含髓系的区域则主要是一条 isoform。
- 结论:说明单细胞层面的 cell-type 特异剪接,在空间层面表现为肿瘤区 vs 免疫区的 isoform usage 差异。
2.2 为什么要「sc + Visium + 双平台」这么设计?
这部分我认为主要是回答三个「为什么」:
① 为什么 sc + Visium 都要上 Illumina?
因为 Illumina 错误率低、深度高,更适合建立“结构骨架”:
- sc:cell type / cell state;
- Visium:空间 domain + 粗略 cell-type 组成。 在这个基础上,再去叠加 Nanopore 的 isoform 信息,会更可解释。
相当于:先用 Illumina 画出「谁是哪个类型的细胞、在组织的哪个区域」,再问「他们各自用的是什么 isoform」。
② 为什么 sc + Visium 都要上 Nanopore?
- sc Nanopore:回答「在单细胞层面,剪接异质性到底长什么样」,比如 φ–μ 图揭示的「多 isoform 共存」这一整体倾向。
- Visium Nanopore:回答「这些剪接差异在组织空间中走向哪里」,比如肿瘤区域 vs 免疫浸润区域的 isoform pattern 是否与 cell-type 特征匹配。
两者合在一起,相当于:「cell type 视角」 + 「空间视角」共同描绘 isoform 的分布。
③ 为什么要「拆同一批 cDNA 上双平台」?
- 最大限度减少「生物学差异」:避免因为两次独立建库/测序造成样本差异;确保短读与长读看到的是 同一批细胞 / 同一批 spot。
- 技术上:可以用 Illumina 的 barcode / UMI 白名单辅助 Nanopore 条形码识别;对定量结果做 cross‑platform QC。
2.3 Longcell 在 CRCLM 这块具体带来了什么信息?
概括来说:
- 把 Nanopore 的剪接调用从「很脏」变成「可用」
- 未纠错前,即使是本该 constitutive 的外显子,PSI 都会被错误读段拉低很多;
- Longcell 的 UMI‑based 纠错,把这些 mapping/mis‑junction 噪声大幅干掉,让你敢在 Nanopore 数据上做精细剪接定量。
- 在 annotation 部分不全的肿瘤中,仍能稳定建模剪接事件
- 通过 meta‑splice site,将局部结构聚成「可分析单元」;
- 避免直接在「转录本 ID」层面建模(因为很多 novel isoform 没有 ID)。
- 首次较系统地给出「单细胞剪接异质性的整体统计图景」
- 利用 φ–μ 框架证明:大部分高表达事件的 φ 低 → 细胞间差别不大,细胞内多 isoform 共存。
- 这有点纠正了一些早期基于短读、覆盖不够时得出的「binary」印象。
- 同一套 φ 模型兼容单细胞与空间层面
- 让他们能说出:高表达基因的剪接大多是「局部混合」而非「局部互斥」,跨组织/平台都如此。
三、CRISPR 剪接因子 KO 数据集:设计
这部分的关键词是:pooled CRISPR + scRNA‑seq + 长读。
3.1 实验设计:同一批细胞,三重信息绑定
对象:Jurkat Cas9 细胞系。
- 操作:
- 用 pooled gRNA 文库,靶向 9 个 splicing factor(每个 2 条 gRNA);
- 感染后培养 14 天(让 KO 效应充分显现)。
- 测序:
- Illumina(短读,10x):标准 scRNA‑seq;额外设计引物,捕获 gRNA 序列;这样,每个单细胞可以打上「携带哪个 gRNA → KO 哪个因子」的标签。
- Nanopore(长读,全转录组):同一批 10x cDNA 再上 Nanopore;用 Longcell 恢复 UMI,并做 meta‑splice 定量。
- 后续:对某些重点基因(如 DGUOK)再做高覆盖的靶向 Nanopore 长读验证。
结果是,每个细胞同时有:
- 表达谱;
- gRNA / KO 身份;
- 长读剪接结构信息。
3.2 借此回答的剪接生物学问题
(1) 哪些剪接事件被哪些 splicing factor 调控?方向如何?
- 用 Longcell 的 meta‑site 定量 + Beta–Binomial 差异检验:在 nontarget 对照 vs 某 KO 群体之间,找到「PSI 分布明显不同」的 meta‑site。
- 稳健性:他们在不同条件(未刺激 vs 刺激 T cell)下,也做了一样的分析,发现很多事件在两种状态下的 ΔPSI 方向一致,说明这类调控关系 在激活前后较为稳定。
例子:
- HNRNPLL – PTPRC:已知 HNRNPLL 调控 CD45(PTPRC)外显子包含;他们在 KO 数据中重新找到了这一经典模型,算是 sanity check。
- PCBP2 – DGUOK:KO PCBP2 之后,DGUOK 的 exon 3/4 inclusion 降低,isoform 从某个「长 isoform」切换到「短 isoform」;这是一个此前并未突出的调控关系,被他们发现并通过靶向长读验证。
- CELF2 – PTS / ARHGEF1 等:显示 CELF2 可在不同基因上分别促进或抑制 exon inclusion,说明同一个 splicing factor 对不同位点的作用方向不必一致。
(2) 同一调控事件在不同状态(naive vs stimulated)下是否一致?
- 在 T cell 未刺激和激活后两个状态中都做了 KO;
- 对重叠的 meta‑site 比较 ΔPSI:发现高度相关,→ 很多剪接调控是「状态稳定」的,而不是仅在某一状态才起作用。
3.3 Longcell 在 CRISPR KO 这一块的优势
- UMI‑aware 纠错对于 “剪接位点附近有 CRISPR 编辑” 尤其重要
- CRISPR 靶向剪接因子或剪接位点常常会引入局部 indel 或改变 splicing pattern。
- 再叠加 Nanopore 自身高错率,如果没有 UMI‑based 纠错,很难区分「真实新剪接事件」和「测序噪声」。
- 分布水平(distribution-level)的差异剪接检验
- 传统 DA 工具多看「ΔPSI 均值」;
- Longcell 框架用 Beta–Binomial 来比较 KO vs 对照的 PSI 分布:不仅看 mean,也捕捉「方差/分布形状」的变化。
- 这在 CRISPR 场景中很重要:比如 KO 后出现一个新的高 PSI 亚群,即便总体平均变化不大,也能被检测。
- 帮助发掘新的剪接调控关系,并给出结构级别的证据
- 由于有长读,每个事件不仅能说「PSI 变了」,还能精确说是哪条 isoform 被削弱/增强。
- 再配合靶向高覆盖长读验证,对 PCBP2–DGUOK 之类的新关系给出了结构级证据。
暂闭
待续