Single cell and spatial alternative splicing analysis with Nanopore long read sequencing

利用纳米孔长读长测序进行单细胞和空间可变剪接分析

创建：2026-01-08 | 神经蛙的藏宝阁

时间：19 July 2025
期刊：Nature Communications

Tip：文章的概念很多，但是没有做过多介绍，所以该文包含了一些背景介绍以及我个人的理解。

一、这篇 Longcell 文章在讲什么、为什么要做

1.1 研究动机：为什么要在单细胞/空间里搞长读剪接分析？

背景问题：

剪接/isoform 本质是「转录本结构多样性」的问题。
但传统 scRNA‑seq / Visium 都是 Illumina 短读：
- 读段短、跨外显子有限，很难还原整条 isoform；
- 定量剪接事件常常靠 间接推断（junction reads + 外显子覆盖），噪声大、歧义多。
Nanopore / PacBio 等 长读测序 可以一条 read 穿过多个外显子：
- 理论上很适合做 isoform / 剪接分析；
- 但缺点是：错误率高 + 单细胞 UMI 条形码不好用 + 深度有限。

核心痛点：

Nanopore 错误率 + 对 UMI 不友好
- 直接拿长读做剪接调用，会把 mapping error / indel 当作新剪接事件；
- 条形码/UMI 识别困难 → 很多 read 不能可靠分配到 cell/spot。
注释不全，尤其在肿瘤/特殊组织
- 很多 isoform 根本不在 Gencode 里，单纯基于现有转录本注释的分析框架会漏掉、或误判很多东西。
想回答的是“在单细胞/组织层面，剪接异质性到底长什么样”
- 例如：一个可变外显子，在同一个 cell type 内：
  - 是 几乎所有细胞都「一半一半」共存多 isoform？
  - 还是「有两类细胞，一个型用 isoform A，一个型用 isoform B」？
- 这需要能对 PSI 的分布和异质性（而不只是均值）建模。

简化一句话： 如何在单细胞 & 空间转录组里，可靠地用长读去做 isoform/剪接，并把“剪接异质性”这件事说清楚。

1.2 Longcell 做的技术工作（方法核心）

Longcell 主要解决三个技术问题，可以记成三层：

(1) 先把 Nanopore 读段「拉回正轨」：UMI‑aware 纠错

使用 10x 的条形码/UMI 信息，把读段按（cell barcode, UMI）聚成 UMI‑cluster。
对每个 cluster：
- 看该 UMI 的所有长读的比对结果；
- 假定「同一 UMI 内真正的 isoform 应该一致」；
- 用类似「多数表决」（consensus）方式来纠正：错误的 splice junction、偶发的错配、indel。
纠错之后：
- 各种「看起来像剪接事件的噪声」大幅减少；
- 真实的 constitutive 外显子在长读中的 PSI 接近 1。

这一步的本质： 利用 UMI 这一「多次独立观测」来抵消 Nanopore 的高错误率。

(2) 不依赖现成注释的 meta‑splice site 建模

他们不是直接在「具体 isoform」上建模，而是先：
1. 收集所有长读中出现的剪接位点（donor/acceptor）；
2. 根据 它们在 read 里共现的模式（co‑occurrence），把一堆近邻／相关的 splice sites 聚成一个 meta‑splice site。
每个 meta‑splice site 可以理解为一个「局部剪接事件/结构单元」，比如：
- 保留/跳过一个外显子；
- 两个互斥外显子；
- 某个外显子的 alternative 3’/5’ splice site 组合。
这么做的好处：
1. 不完全依赖 Gencode：即使肿瘤里有新 isoform，只要读段有足够 coverage，新的 splice site 也能被聚进某个 meta‑site。
2. 维度大幅压缩：不用处理上万条具体 isoform，只需在「meta‑site × 选项」上算 PSI；在统计上更稳健，样本量也够。

(3) 用 Beta–Binomial 同时刻画「平均 PSI（μ） + 异质性（φ）」

对每个 meta‑site，在单细胞或空间 spot 层面：
- 每个 cell/spot 给出一个「支持 splice 选项 A vs B 的 read 计数」；
- 记作：每个 cell 的次数是二项分布抽样，整个群体的真实 PSI 分布再是一个 Beta 分布；
- 于是整体是 Beta–Binomial（层级模型）。
模型参数：
- μ：整个群体（比如同一 cell type）中，该事件的「平均 PSI」。
- φ：类似「overdispersion」，反映 cell‑to‑cell 的 PSI 异质性有多大。
直观理解：
- φ 低：大多数细胞的 PSI 接近群体平均 → 说明 isoform 选择在细胞间很一致，更像是「每个细胞内部多 isoform 共存」。
- φ 高：不同细胞的 PSI 差异大 → 说明存在明显的细胞亚群在用截然不同的 isoform，更像是「binary splicing / subpopulation」。

这是文章的一个关键视角： 不只问“PSI ≈ 0.3 还是 0.7”，而是问「不同细胞的 PSI 是都差不多，还是分成两拨？」

1.3 文章整体给出的生物学图景（简单说一波）

在多个数据集（Jurkat, 其他 cell line, CRCLM 肿瘤, MOB 脑组织）中，针对 高表达、覆盖足够的基因和事件：
- 大多数剪接事件的 φ 都不高；
- 也就是说：对这些事件而言，「单个细胞内部多 isoform 共存 + 细胞间差别不大」是常态。
真正具有明显 cell‑to‑cell binary pattern 的事件（高 φ）是少数，但往往更有调控/功能兴趣。
通过 KO 剪接因子 + 长读，他们找出了一批这样的「高异质性/强调控」事件，并在特定基因上做了靶向长读验证。

二、CRCLM 肿瘤数据集：设计

这一块主要是「单细胞 + 空间 + 双平台」的组合。

2.1 实验设计：同一 CRCLM 样本，四路数据

对一个结直肠癌肝转移（CRCLM）样本，他们做了：

单细胞（10x Chromium 5’） – Illumina
单细胞（同一 cDNA） – Nanopore
Visium 空间转录组 – Illumina
Visium（同一 cDNA） – Nanopore

我理解的是相当于

sc 和 Visium 各自建好 cDNA 文库后，再把各自的文库一分为二，分别上 Illumina 和 Nanopore。

四路数据的分工

(1) scRNA‑seq – Illumina

用来做常规：
- UMAP、聚类；
- cell type 注释（肿瘤上皮、髓系、T cell 等）。
同时提供一个「高质量的 barcode/UMI 白名单」，方便：
- 对 Nanopore 读段的条形码识别与 UMI 校正；
- 在同一细胞空间上进行长读局部对照。

(2) scRNA‑seq – Nanopore + Longcell

用来做：
- 在单细胞层面定量 isoform / meta‑splice site；
- 用 Beta–Binomial 模型估计每个事件的 μ 和 φ。
通过和 Illumina 结果比对，检验：
- 基因表达和细胞类型结构能否在长读上被重构；
- φ 的估计是否稳定（只在高表达、覆盖好的基因上）。

这部分得出的重要结论之一： 对能可靠建模的高表达基因，大多数剪接事件的 φ 低：说明同一 cell type 内多数细胞的 isoform 比例类似，并不常见「一部分细胞纯用 isoform A，另一部分细胞纯用 isoform B」这种二元格局。

(3) Visium – Illumina

用来做标准的空间分析：
- 基于 gene expression 的 spot 聚类；
- 区分肿瘤区、免疫浸润区等空间 domain；
- 通过 marker 基因做 cell-type deconvolution（估计每个 spot 中各 cell type 的组成）；
- 与 HE 染色的组织切片对位。

简单理解：Illumina 的 Visium 负责把“空间位置”这件事搞清楚：哪些区域是肿瘤主导，哪些富含免疫细胞等等。

(4) Visium – Nanopore + Longcell

在每个空间 spot 上：
- 用 Longcell 做 isoform 和 meta‑splice site 的定量；
- 看不同空间区域中，某些外显子/isoform 的使用情况；
- 也可以在「spot 层面」估计一个类似 φ 的指标（intra‑spot vs inter‑spot 异质性）。

这让他们可以绘制：

某个剪接事件的 “PSI 空间热图” —— 哪些区域中某个外显子 inclusion 高，哪些区域偏 skipping。

一个经典例子：MYL6

在单细胞 Nanopore 里：肿瘤上皮细胞普遍共存两种 isoform；髓系/T 细胞则偏向某一种 isoform。
在配套的 Visium Nanopore 里：肿瘤区域的 spot 中，两个 isoform 都高；富含髓系的区域则主要是一条 isoform。
结论：说明单细胞层面的 cell-type 特异剪接，在空间层面表现为肿瘤区 vs 免疫区的 isoform usage 差异。

2.2 为什么要「sc + Visium + 双平台」这么设计？

这部分我认为主要是回答三个「为什么」：

① 为什么 sc + Visium 都要上 Illumina？

因为 Illumina 错误率低、深度高，更适合建立“结构骨架”：

sc：cell type / cell state；
Visium：空间 domain + 粗略 cell-type 组成。在这个基础上，再去叠加 Nanopore 的 isoform 信息，会更可解释。

相当于：先用 Illumina 画出「谁是哪个类型的细胞、在组织的哪个区域」，再问「他们各自用的是什么 isoform」。

② 为什么 sc + Visium 都要上 Nanopore？

sc Nanopore：回答「在单细胞层面，剪接异质性到底长什么样」，比如 φ–μ 图揭示的「多 isoform 共存」这一整体倾向。
Visium Nanopore：回答「这些剪接差异在组织空间中走向哪里」，比如肿瘤区域 vs 免疫浸润区域的 isoform pattern 是否与 cell-type 特征匹配。

两者合在一起，相当于：「cell type 视角」 + 「空间视角」共同描绘 isoform 的分布。

③ 为什么要「拆同一批 cDNA 上双平台」？

最大限度减少「生物学差异」：避免因为两次独立建库/测序造成样本差异；确保短读与长读看到的是 同一批细胞 / 同一批 spot。
技术上：可以用 Illumina 的 barcode / UMI 白名单辅助 Nanopore 条形码识别；对定量结果做 cross‑platform QC。

2.3 Longcell 在 CRCLM 这块具体带来了什么信息？

概括来说：

把 Nanopore 的剪接调用从「很脏」变成「可用」
- 未纠错前，即使是本该 constitutive 的外显子，PSI 都会被错误读段拉低很多；
- Longcell 的 UMI‑based 纠错，把这些 mapping/mis‑junction 噪声大幅干掉，让你敢在 Nanopore 数据上做精细剪接定量。
在 annotation 部分不全的肿瘤中，仍能稳定建模剪接事件
- 通过 meta‑splice site，将局部结构聚成「可分析单元」；
- 避免直接在「转录本 ID」层面建模（因为很多 novel isoform 没有 ID）。
首次较系统地给出「单细胞剪接异质性的整体统计图景」
- 利用 φ–μ 框架证明：大部分高表达事件的 φ 低 → 细胞间差别不大，细胞内多 isoform 共存。
- 这有点纠正了一些早期基于短读、覆盖不够时得出的「binary」印象。
同一套 φ 模型兼容单细胞与空间层面
- 让他们能说出：高表达基因的剪接大多是「局部混合」而非「局部互斥」，跨组织/平台都如此。

三、CRISPR 剪接因子 KO 数据集：设计

这部分的关键词是：pooled CRISPR + scRNA‑seq + 长读。

3.1 实验设计：同一批细胞，三重信息绑定

对象：Jurkat Cas9 细胞系。

操作：
1. 用 pooled gRNA 文库，靶向 9 个 splicing factor（每个 2 条 gRNA）；
2. 感染后培养 14 天（让 KO 效应充分显现）。
测序：
- Illumina（短读，10x）：标准 scRNA‑seq；额外设计引物，捕获 gRNA 序列；这样，每个单细胞可以打上「携带哪个 gRNA → KO 哪个因子」的标签。
- Nanopore（长读，全转录组）：同一批 10x cDNA 再上 Nanopore；用 Longcell 恢复 UMI，并做 meta‑splice 定量。
后续：对某些重点基因（如 DGUOK）再做高覆盖的靶向 Nanopore 长读验证。

结果是，每个细胞同时有：

表达谱；
gRNA / KO 身份；
长读剪接结构信息。

3.2 借此回答的剪接生物学问题

(1) 哪些剪接事件被哪些 splicing factor 调控？方向如何？

用 Longcell 的 meta‑site 定量 + Beta–Binomial 差异检验：在 nontarget 对照 vs 某 KO 群体之间，找到「PSI 分布明显不同」的 meta‑site。
稳健性：他们在不同条件（未刺激 vs 刺激 T cell）下，也做了一样的分析，发现很多事件在两种状态下的 ΔPSI 方向一致，说明这类调控关系 在激活前后较为稳定。

例子：

HNRNPLL – PTPRC：已知 HNRNPLL 调控 CD45（PTPRC）外显子包含；他们在 KO 数据中重新找到了这一经典模型，算是 sanity check。
PCBP2 – DGUOK：KO PCBP2 之后，DGUOK 的 exon 3/4 inclusion 降低，isoform 从某个「长 isoform」切换到「短 isoform」；这是一个此前并未突出的调控关系，被他们发现并通过靶向长读验证。
CELF2 – PTS / ARHGEF1 等：显示 CELF2 可在不同基因上分别促进或抑制 exon inclusion，说明同一个 splicing factor 对不同位点的作用方向不必一致。

(2) 同一调控事件在不同状态（naive vs stimulated）下是否一致？

在 T cell 未刺激和激活后两个状态中都做了 KO；
对重叠的 meta‑site 比较 ΔPSI：发现高度相关，→ 很多剪接调控是「状态稳定」的，而不是仅在某一状态才起作用。

3.3 Longcell 在 CRISPR KO 这一块的优势

UMI‑aware 纠错对于 “剪接位点附近有 CRISPR 编辑” 尤其重要
- CRISPR 靶向剪接因子或剪接位点常常会引入局部 indel 或改变 splicing pattern。
- 再叠加 Nanopore 自身高错率，如果没有 UMI‑based 纠错，很难区分「真实新剪接事件」和「测序噪声」。
分布水平（distribution-level）的差异剪接检验
- 传统 DA 工具多看「ΔPSI 均值」；
- Longcell 框架用 Beta–Binomial 来比较 KO vs 对照的 PSI 分布：不仅看 mean，也捕捉「方差/分布形状」的变化。
- 这在 CRISPR 场景中很重要：比如 KO 后出现一个新的高 PSI 亚群，即便总体平均变化不大，也能被检测。
帮助发掘新的剪接调控关系，并给出结构级别的证据
- 由于有长读，每个事件不仅能说「PSI 变了」，还能精确说是哪条 isoform 被削弱/增强。
- 再配合靶向高覆盖长读验证，对 PCBP2–DGUOK 之类的新关系给出了结构级证据。

暂闭

待续

创建：2026-01-08 | 神经蛙的藏宝阁#

一、这篇 Longcell 文章在讲什么、为什么要做#

1.1 研究动机：为什么要在单细胞/空间里搞长读剪接分析？#

1.2 Longcell 做的技术工作（方法核心）#

(1) 先把 Nanopore 读段「拉回正轨」：UMI‑aware 纠错#

(2) 不依赖现成注释的 meta‑splice site 建模#

(3) 用 Beta–Binomial 同时刻画「平均 PSI（μ） + 异质性（φ）」#

1.3 文章整体给出的生物学图景（简单说一波）#

二、CRCLM 肿瘤数据集：设计#

2.1 实验设计：同一 CRCLM 样本，四路数据#

四路数据的分工#

(1) scRNA‑seq – Illumina#

(2) scRNA‑seq – Nanopore + Longcell#

(3) Visium – Illumina#

(4) Visium – Nanopore + Longcell#

2.2 为什么要「sc + Visium + 双平台」这么设计？#

① 为什么 sc + Visium 都要上 Illumina？#

② 为什么 sc + Visium 都要上 Nanopore？#

③ 为什么要「拆同一批 cDNA 上双平台」？#

2.3 Longcell 在 CRCLM 这块具体带来了什么信息？#

三、CRISPR 剪接因子 KO 数据集：设计#

3.1 实验设计：同一批细胞，三重信息绑定#

3.2 借此回答的剪接生物学问题#

(1) 哪些剪接事件被哪些 splicing factor 调控？方向如何？#

(2) 同一调控事件在不同状态（naive vs stimulated）下是否一致？#

3.3 Longcell 在 CRISPR KO 这一块的优势#