Single cell and spatial alternative splicing analysis with Nanopore long read sequencing

利用纳米孔长读长测序进行单细胞和空间可变剪接分析

创建:2026-01-08 | 神经蛙的藏宝阁

  • 时间:19 July 2025
  • 期刊:Nature Communications

Tip:文章的概念很多,但是没有做过多介绍,所以该文包含了一些背景介绍以及我个人的理解。


一、这篇 Longcell 文章在讲什么、为什么要做

1.1 研究动机:为什么要在单细胞/空间里搞长读剪接分析?

背景问题:

  • 剪接/isoform 本质是「转录本结构多样性」的问题。
  • 但传统 scRNA‑seq / Visium 都是 Illumina 短读
    • 读段短、跨外显子有限,很难还原整条 isoform
    • 定量剪接事件常常靠 间接推断(junction reads + 外显子覆盖),噪声大、歧义多。
  • Nanopore / PacBio 等 长读测序 可以一条 read 穿过多个外显子:
    • 理论上很适合做 isoform / 剪接分析;
    • 但缺点是:错误率高 + 单细胞 UMI 条形码不好用 + 深度有限

核心痛点:

  1. Nanopore 错误率 + 对 UMI 不友好
    • 直接拿长读做剪接调用,会把 mapping error / indel 当作新剪接事件;
    • 条形码/UMI 识别困难 → 很多 read 不能可靠分配到 cell/spot。
  2. 注释不全,尤其在肿瘤/特殊组织
    • 很多 isoform 根本不在 Gencode 里,单纯基于现有转录本注释的分析框架会漏掉、或误判很多东西。
  3. 想回答的是“在单细胞/组织层面,剪接异质性到底长什么样”
    • 例如:一个可变外显子,在同一个 cell type 内:
      • 几乎所有细胞都「一半一半」共存多 isoform
      • 还是「有两类细胞,一个型用 isoform A,一个型用 isoform B」?
    • 这需要能对 PSI 的分布和异质性(而不只是均值)建模。

简化一句话: 如何在单细胞 & 空间转录组里,可靠地用长读去做 isoform/剪接,并把“剪接异质性”这件事说清楚。


1.2 Longcell 做的技术工作(方法核心)

Longcell 主要解决三个技术问题,可以记成三层:

(1) 先把 Nanopore 读段「拉回正轨」:UMI‑aware 纠错

  • 使用 10x 的条形码/UMI 信息,把读段按(cell barcode, UMI)聚成 UMI‑cluster
  • 对每个 cluster:
    • 看该 UMI 的所有长读的比对结果;
    • 假定「同一 UMI 内真正的 isoform 应该一致」;
    • 用类似「多数表决」(consensus)方式来纠正:错误的 splice junction、偶发的错配、indel。
  • 纠错之后:
    • 各种「看起来像剪接事件的噪声」大幅减少;
    • 真实的 constitutive 外显子在长读中的 PSI 接近 1。

这一步的本质: 利用 UMI 这一「多次独立观测」来抵消 Nanopore 的高错误率。

(2) 不依赖现成注释的 meta‑splice site 建模

  • 他们不是直接在「具体 isoform」上建模,而是先:
    1. 收集所有长读中出现的剪接位点(donor/acceptor);
    2. 根据 它们在 read 里共现的模式(co‑occurrence),把一堆近邻/相关的 splice sites 聚成一个 meta‑splice site
  • 每个 meta‑splice site 可以理解为一个「局部剪接事件/结构单元」,比如:
    • 保留/跳过一个外显子;
    • 两个互斥外显子;
    • 某个外显子的 alternative 3’/5’ splice site 组合。
  • 这么做的好处
    1. 不完全依赖 Gencode:即使肿瘤里有新 isoform,只要读段有足够 coverage,新的 splice site 也能被聚进某个 meta‑site。
    2. 维度大幅压缩:不用处理上万条具体 isoform,只需在「meta‑site × 选项」上算 PSI;在统计上更稳健,样本量也够。

(3) 用 Beta–Binomial 同时刻画「平均 PSI(μ) + 异质性(φ)」

  • 对每个 meta‑site,在单细胞或空间 spot 层面:
    • 每个 cell/spot 给出一个「支持 splice 选项 A vs B 的 read 计数」;
    • 记作:每个 cell 的次数是二项分布抽样,整个群体的真实 PSI 分布再是一个 Beta 分布;
    • 于是整体是 Beta–Binomial(层级模型)
  • 模型参数
    • μ:整个群体(比如同一 cell type)中,该事件的「平均 PSI」。
    • φ:类似「overdispersion」,反映 cell‑to‑cell 的 PSI 异质性有多大。
  • 直观理解
    • φ 低:大多数细胞的 PSI 接近群体平均 → 说明 isoform 选择在细胞间很一致,更像是「每个细胞内部多 isoform 共存」。
    • φ 高:不同细胞的 PSI 差异大 → 说明存在明显的细胞亚群在用截然不同的 isoform,更像是「binary splicing / subpopulation」。

这是文章的一个关键视角: 不只问“PSI ≈ 0.3 还是 0.7”,而是问「不同细胞的 PSI 是都差不多,还是分成两拨?」


1.3 文章整体给出的生物学图景(简单说一波)

  • 在多个数据集(Jurkat, 其他 cell line, CRCLM 肿瘤, MOB 脑组织)中,针对 高表达、覆盖足够的基因和事件
    • 大多数剪接事件的 φ 都不高;
    • 也就是说:对这些事件而言,「单个细胞内部多 isoform 共存 + 细胞间差别不大」是常态
  • 真正具有明显 cell‑to‑cell binary pattern 的事件(高 φ)是少数,但往往更有调控/功能兴趣。
  • 通过 KO 剪接因子 + 长读,他们找出了一批这样的「高异质性/强调控」事件,并在特定基因上做了靶向长读验证。


二、CRCLM 肿瘤数据集:设计

这一块主要是「单细胞 + 空间 + 双平台」的组合。

2.1 实验设计:同一 CRCLM 样本,四路数据

对一个结直肠癌肝转移(CRCLM)样本,他们做了:

  1. 单细胞(10x Chromium 5’) – Illumina
  2. 单细胞(同一 cDNA) – Nanopore
  3. Visium 空间转录组 – Illumina
  4. Visium(同一 cDNA) – Nanopore

我理解的是相当于

sc 和 Visium 各自建好 cDNA 文库后,再把各自的文库一分为二,分别上 Illumina 和 Nanopore。

四路数据的分工

(1) scRNA‑seq – Illumina

  • 用来做常规:
    • UMAP、聚类;
    • cell type 注释(肿瘤上皮、髓系、T cell 等)。
  • 同时提供一个「高质量的 barcode/UMI 白名单」,方便:
    • 对 Nanopore 读段的条形码识别与 UMI 校正;
    • 在同一细胞空间上进行长读局部对照。

(2) scRNA‑seq – Nanopore + Longcell

  • 用来做:
    • 在单细胞层面定量 isoform / meta‑splice site;
    • 用 Beta–Binomial 模型估计每个事件的 μ 和 φ。
  • 通过和 Illumina 结果比对,检验:
    • 基因表达和细胞类型结构能否在长读上被重构;
    • φ 的估计是否稳定(只在高表达、覆盖好的基因上)。

这部分得出的重要结论之一: 对能可靠建模的高表达基因,大多数剪接事件的 φ 低:说明同一 cell type 内多数细胞的 isoform 比例类似,并不常见「一部分细胞纯用 isoform A,另一部分细胞纯用 isoform B」这种二元格局。

(3) Visium – Illumina

  • 用来做标准的空间分析:
    • 基于 gene expression 的 spot 聚类;
    • 区分肿瘤区、免疫浸润区等空间 domain;
    • 通过 marker 基因做 cell-type deconvolution(估计每个 spot 中各 cell type 的组成);
    • 与 HE 染色的组织切片对位。

简单理解:Illumina 的 Visium 负责把“空间位置”这件事搞清楚:哪些区域是肿瘤主导,哪些富含免疫细胞等等。

(4) Visium – Nanopore + Longcell

  • 在每个空间 spot 上:
    • 用 Longcell 做 isoform 和 meta‑splice site 的定量;
    • 看不同空间区域中,某些外显子/isoform 的使用情况;
    • 也可以在「spot 层面」估计一个类似 φ 的指标(intra‑spot vs inter‑spot 异质性)。

这让他们可以绘制:

某个剪接事件的 “PSI 空间热图” —— 哪些区域中某个外显子 inclusion 高,哪些区域偏 skipping。

一个经典例子:MYL6

  • 在单细胞 Nanopore 里:肿瘤上皮细胞普遍共存两种 isoform;髓系/T 细胞则偏向某一种 isoform。
  • 在配套的 Visium Nanopore 里:肿瘤区域的 spot 中,两个 isoform 都高;富含髓系的区域则主要是一条 isoform。
  • 结论:说明单细胞层面的 cell-type 特异剪接,在空间层面表现为肿瘤区 vs 免疫区的 isoform usage 差异。

2.2 为什么要「sc + Visium + 双平台」这么设计?

这部分我认为主要是回答三个「为什么」:

① 为什么 sc + Visium 都要上 Illumina?

因为 Illumina 错误率低、深度高,更适合建立“结构骨架”

  • sc:cell type / cell state;
  • Visium:空间 domain + 粗略 cell-type 组成。 在这个基础上,再去叠加 Nanopore 的 isoform 信息,会更可解释。

相当于:先用 Illumina 画出「谁是哪个类型的细胞、在组织的哪个区域」,再问「他们各自用的是什么 isoform」。

② 为什么 sc + Visium 都要上 Nanopore?

  • sc Nanopore:回答「在单细胞层面,剪接异质性到底长什么样」,比如 φ–μ 图揭示的「多 isoform 共存」这一整体倾向。
  • Visium Nanopore:回答「这些剪接差异在组织空间中走向哪里」,比如肿瘤区域 vs 免疫浸润区域的 isoform pattern 是否与 cell-type 特征匹配。

两者合在一起,相当于:「cell type 视角」 + 「空间视角」共同描绘 isoform 的分布。

③ 为什么要「拆同一批 cDNA 上双平台」?

  • 最大限度减少「生物学差异」:避免因为两次独立建库/测序造成样本差异;确保短读与长读看到的是 同一批细胞 / 同一批 spot
  • 技术上:可以用 Illumina 的 barcode / UMI 白名单辅助 Nanopore 条形码识别;对定量结果做 cross‑platform QC。

2.3 Longcell 在 CRCLM 这块具体带来了什么信息?

概括来说:

  1. 把 Nanopore 的剪接调用从「很脏」变成「可用」
    • 未纠错前,即使是本该 constitutive 的外显子,PSI 都会被错误读段拉低很多;
    • Longcell 的 UMI‑based 纠错,把这些 mapping/mis‑junction 噪声大幅干掉,让你敢在 Nanopore 数据上做精细剪接定量。
  2. 在 annotation 部分不全的肿瘤中,仍能稳定建模剪接事件
    • 通过 meta‑splice site,将局部结构聚成「可分析单元」;
    • 避免直接在「转录本 ID」层面建模(因为很多 novel isoform 没有 ID)。
  3. 首次较系统地给出「单细胞剪接异质性的整体统计图景」
    • 利用 φ–μ 框架证明:大部分高表达事件的 φ 低 → 细胞间差别不大,细胞内多 isoform 共存
    • 这有点纠正了一些早期基于短读、覆盖不够时得出的「binary」印象。
  4. 同一套 φ 模型兼容单细胞与空间层面
    • 让他们能说出:高表达基因的剪接大多是「局部混合」而非「局部互斥」,跨组织/平台都如此。


三、CRISPR 剪接因子 KO 数据集:设计

这部分的关键词是:pooled CRISPR + scRNA‑seq + 长读

3.1 实验设计:同一批细胞,三重信息绑定

对象:Jurkat Cas9 细胞系。

  • 操作
    1. 用 pooled gRNA 文库,靶向 9 个 splicing factor(每个 2 条 gRNA);
    2. 感染后培养 14 天(让 KO 效应充分显现)。
  • 测序
    • Illumina(短读,10x):标准 scRNA‑seq;额外设计引物,捕获 gRNA 序列;这样,每个单细胞可以打上「携带哪个 gRNA → KO 哪个因子」的标签。
    • Nanopore(长读,全转录组):同一批 10x cDNA 再上 Nanopore;用 Longcell 恢复 UMI,并做 meta‑splice 定量。
  • 后续:对某些重点基因(如 DGUOK)再做高覆盖的靶向 Nanopore 长读验证。

结果是,每个细胞同时有:

  1. 表达谱;
  2. gRNA / KO 身份;
  3. 长读剪接结构信息。

3.2 借此回答的剪接生物学问题

(1) 哪些剪接事件被哪些 splicing factor 调控?方向如何?

  • 用 Longcell 的 meta‑site 定量 + Beta–Binomial 差异检验:在 nontarget 对照 vs 某 KO 群体之间,找到「PSI 分布明显不同」的 meta‑site。
  • 稳健性:他们在不同条件(未刺激 vs 刺激 T cell)下,也做了一样的分析,发现很多事件在两种状态下的 ΔPSI 方向一致,说明这类调控关系 在激活前后较为稳定

例子:

  • HNRNPLL – PTPRC:已知 HNRNPLL 调控 CD45(PTPRC)外显子包含;他们在 KO 数据中重新找到了这一经典模型,算是 sanity check。
  • PCBP2 – DGUOK:KO PCBP2 之后,DGUOK 的 exon 3/4 inclusion 降低,isoform 从某个「长 isoform」切换到「短 isoform」;这是一个此前并未突出的调控关系,被他们发现并通过靶向长读验证。
  • CELF2 – PTS / ARHGEF1 等:显示 CELF2 可在不同基因上分别促进或抑制 exon inclusion,说明同一个 splicing factor 对不同位点的作用方向不必一致。

(2) 同一调控事件在不同状态(naive vs stimulated)下是否一致?

  • 在 T cell 未刺激和激活后两个状态中都做了 KO;
  • 对重叠的 meta‑site 比较 ΔPSI:发现高度相关,→ 很多剪接调控是「状态稳定」的,而不是仅在某一状态才起作用

3.3 Longcell 在 CRISPR KO 这一块的优势

  1. UMI‑aware 纠错对于 “剪接位点附近有 CRISPR 编辑” 尤其重要
    • CRISPR 靶向剪接因子或剪接位点常常会引入局部 indel 或改变 splicing pattern。
    • 再叠加 Nanopore 自身高错率,如果没有 UMI‑based 纠错,很难区分「真实新剪接事件」和「测序噪声」。
  2. 分布水平(distribution-level)的差异剪接检验
    • 传统 DA 工具多看「ΔPSI 均值」;
    • Longcell 框架用 Beta–Binomial 来比较 KO vs 对照的 PSI 分布:不仅看 mean,也捕捉「方差/分布形状」的变化。
    • 这在 CRISPR 场景中很重要:比如 KO 后出现一个新的高 PSI 亚群,即便总体平均变化不大,也能被检测。
  3. 帮助发掘新的剪接调控关系,并给出结构级别的证据
    • 由于有长读,每个事件不仅能说「PSI 变了」,还能精确说是哪条 isoform 被削弱/增强。
    • 再配合靶向高覆盖长读验证,对 PCBP2–DGUOK 之类的新关系给出了结构级证据。

暂闭

待续