Elucidating the coordination of RNA processing using short-read and long-read RNA-sequencing methods

使用短读长和长读长 RNA 测序方法阐明 RNA 加工的协调性

创建:2025-12-12 | 神经蛙的藏宝阁

  • 时间:06 October 2025
  • 期刊:Nature Reviews Molecular Cell Biology

Tip:文章的概念很多,但是没有做过多介绍,所以该文包含了一些背景介绍以及我个人的理解。


0. 背景简单了解:二代 vs 三代 & 新生 RNA 测序

0.1 测序的三代

  • 一代(Sanger)
    • 思路:逐条读,很准但通量极低。
    • 现在基本只用于克隆验证、小片段测序。
  • 二代(NGS,短读长)
    • 代表:Illumina。
    • 特点
      • 读长短(几十~几百 bp)。
      • 准确率高(>99%)。
      • 通量惊人,成本低。
    • 几乎所有传统 RNA‑seq、ChIP‑seq、ATAC‑seq 等 high‑throughput 项目都基于它。
  • 三代(长读长)
    • 代表:PacBio(HiFi)、Oxford Nanopore(ONT)。
    • 特点
      • 单条 read 很长(几 kb 到几十 kb),可以跨越整条转录本。
      • 初期错误率高、但 PacBio HiFi 等已大幅提高精度。
      • 通量和成本仍不如二代,但在“结构解析”和“单分子层面”有不可替代的优势。
    • 应用
      • 全长转录本(Iso‑Seq / long‑read RNA‑seq)。
      • 复杂结构变异检测(SV)。
      • 某些方案可直接测 RNA(direct RNA sequencing)。

和本篇文章直接相关的“二代 vs 三代”差异:

  • 二代:碎片视角,超强定量,适合大 cohort。
  • 三代:整分子视角,可以直接看到一条 RNA 的“头 + 身体 + 尾巴”如何搭配。

0.2 什么是“新生 RNA”?它为什么重要?

  • 成熟 mRNA:已经完成加工(剪接、3′ 端切割加尾)、准备翻译或转运的 RNA。
  • 新生 RNA(nascent RNA):仍然连在线上(Pol II 上)或刚合成不久的 RNA,中间态很多:
    • 可能还没剪完;
    • 可能还没做 3′ 尾;
    • 有的甚至还是带着一堆 intron 的“前体”。

为什么要测新生 RNA?

  • 常规 bulk RNA‑seq 测到的是稳态丰度(steady‑state):=「合成」+「降解」长期平衡后的结果。
  • 很多调控其实发生在:转录起始 / 延伸速度;剪接什么时候完成;终止是否高效。
  • 只看成熟 mRNA,会把这些动力学“压扁”成一个数,难以区分“生产变快”和“降解变慢”。

新生 RNA 测序(nascent RNA‑seq)家族: 大致两类思路:

  1. 核 run‑on / 转录瞬时抓捕系
    • GRO‑seq / PRO‑seq / PRO‑cap / NET‑seq 等。
    • 原理:在核内给 Pol II “延伸一小步”并打上标记 → 抓住此时此刻正在合成的 RNA。
    • 能看:Pol II 在基因上的分布 → 起始 / 停顿 / 终止;某些剪接中间态的比例。
  2. 代谢标记系
    • 4sU/4tU / BrU 标记 + SLAM‑seq, TT‑seq, Bru‑seq 等。
    • 原理:在一定时间窗口投喂可被掺入的新核苷,让“新合成 RNA”带上标签,之后区分“新”与“旧”。
    • 能看:合成速率(谁在快速上调);剪接速度;mRNA 稳定性/半衰期。

文章主要内容以及我增加的基本知识,用较直白的语言总结一波

1. 二代短读长:仍然是 RNA‑seq 世界的“量的王者”

1.1 二代短读长 RNA‑seq 的定位

数据形态

  • read 长度:一般 50–150 bp(单端)或 2×75, 2×150(双端)。
  • 每个样本动辄 2,000–100,000 万条 reads。
  • 通常测的是:cDNA 文库(经打断、建库、PCR 扩增),最终 mapping 回基因组或转录本注释。

关键特征

  • 优点
    • 便宜、可扩展:“上百/上千样本”级别没压力。
    • 每个位点的覆盖度高 ⇒ 统计功效强。
    • 公共数据海量:GTEx、TCGA、各种 cohort、eQTL 项目等。
  • 缺点(和三代比)
    • read 很短,只能覆盖局部。
    • 大部分分析都是**“统计局部事件的频率”**,很难在单分子层面还原完整 isoform 结构。
    • 强依赖注释:未注释外显子、新 TSS/PAS 很容易被“挤”到既有模型里。

这决定了它最擅长的是: 各种“局部加工事件”的定量(谁多谁少、比例差多少),而非“全长结构 + 协同模式”的解析。

1.2 从短读长看 TSS 选择(ATSS)

问题:同一个基因有多个启动子 / TSS,不同条件下到底偏向用哪一个? 背后生物学:不同 TSS → 不同 5′UTR / 首 exon,可能改变 uORF 数量、mRNA 结构、翻译效率,甚至改变编码序列。

二代数据如何玩儿

  • 依赖:覆盖在首 exon 区域的 reads;和下游 exon 的 junction reads。
  • 简单来说:若 TSS1 对应的首 exon(Exon1a)上 reads 多、Exon1a–Exon2 junction hits 高 → 说明 TSS1 此条件下使用率高。

主要局限:注释 & 模型

  • 某个 exon 既可能是某些转录本的首 exon,也可能是另一些转录本的内部 exon。
  • 短读长 reads 覆盖到那里时,你很难 100% 确定它属于哪种结构 → TSS 推断的错误传播很大程度来自这里。

简单举例一波: 只有一小段轨道上的车流量数据,要区分“从 A 站发车”和“从 B 站发车”的列车,如果线路图(转录本注释)不全,很容易搞混。

1.3 从短读长看剪接(AS)

背景快速回顾:前体 mRNA = exon + intron;剪接后去掉 intron,连上 exon;某些 exon/intron 的保留/跳过是可变的 ⇒ alternative splicing(AS)。

二代如何做 AS 定量

  • 利用:exon 覆盖度;exon–exon junction reads。
  • 常用指标:PSI(Percent Spliced In)。
  • 实际分析工具:rMATS / DEXSeq / MISO 等。

小结一波: 短读长 + 合理模型 = 非常成熟的“大规模 AS 定量管线”。 缺点是:你通常只在“单个事件”的层面看(某个 exon 的 PSI),很难知道不同 AS 事件之间在单分子上是怎样组合的。

1.4 从短读长看 APA(alternative polyadenylation)

背景:同一条 pre‑mRNA 上往往有多个 poly(A) signal;在不同 PAS 切断 → 不同 3′UTR 长度。

APA 数据来源两大类

  1. 专门的 3′‑end 测序(如 3′READS,Quant‑seq):
    • 优点:PAS 位置精确,高分辨率。
    • 缺点:只看 3′端,基本不知道上游 TSS 用的哪一个、内部 AS 如何选择。
  2. 从常规 RNA‑seq 里“抠 APA”
    • 思路:在已有 bulk RNA‑seq 中,观察 3′UTR 区域 reads 的分布和梯度。
    • 优点:不需额外实验,适合做大队列 APA 分析。
    • 缺点:分辨率有限。

现实做法往往是:想要高分辨率机制图上专门 3′‑end seq;想要玩人群规模的遗传学 / 大队列图谱从标准 RNA‑seq 里抠 APA 信号。

1.5 用短读长 + 新生 RNA 测序看“时间维度”

前面说的 ATSS、AS、APA,多数是在成熟 mRNA 的 steady‑state 上完成的描述。但很多关键问题其实是:某个 intron 被剪掉需要多长时间?转录终止是否高效?

这就轮到新生 RNA 测序系方法出场了。

1.5.1 核 run‑on / NET‑seq 家族:直接抓 nascent RNA

  • 基本设计套路:分离细胞核 → 给 Pol II 延伸一小步 → 加标记 → 富集测序。
  • 能看到什么
    • Pol II 空间分布(TSS 附近的 pile‑up、gene body 斜率)。
    • 剪接相关信息(intron reads 何时减少)。
  • 类比:这类方法就像是直接走进生产线车间,用高速相机拍下“半成品”在各工位之间的堆积情况,谁那里堆了一堆半成品,就是 bottleneck。

1.5.2 代谢标记(4sU / 4tU / BrU 等)+ 二代测序

  • 核心思路:喂入“特殊核苷” → 不同 chase 时间点收样本 → 区分“新/旧” → 测序。
  • 实际可做的事:拟合得到剪接速率;推 mRNA 半衰期;把“合成 vs 降解”的贡献费解开。

小结:新生 RNA + 二代短读长,补上了**“时间/动力学”维度**,让我们从“只看结果”变成“看到过程”。


2. 三代长读长:把“结构 + 协调”推到单分子分辨率

2.1 三代长读长平台的技术特点

  • PacBio(SMRT / HiFi):单分子实时测序。HiFi read 精度可以接近或超过二代(>99.9%)。典型应用:Iso‑Seq。
  • Oxford Nanopore(ONT):电流信号变化判读。读长几乎无限,可做 direct RNA sequencing。

2.2 长读长 RNA‑seq 的基本思想

和二代最根本的不同在于:

  • 二代:打断 → 只看到片段。
  • 三代长读长:从头到尾拉着读,一条 read 横跨整个(或大部分)转录本。

所以每条 read 天然携带:

  1. 使用了哪个 TSS / 首 exon;
  2. 中间哪些 exon 被 include / skip;
  3. 内部 splice site 选择如何;
  4. 最后在哪个 PAS 结束。

这样我们就从“局部事件频率”升级到:单分子级别的“全程搭配”信息

2.3 相比二代,三代长读长多看到了哪些维度?

  1. 完整 isoform 结构:支持直接做 isoform‑level quantification。
  2. 多个事件的“同现/互斥”关系:可以统计 4×2 组合,看哪些组合高频,哪些组合理论上可能却几乎不出现。
  3. TSS–AS–APA 三者的联动:可直接回答某个 TSS 是否倾向搭配特定剪接模式和 PAS。
  4. 等位基因特异性 isoform:在顺式层面把“特定变异”与“特定 isoform 程序”一一对应。
  5. 发现新结构:novel TSS / exon / PAS / fusion。
  6. 单细胞长读长(scLRS):允许你在单细胞层面看 isoform 程序。

2.4 二代 vs 三代:不简单地来说

  • 二代短读长(SRS):read 短但多,适合 事件频率统计 + 大样本研究
  • 三代长读长(LRS):read 长但相对少,适合 单分子结构解析 + 事件协同模式分析
特性 二代短读长 (SRS) 三代长读长 (LRS)
Read 特点 短但多 长但相对少
优势 事件频率统计 + 大样本研究 单分子结构解析 + 事件协同模式分析
核心逻辑 间接反演结构,依赖注释 一条 read 就是“结构证据”
常见组合 大规模“导航地图” 关键样本上的“结构放大镜”

现实项目常见组合:用大规模二代做“导航地图”,再用适量三代长读长在关键样本/细胞类型上做结构放大镜。


3. 不同 RNA 加工步骤之间的“协调”

从这节开始,文章的问题升级为: 这些加工步骤(TSS 选择、剪接、APA、终止)到底是“松散的小开关”,还是被组织成几个相对稳定的“RNA 程序”?

3.1 问题:独立开关 vs 协同程序

传统视角常常隐含一个假设:这些都是相对独立的开关,总体效果大概 = 各个事件影响的“线性叠加”。 但 LRS 数据让我们开始问一个更强的问题:在真实细胞里,这些“开关”是不是被强行绑定成有限种搭配模式(程序)?

3.2 一些典型的“协调模式”例子

这里只挑最直观的几种协同关系来讲。

3.2.1 Promoter–Splicing 协同

  • 现象:同一基因从不同 promoter/TSS 起跑,下游剪接模式也随之切换。
  • 例子式描述:从 TSS1 起跑的转录本更常 include 某个下游可变外显子 A;从 TSS2 起跑倾向 skip A。
  • 可能机制(纯揣测):染色质状态、TF 结合、Pol II CTD 标记组合等。

3.2.2 Splicing–APA 协同

  • 现象:内部某个剪接事件和 3′UTR 长短紧密耦合。
  • 例子:当可变外显子 A 被 include 时,下游转录本几乎总是选择远端 PAS → 长 3′UTR。
  • 可能含义:某个 RBP 既在 A 附近的 intron/exon 上有结合位点,又在远端 3′UTR 的 PAS 附近有 binding sites,它相当于一个“桥”。

3.2.3 Promoter–APA 协同

  • 现象:不同 TSS 对应不同的 3′UTR 长度偏好。
  • 这说明:promoter 级调控可以一路影响到 3′端的选择。

3.3 如何用 LRS 量化“协调程度”(延伸一下)

  1. 为某个基因定义“关键事件维度”(TSS, Exon, PAS)。
  2. 把每条 LRS read 编成一个多维标签向量(如 [TSS=1] [A=on] [PAS=2])。
  3. 统计所有组合的出现频率。
  4. 计算“事件之间的关联”(互信息等)。
  5. 跨条件/细胞类型比较。

核心 takeaway:LRS 的价值,不止在于“发现更多 isoform”,而是第一次允许我们把“多个 RNA 加工事件的关系”提升到“程序 / 模块”的层面来讨论。

3.4 从“操作系统配置”的角度看这些协同

说白了相当于协同启动的开关:

  • 二代分析常常是逐个看“这个开关的 on/off 频率”。
  • LRS + 协同分析告诉我们:细胞真实在跑的是几套预定义好的“配置档/启动模式”:
    • 配置档 1:TSS1 + A‑in + B‑out + 长 3′UTR
    • 配置档 2:TSS2 + A‑out + B‑in + 短 3′UTR

许多环境变化、发育阶段转换、疾病状态,可能就是在不同配置档之间切换权重,而非“所有小开关逐个独立调”。


赞闭

待续

还有最后一部分,QTL 的影响和 crispr 调控探究因果部分可以根据需要自行在综述中查阅。