文献--使用短读长和长读长RNA测序方法阐明RNA加工的协调性

Elucidating the coordination of RNA processing using short-read and long-read RNA-sequencing methods

使用短读长和长读长 RNA 测序方法阐明 RNA 加工的协调性

创建：2025-12-12 | 神经蛙的藏宝阁

时间：06 October 2025
期刊：Nature Reviews Molecular Cell Biology

Tip：文章的概念很多，但是没有做过多介绍，所以该文包含了一些背景介绍以及我个人的理解。

0. 背景简单了解：二代 vs 三代 & 新生 RNA 测序

0.1 测序的三代

一代（Sanger）
- 思路：逐条读，很准但通量极低。
- 现在基本只用于克隆验证、小片段测序。
二代（NGS，短读长）
- 代表：Illumina。
- 特点：
  - 读长短（几十～几百 bp）。
  - 准确率高（>99%）。
  - 通量惊人，成本低。
- 几乎所有传统 RNA‑seq、ChIP‑seq、ATAC‑seq 等 high‑throughput 项目都基于它。
三代（长读长）
- 代表：PacBio（HiFi）、Oxford Nanopore（ONT）。
- 特点：
  - 单条 read 很长（几 kb 到几十 kb），可以跨越整条转录本。
  - 初期错误率高、但 PacBio HiFi 等已大幅提高精度。
  - 通量和成本仍不如二代，但在“结构解析”和“单分子层面”有不可替代的优势。
- 应用：
  - 全长转录本（Iso‑Seq / long‑read RNA‑seq）。
  - 复杂结构变异检测（SV）。
  - 某些方案可直接测 RNA（direct RNA sequencing）。

和本篇文章直接相关的“二代 vs 三代”差异：

二代：碎片视角，超强定量，适合大 cohort。
三代：整分子视角，可以直接看到一条 RNA 的“头 + 身体 + 尾巴”如何搭配。

0.2 什么是“新生 RNA”？它为什么重要？

成熟 mRNA：已经完成加工（剪接、3′ 端切割加尾）、准备翻译或转运的 RNA。
新生 RNA（nascent RNA）：仍然连在线上（Pol II 上）或刚合成不久的 RNA，中间态很多：
- 可能还没剪完；
- 可能还没做 3′ 尾；
- 有的甚至还是带着一堆 intron 的“前体”。

为什么要测新生 RNA？

常规 bulk RNA‑seq 测到的是稳态丰度（steady‑state）：=「合成」+「降解」长期平衡后的结果。
很多调控其实发生在：转录起始 / 延伸速度；剪接什么时候完成；终止是否高效。
只看成熟 mRNA，会把这些动力学“压扁”成一个数，难以区分“生产变快”和“降解变慢”。

新生 RNA 测序（nascent RNA‑seq）家族： 大致两类思路：

核 run‑on / 转录瞬时抓捕系
- GRO‑seq / PRO‑seq / PRO‑cap / NET‑seq 等。
- 原理：在核内给 Pol II “延伸一小步”并打上标记 → 抓住此时此刻正在合成的 RNA。
- 能看：Pol II 在基因上的分布 → 起始 / 停顿 / 终止；某些剪接中间态的比例。
代谢标记系
- 4sU/4tU / BrU 标记 + SLAM‑seq, TT‑seq, Bru‑seq 等。
- 原理：在一定时间窗口投喂可被掺入的新核苷，让“新合成 RNA”带上标签，之后区分“新”与“旧”。
- 能看：合成速率（谁在快速上调）；剪接速度；mRNA 稳定性/半衰期。

文章主要内容以及我增加的基本知识，用较直白的语言总结一波

1. 二代短读长：仍然是 RNA‑seq 世界的“量的王者”

1.1 二代短读长 RNA‑seq 的定位

数据形态：

read 长度：一般 50–150 bp（单端）或 2×75, 2×150（双端）。
每个样本动辄 2,000–100,000 万条 reads。
通常测的是：cDNA 文库（经打断、建库、PCR 扩增），最终 mapping 回基因组或转录本注释。

关键特征：

优点：
- 便宜、可扩展：“上百/上千样本”级别没压力。
- 每个位点的覆盖度高 ⇒ 统计功效强。
- 公共数据海量：GTEx、TCGA、各种 cohort、eQTL 项目等。
缺点（和三代比）：
- read 很短，只能覆盖局部。
- 大部分分析都是**“统计局部事件的频率”**，很难在单分子层面还原完整 isoform 结构。
- 强依赖注释：未注释外显子、新 TSS/PAS 很容易被“挤”到既有模型里。

这决定了它最擅长的是： 各种“局部加工事件”的定量（谁多谁少、比例差多少），而非“全长结构 + 协同模式”的解析。

1.2 从短读长看 TSS 选择（ATSS）

问题：同一个基因有多个启动子 / TSS，不同条件下到底偏向用哪一个？ 背后生物学：不同 TSS → 不同 5′UTR / 首 exon，可能改变 uORF 数量、mRNA 结构、翻译效率，甚至改变编码序列。

二代数据如何玩儿：

依赖：覆盖在首 exon 区域的 reads；和下游 exon 的 junction reads。
简单来说：若 TSS1 对应的首 exon（Exon1a）上 reads 多、Exon1a–Exon2 junction hits 高 → 说明 TSS1 此条件下使用率高。

主要局限：注释 & 模型

某个 exon 既可能是某些转录本的首 exon，也可能是另一些转录本的内部 exon。
短读长 reads 覆盖到那里时，你很难 100% 确定它属于哪种结构 → TSS 推断的错误传播很大程度来自这里。

简单举例一波：只有一小段轨道上的车流量数据，要区分“从 A 站发车”和“从 B 站发车”的列车，如果线路图（转录本注释）不全，很容易搞混。

1.3 从短读长看剪接（AS）

背景快速回顾：前体 mRNA = exon + intron；剪接后去掉 intron，连上 exon；某些 exon/intron 的保留/跳过是可变的 ⇒ alternative splicing（AS）。

二代如何做 AS 定量：

利用：exon 覆盖度；exon–exon junction reads。
常用指标：PSI（Percent Spliced In）。
实际分析工具：rMATS / DEXSeq / MISO 等。

小结一波：短读长 + 合理模型 = 非常成熟的“大规模 AS 定量管线”。缺点是：你通常只在“单个事件”的层面看（某个 exon 的 PSI），很难知道不同 AS 事件之间在单分子上是怎样组合的。

1.4 从短读长看 APA（alternative polyadenylation）

背景：同一条 pre‑mRNA 上往往有多个 poly(A) signal；在不同 PAS 切断 → 不同 3′UTR 长度。

APA 数据来源两大类：

专门的 3′‑end 测序（如 3′READS，Quant‑seq）：
- 优点：PAS 位置精确，高分辨率。
- 缺点：只看 3′端，基本不知道上游 TSS 用的哪一个、内部 AS 如何选择。
从常规 RNA‑seq 里“抠 APA”：
- 思路：在已有 bulk RNA‑seq 中，观察 3′UTR 区域 reads 的分布和梯度。
- 优点：不需额外实验，适合做大队列 APA 分析。
- 缺点：分辨率有限。

现实做法往往是：想要高分辨率机制图上专门 3′‑end seq；想要玩人群规模的遗传学 / 大队列图谱从标准 RNA‑seq 里抠 APA 信号。

1.5 用短读长 + 新生 RNA 测序看“时间维度”

前面说的 ATSS、AS、APA，多数是在成熟 mRNA 的 steady‑state 上完成的描述。但很多关键问题其实是：某个 intron 被剪掉需要多长时间？转录终止是否高效？

这就轮到新生 RNA 测序系方法出场了。

1.5.1 核 run‑on / NET‑seq 家族：直接抓 nascent RNA

基本设计套路：分离细胞核 → 给 Pol II 延伸一小步 → 加标记 → 富集测序。
能看到什么：
- Pol II 空间分布（TSS 附近的 pile‑up、gene body 斜率）。
- 剪接相关信息（intron reads 何时减少）。
类比：这类方法就像是直接走进生产线车间，用高速相机拍下“半成品”在各工位之间的堆积情况，谁那里堆了一堆半成品，就是 bottleneck。

1.5.2 代谢标记（4sU / 4tU / BrU 等）+ 二代测序

核心思路：喂入“特殊核苷” → 不同 chase 时间点收样本 → 区分“新/旧” → 测序。
实际可做的事：拟合得到剪接速率；推 mRNA 半衰期；把“合成 vs 降解”的贡献费解开。

小结：新生 RNA + 二代短读长，补上了**“时间/动力学”维度**，让我们从“只看结果”变成“看到过程”。

2. 三代长读长：把“结构 + 协调”推到单分子分辨率

2.1 三代长读长平台的技术特点

PacBio（SMRT / HiFi）：单分子实时测序。HiFi read 精度可以接近或超过二代（>99.9%）。典型应用：Iso‑Seq。
Oxford Nanopore（ONT）：电流信号变化判读。读长几乎无限，可做 direct RNA sequencing。

2.2 长读长 RNA‑seq 的基本思想

和二代最根本的不同在于：

二代：打断 → 只看到片段。
三代长读长：从头到尾拉着读，一条 read 横跨整个（或大部分）转录本。

所以每条 read 天然携带：

使用了哪个 TSS / 首 exon；
中间哪些 exon 被 include / skip；
内部 splice site 选择如何；
最后在哪个 PAS 结束。

这样我们就从“局部事件频率”升级到：单分子级别的“全程搭配”信息。

2.3 相比二代，三代长读长多看到了哪些维度？

完整 isoform 结构：支持直接做 isoform‑level quantification。
多个事件的“同现/互斥”关系：可以统计 4×2 组合，看哪些组合高频，哪些组合理论上可能却几乎不出现。
TSS–AS–APA 三者的联动：可直接回答某个 TSS 是否倾向搭配特定剪接模式和 PAS。
等位基因特异性 isoform：在顺式层面把“特定变异”与“特定 isoform 程序”一一对应。
发现新结构：novel TSS / exon / PAS / fusion。
单细胞长读长（scLRS）：允许你在单细胞层面看 isoform 程序。

2.4 二代 vs 三代：不简单地来说

二代短读长（SRS）：read 短但多，适合 事件频率统计 + 大样本研究。
三代长读长（LRS）：read 长但相对少，适合 单分子结构解析 + 事件协同模式分析。

特性	二代短读长 (SRS)	三代长读长 (LRS)
Read 特点	短但多	长但相对少
优势	事件频率统计 + 大样本研究	单分子结构解析 + 事件协同模式分析
核心逻辑	间接反演结构，依赖注释	一条 read 就是“结构证据”
常见组合	大规模“导航地图”	关键样本上的“结构放大镜”

现实项目常见组合：用大规模二代做“导航地图”，再用适量三代长读长在关键样本/细胞类型上做结构放大镜。

3. 不同 RNA 加工步骤之间的“协调”

从这节开始，文章的问题升级为：这些加工步骤（TSS 选择、剪接、APA、终止）到底是“松散的小开关”，还是被组织成几个相对稳定的“RNA 程序”？

3.1 问题：独立开关 vs 协同程序

传统视角常常隐含一个假设：这些都是相对独立的开关，总体效果大概 = 各个事件影响的“线性叠加”。但 LRS 数据让我们开始问一个更强的问题：在真实细胞里，这些“开关”是不是被强行绑定成有限种搭配模式（程序）？

3.2 一些典型的“协调模式”例子

这里只挑最直观的几种协同关系来讲。

3.2.1 Promoter–Splicing 协同

现象：同一基因从不同 promoter/TSS 起跑，下游剪接模式也随之切换。
例子式描述：从 TSS1 起跑的转录本更常 include 某个下游可变外显子 A；从 TSS2 起跑倾向 skip A。
可能机制（纯揣测）：染色质状态、TF 结合、Pol II CTD 标记组合等。

3.2.2 Splicing–APA 协同

现象：内部某个剪接事件和 3′UTR 长短紧密耦合。
例子：当可变外显子 A 被 include 时，下游转录本几乎总是选择远端 PAS → 长 3′UTR。
可能含义：某个 RBP 既在 A 附近的 intron/exon 上有结合位点，又在远端 3′UTR 的 PAS 附近有 binding sites，它相当于一个“桥”。

3.2.3 Promoter–APA 协同

现象：不同 TSS 对应不同的 3′UTR 长度偏好。
这说明：promoter 级调控可以一路影响到 3′端的选择。

3.3 如何用 LRS 量化“协调程度”（延伸一下）

为某个基因定义“关键事件维度”（TSS, Exon, PAS）。
把每条 LRS read 编成一个多维标签向量（如 [TSS=1] [A=on] [PAS=2]）。
统计所有组合的出现频率。
计算“事件之间的关联”（互信息等）。
跨条件/细胞类型比较。

核心 takeaway：LRS 的价值，不止在于“发现更多 isoform”，而是第一次允许我们把“多个 RNA 加工事件的关系”提升到“程序 / 模块”的层面来讨论。

3.4 从“操作系统配置”的角度看这些协同

说白了相当于协同启动的开关：

二代分析常常是逐个看“这个开关的 on/off 频率”。
LRS + 协同分析告诉我们：细胞真实在跑的是几套预定义好的“配置档/启动模式”：
- 配置档 1：TSS1 + A‑in + B‑out + 长 3′UTR
- 配置档 2：TSS2 + A‑out + B‑in + 短 3′UTR

许多环境变化、发育阶段转换、疾病状态，可能就是在不同配置档之间切换权重，而非“所有小开关逐个独立调”。

赞闭

待续

还有最后一部分，QTL 的影响和 crispr 调控探究因果部分可以根据需要自行在综述中查阅。

创建：2025-12-12 | 神经蛙的藏宝阁#

0. 背景简单了解：二代 vs 三代 & 新生 RNA 测序#

0.1 测序的三代#

0.2 什么是“新生 RNA”？它为什么重要？#

1. 二代短读长：仍然是 RNA‑seq 世界的“量的王者”#

1.1 二代短读长 RNA‑seq 的定位#

1.2 从短读长看 TSS 选择（ATSS）#

1.3 从短读长看剪接（AS）#

1.4 从短读长看 APA（alternative polyadenylation）#

1.5 用短读长 + 新生 RNA 测序看“时间维度”#

1.5.1 核 run‑on / NET‑seq 家族：直接抓 nascent RNA#

1.5.2 代谢标记（4sU / 4tU / BrU 等）+ 二代测序#

2. 三代长读长：把“结构 + 协调”推到单分子分辨率#

2.1 三代长读长平台的技术特点#

2.2 长读长 RNA‑seq 的基本思想#

2.3 相比二代，三代长读长多看到了哪些维度？#

2.4 二代 vs 三代：不简单地来说#

3. 不同 RNA 加工步骤之间的“协调”#

3.1 问题：独立开关 vs 协同程序#

3.2 一些典型的“协调模式”例子#

3.2.1 Promoter–Splicing 协同#

3.2.2 Splicing–APA 协同#

3.2.3 Promoter–APA 协同#

3.3 如何用 LRS 量化“协调程度”（延伸一下）#

3.4 从“操作系统配置”的角度看这些协同#