Elucidating the coordination of RNA processing using short-read and long-read RNA-sequencing methods
使用短读长和长读长 RNA 测序方法阐明 RNA 加工的协调性
创建:2025-12-12 | 神经蛙的藏宝阁
- 时间:06 October 2025
- 期刊:Nature Reviews Molecular Cell Biology
Tip:文章的概念很多,但是没有做过多介绍,所以该文包含了一些背景介绍以及我个人的理解。
0. 背景简单了解:二代 vs 三代 & 新生 RNA 测序
0.1 测序的三代
- 一代(Sanger)
- 思路:逐条读,很准但通量极低。
- 现在基本只用于克隆验证、小片段测序。
- 二代(NGS,短读长)
- 代表:Illumina。
- 特点:
- 读长短(几十~几百 bp)。
- 准确率高(>99%)。
- 通量惊人,成本低。
- 几乎所有传统 RNA‑seq、ChIP‑seq、ATAC‑seq 等 high‑throughput 项目都基于它。
- 三代(长读长)
- 代表:PacBio(HiFi)、Oxford Nanopore(ONT)。
- 特点:
- 单条 read 很长(几 kb 到几十 kb),可以跨越整条转录本。
- 初期错误率高、但 PacBio HiFi 等已大幅提高精度。
- 通量和成本仍不如二代,但在“结构解析”和“单分子层面”有不可替代的优势。
- 应用:
- 全长转录本(Iso‑Seq / long‑read RNA‑seq)。
- 复杂结构变异检测(SV)。
- 某些方案可直接测 RNA(direct RNA sequencing)。
和本篇文章直接相关的“二代 vs 三代”差异:
- 二代:碎片视角,超强定量,适合大 cohort。
- 三代:整分子视角,可以直接看到一条 RNA 的“头 + 身体 + 尾巴”如何搭配。
0.2 什么是“新生 RNA”?它为什么重要?
- 成熟 mRNA:已经完成加工(剪接、3′ 端切割加尾)、准备翻译或转运的 RNA。
- 新生 RNA(nascent RNA):仍然连在线上(Pol II 上)或刚合成不久的 RNA,中间态很多:
- 可能还没剪完;
- 可能还没做 3′ 尾;
- 有的甚至还是带着一堆 intron 的“前体”。
为什么要测新生 RNA?
- 常规 bulk RNA‑seq 测到的是稳态丰度(steady‑state):=「合成」+「降解」长期平衡后的结果。
- 很多调控其实发生在:转录起始 / 延伸速度;剪接什么时候完成;终止是否高效。
- 只看成熟 mRNA,会把这些动力学“压扁”成一个数,难以区分“生产变快”和“降解变慢”。
新生 RNA 测序(nascent RNA‑seq)家族: 大致两类思路:
- 核 run‑on / 转录瞬时抓捕系
- GRO‑seq / PRO‑seq / PRO‑cap / NET‑seq 等。
- 原理:在核内给 Pol II “延伸一小步”并打上标记 → 抓住此时此刻正在合成的 RNA。
- 能看:Pol II 在基因上的分布 → 起始 / 停顿 / 终止;某些剪接中间态的比例。
- 代谢标记系
- 4sU/4tU / BrU 标记 + SLAM‑seq, TT‑seq, Bru‑seq 等。
- 原理:在一定时间窗口投喂可被掺入的新核苷,让“新合成 RNA”带上标签,之后区分“新”与“旧”。
- 能看:合成速率(谁在快速上调);剪接速度;mRNA 稳定性/半衰期。
文章主要内容以及我增加的基本知识,用较直白的语言总结一波
1. 二代短读长:仍然是 RNA‑seq 世界的“量的王者”
1.1 二代短读长 RNA‑seq 的定位
数据形态:
- read 长度:一般 50–150 bp(单端)或 2×75, 2×150(双端)。
- 每个样本动辄 2,000–100,000 万条 reads。
- 通常测的是:cDNA 文库(经打断、建库、PCR 扩增),最终 mapping 回基因组或转录本注释。
关键特征:
- 优点:
- 便宜、可扩展:“上百/上千样本”级别没压力。
- 每个位点的覆盖度高 ⇒ 统计功效强。
- 公共数据海量:GTEx、TCGA、各种 cohort、eQTL 项目等。
- 缺点(和三代比):
- read 很短,只能覆盖局部。
- 大部分分析都是**“统计局部事件的频率”**,很难在单分子层面还原完整 isoform 结构。
- 强依赖注释:未注释外显子、新 TSS/PAS 很容易被“挤”到既有模型里。
这决定了它最擅长的是: 各种“局部加工事件”的定量(谁多谁少、比例差多少),而非“全长结构 + 协同模式”的解析。
1.2 从短读长看 TSS 选择(ATSS)
问题:同一个基因有多个启动子 / TSS,不同条件下到底偏向用哪一个? 背后生物学:不同 TSS → 不同 5′UTR / 首 exon,可能改变 uORF 数量、mRNA 结构、翻译效率,甚至改变编码序列。
二代数据如何玩儿:
- 依赖:覆盖在首 exon 区域的 reads;和下游 exon 的 junction reads。
- 简单来说:若 TSS1 对应的首 exon(Exon1a)上 reads 多、Exon1a–Exon2 junction hits 高 → 说明 TSS1 此条件下使用率高。
主要局限:注释 & 模型
- 某个 exon 既可能是某些转录本的首 exon,也可能是另一些转录本的内部 exon。
- 短读长 reads 覆盖到那里时,你很难 100% 确定它属于哪种结构 → TSS 推断的错误传播很大程度来自这里。
简单举例一波: 只有一小段轨道上的车流量数据,要区分“从 A 站发车”和“从 B 站发车”的列车,如果线路图(转录本注释)不全,很容易搞混。
1.3 从短读长看剪接(AS)
背景快速回顾:前体 mRNA = exon + intron;剪接后去掉 intron,连上 exon;某些 exon/intron 的保留/跳过是可变的 ⇒ alternative splicing(AS)。
二代如何做 AS 定量:
- 利用:exon 覆盖度;exon–exon junction reads。
- 常用指标:PSI(Percent Spliced In)。
- 实际分析工具:rMATS / DEXSeq / MISO 等。
小结一波: 短读长 + 合理模型 = 非常成熟的“大规模 AS 定量管线”。 缺点是:你通常只在“单个事件”的层面看(某个 exon 的 PSI),很难知道不同 AS 事件之间在单分子上是怎样组合的。
1.4 从短读长看 APA(alternative polyadenylation)
背景:同一条 pre‑mRNA 上往往有多个 poly(A) signal;在不同 PAS 切断 → 不同 3′UTR 长度。
APA 数据来源两大类:
- 专门的 3′‑end 测序(如 3′READS,Quant‑seq):
- 优点:PAS 位置精确,高分辨率。
- 缺点:只看 3′端,基本不知道上游 TSS 用的哪一个、内部 AS 如何选择。
- 从常规 RNA‑seq 里“抠 APA”:
- 思路:在已有 bulk RNA‑seq 中,观察 3′UTR 区域 reads 的分布和梯度。
- 优点:不需额外实验,适合做大队列 APA 分析。
- 缺点:分辨率有限。
现实做法往往是:想要高分辨率机制图上专门 3′‑end seq;想要玩人群规模的遗传学 / 大队列图谱从标准 RNA‑seq 里抠 APA 信号。
1.5 用短读长 + 新生 RNA 测序看“时间维度”
前面说的 ATSS、AS、APA,多数是在成熟 mRNA 的 steady‑state 上完成的描述。但很多关键问题其实是:某个 intron 被剪掉需要多长时间?转录终止是否高效?
这就轮到新生 RNA 测序系方法出场了。
1.5.1 核 run‑on / NET‑seq 家族:直接抓 nascent RNA
- 基本设计套路:分离细胞核 → 给 Pol II 延伸一小步 → 加标记 → 富集测序。
- 能看到什么:
- Pol II 空间分布(TSS 附近的 pile‑up、gene body 斜率)。
- 剪接相关信息(intron reads 何时减少)。
- 类比:这类方法就像是直接走进生产线车间,用高速相机拍下“半成品”在各工位之间的堆积情况,谁那里堆了一堆半成品,就是 bottleneck。
1.5.2 代谢标记(4sU / 4tU / BrU 等)+ 二代测序
- 核心思路:喂入“特殊核苷” → 不同 chase 时间点收样本 → 区分“新/旧” → 测序。
- 实际可做的事:拟合得到剪接速率;推 mRNA 半衰期;把“合成 vs 降解”的贡献费解开。
小结:新生 RNA + 二代短读长,补上了**“时间/动力学”维度**,让我们从“只看结果”变成“看到过程”。
2. 三代长读长:把“结构 + 协调”推到单分子分辨率
2.1 三代长读长平台的技术特点
- PacBio(SMRT / HiFi):单分子实时测序。HiFi read 精度可以接近或超过二代(>99.9%)。典型应用:Iso‑Seq。
- Oxford Nanopore(ONT):电流信号变化判读。读长几乎无限,可做 direct RNA sequencing。
2.2 长读长 RNA‑seq 的基本思想
和二代最根本的不同在于:
- 二代:打断 → 只看到片段。
- 三代长读长:从头到尾拉着读,一条 read 横跨整个(或大部分)转录本。
所以每条 read 天然携带:
- 使用了哪个 TSS / 首 exon;
- 中间哪些 exon 被 include / skip;
- 内部 splice site 选择如何;
- 最后在哪个 PAS 结束。
这样我们就从“局部事件频率”升级到:单分子级别的“全程搭配”信息。
2.3 相比二代,三代长读长多看到了哪些维度?
- 完整 isoform 结构:支持直接做 isoform‑level quantification。
- 多个事件的“同现/互斥”关系:可以统计 4×2 组合,看哪些组合高频,哪些组合理论上可能却几乎不出现。
- TSS–AS–APA 三者的联动:可直接回答某个 TSS 是否倾向搭配特定剪接模式和 PAS。
- 等位基因特异性 isoform:在顺式层面把“特定变异”与“特定 isoform 程序”一一对应。
- 发现新结构:novel TSS / exon / PAS / fusion。
- 单细胞长读长(scLRS):允许你在单细胞层面看 isoform 程序。
2.4 二代 vs 三代:不简单地来说
- 二代短读长(SRS):read 短但多,适合 事件频率统计 + 大样本研究。
- 三代长读长(LRS):read 长但相对少,适合 单分子结构解析 + 事件协同模式分析。
| 特性 | 二代短读长 (SRS) | 三代长读长 (LRS) |
|---|---|---|
| Read 特点 | 短但多 | 长但相对少 |
| 优势 | 事件频率统计 + 大样本研究 | 单分子结构解析 + 事件协同模式分析 |
| 核心逻辑 | 间接反演结构,依赖注释 | 一条 read 就是“结构证据” |
| 常见组合 | 大规模“导航地图” | 关键样本上的“结构放大镜” |
现实项目常见组合:用大规模二代做“导航地图”,再用适量三代长读长在关键样本/细胞类型上做结构放大镜。
3. 不同 RNA 加工步骤之间的“协调”
从这节开始,文章的问题升级为: 这些加工步骤(TSS 选择、剪接、APA、终止)到底是“松散的小开关”,还是被组织成几个相对稳定的“RNA 程序”?
3.1 问题:独立开关 vs 协同程序
传统视角常常隐含一个假设:这些都是相对独立的开关,总体效果大概 = 各个事件影响的“线性叠加”。 但 LRS 数据让我们开始问一个更强的问题:在真实细胞里,这些“开关”是不是被强行绑定成有限种搭配模式(程序)?
3.2 一些典型的“协调模式”例子
这里只挑最直观的几种协同关系来讲。
3.2.1 Promoter–Splicing 协同
- 现象:同一基因从不同 promoter/TSS 起跑,下游剪接模式也随之切换。
- 例子式描述:从 TSS1 起跑的转录本更常 include 某个下游可变外显子 A;从 TSS2 起跑倾向 skip A。
- 可能机制(纯揣测):染色质状态、TF 结合、Pol II CTD 标记组合等。
3.2.2 Splicing–APA 协同
- 现象:内部某个剪接事件和 3′UTR 长短紧密耦合。
- 例子:当可变外显子 A 被 include 时,下游转录本几乎总是选择远端 PAS → 长 3′UTR。
- 可能含义:某个 RBP 既在 A 附近的 intron/exon 上有结合位点,又在远端 3′UTR 的 PAS 附近有 binding sites,它相当于一个“桥”。
3.2.3 Promoter–APA 协同
- 现象:不同 TSS 对应不同的 3′UTR 长度偏好。
- 这说明:promoter 级调控可以一路影响到 3′端的选择。
3.3 如何用 LRS 量化“协调程度”(延伸一下)
- 为某个基因定义“关键事件维度”(TSS, Exon, PAS)。
- 把每条 LRS read 编成一个多维标签向量(如
[TSS=1] [A=on] [PAS=2])。 - 统计所有组合的出现频率。
- 计算“事件之间的关联”(互信息等)。
- 跨条件/细胞类型比较。
核心 takeaway:LRS 的价值,不止在于“发现更多 isoform”,而是第一次允许我们把“多个 RNA 加工事件的关系”提升到“程序 / 模块”的层面来讨论。
3.4 从“操作系统配置”的角度看这些协同
说白了相当于协同启动的开关:
- 二代分析常常是逐个看“这个开关的 on/off 频率”。
- LRS + 协同分析告诉我们:细胞真实在跑的是几套预定义好的“配置档/启动模式”:
- 配置档 1:TSS1 + A‑in + B‑out + 长 3′UTR
- 配置档 2:TSS2 + A‑out + B‑in + 短 3′UTR
许多环境变化、发育阶段转换、疾病状态,可能就是在不同配置档之间切换权重,而非“所有小开关逐个独立调”。
赞闭
待续
还有最后一部分,QTL 的影响和 crispr 调控探究因果部分可以根据需要自行在综述中查阅。