Nature Methods
基因组单核苷酸水平注释的DNA基础模型

2025-11-19

小赛推荐：

本文介绍了一种新的基因组注释方法SegmentNT，利用预训练DNA基础模型，实现14种基因和调控元件的单核苷酸分辨率注释。模型可扩展到更长序列，并在多种物种中展现优异泛化能力。

文献概述
本文《Annotating the genome at single-nucleotide resolution with DNA foundation models》，发表于《Nature Methods》杂志，回顾并总结了当前基因组注释工具的局限性，并提出了一种基于多标签语义分割的深度学习方法，利用预训练DNA基础模型，实现基因和调控元件的高精度单核苷酸注释。研究强调了模型在不同序列长度下的适应能力，并展示了其在跨物种泛化中的潜力。

背景知识
基因组注释是解析DNA序列功能元件的关键步骤，对于基因发现、调控区域识别和突变分析至关重要。传统的基于隐马尔可量模型（HMM）的注释方法，如Genscan和AUGUSTUS，在单核苷酸分辨率和调控元件识别方面存在局限，通常需要RNA-seq等实验数据辅助。近年来，DNA基础模型（如Nucleotide Transformer、Enformer、Borzoi）通过大规模自监督或监督训练，为基因组分析提供了更通用的表示。然而，如何将这些模型适配到多任务、高分辨率的基因组注释仍是挑战。本研究通过构建SegmentNT模型，结合U-Net结构与RoPE位置编码扩展，实现了基因组注释的端到端预测，并评估了其在不同物种中的泛化能力，为基因组分析提供了新的计算框架。

提供基因编辑动物模型构建服务，包括基因敲除、敲入、点突变等，适用于基因功能、疾病机制和药物研发研究。

研究方法与实验
研究团队构建了SegmentNT模型，采用U-Net架构处理Nucleotide Transformer的序列嵌入，实现14种基因组元件的单核苷酸分辨率注释。模型在3-kb、10-kb、20-kb和30-kb序列上训练，并通过RoPE位置编码扩展支持更长序列（如50-kb和100-kb）的零样本推理。此外，研究整合了Enformer和Borzoi模型，以扩展至500-kb序列，提高调控元件识别能力。模型在GENCODE和ENCODE数据集上训练，并通过MCC、F1、Jaccard和auPRC等指标评估其性能。

关键结论与观点

SegmentNT-3kb在基因元件识别中达到MCC > 0.5，而SegmentNT-10kb在更长序列中表现更优，平均MCC提升至0.42，显示长距离依赖性对基因结构识别的重要性。
模型在30-kb序列上达到平均MCC 0.45，且在50-kb和100-kb序列中仍保持良好性能（0.47和0.45），证明其可扩展性。
整合Enformer和Borzoi模型可提升调控元件识别能力，尤其是增强子和启动子区域，尽管基因元件识别能力稍逊于NT模型。
SegmentNT在跨物种泛化中表现优异，尤其是在哺乳动物和植物基因组中，显示其作为多物种基因组注释工具的潜力。

研究意义与展望
SegmentNT为基因组注释提供了一种通用、可扩展的框架，无需依赖实验数据即可实现高精度预测。未来研究可扩展至更多物种和基因组元件，并结合多模态组学数据提升模型的生物学解释力。

提供标准化动物模型饲养与表型分析服务，支持基因功能、疾病机制及药物疗效评估，确保实验动物质量与数据可靠性。

结语
本研究提出SegmentNT模型，通过DNA基础模型和U-Net架构实现基因组元件的单核苷酸分辨率注释。模型在不同长度序列上均表现优异，且具备跨物种泛化能力。这一方法为基因组学研究提供了新的计算工具，有望提升基因组功能元件的自动注释效率与精度，尤其在缺乏实验数据的基因组中。

文献来源：

Bernardo P de Almeida, Hugo Dalla-Torre, Guillaume Richard, Karim Beguir, and Thomas Pierrot. Annotating the genome at single-nucleotide resolution with DNA foundation models. Nature Methods.

想了解更多的最新技术和发现？

基因组注释

DNA基础模型

SegmentNT

基因元件识别

跨物种泛化

基因组分析

上一篇：Drugs 基因疗法能否改变后段眼病治疗格局

下一篇：Nucleic Acids Research 结核杆菌中RelE1毒素通过靶向16S rRNA的抗-Shine-Dalgarno区域抑制细菌生长

Nature Methods 基因组单核苷酸水平注释的DNA基础模型

小赛推荐：

Nature Methods
基因组单核苷酸水平注释的DNA基础模型