Nature Methods
基因组单核苷酸水平注释的DNA基础模型
小赛推荐:
本文介绍了一种新的基因组注释方法SegmentNT,利用预训练DNA基础模型,实现14种基因和调控元件的单核苷酸分辨率注释。模型可扩展到更长序列,并在多种物种中展现优异泛化能力。
文献概述
本文《Annotating the genome at single-nucleotide resolution with DNA foundation models》,发表于《Nature Methods》杂志,回顾并总结了当前基因组注释工具的局限性,并提出了一种基于多标签语义分割的深度学习方法,利用预训练DNA基础模型,实现基因和调控元件的高精度单核苷酸注释。研究强调了模型在不同序列长度下的适应能力,并展示了其在跨物种泛化中的潜力。
背景知识
基因组注释是解析DNA序列功能元件的关键步骤,对于基因发现、调控区域识别和突变分析至关重要。传统的基于隐马尔可量模型(HMM)的注释方法,如Genscan和AUGUSTUS,在单核苷酸分辨率和调控元件识别方面存在局限,通常需要RNA-seq等实验数据辅助。近年来,DNA基础模型(如Nucleotide Transformer、Enformer、Borzoi)通过大规模自监督或监督训练,为基因组分析提供了更通用的表示。然而,如何将这些模型适配到多任务、高分辨率的基因组注释仍是挑战。本研究通过构建SegmentNT模型,结合U-Net结构与RoPE位置编码扩展,实现了基因组注释的端到端预测,并评估了其在不同物种中的泛化能力,为基因组分析提供了新的计算框架。
研究方法与实验
研究团队构建了SegmentNT模型,采用U-Net架构处理Nucleotide Transformer的序列嵌入,实现14种基因组元件的单核苷酸分辨率注释。模型在3-kb、10-kb、20-kb和30-kb序列上训练,并通过RoPE位置编码扩展支持更长序列(如50-kb和100-kb)的零样本推理。此外,研究整合了Enformer和Borzoi模型,以扩展至500-kb序列,提高调控元件识别能力。模型在GENCODE和ENCODE数据集上训练,并通过MCC、F1、Jaccard和auPRC等指标评估其性能。
关键结论与观点
研究意义与展望
SegmentNT为基因组注释提供了一种通用、可扩展的框架,无需依赖实验数据即可实现高精度预测。未来研究可扩展至更多物种和基因组元件,并结合多模态组学数据提升模型的生物学解释力。
结语
本研究提出SegmentNT模型,通过DNA基础模型和U-Net架构实现基因组元件的单核苷酸分辨率注释。模型在不同长度序列上均表现优异,且具备跨物种泛化能力。这一方法为基因组学研究提供了新的计算工具,有望提升基因组功能元件的自动注释效率与精度,尤其在缺乏实验数据的基因组中。





