首页
模型资源
临床前CRO
赛业动态
客户支持
关于我们
商城
集团站群
CN
想了解更多的最新技术和发现?

Nature Methods
基因组单核苷酸水平注释的DNA基础模型

2025-11-19

小赛推荐:

本文介绍了一种新的基因组注释方法SegmentNT,利用预训练DNA基础模型,实现14种基因和调控元件的单核苷酸分辨率注释。模型可扩展到更长序列,并在多种物种中展现优异泛化能力。

 

文献概述
本文《Annotating the genome at single-nucleotide resolution with DNA foundation models》,发表于《Nature Methods》杂志,回顾并总结了当前基因组注释工具的局限性,并提出了一种基于多标签语义分割的深度学习方法,利用预训练DNA基础模型,实现基因和调控元件的高精度单核苷酸注释。研究强调了模型在不同序列长度下的适应能力,并展示了其在跨物种泛化中的潜力。

背景知识
基因组注释是解析DNA序列功能元件的关键步骤,对于基因发现、调控区域识别和突变分析至关重要。传统的基于隐马尔可量模型(HMM)的注释方法,如Genscan和AUGUSTUS,在单核苷酸分辨率和调控元件识别方面存在局限,通常需要RNA-seq等实验数据辅助。近年来,DNA基础模型(如Nucleotide Transformer、Enformer、Borzoi)通过大规模自监督或监督训练,为基因组分析提供了更通用的表示。然而,如何将这些模型适配到多任务、高分辨率的基因组注释仍是挑战。本研究通过构建SegmentNT模型,结合U-Net结构与RoPE位置编码扩展,实现了基因组注释的端到端预测,并评估了其在不同物种中的泛化能力,为基因组分析提供了新的计算框架。

 

提供基因编辑动物模型构建服务,包括基因敲除、敲入、点突变等,适用于基因功能、疾病机制和药物研发研究。

 

研究方法与实验
研究团队构建了SegmentNT模型,采用U-Net架构处理Nucleotide Transformer的序列嵌入,实现14种基因组元件的单核苷酸分辨率注释。模型在3-kb、10-kb、20-kb和30-kb序列上训练,并通过RoPE位置编码扩展支持更长序列(如50-kb和100-kb)的零样本推理。此外,研究整合了Enformer和Borzoi模型,以扩展至500-kb序列,提高调控元件识别能力。模型在GENCODE和ENCODE数据集上训练,并通过MCC、F1、Jaccard和auPRC等指标评估其性能。

关键结论与观点

  • SegmentNT-3kb在基因元件识别中达到MCC > 0.5,而SegmentNT-10kb在更长序列中表现更优,平均MCC提升至0.42,显示长距离依赖性对基因结构识别的重要性。
  • 模型在30-kb序列上达到平均MCC 0.45,且在50-kb和100-kb序列中仍保持良好性能(0.47和0.45),证明其可扩展性。
  • 整合Enformer和Borzoi模型可提升调控元件识别能力,尤其是增强子和启动子区域,尽管基因元件识别能力稍逊于NT模型。
  • SegmentNT在跨物种泛化中表现优异,尤其是在哺乳动物和植物基因组中,显示其作为多物种基因组注释工具的潜力。

研究意义与展望
SegmentNT为基因组注释提供了一种通用、可扩展的框架,无需依赖实验数据即可实现高精度预测。未来研究可扩展至更多物种和基因组元件,并结合多模态组学数据提升模型的生物学解释力。

 

提供标准化动物模型饲养与表型分析服务,支持基因功能、疾病机制及药物疗效评估,确保实验动物质量与数据可靠性。

 

结语
本研究提出SegmentNT模型,通过DNA基础模型和U-Net架构实现基因组元件的单核苷酸分辨率注释。模型在不同长度序列上均表现优异,且具备跨物种泛化能力。这一方法为基因组学研究提供了新的计算工具,有望提升基因组功能元件的自动注释效率与精度,尤其在缺乏实验数据的基因组中。

 

文献来源:
Bernardo P de Almeida, Hugo Dalla-Torre, Guillaume Richard, Karim Beguir, and Thomas Pierrot. Annotating the genome at single-nucleotide resolution with DNA foundation models. Nature Methods.
想了解更多的最新技术和发现?
基因组注释
DNA基础模型
SegmentNT
基因元件识别
跨物种泛化
基因组分析

上一篇:Drugs 基因疗法能否改变后段眼病治疗格局

下一篇:Nucleic Acids Research 结核杆菌中RelE1毒素通过靶向16S rRNA的抗-Shine-Dalgarno区域抑制细菌生长