首页
模型资源
临床前CRO
赛业动态
客户支持
关于我们
商城
集团站群
CN
想了解更多的最新技术和发现?

Nature Methods
SegmentNT实现单核苷酸分辨率基因组注释

2025-12-28

小赛推荐:

该研究提出了SegmentNT模型,通过微调预训练DNA基础模型,在无需额外实验数据的情况下实现基因和调控元件的高精度单核苷酸注释。模型可扩展至不同物种,并在基因组注释中表现出优于传统工具的性能。

 

文献概述

本文《SegmentNT:基于DNA基础模型的单核苷酸分辨率基因组注释》,发表于《Nature Methods》杂志,回顾并总结了一种新的基因组注释方法,该方法将基因组注释问题建模为多标签语义分割任务,利用预训练DNA模型实现对14种基因和调控元件的精确预测。研究进一步扩展了模型的适用长度,并整合了Enformer和Borzoi等长距离模型以提高调控元件的预测性能。该方法在多个物种中表现出良好的泛化能力,为基因组注释提供了统一、高效的解决方案。

背景知识

基因组注释是解析基因组功能的核心步骤,传统方法如BRAKER和MAKER依赖隐马尔可夫模型(HMM)和实验数据(如RNA-seq)进行基因结构预测,但受限于泛化能力及对调控元件的注释。近年来,DNA基础模型(如Nucleotide Transformer、Enformer、Borzoi)在无监督或监督预训练中展现出对多种下游任务的强大泛化能力。本研究基于这一框架,提出SegmentNT模型,结合U-Net架构,实现对基因及调控元件的高精度、单核苷酸解析度注释,突破了传统工具的长度和物种限制,为基因组注释提供全新范式。

 

提供基因编辑大小鼠模型定制服务,涵盖基因敲除、点突变、过表达等策略,支持多种组织特异性模型构建。

 

研究方法与实验

研究团队构建了SegmentNT模型,结合预训练DNA编码器(Nucleotide Transformer)和U-Net架构,用于基因组序列的多标签分割任务。模型训练基于GENCODE和ENCODE数据库的14类基因组元件注释数据,采用焦点损失函数以应对数据稀疏性问题。模型输入长度从3 kb逐步扩展至30 kb,并使用RoPE(旋转位置编码)技术进一步延伸至50 kb。研究还整合了Enformer和Borzoi等长距离DNA模型,以扩展模型的输入长度至500 kb并提升调控元件的预测性能。

关键结论与观点

  • SegmentNT-3kb和SegmentNT-10kb模型在基因元件注释中表现出较高MCC值,尤其在外显子、剪切位点和3′UTR的检测中,MCC值超过0.5。模型在10 kb序列中性能优于3 kb,表明长序列输入有助于提高基因组元件的识别能力。
  • 通过RoPE上下文扩展,SegmentNT模型可处理50 kb长度序列,显著提升长序列预测性能。在100 kb序列上,SegmentNT-10kb模型的MCC值从0.07提升至0.26,表明模型具备零样本扩展能力。
  • 整合Enformer和Borzoi模型后,SegmentNT在调控元件(如增强子、启动子)注释上表现更优,尤其在扩展至500 kb输入时,显著提升增强子和启动子的预测精度。
  • SegmentNT在跨物种泛化任务中表现出色,特别是在未见物种(如小鼠、大鼠、斑马鱼)中达到较高MCC值,表明其在进化距离较远的物种中仍具备较强泛化能力。
  • 模型在基因组范围预测中优于传统HMM工具AUGUSTUS,特别是在全染色体尺度任务中,SegmentNT的召回率和精确度均显著高于现有方法。

研究意义与展望

SegmentNT为基因组注释提供了一种无需实验数据的全新范式,其单核苷酸解析度和跨物种泛化能力将加速基因组功能注释的标准化流程。未来可扩展至更多DNA基础模型、基因组元件类型及物种,进一步提升模型的生物学解释性和预测能力。



 

提供全基因组人源化小鼠模型,支持疾病机制研究与基因治疗开发,适用于精准药物筛选与临床前评价。

 

结语

该研究提出SegmentNT模型,基于DNA基础模型和U-Net架构,实现基因组元件的单核苷酸注释。SegmentNT在多个任务中表现优异,包括剪切位点识别、调控元件预测及跨物种泛化能力。相比传统工具,该模型在全基因组注释中展现出更高精度与召回率,且无需额外实验数据。未来,该方法可进一步扩展至更多物种和基因组元件,为基因组功能研究提供统一、高效的预测框架,推动精准基因组学与个性化医学的发展。

 

文献来源:
Bernardo P de Almeida, Hugo Dalla-Torre, Guillaume Richard, Karim Beguir, and Thomas Pierrot. Annotating the genome at single-nucleotide resolution with DNA foundation models. Nature Methods.
想了解更多的最新技术和发现?
基因组注释
单核苷酸分辨率
调控元件预测
SegmentNT模型
基因组功能研究
赛业生物

上一篇:JAMA Pediatrics GLP-1受体激动剂在儿童与青少年中的疗效与安全性

下一篇:Advanced drug delivery reviews 体外患者肿瘤组织功能测试指导脑肿瘤治疗