首页
模型资源
临床前CRO
资源中心
科研工具
关于我们
商城
集团站群
CN

Nature biomedical engineering
基于深度对比学习的错义变异表型预测方法PheMART

2026-06-05
加入邮件订阅!
您将获得赛业生物最新资讯
摘要速览
Nature biomedical engineering | 基于深度对比学习的错义变异表型预测方法PheMART

小赛推荐:

该研究为罕见遗传病的分子诊断提供了可扩展的计算框架,显著提升了从海量错义变异中识别致病突变与临床表型关联的能力,对罕见病研究具有直接指导意义。

 

文献概述

本文《Phenotypic prediction of missense variants via deep contrastive learning》,发表于《Nature biomedical engineering》杂志,系统探讨了如何通过整合蛋白质语言模型、蛋白互作网络、医学知识图谱与电子健康记录,利用对比学习构建错义变异与临床表型之间的映射关系。作者提出PheMART模型,实现了对510万个氨基酸替换变异的表型效应预测,显著优于现有工具。该方法不仅提升了VUS(意义未明变异)的解读效率,还为罕见病诊断提供了新的计算资源。

背景知识

错义变异(Missense Variants, MVs)是单基因病的主要致病因素之一,影响CFTRSCN5ABRCA1等关键基因功能,导致囊性纤维化、心律失常和遗传性乳腺癌等疾病。然而,绝大多数错义变异被归类为VUS,极大限制了其在临床诊断中的应用。当前基于进化保守性或蛋白结构的预测工具(如PolyPhen、SIFT)仅能判断“有害”或“中性”,无法提供具体的临床表型信息。此外,基因多效性(pleiotropy)现象使得同一基因的不同变异可导致不同表型,如TUBB3基因变异可引起肌张力障碍或皮质发育畸形,传统方法难以区分。因此,亟需一种能够系统性链接变异与表型的计算方法。PheMART的提出正是基于这一需求,通过深度表型感知的对比学习框架,突破了传统二元分类局限,实现了从“是否致病”到“导致何种疾病”的跃迁。

 

针对PheMART预测出的关键致病基因如[[SCN5A]]、[[CFTR]]、[[TUBB3]]等,赛业生物提供精准的基因敲除与点突变小鼠模型定制服务,支持条件性敲除与人源化改造,助力罕见病机制研究与药物开发。适用于心律失常、囊性纤维化、神经发育障碍等疾病模型构建,提供从设计、构建到表型分析的一站式解决方案。

 

研究方法与核心实验

作者构建了PheMART模型,采用双编码器结构:变异编码模块(VEM)基于预训练蛋白质语言模型(如RGN2)提取变异序列特征,并与野生型蛋白对比以捕捉细微功能扰动;表型编码模块(PEM)则融合来自UMLS医学知识图谱的大语言模型嵌入与EHR数据中的表型表示,建模表型间的语义关系。两者通过对比学习联合投影至同一度量空间,使致病变异靠近其相关表型。训练数据来源于ClinVar中已注释的变异-表型对,共涵盖4,179种表型。

为验证模型性能,作者进行了四项独立评估:10折交叉验证、时间验证(使用2023年新注释数据)、HGMD外部验证及跨蛋白结构域验证。结果显示PheMART在auROC、MRR和sensitivity@k指标上均显著优于AlphaMissense、ClinPrior等现有方法。特别是在UDN患者队列中,PheMART在58%的病例中将真实致病变异排在首位,远超对比模型。

关键结论与观点

  • 通过整合多源生物医学知识,PheMART实现了对510万个错义变异的表型预测,覆盖4,179种临床表型,为VUS解读提供了系统性资源。
  • 在UDN罕见病队列中,PheMART能将真实致病变异排在首位的概率达58%,显著提升诊断效率,表明其在罕见病诊断中具有高临床实用性。
  • 模型揭示了基因多效性的分子基础,例如TUBB3不同结构域变异导致不同神经系统表型,提示结构域特异性功能分析的重要性。
  • PheMART预测结果与已知生物学机制高度一致,如离子通道变异富集于神经系统和循环系统疾病,SCN5A变异与心律失常强相关,CFTR变异与囊性纤维化高度匹配。
  • 通过基因集富集分析,PheMART成功识别出多个疾病相关通路,如BRCA1相关基因富集于同源重组修复通路,POLG相关基因富集于线粒体功能通路,验证了其生物学有效性。
  • 该模型可有效识别新基因-表型关联,如预测ATP1A1与肌张力障碍相关,CAD与先天性高氨血症相关,这些预测尚未在ClinVar中记录,提示其发现新机制的潜力。

研究意义与展望

该研究为错义变异的临床解读提供了全新的计算范式,推动了从“致病性评分”向“表型映射”的转变。PheMART的输出可直接用于辅助临床诊断,尤其适用于表型模糊或遗传异质性强的罕见病,有望缩短诊断 odyssey。

在药物开发方面,PheMART可帮助识别新适应症,例如发现已知致病基因的新表型关联,支持老药新用策略。此外,其预测结果可指导功能验证实验设计,如针对特定结构域进行细胞或动物模型构建,提升研究效率。

 

基于PheMART识别的新基因-表型关联,如[[ATP1A1]]与肌张力障碍、[[CAD]]与高氨血症,赛业生物提供全基因组人源化小鼠模型HUGO-GT®,可实现完整基因组序列替换,保留内含子与调控元件,更真实模拟人类基因表达模式,适用于基因治疗与罕见病药效评价研究。

 

结语

本研究提出的PheMART模型代表了错义变异功能解读的重大进步。它不仅解决了传统工具无法提供具体表型信息的瓶颈,还通过深度对比学习实现了变异与表型的精准匹配。该工具在UDN患者中的优异表现证明了其临床转化价值,尤其对于诊断困难的罕见病患者,PheMART可作为强有力的辅助诊断引擎。更重要的是,其提供的510万变异表型预测资源为全球研究社区提供了宝贵的数据支持,有助于加速新基因-疾病关联的发现。未来,结合更多多组学数据与纵向EHR信息,PheMART有望进一步提升预测精度,并拓展至非编码区变异与复杂疾病风险预测,成为连接基因组与表型组的核心工具之一。对于罕见病照护体系而言,PheMART正逐步从“研究工具”演变为“临床决策支持系统”,奠定精准医学实践的基石。

 

文献来源:
Jun Wen, Sihang Zeng, Clara-Lea Bonzel, Jun S Liu, and Tianxi Cai. Phenotypic prediction of missense variants via deep contrastive learning. Nature biomedical engineering.