Nature biomedical engineering
基于深度对比学习的错义变异表型预测方法PheMART

2026-06-05

研究领域分类

免疫（407）肿瘤（518）代谢及心血管（390）神经及肌肉（521）眼科（36）其他（518）

加入邮件订阅!

您将获得赛业生物最新资讯

摘要速览

Nature biomedical engineering | 基于深度对比学习的错义变异表型预测方法PheMART

小赛推荐：

该研究为罕见遗传病的分子诊断提供了可扩展的计算框架，显著提升了从海量错义变异中识别致病突变与临床表型关联的能力，对罕见病研究具有直接指导意义。

文献概述

本文《Phenotypic prediction of missense variants via deep contrastive learning》，发表于《Nature biomedical engineering》杂志，系统探讨了如何通过整合蛋白质语言模型、蛋白互作网络、医学知识图谱与电子健康记录，利用对比学习构建错义变异与临床表型之间的映射关系。作者提出PheMART模型，实现了对510万个氨基酸替换变异的表型效应预测，显著优于现有工具。该方法不仅提升了VUS（意义未明变异）的解读效率，还为罕见病诊断提供了新的计算资源。

背景知识

错义变异（Missense Variants, MVs）是单基因病的主要致病因素之一，影响CFTR、SCN5A、BRCA1等关键基因功能，导致囊性纤维化、心律失常和遗传性乳腺癌等疾病。然而，绝大多数错义变异被归类为VUS，极大限制了其在临床诊断中的应用。当前基于进化保守性或蛋白结构的预测工具（如PolyPhen、SIFT）仅能判断“有害”或“中性”，无法提供具体的临床表型信息。此外，基因多效性（pleiotropy）现象使得同一基因的不同变异可导致不同表型，如TUBB3基因变异可引起肌张力障碍或皮质发育畸形，传统方法难以区分。因此，亟需一种能够系统性链接变异与表型的计算方法。PheMART的提出正是基于这一需求，通过深度表型感知的对比学习框架，突破了传统二元分类局限，实现了从“是否致病”到“导致何种疾病”的跃迁。

针对PheMART预测出的关键致病基因如[[SCN5A]]、[[CFTR]]、[[TUBB3]]等，赛业生物提供精准的基因敲除与点突变小鼠模型定制服务，支持条件性敲除与人源化改造，助力罕见病机制研究与药物开发。适用于心律失常、囊性纤维化、神经发育障碍等疾病模型构建，提供从设计、构建到表型分析的一站式解决方案。

研究方法与核心实验

作者构建了PheMART模型，采用双编码器结构：变异编码模块（VEM）基于预训练蛋白质语言模型（如RGN2）提取变异序列特征，并与野生型蛋白对比以捕捉细微功能扰动；表型编码模块（PEM）则融合来自UMLS医学知识图谱的大语言模型嵌入与EHR数据中的表型表示，建模表型间的语义关系。两者通过对比学习联合投影至同一度量空间，使致病变异靠近其相关表型。训练数据来源于ClinVar中已注释的变异-表型对，共涵盖4,179种表型。

为验证模型性能，作者进行了四项独立评估：10折交叉验证、时间验证（使用2023年新注释数据）、HGMD外部验证及跨蛋白结构域验证。结果显示PheMART在auROC、MRR和sensitivity@k指标上均显著优于AlphaMissense、ClinPrior等现有方法。特别是在UDN患者队列中，PheMART在58%的病例中将真实致病变异排在首位，远超对比模型。

关键结论与观点

通过整合多源生物医学知识，PheMART实现了对510万个错义变异的表型预测，覆盖4,179种临床表型，为VUS解读提供了系统性资源。
在UDN罕见病队列中，PheMART能将真实致病变异排在首位的概率达58%，显著提升诊断效率，表明其在罕见病诊断中具有高临床实用性。
模型揭示了基因多效性的分子基础，例如TUBB3不同结构域变异导致不同神经系统表型，提示结构域特异性功能分析的重要性。
PheMART预测结果与已知生物学机制高度一致，如离子通道变异富集于神经系统和循环系统疾病，SCN5A变异与心律失常强相关，CFTR变异与囊性纤维化高度匹配。
通过基因集富集分析，PheMART成功识别出多个疾病相关通路，如BRCA1相关基因富集于同源重组修复通路，POLG相关基因富集于线粒体功能通路，验证了其生物学有效性。
该模型可有效识别新基因-表型关联，如预测ATP1A1与肌张力障碍相关，CAD与先天性高氨血症相关，这些预测尚未在ClinVar中记录，提示其发现新机制的潜力。

研究意义与展望

该研究为错义变异的临床解读提供了全新的计算范式，推动了从“致病性评分”向“表型映射”的转变。PheMART的输出可直接用于辅助临床诊断，尤其适用于表型模糊或遗传异质性强的罕见病，有望缩短诊断 odyssey。

在药物开发方面，PheMART可帮助识别新适应症，例如发现已知致病基因的新表型关联，支持老药新用策略。此外，其预测结果可指导功能验证实验设计，如针对特定结构域进行细胞或动物模型构建，提升研究效率。

基于PheMART识别的新基因-表型关联，如[[ATP1A1]]与肌张力障碍、[[CAD]]与高氨血症，赛业生物提供全基因组人源化小鼠模型HUGO-GT®，可实现完整基因组序列替换，保留内含子与调控元件，更真实模拟人类基因表达模式，适用于基因治疗与罕见病药效评价研究。

结语

本研究提出的PheMART模型代表了错义变异功能解读的重大进步。它不仅解决了传统工具无法提供具体表型信息的瓶颈，还通过深度对比学习实现了变异与表型的精准匹配。该工具在UDN患者中的优异表现证明了其临床转化价值，尤其对于诊断困难的罕见病患者，PheMART可作为强有力的辅助诊断引擎。更重要的是，其提供的510万变异表型预测资源为全球研究社区提供了宝贵的数据支持，有助于加速新基因-疾病关联的发现。未来，结合更多多组学数据与纵向EHR信息，PheMART有望进一步提升预测精度，并拓展至非编码区变异与复杂疾病风险预测，成为连接基因组与表型组的核心工具之一。对于罕见病照护体系而言，PheMART正逐步从“研究工具”演变为“临床决策支持系统”，奠定精准医学实践的基石。

文献来源：

Jun Wen, Sihang Zeng, Clara-Lea Bonzel, Jun S Liu, and Tianxi Cai. Phenotypic prediction of missense variants via deep contrastive learning. Nature biomedical engineering.

更多热门文章推荐

Blood Cancer Journal
前线幽门螺杆菌根除治疗用于早期肠外黏膜相关淋巴组织淋巴瘤的II期研究

European Heart Journal
性别确认激素治疗对跨性别者心血管风险的影响：基于荷兰队列的长期观察研究