Nature Genetics
popEVE模型实现蛋白质组范围的疾病变异效应预测
小赛推荐:
该研究开发了popEVE模型,结合进化数据和人群变异信息,实现了蛋白质组范围变异效应预测,可有效识别致病变异并优先排序,尤其适用于无家系信息的临床诊断。该模型具有良好的校准性和跨基因比较能力,避免过度预测致病性。
文献概述
本文《Proteome-wide model for human disease genetics》,发表于Nature Genetics杂志,回顾并总结了遗传变异的致病效应预测难题,特别是错义变异的解读困境。尽管现有模型在特定基因上表现良好,但其评分在不同蛋白间缺乏统一校准,限制了其在临床中的广泛应用。
背景知识
错义变异因其效应细微且依赖序列背景,一直是临床遗传解读的重大挑战。传统方法依赖家系测序以筛选新生或隐性遗传变异,但诊断率仍较低。该研究提出popEVE模型,整合进化序列与人群变异数据(UKBB、GnomAD),利用高斯过程进行跨基因校准,解决了现有模型在评分体系上的偏差问题。该模型无需家系数据即可准确识别致病变异,尤其适用于孤立病例的遗传诊断。
研究方法与实验
popEVE模型结合了基于比对的进化模型EVE与语言模型ESM-1v,利用人群变异统计信息进行校准,实现跨基因评分。研究使用严重发育障碍队列(SDD)与自闭症对照队列进行模型验证,采用高斯混合模型设定严重与中度致病性阈值,进一步通过结构分析评估候选变异在功能位点的富集情况。
关键结论与观点
研究意义与展望
popEVE为临床基因组学提供了一个跨蛋白统一评分的框架,特别适用于孤立病例的诊断。未来可拓展至无义变异和截短变异的统一建模,同时模型优化与重用可降低计算与环境成本,促进高效、可持续的疾病基因研究。
结语
该研究通过构建popEVE模型,解决了当前错义变异预测模型评分体系不统一、跨基因比较受限的问题。模型在严重发育障碍队列中识别出123个新候选基因,这些基因在进化保守区域、功能结构域和已知疾病网络中高度富集,且其变异在人群数据中极为罕见,进一步支持其致病性。此外,popEVE无需家系数据即可有效识别致病变异,为临床遗传诊断提供了一种新工具,尤其适用于无法获得父母样本的孤立病例。该模型在评分校准、人群偏倚控制和功能结构分析方面均优于现有方法,为未来大规模疾病基因发现和精准医学应用奠定基础。





