Nature Genetics
popEVE模型实现蛋白质组范围的疾病变异效应预测

2025-12-23

小赛推荐：

该研究开发了popEVE模型，结合进化数据和人群变异信息，实现了蛋白质组范围变异效应预测，可有效识别致病变异并优先排序，尤其适用于无家系信息的临床诊断。该模型具有良好的校准性和跨基因比较能力，避免过度预测致病性。

文献概述
本文《Proteome-wide model for human disease genetics》，发表于Nature Genetics杂志，回顾并总结了遗传变异的致病效应预测难题，特别是错义变异的解读困境。尽管现有模型在特定基因上表现良好，但其评分在不同蛋白间缺乏统一校准，限制了其在临床中的广泛应用。

背景知识
错义变异因其效应细微且依赖序列背景，一直是临床遗传解读的重大挑战。传统方法依赖家系测序以筛选新生或隐性遗传变异，但诊断率仍较低。该研究提出popEVE模型，整合进化序列与人群变异数据（UKBB、GnomAD），利用高斯过程进行跨基因校准，解决了现有模型在评分体系上的偏差问题。该模型无需家系数据即可准确识别致病变异，尤其适用于孤立病例的遗传诊断。

提供基因敲除细胞系服务，支持高通量基因功能筛选与验证，适用于药物靶点发现和功能基因组研究。

研究方法与实验
popEVE模型结合了基于比对的进化模型EVE与语言模型ESM-1v，利用人群变异统计信息进行校准，实现跨基因评分。研究使用严重发育障碍队列（SDD）与自闭症对照队列进行模型验证，采用高斯混合模型设定严重与中度致病性阈值，进一步通过结构分析评估候选变异在功能位点的富集情况。

关键结论与观点

popEVE在ClinVar和OrphaNet数据集中显著优于现有模型，特别是在儿童期致死性变异识别方面。
模型在SDD病例中识别出442个基因中的新生错义变异，其中123个为新候选基因，功能上与已知发育疾病基因高度相似。
候选基因的评分在发育障碍队列中显著高于对照组，且在人群数据中稀有。
91%的候选变异位于8Å以内的功能互作位点，72%在5Å内，结构分析支持其影响蛋白功能的可能性。
模型在不同人群间无显著偏倚，避免了现有模型如AlphaMissense在欧洲人群中的过度预测。

研究意义与展望
popEVE为临床基因组学提供了一个跨蛋白统一评分的框架，特别适用于孤立病例的诊断。未来可拓展至无义变异和截短变异的统一建模，同时模型优化与重用可降低计算与环境成本，促进高效、可持续的疾病基因研究。

提供基于基因编辑动物模型的定制服务，涵盖神经发育、代谢、肿瘤等研究领域，支持从基因修饰到表型分析的全流程服务。

结语
该研究通过构建popEVE模型，解决了当前错义变异预测模型评分体系不统一、跨基因比较受限的问题。模型在严重发育障碍队列中识别出123个新候选基因，这些基因在进化保守区域、功能结构域和已知疾病网络中高度富集，且其变异在人群数据中极为罕见，进一步支持其致病性。此外，popEVE无需家系数据即可有效识别致病变异，为临床遗传诊断提供了一种新工具，尤其适用于无法获得父母样本的孤立病例。该模型在评分校准、人群偏倚控制和功能结构分析方面均优于现有方法，为未来大规模疾病基因发现和精准医学应用奠定基础。

文献来源：

Rose Orenbuch, Courtney A Shearer, Aaron W Kollasch, Jonathan Frazer, and Debora S Marks. Proteome-wide model for human disease genetics. Nature Genetics.

下一篇：没有了

Nature Genetics popEVE模型实现蛋白质组范围的疾病变异效应预测

小赛推荐：

Nature Genetics
popEVE模型实现蛋白质组范围的疾病变异效应预测