Nature Genetics
popEVE模型实现全蛋白质组疾病变体预测
小赛推荐:
本文提出popEVE模型,结合进化与人群数据,实现全蛋白质组范围的错义变体致病性预测,显著提升无家系信息的单倍型个体诊断效率。
文献概述
本文《Proteome-wide model for human disease genetics》,发表于《Nature Genetics》杂志,回顾并总结了一种新型深度生成模型popEVE在人类疾病遗传学中的应用。该模型结合进化序列与人群数据,实现全蛋白质组范围的变体致病性评分,有效提升对严重发育障碍患者中错义变体的识别能力,特别是在无父母基因组信息的情况下仍能高效识别潜在致病变异。段落结尾背景知识
错义变体在临床遗传学中长期存在解释困难,因其影响微小且依赖序列背景。现有模型在已知致病基因中表现良好,但难以在全蛋白质组范围内进行统一评分,导致泛化能力受限。严重发育障碍(SDD)患者常携带新生错义突变(DNMs),但仅通过人群频率信息或家系数据进行诊断的效率较低。本文研究旨在填补这一空白,开发一种适用于无家系数据的变体解释框架。研究指出,仅依赖大规模人群数据的模型存在祖先偏差,而popEVE通过仅使用变体是否在进化保守位点出现的二元信息,避免了此类偏差。段落结尾
研究方法与实验
popEVE整合进化序列数据与人类群体变异统计,通过隐高斯过程对齐进化评分与人群错义约束评分。模型使用EVE和ESM-1v等深度进化模型预测变体对蛋白质功能的影响,并利用UKBB和GnomAD数据进行人群校准。研究在31,058个SDD患者和5,764个家系中测试模型性能,比较其与AlphaMissense、BayesDel和REVEL等模型在分离致病变体中的表现。关键结论与观点
研究意义与展望
该研究提供了一种无需家系数据的通用变体解释框架,尤其适用于单例患者。未来研究可进一步整合无义变体和剪接变体的影响,提升全基因组模型的诊断能力。模型的模块化设计使其可与新进化的深度学习方法兼容,从而持续优化预测精度。
结语
popEVE模型为严重发育障碍相关错义变体的解释提供了一种新的、泛化能力强的工具。通过结合进化与人群数据,该模型在无父母基因组信息的情况下仍能有效识别致病变异,显著提升单例病例的诊断率。研究不仅揭示了123个新候选基因,还表明这些基因在功能与结构上与已知致病基因高度相似。popEVE的提出为临床基因组学提供了更精准、更广泛适用的评分体系,尤其在罕见病和单例研究中具有重要意义。





