Nature Methods
压缩ESM集体知识为单一蛋白语言模型实现高精度变异效应预测

2026-04-17

研究领域分类

免疫（414）肿瘤（531）代谢及心血管（403）神经及肌肉（534）眼科（36）其他（530）

加入邮件订阅!

您将获得赛业生物最新资讯

摘要速览

Nature Methods | 压缩ESM集体知识为单一蛋白语言模型实现高精度变异效应预测

小赛推荐：

该研究通过协同蒸馏策略显著提升序列仅有的蛋白语言模型在变异效应预测中的性能，为精准医学和遗传病研究提供了无需多序列比对或结构信息的高效计算工具。

文献概述

本文《Compressing the collective knowledge of ESM into a single protein language model》，发表于《Nature Methods》杂志，系统探讨了如何通过协同蒸馏方法整合进化规模建模（ESM）家族多个蛋白语言模型（PLMs）的集体知识，从而构建一个高性能、仅依赖原始未比对序列的单一模型。作者挑战了传统观点——即仅使用序列的PLMs在变异效应预测（VEP）任务中性能受限，提出了一种无需额外同源性、结构或群体遗传数据即可达到当前最优水平的新范式。

背景知识

目前，遗传病研究面临的关键痛点是如何准确预测非同义单核苷酸变异（如missense mutation）的功能影响。尽管已有多种VEP工具（如AlphaMissense、Saprot）结合蛋白质三维结构或多序列比对（MSA）信息提升了预测精度，但这些方法存在适用范围窄、计算成本高及潜在数据循环性问题（如使用gnomAD等群体频率数据训练模型后在ClinVar上评估时引入偏差）。此外，ESM系列模型虽仅基于Uniprot等大规模未比对序列预训练，理论上应能编码足够进化信号，但在实际VEP任务中表现落后于混合模型，造成“性能鸿沟”。

本研究的切入点在于：不同ESM子模型（如ESM1b、ESM2）虽架构相似且训练数据重叠，却在特定蛋白区域（如KRAB domain、BRICHOS domain）表现出互补性识别能力。这提示模型间存在异质性，其集体知识可能蕴含更丰富的进化约束信号。因此，如何有效压缩并提炼这一集体知识，使单一轻量级模型获得接近集成模型的性能，成为关键科学问题。

针对阿尔茨海默病、脊髓性肌萎缩、视网膜色素变性等罕见病，可提供HUGO-GT®全基因组人源化模型，搭载了更高效的大片段载体融合技术，可以作为万能模板进行针对性的突变定制服务，是更贴近真实世界生物机制的药物临床前研究模型，我们期待与你共同开发新型全基因组人源化小鼠，加速基因治疗研究

研究方法与核心实验

作者首先构建了一个名为ESMIN的集成模型，通过取多个ESM模型对同一错义变异的对数似然比（LLR）预测中的最小值（即最大置信度）来实现信号增强。该策略基于理论分析表明，当致病变异的LLR分布比良性变异更分散时，最小值聚合优于平均值聚合，能更好保留细微进化信号。

随后，提出“最大置信度协同蒸馏”框架：所有ESM模型在相同蛋白序列上进行预测，以ESMIN输出为软标签，指导各模型参数更新。此过程允许模型相互学习，尤其从最强模型中提取知识。训练后，进一步开展多轮平均蒸馏，逐步收敛至单一高性能模型VESM-3B，并通过知识蒸馏生成不同规模的VESM系列模型（如VESM-650M、VESM-35M）。

为验证模型实用性，作者在ClinVar和ProteinGym DMS基准上系统评估性能，并与包括AlphaMissense、PrimateAI-3D在内的24种现有方法比较。同时测试模型在大型生物库数据中量化变异对连续临床表型的影响能力。

关键结论与观点

ESMIN集成策略显著优于简单平均或其他子集组合，证明最大置信度聚合能有效富集进化信号。该发现提示未来集成学习应关注模型异质性而非单纯增加模型数量。
协同蒸馏使所有ESM模型性能大幅提升，尤其低容量模型（如ESM2-8M）AUC从65%提升至88%，实现“学生超越教师”效应。这对资源受限环境下的部署具有重要意义。
最终模型VESM-3B在ClinVar和DMS基准上匹配甚至超越当前最优方法（包括使用MSA和结构信息的模型），且不受minor等位基因频率（MAF）影响，在罕见致病/良性变异区分任务中优于AlphaMissense，避免了数据循环性偏差。
将VESM知识迁移到结构感知模型ESM3中（形成VESM3），可进一步提升性能，说明序列表示优化与结构信息融合具有正交增益，为多模态建模提供新路径。
所有VESM模型均可用于提取蛋白嵌入向量，在下游任务（如AAV耐受性预测、荧光蛋白稳定性）中表现优异，表明其学习到的表征泛化能力强，适用于多种蛋白工程场景。

研究意义与展望

该研究打破了“必须依赖MSA或结构信息才能实现高精度VEP”的固有认知，证明仅基于未比对序列的PLMs通过知识压缩仍能达到SOTA性能。这极大提升了VEP工具的可及性和通用性，尤其适用于缺乏同源序列或结构信息的非模式物种或孤儿基因研究。

从药物开发角度看，VESM模型可高效预测突变对蛋白功能的影响，辅助靶点筛选与安全性评估。其在连续表型预测中的潜力也支持其用于复杂疾病风险建模。

在临床监测中，VESM提供了一种无偏倚的致病性评估工具，尤其适合解读VUS（意义未明变异），有望加速遗传病分子诊断流程。结合生物库数据，还可用于构建个体化功能评分系统。

提供多种眼科疾病基因编辑小鼠模型，涵盖Leber先天性黑蒙、色素性视网膜炎、视网膜变性等疾病。模型具有良好的表型数据，可稳定遗传。提供定制化服务，根据客户需求开发特定的眼科疾病模型。提供眼科药效学分析平台，包括眼部注射给药、活体检测、组织取材、病理学分析和基因与蛋白表达检测。

结语

本研究通过创新的协同蒸馏框架，成功将ESM家族多个蛋白语言模型的集体知识压缩为单一高效模型VESM，实现了仅依赖原始序列的高精度变异效应预测。该方法不仅在ClinVar和DMS基准上媲美甚至超越依赖多序列比对或三维结构的混合模型，还避免了因使用群体遗传数据带来的评估偏差，展现出更强的泛化能力和临床实用性。VESM系列模型在罕见变异解读、功能评分计算及下游蛋白工程任务中均表现出卓越性能，标志着序列仅有的PLMs正式进入高精度VEP时代。对于遗传病研究而言，该工具为VUS分类提供了可靠计算支持，有望成为分子诊断流程中的标准组件。未来，结合组织特异性表达或调控信息，VESM有望进一步提升在复杂疾病中的预测能力，推动从基因组到表型的精准映射，夯实其在精准医疗照护体系中的基石作用。

文献来源：

Tuan Dinh, Seon-Kyeong Jang, Noah Zaitlen, and Vasilis Ntranos. Compressing the collective knowledge of ESM into a single protein language model. Nature Methods.

更多热门文章推荐

Journal of Hematology & Oncology
CAR-T疗法在多发性骨髓瘤中的前沿进展：从复发难治到初治患者的疗效突破

Nature Neuroscience
小鼠初级视皮层感受野中的双相功能不变性