Nature Methods
基于生物物理的蛋白质语言模型用于蛋白质工程

2025-09-21

小赛推荐：

该研究提出了一种基于生物物理模拟数据的蛋白质语言模型框架METL，结合预训练与实验数据微调，显著提升蛋白质工程任务中的突变效应预测与功能设计能力。模型在小样本和外推任务中表现优异，为蛋白质功能改造提供了新思路。

文献概述
本文《Biophysics-based protein language models for protein engineering》，发表于Nature Methods杂志，回顾并总结了基于生物物理的蛋白质语言模型（PLMs）在蛋白质工程中的应用。研究通过突变效应迁移学习（METL）框架，将蛋白质序列、结构和能量关系纳入模型预训练，并在实验数据上微调以预测蛋白质性质，如热稳定性、催化活性和荧光。该方法在小训练集和位置外推任务中表现出色，尽管进化模型在某些实验中仍具优势，但METL为蛋白质工程提供了更强的泛化能力。

背景知识
当前蛋白质工程研究主要依赖进化数据训练的语言模型，这些模型虽能捕捉蛋白质结构与功能关系，但忽略了生物物理机制的深层知识。蛋白质工程常受限于实验数据量少、突变分布偏倚，导致模型泛化能力有限。本文研究的METL框架通过引入生物物理模拟数据（如Rosetta生成的蛋白质变体能量属性）进行预训练，弥补了进化模型在物理机制理解上的不足。这种方法特别适用于突变效应预测和功能优化，为蛋白质工程提供了一种新范式，同时展示了蛋白质语言模型与物理建模结合的潜力。

提供HUGO-GT®全基因组人源化模型，支持多种疾病相关基因的原位替换，保留完整基因组序列，适用于精准模拟人类疾病机制，加速基因治疗研究。

研究方法与实验
1. METL框架分为METL-Local和METL-Global，分别针对特定蛋白质和通用蛋白质空间进行预训练。METL-Local使用2000万变体，METL-Global使用3000万变体，均通过Rosetta建模。
2. 预训练阶段模型学习55个生物物理属性（如分子表面、氢键、范德华力等）与序列关系，采用结构相对位置编码。
3. 微调阶段，METL模型在11个实验数据集上进行测试，包括GFP、GB1、DLG4、GRB2等，评估其在突变外推、位置外推、多突变预测等任务中的表现。
4. 设计低样本GFP突变实验，使用METL-Local在仅64个样本上微调，预测并设计具有5或10个突变的GFP变体，通过合成基因验证其荧光强度。

关键结论与观点

METL-Local在小训练集上优于METL-Global，尤其在突变和位置外推任务中，平均Spearman相关系数分别为0.65和0.59。
预训练数据的生物物理信号提升了模型在序列功能预测中的表现，1000个模拟数据加320个实验数据与8000模拟数据加80实验数据效果相当，说明模拟数据可部分替代实验数据。
在GFP设计任务中，METL-Local在64个实验样本下成功设计出16个可测量荧光的变体，验证了模型在低数据量下的实用性。
模型在mKate2融合蛋白表达检测中显示变体稳定性变化，Observed设计提升稳定性，Unobserved设计则可能导致结构不稳定。
METL-Bind在GB1与IgG结合任务中表现优于标准METL-Local，证明功能特异性模拟数据能有效增强模型预测能力。

研究意义与展望
METL框架为蛋白质工程提供了新的机器学习路径，通过结合生物物理模拟与实验数据，提升了模型在低样本量下的预测能力。未来可扩展至更复杂的功能模拟（如酶催化、构象变化）以增强模型对蛋白质功能的理解。随着分子建模技术的发展，METL有望在蛋白质设计、功能优化和结构预测中发挥更大作用，为蛋白质工程提供更高效的深度学习工具。

HUGO-Ab®全人源化抗体小鼠模型，可高效筛选高亲和力抗体，适用于肿瘤、自身免疫疾病和传染病的抗体药物开发，提供从抗原制备到功能验证的全流程服务。

结语
本研究提出METL框架，将生物物理模拟数据引入蛋白质语言模型预训练，使模型在少量实验数据下仍能准确预测蛋白质功能。通过GFP设计实验，METL-Local在仅64个训练样本下成功生成多个荧光变体，验证了其在低数据工程任务中的实用性。研究还发现，功能特异性模拟数据能显著增强模型对特定蛋白质功能的预测能力。METL模型为蛋白质工程提供了一种结合物理机制与实验观测的新方法，未来可进一步优化以适应更复杂的蛋白质功能预测任务，如动态结构变化、多靶点结合等。该框架的推广有望加速蛋白质设计和功能改造，特别是在数据稀缺的研究中。

文献来源：

Sam Gelman, Bryce Johnson, Chase R Freschlin, Anthony Gitter, and Philip A Romero. Biophysics-based protein language models for protein engineering. Nature Methods.

想了解更多的最新技术和发现？

蛋白质语言模型

蛋白质工程

生物物理模拟

基因编辑模型

蛋白质功能预测

赛业生物

上一篇：World Psychiatry 跨诊断与疾病特异性功能与生活质量评估新进展

下一篇：World Psychiatry 揭示心理健康AI聊天机器人的演进与验证挑战

Nature Methods 基于生物物理的蛋白质语言模型用于蛋白质工程

小赛推荐：

Nature Methods
基于生物物理的蛋白质语言模型用于蛋白质工程