首页
模型资源
临床前CRO
赛业动态
客户支持
关于我们
商城
集团站群
CN
想了解更多的最新技术和发现?

Nature Methods
基于生物物理的蛋白质语言模型用于蛋白质工程

2025-09-21

小赛推荐:

该研究提出了一种基于生物物理模拟数据的蛋白质语言模型框架METL,结合预训练与实验数据微调,显著提升蛋白质工程任务中的突变效应预测与功能设计能力。模型在小样本和外推任务中表现优异,为蛋白质功能改造提供了新思路。

 

文献概述
本文《Biophysics-based protein language models for protein engineering》,发表于Nature Methods杂志,回顾并总结了基于生物物理的蛋白质语言模型(PLMs)在蛋白质工程中的应用。研究通过突变效应迁移学习(METL)框架,将蛋白质序列、结构和能量关系纳入模型预训练,并在实验数据上微调以预测蛋白质性质,如热稳定性、催化活性和荧光。该方法在小训练集和位置外推任务中表现出色,尽管进化模型在某些实验中仍具优势,但METL为蛋白质工程提供了更强的泛化能力。

背景知识
当前蛋白质工程研究主要依赖进化数据训练的语言模型,这些模型虽能捕捉蛋白质结构与功能关系,但忽略了生物物理机制的深层知识。蛋白质工程常受限于实验数据量少、突变分布偏倚,导致模型泛化能力有限。本文研究的METL框架通过引入生物物理模拟数据(如Rosetta生成的蛋白质变体能量属性)进行预训练,弥补了进化模型在物理机制理解上的不足。这种方法特别适用于突变效应预测和功能优化,为蛋白质工程提供了一种新范式,同时展示了蛋白质语言模型与物理建模结合的潜力。

 

提供HUGO-GT®全基因组人源化模型,支持多种疾病相关基因的原位替换,保留完整基因组序列,适用于精准模拟人类疾病机制,加速基因治疗研究。

 

研究方法与实验
1. METL框架分为METL-Local和METL-Global,分别针对特定蛋白质和通用蛋白质空间进行预训练。METL-Local使用2000万变体,METL-Global使用3000万变体,均通过Rosetta建模。
2. 预训练阶段模型学习55个生物物理属性(如分子表面、氢键、范德华力等)与序列关系,采用结构相对位置编码。
3. 微调阶段,METL模型在11个实验数据集上进行测试,包括GFP、GB1、DLG4、GRB2等,评估其在突变外推、位置外推、多突变预测等任务中的表现。
4. 设计低样本GFP突变实验,使用METL-Local在仅64个样本上微调,预测并设计具有5或10个突变的GFP变体,通过合成基因验证其荧光强度。

关键结论与观点

  • METL-Local在小训练集上优于METL-Global,尤其在突变和位置外推任务中,平均Spearman相关系数分别为0.65和0.59。
  • 预训练数据的生物物理信号提升了模型在序列功能预测中的表现,1000个模拟数据加320个实验数据与8000模拟数据加80实验数据效果相当,说明模拟数据可部分替代实验数据。
  • 在GFP设计任务中,METL-Local在64个实验样本下成功设计出16个可测量荧光的变体,验证了模型在低数据量下的实用性。
  • 模型在mKate2融合蛋白表达检测中显示变体稳定性变化,Observed设计提升稳定性,Unobserved设计则可能导致结构不稳定。
  • METL-Bind在GB1与IgG结合任务中表现优于标准METL-Local,证明功能特异性模拟数据能有效增强模型预测能力。

研究意义与展望
METL框架为蛋白质工程提供了新的机器学习路径,通过结合生物物理模拟与实验数据,提升了模型在低样本量下的预测能力。未来可扩展至更复杂的功能模拟(如酶催化、构象变化)以增强模型对蛋白质功能的理解。随着分子建模技术的发展,METL有望在蛋白质设计、功能优化和结构预测中发挥更大作用,为蛋白质工程提供更高效的深度学习工具。

 

HUGO-Ab®全人源化抗体小鼠模型,可高效筛选高亲和力抗体,适用于肿瘤、自身免疫疾病和传染病的抗体药物开发,提供从抗原制备到功能验证的全流程服务。

 

结语
本研究提出METL框架,将生物物理模拟数据引入蛋白质语言模型预训练,使模型在少量实验数据下仍能准确预测蛋白质功能。通过GFP设计实验,METL-Local在仅64个训练样本下成功生成多个荧光变体,验证了其在低数据工程任务中的实用性。研究还发现,功能特异性模拟数据能显著增强模型对特定蛋白质功能的预测能力。METL模型为蛋白质工程提供了一种结合物理机制与实验观测的新方法,未来可进一步优化以适应更复杂的蛋白质功能预测任务,如动态结构变化、多靶点结合等。该框架的推广有望加速蛋白质设计和功能改造,特别是在数据稀缺的研究中。

 

文献来源:
Sam Gelman, Bryce Johnson, Chase R Freschlin, Anthony Gitter, and Philip A Romero. Biophysics-based protein language models for protein engineering. Nature Methods.
想了解更多的最新技术和发现?
蛋白质语言模型
蛋白质工程
生物物理模拟
基因编辑模型
蛋白质功能预测
赛业生物

上一篇:World Psychiatry 跨诊断与疾病特异性功能与生活质量评估新进展

下一篇:World Psychiatry 揭示心理健康AI聊天机器人的演进与验证挑战