Nature Methods
基于生物物理的蛋白质语言模型用于蛋白质工程
小赛推荐:
该研究提出了一种基于生物物理模拟数据的蛋白质语言模型框架METL,结合预训练与实验数据微调,显著提升蛋白质工程任务中的突变效应预测与功能设计能力。模型在小样本和外推任务中表现优异,为蛋白质功能改造提供了新思路。
文献概述
本文《Biophysics-based protein language models for protein engineering》,发表于Nature Methods杂志,回顾并总结了基于生物物理的蛋白质语言模型(PLMs)在蛋白质工程中的应用。研究通过突变效应迁移学习(METL)框架,将蛋白质序列、结构和能量关系纳入模型预训练,并在实验数据上微调以预测蛋白质性质,如热稳定性、催化活性和荧光。该方法在小训练集和位置外推任务中表现出色,尽管进化模型在某些实验中仍具优势,但METL为蛋白质工程提供了更强的泛化能力。
背景知识
当前蛋白质工程研究主要依赖进化数据训练的语言模型,这些模型虽能捕捉蛋白质结构与功能关系,但忽略了生物物理机制的深层知识。蛋白质工程常受限于实验数据量少、突变分布偏倚,导致模型泛化能力有限。本文研究的METL框架通过引入生物物理模拟数据(如Rosetta生成的蛋白质变体能量属性)进行预训练,弥补了进化模型在物理机制理解上的不足。这种方法特别适用于突变效应预测和功能优化,为蛋白质工程提供了一种新范式,同时展示了蛋白质语言模型与物理建模结合的潜力。
研究方法与实验
1. METL框架分为METL-Local和METL-Global,分别针对特定蛋白质和通用蛋白质空间进行预训练。METL-Local使用2000万变体,METL-Global使用3000万变体,均通过Rosetta建模。
2. 预训练阶段模型学习55个生物物理属性(如分子表面、氢键、范德华力等)与序列关系,采用结构相对位置编码。
3. 微调阶段,METL模型在11个实验数据集上进行测试,包括GFP、GB1、DLG4、GRB2等,评估其在突变外推、位置外推、多突变预测等任务中的表现。
4. 设计低样本GFP突变实验,使用METL-Local在仅64个样本上微调,预测并设计具有5或10个突变的GFP变体,通过合成基因验证其荧光强度。
关键结论与观点
研究意义与展望
METL框架为蛋白质工程提供了新的机器学习路径,通过结合生物物理模拟与实验数据,提升了模型在低样本量下的预测能力。未来可扩展至更复杂的功能模拟(如酶催化、构象变化)以增强模型对蛋白质功能的理解。随着分子建模技术的发展,METL有望在蛋白质设计、功能优化和结构预测中发挥更大作用,为蛋白质工程提供更高效的深度学习工具。
结语
本研究提出METL框架,将生物物理模拟数据引入蛋白质语言模型预训练,使模型在少量实验数据下仍能准确预测蛋白质功能。通过GFP设计实验,METL-Local在仅64个训练样本下成功生成多个荧光变体,验证了其在低数据工程任务中的实用性。研究还发现,功能特异性模拟数据能显著增强模型对特定蛋白质功能的预测能力。METL模型为蛋白质工程提供了一种结合物理机制与实验观测的新方法,未来可进一步优化以适应更复杂的蛋白质功能预测任务,如动态结构变化、多靶点结合等。该框架的推广有望加速蛋白质设计和功能改造,特别是在数据稀缺的研究中。