Nature Methods
蛋白质语言模型嵌入不确定性量化框架揭示表示可靠性

2026-04-16

研究领域分类

免疫（406）肿瘤（517）代谢及心血管（387）神经及肌肉（519）眼科（36）其他（515）

加入邮件订阅!

您将获得赛业生物最新资讯

摘要速览

Nature Methods | 蛋白质语言模型嵌入不确定性量化框架揭示表示可靠性

小赛推荐：

该研究提出了一种模型无关的嵌入可靠性评估方法，为蛋白质功能预测和突变效应分析的下游任务提供了关键的质量控制标准，有助于优化实验设计中对语言模型输出的可信度筛选。

文献概述

本文《Quantifying uncertainty in protein representations across models and tasks》，发表于《Nature Methods》杂志，系统探讨了蛋白质语言模型（pLMs）所生成嵌入表示的可靠性问题。作者指出，尽管pLMs在结构与功能预测中表现优异，但其嵌入向量的质量常被默认可信，缺乏系统性评估机制。研究提出随机邻居评分（RNS）作为衡量嵌入不确定性的新指标，通过评估目标蛋白嵌入在潜在空间中与合成随机序列的相似程度来量化表示质量。该方法揭示了低质量嵌入常与生物学无关的“垃圾场”区域重叠，显著影响下游任务性能。研究强调应在任何基于嵌入的分析前进行质量筛查，以提升结果的可解释性与稳健性。

背景知识

当前，蛋白质功能预测和结构预测高度依赖pLMs生成的嵌入表示，然而这些表示的可靠性并未被标准化评估。现有瓶颈在于：大多数模型如ESM-2或ProtT5虽能生成高维嵌入，却未提供置信度评分，导致在面对无序蛋白或罕见序列时可能输出误导性表示。此外，训练数据偏差（如偏向已知结构蛋白）使得模型在IDR或metagenomic sequences上泛化能力受限。选题切入点在于将自然语言处理中的不确定性评估理念迁移到蛋白质科学，提出一种通用、模型无关的评估框架。通过引入Astral40R作为“非生物”对照集，作者构建了一个可量化的基准，用于识别嵌入空间中的低信心区域。这一策略填补了当前在嵌入质量控制方面的空白，尤其对罕见变异效应预测和新抗原识别等高风险应用至关重要。

针对阿尔茨海默病、脊髓性肌萎缩、视网膜色素变性等罕见病，可提供HUGO-GT®全基因组人源化模型，搭载了更高效的大片段载体融合技术，可以作为万能模板进行针对性的突变定制服务，是更贴近真实世界生物机制的药物临床前研究模型，我们期待与你共同开发新型全基因组人源化小鼠，加速基因治疗研究

研究方法与核心实验

作者采用多个主流蛋白质语言模型（包括ESM-2、ProtT5、Bepler等）对Astral40数据集中的蛋白结构域进行嵌入生成，并构建了Astral40R作为随机对照序列集。通过计算每个真实蛋白嵌入与其在潜在空间中k近邻内来自Astral40R序列的比例，定义为随机邻居评分（RNS），从而量化嵌入的不确定性。该方法独立于模型架构，适用于任何pLM。进一步，作者将RNS与实验验证的TM-score、pLDDT以及下游任务（如接触预测、二级结构预测）性能进行关联分析，验证其预测价值。实验还扩展至人类蛋白质组、无序蛋白（IDP、IDR）及宏基因组新序列，评估不同模型在真实世界场景下的表示能力。

关键结论与观点

RNS评分与实验结构一致性（TM-score）显著负相关，表明高RNS值对应低质量嵌入，提示ESM-2预测结构不可靠时其嵌入亦不可信。
在下游任务中，高RNS蛋白的接触预测和二级结构预测准确率明显下降，尤其是长程接触预测受影响更大，说明嵌入不确定性直接传播至任务性能。
ProtT5在人类蛋白组中表现出比更大规模的ESM-2 (3B)更低的RNS，挑战了“更大模型更优”的假设，提示模型结构与训练目标对泛化能力有重要影响。
无序蛋白区域（IDR）普遍具有高RNS值，揭示当前pLMs在建模内在无序区域方面存在系统性偏差，需专门优化。
对于宏基因组新蛋白和幻觉生成序列，部分模型仍能产生低RNS嵌入，表明其具备识别潜在可折叠模式的能力，为新蛋白设计提供信心指标。

研究意义与展望

该研究为蛋白质语言模型的应用建立了首个通用的嵌入可靠性评估标准。RNS可作为预筛选工具，剔除低信心嵌入，显著提升功能注释、变异效应预测等任务的准确性。在药物开发中，尤其涉及靶点识别或耐药突变预测时，使用RNS过滤可避免基于错误表示做出错误决策。未来可将RNS整合进模型训练过程，动态调整采样权重或引入正则化项，主动减少“垃圾场”嵌入的产生。此外，该框架可扩展至RNA或DNA语言模型，推动整个生物语言模型领域向更可靠、可解释的方向发展。

专业的眼科药效学分析平台可提供从眼部注射给药、眼部活体检测、眼部组织取材、病理学分析和基因与蛋白表达分子检测等全流程的眼科药效学分析服务

结语

本研究从根本上改变了我们对蛋白质语言模型嵌入的使用方式。以往将嵌入视为“给定”的做法存在重大风险，而RNS提供了一个简单却强大的工具来评估其生物学可信度。从实验室到临床转化，这一方法可应用于所有依赖pLM嵌入的场景，如罕见病基因诊断中的错义突变效应预测，或肿瘤新抗原发现流程中的抗原性评估。通过引入质量控制环节，RNS有助于建立更稳健的分析流程，减少假阳性结果，提升研究可重复性。尤其对于神经退行性疾病或癌症相关蛋白中广泛存在的无序区域，RNS可标记出模型不确定性高的区域，提醒研究人员谨慎解读。该框架的普适性使其有望成为未来pLM应用的标准预处理步骤，真正实现“可信AI”在生命科学中的落地，为精准医学提供更坚实的计算基础。

文献来源：

R Prabakaran and Yana Bromberg. Quantifying uncertainty in protein representations across models and tasks. Nature Methods.

更多热门文章推荐

Nucleic Acids Research
Alexidine通过诱导Z-DNA调控基因转录的机制研究

Nature Neuroscience
自适应心智化背后的神经机制揭示动态策略调整的脑网络基础