Nature Methods
DIAMOND DeepClust实现超大规模蛋白聚类并提升结构预测

2026-04-20

研究领域分类

免疫（414）肿瘤（531）代谢及心血管（403）神经及肌肉（534）眼科（36）其他（530）

加入邮件订阅!

您将获得赛业生物最新资讯

摘要速览

Nature Methods | DIAMOND DeepClust实现超大规模蛋白聚类并提升结构预测

小赛推荐：

该研究通过构建包含190亿蛋白的深度聚类数据库，显著提升了对低同源性序列的比对敏感性，为比较基因组学和蛋白质结构预测的数据库优化提供了可扩展的技术路径。

文献概述

本文《Clustering the protein universe of life using DIAMOND DeepClust》，发表于《Nature Methods》杂志，系统探讨了如何在地球生物基因组计划背景下，对万亿级蛋白序列进行高效且敏感的聚类分析。作者提出了DIAMOND DeepClust这一级联式超快聚类方法，解决了传统工具在处理数十亿蛋白时面临的计算瓶颈与敏感性下降问题。该方法不仅实现了对190亿条蛋白序列的深度聚类，还构建了包含5.44亿非单例簇的数据库，显著压缩了序列空间，为后续的进化分析和结构建模提供了高质量参考。本文进一步验证了该数据库在AlphaFold2结构预测中的实用性，展示了其在提升低代表性序列建模精度方面的潜力。

背景知识

当前，随着地球生物基因组计划（Earth BioGenome Project）推进，预计将产生超过270亿条真核生物蛋白序列，这对蛋白质聚类和进化关系推断提出了前所未有的挑战。传统聚类工具如CD-HIT、UClust和MMseqs2在处理大规模数据时，往往在速度与敏感性之间做出妥协，尤其在低序列一致性（<30%）条件下表现不佳，导致远缘同源蛋白无法被有效聚类。这一瓶颈直接影响了蛋白质结构预测的准确性，因为AlphaFold2等先进模型依赖于深度多重序列比对（MSA）来提取进化信息。现有数据库如BFD虽已广泛应用，但其覆盖范围有限，难以捕捉全部蛋白家族多样性。本研究的切入点在于开发一种既能线性扩展至万亿序列，又能保持高敏感性的聚类算法，从而全面组织生命之树的蛋白空间，解决远缘同源检测和结构建模中的数据稀疏问题。DIAMOND DeepClust通过结合敏感比对、级联聚类和双向覆盖策略，突破了现有方法的局限，为构建下一代蛋白聚类数据库提供了技术范本。

赛业生物提供基于HUGO-GT®全基因组人源化小鼠模型，适用于阿尔茨海默病、脊髓性肌萎缩症等罕见病的基因治疗临床前研究，支持针对性突变定制，是更贴近真实生物机制的药物研发模型。

研究方法与核心实验

作者采用DIAMOND v.2作为比对引擎，开发了DIAMOND DeepClust，一种基于级联聚类（cascaded clustering）的算法。该方法在多个敏感度层级（–fast, default, –sensitive等）逐步进行自比对，结合贪心顶点覆盖（greedy vertex cover）策略生成代表性序列集。为提升效率，算法引入了最小化子采样（minimizer sampling）和多间隔种子（multiple spaced seeds）技术，在保证敏感性的同时加速搜索。特别地，双向覆盖（bi-directional coverage）策略确保了聚类中任意成员与代表序列在长度覆盖和序列一致性上均满足设定阈值，显著优于单向覆盖。作者在NCBI NR数据库（~5.46亿序列）上系统评估了DIAMOND DeepClust与MMseqs2、FLSHclust的性能，结果显示其在19小时完成聚类，比MMseqs2快36倍，比FLSHclust快21倍，同时保持更高敏感性（68.6% vs 62.3%和49.7%）。此外，线性模式支持多节点并行计算，在32个计算节点上将220亿序列的聚类时间从15.3小时缩短至35分钟，展示了卓越的可扩展性。

关键结论与观点

DIAMOND DeepClust在NCBI NR数据库上实现68.6%的敏感性与95.5%的精度，显著优于现有工具，表明其在远缘同源蛋白聚类中具有更高可靠性。DIAMOND DeepClust
对190亿条生物圈蛋白进行聚类后获得5.44亿个非单例簇，覆盖94%的序列，说明蛋白宇宙存在高度冗余，深度聚类可极大压缩数据空间，为比较基因组学提供高效索引。蛋白质聚类
与BFD数据库相比，新数据库新增约1.18亿个未映射簇，揭示了大量未被注释的蛋白家族，拓展了蛋白家族多样性的认知边界，为功能基因组学研究提供新资源。BFD
将DeepClust数据库用于AlphaFold2结构预测，使473个低覆盖率序列的平均pLDDT评分从52.9提升至62.6，证明深度聚类数据库能显著改善结构预测质量，尤其对难建模蛋白。AlphaFold2

研究意义与展望

该研究为应对地球生物基因组计划带来的数据洪流提供了关键计算工具。DIAMOND DeepClust不仅实现了万亿级蛋白聚类的可行性，还为构建更全面的蛋白进化模型奠定了基础。其输出的代表性序列集可直接用于MSA构建、系统发育分析和结构预测，显著提升下游任务的效率与准确性。未来，整合profile-based搜索和更高级的图聚类算法（如Markov Clustering）有望进一步提升对远缘同源的识别能力。

赛业生物的神经疾病大小鼠模型涵盖阿尔茨海默病、帕金森病等超过20类疾病，提供基因敲除、点突变、人源化等多种打靶方式，支持现货与定制服务，助力神经退行性疾病机制研究与药物筛选。

结语

DIAMOND DeepClust代表了蛋白聚类技术的重大进步，成功平衡了大规模数据处理中的速度与敏感性。其构建的深度聚类数据库不仅揭示了蛋白宇宙中大量未被探索的多样性，还直接提升了AlphaFold2等结构预测工具的性能，尤其对低同源性序列具有重要意义。该成果为比较基因组学、功能注释和结构生物学提供了可扩展的数据基础设施。从实验室到临床转化，这一资源有助于更准确地识别致病突变、解析新抗原表位和设计靶向药物，特别是在罕见病基因和肿瘤新抗原研究中，能够提升变异蛋白的结构建模可靠性。随着更多基因组被测序，DIAMOND DeepClust将成为组织和解析生命之树蛋白空间的基石工具，推动精准医学和合成生物学的发展。

文献来源：

Benjamin J Buchfink, Émile Barbé, Haim Ashkenazy, John A Kennedy, and Hajk-Georg Drost. Clustering the protein universe of life using DIAMOND DeepClust. Nature Methods.

更多热门文章推荐

Molecular Cancer
LINC01123编码的微肽YG-6通过外泌体传递促进卵巢癌进展

Nucleic Acids Research
cpam实现时间序列转录组动态建模与变化点检测