首页
模型资源
临床前CRO
赛业动态
客户支持
关于我们
商城
集团站群
CN
想了解更多的最新技术和发现?

Nature Methods
基因扰动效应预测的深度学习模型表现未超越简单线性基线模型

2025-08-12

小赛推荐:

本研究系统比较了多种深度学习基础模型与简单线性模型在预测单细胞转录组扰动效应方面的表现,结果显示,当前的深度学习模型在预测精度上并未超越简单线性模型,强调了在方法开发中严格基准测试的重要性。

 

文献概述
本文《Deep-learning-based gene perturbation effect prediction does not yet outperform simple linear baselines》发表于《Nature Methods》杂志,回顾并总结了当前基于深度学习的单细胞基础模型在预测基因扰动效应方面的局限性。研究通过比较多个深度学习模型与简单线性模型,发现这些复杂模型在预测任务中并未提供显著优势。

背景知识
近年来,基于大规模单细胞转录组数据训练的基础模型(foundation models)在多个生物医学任务中展现出潜力。然而,尽管已有模型如scGPT、scFoundation、GEARS等声称可以预测基因扰动后的表达变化,其实际表现仍缺乏系统性验证。基因扰动效应预测是药物靶点研究和疾病机制探索中的关键问题,当前主流方法依赖于简单的加法模型或线性回归模型。尽管深度学习模型在图像、文本等领域取得突破,其在基因扰动预测中的有效性仍不确定。本文的研究填补了这一空白,系统评估了多个模型在双扰动和单扰动数据上的表现,揭示了当前深度学习模型在该任务中的局限性,为后续方法开发提供了重要参考。

 

提供基因敲除、基因敲入及转基因小鼠模型定制服务,支持多种疾病研究与药物开发,适用于基因功能、发育机制及疾病模型构建。

 

研究方法与实验
研究团队使用Norman等人(2019)提供的CRISPR激活数据,包含100个单基因扰动和124个双基因扰动,共计224个扰动条件。他们将数据分为训练集(100个单扰动+62个双扰动)与测试集(62个双扰动),并运行五次随机划分以减少方差影响。所有模型均在相同条件下进行微调和测试,预测误差以L2距离和Pearson相关性评估。此外,研究者还构建了线性模型,使用基因和扰动嵌入矩阵进行预测,并与深度学习模型进行比较。

关键结论与观点

  • 所有深度学习模型在双扰动预测任务中均未超越简单线性模型,甚至在预测误差上表现更差
  • 基于加法的简单线性模型在预测扰动效应方面表现稳定,且计算资源消耗远低于深度学习模型
  • 深度学习模型在预测遗传相互作用方面未表现出优势,多数模型仅预测‘缓冲型’相互作用,而‘协同’或‘相反’类预测极少且准确率低
  • 某些基因(如HBG2和HBZ)在多个模型中频繁出现于预测顶部,但模型未能捕捉其真实表达变化
  • 使用预训练嵌入的线性模型表现接近或优于深度学习模型,表明基础模型的预训练表示在该任务中贡献有限
  • 研究强调,当前基础模型在基因扰动预测任务中尚未实现预期的泛化能力,且简单线性模型在多数情况下更具实用性

研究意义与展望
该研究为单细胞基础模型在扰动预测中的应用提供了系统性基准,揭示了当前模型在泛化能力和预测准确性方面的不足。未来工作应聚焦于改进模型架构、训练策略及更合理的基准测试,以实现真正有效的扰动效应预测。

 

提供基于细胞与动物模型的基因编辑服务,包括点突变、基因敲除、基因敲入等,适用于药物靶点验证、疾病机制研究及高通量筛选。

 

结语
本研究系统评估了当前基于深度学习的单细胞基础模型在基因扰动效应预测中的表现。尽管这些模型在其他任务中展现了强大潜力,但在扰动预测方面,它们并未超越结构简单的线性模型。研究结果表明,当前的模型结构和训练策略可能不足以捕捉基因表达的复杂变化,尤其是在未见扰动的预测任务中。未来模型开发应更注重模型的可解释性、嵌入质量及与生物通路信息的整合。同时,该研究为相关方法开发者提供了明确的基准,强调了在单细胞数据预测中严谨验证的重要性。这些发现对于基因调控网络、药物靶点识别及疾病机制建模具有深远影响,也为基础模型在生物医学中的应用提供了现实性评估与改进方向。

 

文献来源:
Constantin Ahlmann-Eltze, Wolfgang Huber, and Simon Anders. Deep-learning-based gene perturbation effect prediction does not yet outperform simple linear baselines. Nature Methods.
想了解更多的最新技术和发现?
基因扰动效应预测
深度学习模型
单细胞转录组
线性模型
基因编辑
赛业生物

上一篇:Nature biotechnology 研究揭示哺乳动物细胞中mRNA翻译效率的调控机制

下一篇:Intensive Care Med 脓毒症幸存者的健康相关生活质量与功能恢复:一项全国队列研究