Nature Methods
scooby模型实现单细胞多组学基因表达和染色质可及性预测
小赛推荐:
该研究提出了一种基于深度学习的单细胞多组学建模框架scooby,可同时预测单细胞RNA-seq表达和ATAC-seq染色质可及性。该模型在细胞类型特异性表达预测和基因调控机制识别方面展现出高精度,为基因调控研究提供了新工具。
文献概述
本文《scooby: modeling multimodal genomic profiles from DNA sequence at single-cell resolution》,发表于《Nature Methods》杂志,回顾并总结了单细胞多组学数据建模的最新进展,重点介绍了一种基于深度学习的模型,能够从DNA序列预测基因表达和染色质可及性。该研究旨在解决bulk数据建模无法揭示细胞异质性的问题,为单细胞基因调控研究提供更精细的解析工具。
背景知识
在基因组学研究中,如何从DNA序列出发准确预测细胞状态特异的基因表达和染色质可及性是解析基因调控机制的关键。尽管已有如Borzoi和Enformer等深度学习模型能基于序列预测基因表达,但它们主要针对bulk数据训练,无法捕捉单细胞分辨率下的调控动态。近年来,单细胞多组学技术的发展为解析细胞异质性提供了可能,但现有模型在处理这种高维、稀疏数据时仍面临挑战。因此,该研究引入scooby,通过改进序列嵌入和引入细胞特异性解码器,实现了高精度的单细胞多组学建模,有助于解析eQTL变异在不同细胞类型中的功能影响。
研究方法与实验
研究团队基于Borzoi模型进行参数微调,并引入细胞特异性解码器。模型训练数据来自10x Single Cell Multiome测序数据,涵盖6万多个骨髓单核细胞。通过LoRA策略进行高效参数微调,结合Poisson-MultiVI生成的低维细胞状态表示,使模型能够适应不同细胞类型的表达和染色质可及性预测。
关键结论与观点
研究意义与展望
scooby为单细胞基因组学分析提供了一种高效、通用的深度学习框架,能够从DNA序列直接预测细胞类型特异的表达和染色质可及性。未来可扩展至其他多组学数据,用于解析复杂疾病中eQTL异质性、探索发育过程中的基因调控程序,并可用于基因组注释和功能变异筛选。
结语
scooby的提出填补了单细胞多组学数据建模中基于序列的深度学习方法空白。相比传统模型,它在细胞类型特异性调控解析、eQTL异质性识别、转录因子活性评分等方面均展现出显著优势。该模型不仅适用于骨髓细胞研究,还可拓展至其他组织和发育系统,为精准基因组学和疾病机制研究提供新工具。scooby的开发代表了基因调控建模从bulk数据向单细胞解析的范式转变,未来可结合更多表观组学特征,提升其在复杂调控区域的预测能力。





