首页
模型资源
临床前CRO
资源中心
科研工具
关于我们
商城
集团站群
CN

Nature methods
基于长读长RNA测序的SNP检测、单倍型定相与等位基因特异性分析新工具longcallR

2026-04-03
加入邮件订阅!
您将获得赛业生物最新资讯
摘要速览
Nature methods | 基于长读长RNA测序的SNP检测、单倍型定相与等位基因特异性分析新工具longcallR

小赛推荐:

本文介绍了longcallR,一种用于长读长RNA测序数据的高精度SNP检测、单倍型定相和等位基因特异性分析的集成工具,在多种测序技术中展现出优于现有方法的性能,并应用于202个样本的大规模等位基因特异性剪接研究。

 

文献概述

本文《SNP calling, haplotype phasing and allele-specific analysis with long RNA-seq reads》,发表于《Nature methods》杂志,回顾并总结了长读长RNA测序(lrRNA-seq)在连接转录本结构与遗传变异方面的潜力,并针对现有分析工具的不足,提出了一种名为longcallR的新型集成算法。该工具实现了高精度的单核苷酸多态性(SNP)检测、单倍型定相以及等位基因特异性表达和剪接分析。研究在多个基准数据集上验证了其准确性,并将其应用于202个MAS-Seq测序的人类样本,系统鉴定了大量等位基因特异性剪接事件,揭示了其在不同人群和细胞类型中的分布特征。研究强调了lrRNA-seq在功能基因组学和复杂疾病研究中的重要价值。

背景知识

长读长RNA测序技术(如PacBio的Iso-Seq和ONT的cDNA/dRNA测序)能够捕获完整的转录本序列,克服了短读长测序在转录本组装和可变剪接分析中的局限性。这种技术的优势在于单个测序读段可以跨越多个遗传变异位点,为单倍型定相(haplotype phasing)提供了直接证据,从而实现等位基因特异性分析(allele-specific analysis),即区分来自父母双方等位基因的转录本表达和剪接差异。这种分析对于理解顺式-调控变异如何影响基因表达、剪接错误与疾病之间的复杂关系至关重要。然而,尽管长读长基因组SNP检测已较为成熟,从lrRNA-seq数据中进行准确的SNP检测仍面临诸多挑战:基因表达水平不均导致的覆盖度不均一、剪接位点附近的比对错误、等位基因特异性表达造成的等位基因频率偏倚,以及可能被误判为SNP的转录后RNA编辑事件。现有的少数lrRNA-seq SNP检测流程(如Clair3-RNA)虽然精度较高,但缺乏集成的单倍型定相和等位基因特异性分析功能。因此,开发一个端到端的、高精度的分析流程,将SNP检测、定相和等位基因特异性分析整合起来,是推动lrRNA-seq在功能基因组学中深入应用的关键需求。本研究正是针对这一技术缺口,提出并验证了longcallR工具,为大规模等位基因特异性转录组研究提供了强有力的解决方案。

 

针对阿尔茨海默病、脊髓性肌萎缩、视网膜色素变性等罕见病,可提供HUGO-GT®全基因组人源化模型,搭载了更高效的大片段载体融合技术,可以作为万能模板进行针对性的突变定制服务,是更贴近真实世界生物机制的药物临床前研究模型,我们期待与你共同开发新型全基因组人源化小鼠,加速基因治疗研究

 

研究方法与实验

研究团队开发了longcallR,一个专为lrRNA-seq数据设计的三模块分析流程。第一模块longcallR-nn基于深度卷积神经网络(ResNet-50),通过分析比对生成的“pileup图像”来预测SNP基因型和杂合性,该图像整合了参考序列、碱基、插入、碱基质量、比对质量、读段链和转录本链等7个特征通道。第二模块longcallR-phase使用概率模型,基于读段单倍型信息联合优化SNP检测和单倍型定相,它能作为独立算法直接从比对结果产生定相后的SNP。第三模块则利用定相后的VCF和BAM文件,结合基因组注释,通过beta-binomial检验和Fisher精确检验,分别鉴定等位基因特异性表达(ASE)和等位基因特异性剪接(ASJ)事件。研究在12个来自Genome-In-A-Bottle(GIAB)和短读SNP检测的基准数据集上评估了SNP检测精度,比较了longcallR与Clair3-RNA的性能。同时,使用trio-phased GIAB数据作为金标准,评估了longcallR-phase与WhatsHap在单倍型定相上的准确性。最终,该工具被应用于202个由人类泛基因组参考联盟(HPRC)提供的MAS-Seq人类样本,以系统性地研究等位基因特异性剪接的图谱。

关键结论与观点

  • longcallR在PacBio数据集上表现出极高的SNP检测精度(98.5%-99.0%),F1分数与Clair3-RNA相当,但精度平均高出1.4%,尽管灵敏度略低,这得益于其要求SNP处于定相状态以减少假阳性。
  • 在更挑战性的Nanopore数据上,longcallR的精度和召回率虽有所下降,但依然优于Clair3-RNA,尤其在最新的dRNA(RNA004)数据上表现最佳,且其精度优势在编码区和不同覆盖度下均一致。
  • longcallR-phase作为独立的定相工具,相较于WhatsHap,能产生更长的定相单倍型区块,同时具有更低的定相开关错误率和汉明错误率,这得益于其与SNP检测的集成优化。
  • 在HPRC的202个MAS-Seq样本中,longcallR平均每个样本鉴定出88个显著的等位基因特异性剪接(ASJ)事件,其中46.5%涉及未在GenCode v39中注释的新型剪接位点,表明ASJ事件是转录组多样性的重要来源。
  • ASJ事件的主成分分析(PCA)与基于SNP的PCA结果相似,表明这些事件与群体遗传结构相关。非洲人群样本中检测到的ASJ事件更多,且ASJ事件数量与测序深度正相关,说明测序深度是影响检测功效的关键因素。

研究意义与展望

本研究成功开发并验证了longcallR,这是一个功能全面且高精度的lrRNA-seq分析工具。它不仅解决了lrRNA-seq SNP检测和定相的准确性问题,更重要的是,它提供了一个从原始数据到等位基因特异性功能分析的完整解决方案,极大地简化了研究流程。该工具的应用揭示了等位基因特异性剪接在人类群体中的广泛存在和复杂性,特别是其与新型剪接位点的强关联,为理解遗传变异如何通过影响剪接来调控基因功能提供了新的视角。

展望未来,研究团队计划将longcallR扩展至单细胞RNA-seq领域,这将允许在单细胞分辨率下进行单倍型定相,从而探索细胞间的等位基因特异性遗传效应,深入解析细胞异质性和基因调控网络。这将为发育生物学、癌症进化和神经科学等研究领域提供前所未有的分析能力。此外,该工具的成功也凸显了深度学习和集成算法在处理复杂测序数据中的巨大潜力,为后续开发更高级的多组学整合分析方法奠定了基础。

 

专业的眼科药效学分析平台可提供从眼部注射给药、眼部活体检测、眼部组织取材、病理学分析和基因与蛋白表达分子检测等全流程的眼科药效学分析服务

 

结语

本研究介绍的longcallR工具为长读长RNA测序数据分析提供了一个强大的新范式。通过将基于深度学习的SNP检测、集成的单倍型定相和等位基因特异性分析功能整合在一个流程中,longcallR显著提升了分析的准确性和效率。其在PacBio和Nanopore数据上的优越性能,以及在大规模人类样本中对等位基因特异性剪接事件的系统性揭示,证明了其在功能基因组学研究中的巨大价值。该研究不仅提供了一个实用的生物信息学工具,更重要的是,它加深了我们对遗传变异如何顺式-调控转录本结构和表达的理解。通过揭示大量涉及新型剪接位点的ASJ事件,研究强调了等位基因特异性剪接在塑造个体转录组多样性中的关键作用。这项工作为研究复杂疾病的遗传基础、个体化基因调控网络以及进化过程中剪接调控的变异提供了重要的资源和方法论支持。随着单细胞长读长测序技术的发展,longcallR的未来扩展有望在单细胞水平上解码等位基因特异性的复杂性,进一步推动精准医学和基础生物学研究的前沿。

 

文献来源:
Neng Huang, Human Pangenome Reference Consortium, and Heng Li. SNP calling, haplotype phasing and allele-specific analysis with long RNA-seq reads. Nature methods.