
Nature Genetics
基于长读长基因组组装的结构变异全基因组关联分析揭示其对复杂性状的遗传贡献
小赛推荐:
该研究为复杂性状遗传机制研究提供了高精度结构变异的高效填补策略,显著提升了利用现有SNP芯片数据解析非编码调控变异的能力,对疾病基因定位研究设计具有直接指导意义。
文献概述
本文《Genome-wide associations of structural variants with human traits through imputation from long-read assemblies》,发表于《Nature Genetics》杂志,系统探讨了通过长读长基因组组装构建结构变异(SV)参考面板,并实现从SNP芯片数据中高效填补SV的方法。研究进一步在UK Biobank队列中系统评估了SV对2,624个复杂性状的遗传贡献,揭示了SV在复杂疾病和分子表型中的广泛作用。研究团队开发了公开可用的工具ImputeSV,极大拓展了现有基因组数据的挖掘潜力。背景知识
结构变异(SV)是基因组中>50 bp的插入、缺失、倒位和串联重复等变异类型,是仅次于单核苷酸多态性(SNP)的第二大遗传变异来源。尽管已有研究表明SV在自闭症谱系障碍、精神分裂症和癌症等疾病中发挥重要作用,但由于技术限制,SV在大规模队列中的基因型推断长期滞后于SNP。传统短读长测序(srWGS)在重复区域难以准确识别SV,而高精度长读长测序(如PacBio HiFi)虽能全面检测SV,但成本过高,难以应用于数十万样本的生物库研究。因此,如何在不进行全基因组长读长测序的前提下,实现SV的高精度基因型填补,成为复杂性状遗传学研究的关键瓶颈。本研究通过构建基于482个单倍型解析的长读长基因组组装的参考面板,成功解决了这一难题,为系统解析SV在人类复杂性状中的作用提供了全新路径。
研究方法与核心实验
研究团队利用PacBio HiFi长读长测序技术,对241名不同祖先背景的个体进行高覆盖度测序,构建了482个单倍型解析的基因组组装。基于这些高质量组装,使用PAV等工具识别出171,233个高质量SV,涵盖插入、缺失、倒位和串联重复等类型。随后,研究人员构建了一个优化的SV参考面板,并开发了名为ImputeSV的在线工具,用于从SNP芯片或基因型分型阵列数据中填补SV。该方法在HG002标准样本和留一法交叉验证中表现出高召回率、精确度和基因型一致性,尤其是在复杂基因组区域。随后,该面板被应用于456,643名欧洲血统UK Biobank(UKB-EUR)参与者,成功填补了54,578个常见SV(MAF ≥ 1%)。基于此数据,研究团队进行了全基因组SV关联分析(SV-GWAS),并结合GCTA-GREML模型评估SV对复杂性状的遗传力贡献。关键结论与观点
研究意义与展望
该研究突破了SV研究的技术瓶颈,使得大规模队列中SV的系统性分析成为可能。其开发的ImputeSV工具和公开的SV关联数据门户,为全球研究者提供了强大的资源,可用于探索SV在罕见病、复杂疾病和药物反应中的作用。未来研究可结合单细胞多组学数据,进一步解析SV在特定细胞类型中的调控效应。
从药物开发角度看,研究识别的高置信SV关联位点(如JAZF1和NRROS)可作为潜在药物靶点,特别是那些影响调控元件的非编码SV,为靶向非编码基因组的疗法设计提供新思路。
此外,研究强调了在遗传风险预测模型中纳入SV的重要性,有望提升多基因风险评分(PRS)的预测能力,推动精准医学的发展。
结语
本研究通过整合长读长基因组组装与基因型填补技术,系统揭示了结构变异在人类复杂性状中的广泛遗传贡献。研究不仅提供了高精度的SV参考面板和分析工具ImputeSV,还鉴定了大量与疾病和生理特征相关的SV位点,特别是那些独立于常见SNP的因果候选变异。这些发现填补了复杂性状遗传力的“缺失环节”,为解析非编码调控变异的机制提供了关键证据。从实验室到临床,该资源将加速疾病基因的发现与验证,推动构建更完善的遗传风险模型。对于2型糖尿病、哮喘等复杂疾病,研究揭示的JAZF1和NRROS相关SV为理解疾病异质性提供了新视角,有望指导未来靶向特定变异亚群的精准干预策略。该研究标志着SV研究进入大规模功能解析的新时代,为构建更全面的人类泛基因组和实现精准医疗奠定了重要基石。






