Nature Genetics
基于长读长基因组组装的结构变异全基因组关联分析揭示其对复杂性状的遗传贡献

2026-06-23

研究领域分类

免疫（424）肿瘤（552）代谢及心血管（425）神经及肌肉（556）眼科（36）其他（551）

加入邮件订阅!

您将获得赛业生物最新资讯

摘要速览

Nature Genetics | 基于长读长基因组组装的结构变异全基因组关联分析揭示其对复杂性状的遗传贡献

小赛推荐：

该研究为复杂性状遗传机制研究提供了高精度结构变异的高效填补策略，显著提升了利用现有SNP芯片数据解析非编码调控变异的能力，对疾病基因定位研究设计具有直接指导意义。

文献概述

本文《Genome-wide associations of structural variants with human traits through imputation from long-read assemblies》，发表于《Nature Genetics》杂志，系统探讨了通过长读长基因组组装构建结构变异（SV）参考面板，并实现从SNP芯片数据中高效填补SV的方法。研究进一步在UK Biobank队列中系统评估了SV对2,624个复杂性状的遗传贡献，揭示了SV在复杂疾病和分子表型中的广泛作用。研究团队开发了公开可用的工具ImputeSV，极大拓展了现有基因组数据的挖掘潜力。

背景知识

结构变异（SV）是基因组中>50 bp的插入、缺失、倒位和串联重复等变异类型，是仅次于单核苷酸多态性（SNP）的第二大遗传变异来源。尽管已有研究表明SV在自闭症谱系障碍、精神分裂症和癌症等疾病中发挥重要作用，但由于技术限制，SV在大规模队列中的基因型推断长期滞后于SNP。传统短读长测序（srWGS）在重复区域难以准确识别SV，而高精度长读长测序（如PacBio HiFi）虽能全面检测SV，但成本过高，难以应用于数十万样本的生物库研究。因此，如何在不进行全基因组长读长测序的前提下，实现SV的高精度基因型填补，成为复杂性状遗传学研究的关键瓶颈。本研究通过构建基于482个单倍型解析的长读长基因组组装的参考面板，成功解决了这一难题，为系统解析SV在人类复杂性状中的作用提供了全新路径。

针对JAZF1基因功能研究，赛业生物提供条件性基因敲除小鼠模型服务，可实现组织特异性基因功能研究，避免胚胎致死问题，适用于探索JAZF1在胰岛β细胞中的作用机制，支持糖尿病发病机制与药物靶点验证研究。

研究方法与核心实验

研究团队利用PacBio HiFi长读长测序技术，对241名不同祖先背景的个体进行高覆盖度测序，构建了482个单倍型解析的基因组组装。基于这些高质量组装，使用PAV等工具识别出171,233个高质量SV，涵盖插入、缺失、倒位和串联重复等类型。随后，研究人员构建了一个优化的SV参考面板，并开发了名为ImputeSV的在线工具，用于从SNP芯片或基因型分型阵列数据中填补SV。该方法在HG002标准样本和留一法交叉验证中表现出高召回率、精确度和基因型一致性，尤其是在复杂基因组区域。随后，该面板被应用于456,643名欧洲血统UK Biobank（UKB-EUR）参与者，成功填补了54,578个常见SV（MAF ≥ 1%）。基于此数据，研究团队进行了全基因组SV关联分析（SV-GWAS），并结合GCTA-GREML模型评估SV对复杂性状的遗传力贡献。

关键结论与观点

SV参考面板可实现高精度SV填补，即使在复杂重复区域（如串联重复）也表现出优异性能，为利用现有GWAS数据重新分析SV效应提供了可靠工具。
SV解释了复杂性状中至少4.7%的常见遗传变异，这一比例在联合模型中显著高于此前估计，表明SV在复杂性状遗传中具有不可忽视的贡献。
SV-GWAS鉴定了17,335个SV–性状关联，其中958个关联极不可能由小效应SNP驱动，提示这些SV可能是真正的因果变异，为疾病机制解析提供了新的候选位点。
与SNP相比，性状相关的SV更富集于转录起始位点（TSS）、剪接位点、增强子和拓扑关联结构域（TAD）边界，表明SV可能通过调控基因表达影响表型。
SV-eQTL分析显示，38.8%的性状相关SV同时也是eQTL，包括208个反式eQTL，进一步支持SV通过调控基因表达网络影响复杂性状。
两个典型案例揭示了SV的功能机制：位于JAZF1内含子的364 bp缺失（7p15.1-DEL-364bp）可能通过破坏HNRNPL结合位点影响mRNA加工，与2型糖尿病相关；而位于NRROS增强子区的60 bp缺失（3q29-DEL-60bp）则与哮喘和嗜酸性粒细胞比例相关，提示其在免疫调控中的作用。

研究意义与展望

该研究突破了SV研究的技术瓶颈，使得大规模队列中SV的系统性分析成为可能。其开发的ImputeSV工具和公开的SV关联数据门户，为全球研究者提供了强大的资源，可用于探索SV在罕见病、复杂疾病和药物反应中的作用。未来研究可结合单细胞多组学数据，进一步解析SV在特定细胞类型中的调控效应。

从药物开发角度看，研究识别的高置信SV关联位点（如JAZF1和NRROS）可作为潜在药物靶点，特别是那些影响调控元件的非编码SV，为靶向非编码基因组的疗法设计提供新思路。

此外，研究强调了在遗传风险预测模型中纳入SV的重要性，有望提升多基因风险评分（PRS）的预测能力，推动精准医学的发展。

为研究NRROS基因在免疫调控中的功能，赛业生物提供基因敲入与人源化小鼠模型服务，可构建携带特定突变或报告基因的小鼠模型，用于模拟人类疾病相关变异，支持免疫疾病机制研究与药物筛选。

结语

本研究通过整合长读长基因组组装与基因型填补技术，系统揭示了结构变异在人类复杂性状中的广泛遗传贡献。研究不仅提供了高精度的SV参考面板和分析工具ImputeSV，还鉴定了大量与疾病和生理特征相关的SV位点，特别是那些独立于常见SNP的因果候选变异。这些发现填补了复杂性状遗传力的“缺失环节”，为解析非编码调控变异的机制提供了关键证据。从实验室到临床，该资源将加速疾病基因的发现与验证，推动构建更完善的遗传风险模型。对于2型糖尿病、哮喘等复杂疾病，研究揭示的JAZF1和NRROS相关SV为理解疾病异质性提供了新视角，有望指导未来靶向特定变异亚群的精准干预策略。该研究标志着SV研究进入大规模功能解析的新时代，为构建更全面的人类泛基因组和实现精准医疗奠定了重要基石。

文献来源：

Wei-Yang Bai, Shuli Liu, Zhongqu Duan, Ting Qi, and Jian Yang. Genome-wide associations of structural variants with human traits through imputation from long-read assemblies. Nature Genetics.

更多热门文章推荐

Intensive Care Medicine
危重症康复的标准化护理：从ICU到社区的全程管理

Nature Aging
损伤积累模型揭示跨物种衰老的两种不同模式