Nature Genetics
遗传关联与机器学习提升1型糖尿病风险预测

2026-05-18

研究领域分类

免疫（441）肿瘤（568）代谢及心血管（443）神经及肌肉（574）眼科（36）其他（569）

加入邮件订阅!

您将获得赛业生物最新资讯

摘要速览

Nature Genetics | 遗传关联与机器学习提升1型糖尿病风险预测

小赛推荐：

该研究通过整合大规模遗传数据与机器学习，系统揭示了1型糖尿病的非线性遗传互作网络，为精准识别高风险个体及后续T1D机制研究提供了可操作的遗传评分框架。

文献概述

本文《Genetic association and machine learning improve the prediction of type 1 diabetes risk》，发表于《Nature Genetics》杂志，系统探讨了通过全基因组遗传关联分析与机器学习建模提升1型糖尿病（T1D）风险预测精度的策略。研究团队在超过80万欧洲裔个体中鉴定了160个T1D风险信号，并开发了新型遗传风险评分T1GRS，显著优于现有模型。该模型不仅提高了对非高危HLA单倍型个体的预测能力，还揭示了MHC与非MHC位点间的非线性互作，最终识别出四个具有不同临床表型的T1D遗传亚型。研究结果为T1D的早期筛查、机制解析与个体化干预奠定了遗传基础。

背景知识

1型糖尿病（T1D）是一种由T细胞介导的自身免疫性疾病，其核心病理特征是胰岛β细胞的进行性破坏，最终导致胰岛素绝对缺乏。尽管环境因素参与疾病启动，遗传易感性在T1D发病中起主导作用，尤其是HLA区域的高风险单倍型如DR3-DQ2和DR4-DQ8。然而，传统遗传风险评分（GRS）多基于加性模型，忽略非线性遗传互作，难以解释全部遗传力，且在非欧洲人群中的泛化能力有限。此外，T1D存在显著异质性，不同患者在发病年龄、自身抗体谱和并发症风险上差异显著，提示可能存在不同遗传驱动的内表型。当前瓶颈在于如何整合全基因组信息，捕捉复杂遗传效应，并将遗传风险转化为可操作的临床工具。本研究的切入点在于结合精细作图与机器学习，构建更精准的遗传评分，并探索其在揭示T1D遗传异质性中的价值，从而为T1D精准预防和分型治疗提供新路径。

针对1型糖尿病研究中的关键基因如INS、PTPN22和HLA-DQB1，赛业生物提供精准的基因敲除与点突变小鼠模型定制服务，支持条件性敲除和人源化等复杂模型构建，助力研究基因在免疫耐受与β细胞功能中的作用机制，适用于T1D疾病建模与药物靶点验证。

研究方法与核心实验

研究团队整合了来自多个大型队列的遗传数据，包括欧洲裔个体（T1D n=20,355；对照 n=797,363）和MHC区域深度分型数据（T1D n=10,107；对照 n=19,639）。首先，通过全基因组关联分析（GWAS）和SuSiE精细作图，在97个T1D风险位点识别出133个独立信号，并在MHC区域通过条件分析鉴定出23个独立信号，其中4个为新发现，包括HLA-DRB1的氨基酸残基71。这些分析极大缩小了候选因果变异集，为后续建模提供高质量输入。

基于这些风险位点，作者构建了一个包含199个变异的机器学习模型T1GRS，采用梯度提升算法（XGBoost）。模型输入包括MHC（70个已知HLA变异+27个新信号）和非MHC（102个位点）的lead变异，并训练了两种版本：T1GRS-cov（含协变量）和T1GRS-var（仅遗传变异）。模型性能在多个独立队列中验证，包括All of Us（AoU）、nPOD和African American队列。通过SHAP（Shapley Additive Explanations）分析，量化各变异对预测的贡献，并识别变异间的非线性互作。

关键结论与观点

T1GRS在欧洲人群中显著优于现有GRS2，AUC达到0.937，尤其在非DR3/DR4单倍型个体中提升显著，表明该模型能有效捕捉非MHC位点的复杂遗传贡献。
模型识别出154个显著的遗传互作对，最强信号为HLA-DQB1第57位氨基酸与HLA-DRB1第13位氨基酸，验证了已知的HLA互作，同时发现INS与HLA-DQB1之间的显著互作，提示胰岛素基因变异可能通过MHC-II呈递影响T细胞耐受。
基于T1GRS的SHAP值进行聚类分析，识别出四个T1D遗传亚型：'MHC驱动'、'MHC富集'、'T细胞富集'和'胰腺富集'。'胰腺富集'亚型虽发病较晚，但糖尿病并发症风险显著升高，提示不同遗传背景导向不同临床结局。
T1GRS在非洲裔美国人中表现与专为该人群设计的GRS相当（AUC=0.845 vs 0.846），显示其跨人群泛化潜力，为解决T1D研究中的遗传多样性偏差提供了实用工具。

研究意义与展望

该研究标志着T1D遗传风险预测从加性模型迈向非线性、交互式模型的新阶段。T1GRS不仅提高了风险分层的准确性，更提供了个体化遗传互作图谱，有助于识别高风险家庭成员，推动在临床前阶段实施预防策略，如使用teplizumab延缓发病。此外，四个遗传亚型的发现为T1D的精准分型提供了分子依据，未来可指导个体化治疗选择，例如针对'MHC驱动'型可能更受益于免疫调节，而'胰腺富集'型可能需要更积极的β细胞保护策略。

从机制角度看，研究揭示的互作网络为功能验证提供了丰富候选，如INS与HLA-DQB1的互作，可利用基因敲入小鼠模型在体内模拟并研究其对胸腺T细胞选择的影响。同时，'胰腺富集'亚型的高并发症风险提示非免疫因素在T1D长期管理中的重要性，可能涉及β细胞内在脆弱性，值得深入探究。

为深入解析T1D遗传亚型的病理机制，赛业生物提供全面的表型分析服务，涵盖代谢分析（如GTT、ITT）、免疫细胞流式分析、组织病理学（如胰岛免疫组化）和行为学检测，支持对基因编辑小鼠模型进行系统性表型鉴定，加速从基因发现到功能验证的研究进程。

结语

本研究通过整合大规模遗传数据与机器学习，构建了新型T1D遗传风险评分T1GRS，显著提升了风险预测精度，特别是在传统高危HLA单倍型之外的个体中。T1GRS不仅是一个诊断工具，更是一个揭示T1D遗传架构复杂性的平台，其识别的非线性互作和四个临床相关的遗传亚型，为T1D的精准预防、分型和治疗提供了全新视角。从实验室到临床，T1GRS有望成为T1D照护体系中的基石工具，用于新生儿筛查、高危家庭监测和临床试验入组。未来，将T1GRS与环境、免疫和代谢标志物整合，将推动T1D从单一疾病模型向多维度内表型分类转变，最终实现个体化健康管理。该研究也强调了在遗传研究中纳入多样人群的重要性，为缩小T1D精准医学的全球差距迈出关键一步。

文献来源：

Carolyn McGrail, Timothy J Sears, Emily N Griffin, Hannah Carter, and Kyle Gaulton. Genetic association and machine learning improve the prediction of type 1 diabetes risk. Nature Genetics.

更多热门文章推荐

European Heart Journal
基于人工智能的乳腺动脉钙化定量预测心血管病发病率和死亡率

Cancer discovery
MPN基因组进化轨迹揭示治疗相关突变特征与克隆动态