首页
模型资源
临床前CRO
赛业动态
客户支持
关于我们
商城
集团站群
CN
想了解更多的最新技术和发现?

Nature Genetics
电子健康记录表型整合提升疾病风险预测

2025-11-13

小赛推荐:

本文提出了一种新的表型整合方法,结合电子健康记录中的表型信息与基因数据,显著提升疾病风险预测与全基因组关联研究效能,适用于多种常见疾病。

 

文献概述
本文《Liability threshold model-based disease risk prediction based on electronic health record phenotypes》发表于《Nature Genetics》杂志,回顾并总结了利用电子健康记录(EHR)数据进行基因组关联研究的新方法——Liability Threshold Phenotypic Integration (LTPI)。该方法通过整合多种表型数据(包括二元和连续性表型)与基因相关性,构建目标疾病的连续性表型评分,从而提升疾病风险预测与GWAS分析的统计效能,尤其在缺失数据情况下仍保持稳定性能。

背景知识
传统EHR数据依赖于ICD代码进行病例对照分类,存在信息不完整、准确性差、非随机缺失等问题,限制了基因组研究的统计效力。本文基于Liability Threshold模型,提出LTPI方法,结合遗传相关性与表型数据,通过自动化特征选择(ATSA)算法筛选与目标疾病相关的非目标表型,从而生成更精确的连续性表型评分。该方法在eMERGE网络与UK Biobank数据中均表现出优于传统PheCode、LTFH(基于家族病史的模型)与SoftImpute(表型插补方法)的预测性能,尤其在疾病风险异质性与GWAS功率方面提升显著。研究还通过模拟实验验证了LTPI在不同缺失率与表型数量下的稳健性,为后续疾病模型构建与药物研发提供更高质量的表型数据基础。

 

提供高纯度、高滴度、多种血清型的AAV现货服务,适用于基因治疗、神经科学研究、眼科疾病治疗等,快速获得病毒载体,支持多种血清型选择。

 

研究方法与实验
LTPI模型基于Liability Threshold模型,通过遗传相关性整合非目标表型数据(包括二元和连续表型),分两步计算目标疾病的遗传易感性:第一步利用二元表型计算后验遗传易感性均值(LTPIb),第二步结合连续表型计算最大似然估计(LTPIc),最终LTPI评分为两者的加权组合。模型通过自动化特征选择(ATSA)算法筛选最具信息量的非目标表型,避免引入无关特征,提高预测准确性。

关键结论与观点

  • LTPI在疾病风险预测中显著优于传统PheCode、LTFH和SoftImpute,尤其在多表型数据下R²提升达42.53%。
  • 在目标表型缺失率30%-50%的模拟中,LTPI仍保持较高统计效能,显著优于其他方法。
  • LTPI在UK Biobank和eMERGE数据中均能识别更多独立风险位点,如在CAD中识别139个风险位点,远超传统GWAS(51个)与LTFH(120个)。
  • 通过PRSpleiotropy评估,LTPI可识别与目标疾病遗传相关的非目标表型,提高GWAS信号特异性与多效性分析能力。
  • 在CKD案例中,LTPI评分与GFR等临床指标高度相关,AUROC达0.798-0.954,显示其在临床风险分层中的应用潜力。

研究意义与展望
LTPI为EHR数据驱动的基因组研究提供了更高效、准确的表型整合方法,尤其适用于表型缺失或非目标表型丰富的场景。未来可进一步扩展至非结构化EHR数据(如临床文本)的整合,提升个体化疾病风险预测与精准医疗能力。

 

构建基因敲除、点突变、转基因等大小鼠模型,支持疾病机制研究、药物靶点验证与基因功能分析,提供从模型构建到表型分析的全流程服务。

 

结语
本文提出LTPI方法,基于Liability Threshold模型,结合EHR数据中的表型与遗传信息,显著提升疾病风险预测与GWAS效能。研究通过模拟与真实数据验证,展示了LTPI在处理缺失表型、整合多源表型数据方面的稳健性与高效性。LTPI不仅优化了目标疾病的风险评分,还揭示了与目标疾病遗传相关联的非目标表型,为复杂疾病研究提供新思路。该方法在UK Biobank与eMERGE数据中均表现出优越的预测性能与统计效能,尤其在慢性肾病(CKD)、冠心病(CAD)等疾病中识别出更多独立风险位点。未来,LTPI可进一步结合非结构化数据(如医生记录、影像报告)进行更全面的表型分析,推动精准医学与个体化疾病管理。

 

文献来源:
Cue Hyunkyu Lee, Atlas Khan, Chen Wang, Krzysztof Kiryluk, and Iuliana Ionita-Laza. Liability threshold model-based disease risk prediction based on electronic health record phenotypes. Nature Genetics.
想了解更多的最新技术和发现?
电子健康记录
表型整合
疾病风险预测
基因组关联研究
LTPI模型
基因数据

上一篇:Nature Genetics 多模态空间分析揭示DLBCL中可靶向的炎症生态位

下一篇:Drugs 神经激肽受体靶向疗法为更年期血管舒缩症状提供新治疗选择