首页
模型资源
临床前CRO
资源中心
科研工具
关于我们
商城
集团站群
CN
European Heart Journal
基于自监督学习的ECG基础模型实现高精度心电图解读与数字生物标志物预测
2026-05-19
加入邮件订阅!
您将获得赛业生物最新资讯
摘要速览
European Heart Journal | 基于自监督学习的ECG基础模型实现高精度心电图解读与数字生物标志物预测

小赛推荐:

该研究为 心血管疾病 的AI辅助诊断提供了可推广、公平且数据高效的建模范式,尤其在标注数据稀缺的临床场景下具有重要指导意义。

 

文献概述

本文《Foundation models for electrocardiogram interpretation: clinical implications》,发表于《European Heart Journal》杂志,系统探讨了基于自监督学习(SSL)与监督学习(SL)的两种ECG基础模型DeepECG-SL和DeepECG-SSL在多中心、多语言环境下的泛化能力、公平性及隐私保护特性。研究通过超过100万份心电图训练模型,并在11个独立队列中验证其性能,展示了SSL在数字生物标志物提取任务中的显著优势,特别是在小样本条件下。该工作不仅发布了开源模型权重与预处理工具,还为未来AI驱动的心血管疾病筛查提供了可复现的技术路径。

背景知识

目前,心电图(ECG)仍是心血管疾病诊断的核心工具,每年全球执行超3亿次ECG检查。然而,传统AI模型依赖大量标注数据进行监督训练,这限制了其在资源有限或罕见病场景下的应用。尽管已有如ECGFounder和ECG-FM等基础模型尝试提升泛化能力,但多数仍受限于封闭源代码、标注依赖性强以及跨机构性能下降等问题。此外,心律失常、长QT综合征(LQTS)和左心室功能不全等疾病的早期识别亟需更敏感的数字生物标志物。当前AI模型在真实世界部署中面临三大瓶颈:一是对设备和人群异质性的敏感性导致泛化能力差;二是模型存在性别与年龄偏倚,影响临床公平性;三是训练成本高且难以适应新任务。本研究通过引入自监督学习框架,利用未标注ECG信号进行预训练,从而缓解对标注数据的依赖,提升模型在下游任务中的迁移能力,为解决上述痛点提供了创新路径。

 

针对心血管疾病研究,赛业生物提供多种基因编辑小鼠模型,包括动脉粥样硬化、肺动脉高压、脑卒中等心脑血管疾病模型,支持体内药效评价与病理机制研究。适用于药物对心血管代谢影响的评估,以及新药的药效学和安全性评价,助力IND申报。

 

研究方法与核心实验

作者构建了两个ECG基础模型:DeepECG-SL(监督学习)和DeepECG-SSL(自监督学习)。模型训练基于来自蒙特利尔心脏研究所(MHI)、MIMIC-IV和Code-15等多个队列的超过140万份ECG数据。DeepECG-SL使用MHI-ds-train中带有77个诊断标签的数据进行端到端训练,而DeepECG-SSL则首先在包含未标注ECG的MHI-train-extended数据集上进行对比学习与掩码导联建模预训练,随后在相同标签数据上微调。为确保跨设备兼容性,研究团队开发了一套标准化预处理流程,包括高频滤波、工频干扰抑制与幅值归一化,有效提升了跨中心泛化性能。

模型在4个公开数据集(CLSA、UKB、PTB、MIMIC-IV)和7个私人医疗中心(UCSF、UW、NYP、JGH、MGH、CSH、CHUM)共88万余份ECG上进行外部验证。主要任务包括77类ECG报告分类、左心室射血分数(LVEF)预测、五年房颤风险(iAF5)预测以及长QT综合征(LQTS)检测与基因型分类。通过AUROC、AUPRC、NRI等指标评估性能,并采用t-SNE与随机森林攻击测试评估隐私泄露风险。

关键结论与观点

  • 在标准ECG解读任务中,DeepECG-SL与DeepECG-SSL表现相当,AUROC均超过0.98,表明两种范式均具备高诊断准确性。
  • 在数字生物标志物任务中,DeepECG-SSL显著优于DeepECG-SL,尤其在LVEF ≤40%分类(AUROC 0.926 vs 0.917, P < 0.001)和LQTS基因型分类(AUROC 0.931 vs 0.850, P = 0.026),显示出SSL在低数据量任务中的优越迁移能力。
  • 随着训练数据量减少,SSL的优势愈发明显,在仅1%训练数据时性能差距达ΔAUROC=0.09,提示其在罕见病或新发疾病建模中具有巨大潜力。
  • 公平性分析显示,两模型在不同年龄和性别组间真阳性率与假阳性率差异均小于0.1,表明其具备良好的临床公平性,适用于多样化人群。
  • 隐私评估揭示模型对成员推理攻击具有一定脆弱性,尤其是在MIMIC-IV和UKB等分布偏移明显的队列中,强调了未来需加强隐私保护机制设计。
  • 资源消耗方面,DeepECG-SSL参数量达9037万,是DeepECG-SL(151万)的60倍,推理能耗高318%,提示在部署时需权衡性能与效率。

研究意义与展望

该研究推动了AI在心血管疾病诊断中的可及性与公平性,通过开源模型与预处理工具降低了全球研究者构建高性能ECG-AI系统的门槛。尤其对于LQTS、房颤等需长期监测的疾病,SSL框架可从大量未标注动态心电数据中学习稳健表征,助力早期预警系统开发。

在药物开发中,该模型可用于识别药物诱发LQTS风险的ECG特征,辅助安全性药理评价;在临床监测中,集成至可穿戴设备后可实现连续心功能评估(如LVEF趋势),提升慢性病管理效率;在疾病建模方面,其多任务能力支持构建虚拟患者ECG表型,用于模拟遗传性心律失常进展。

 

为支持心血管疾病机制研究与药物开发,赛业生物提供HUGO-GT®全基因组人源化小鼠模型,涵盖阿尔茨海默病、脊髓性肌萎缩症、雷特综合征等疾病相关基因,支持原位基因替换与突变定制,是精准模拟人类疾病表型的理想工具。

 

结语

本研究确立了自监督学习作为ECG分析的新范式,尤其适用于标注数据稀缺的临床环境。DeepECG-SSL在数字生物标志物提取任务中展现出卓越性能,显著优于传统监督模型,为心律失常、心功能不全等疾病的早期识别提供了更灵敏的AI工具。其高泛化性、公平性与开源特性,使得该模型可广泛应用于不同医疗体系,支持个性化心血管风险分层。未来结合可穿戴设备与远程监测平台,此类模型有望成为社区筛查与慢病管理的重要组成部分,提升心血管疾病的整体照护水平。同时,其成功也为其他生理信号(如EEG、PPG)的基础模型开发提供了方法学参考,推动数字健康向更智能、更普惠方向发展。

 

文献来源:
Alexis Nolin-Lapalme, Achille Sowa, Jacques Delfrate, Julie Hussin, and Robert Avram. Foundation models for electrocardiogram interpretation: clinical implications. European Heart Journal.