European Heart Journal
基于自监督学习的ECG基础模型实现高精度心电图解读与数字生物标志物预测

2026-05-19

研究领域分类

免疫（443）肿瘤（570）代谢及心血管（445）神经及肌肉（576）眼科（37）其他（571）

加入邮件订阅!

您将获得赛业生物最新资讯

摘要速览

European Heart Journal | 基于自监督学习的ECG基础模型实现高精度心电图解读与数字生物标志物预测

小赛推荐：

该研究为心血管疾病的AI辅助诊断提供了可推广、公平且数据高效的建模范式，尤其在标注数据稀缺的临床场景下具有重要指导意义。

文献概述

本文《Foundation models for electrocardiogram interpretation: clinical implications》，发表于《European Heart Journal》杂志，系统探讨了基于自监督学习（SSL）与监督学习（SL）的两种ECG基础模型DeepECG-SL和DeepECG-SSL在多中心、多语言环境下的泛化能力、公平性及隐私保护特性。研究通过超过100万份心电图训练模型，并在11个独立队列中验证其性能，展示了SSL在数字生物标志物提取任务中的显著优势，特别是在小样本条件下。该工作不仅发布了开源模型权重与预处理工具，还为未来AI驱动的心血管疾病筛查提供了可复现的技术路径。

背景知识

目前，心电图（ECG）仍是心血管疾病诊断的核心工具，每年全球执行超3亿次ECG检查。然而，传统AI模型依赖大量标注数据进行监督训练，这限制了其在资源有限或罕见病场景下的应用。尽管已有如ECGFounder和ECG-FM等基础模型尝试提升泛化能力，但多数仍受限于封闭源代码、标注依赖性强以及跨机构性能下降等问题。此外，心律失常、长QT综合征（LQTS）和左心室功能不全等疾病的早期识别亟需更敏感的数字生物标志物。当前AI模型在真实世界部署中面临三大瓶颈：一是对设备和人群异质性的敏感性导致泛化能力差；二是模型存在性别与年龄偏倚，影响临床公平性；三是训练成本高且难以适应新任务。本研究通过引入自监督学习框架，利用未标注ECG信号进行预训练，从而缓解对标注数据的依赖，提升模型在下游任务中的迁移能力，为解决上述痛点提供了创新路径。

针对心血管疾病研究，赛业生物提供多种基因编辑小鼠模型，包括动脉粥样硬化、肺动脉高压、脑卒中等心脑血管疾病模型，支持体内药效评价与病理机制研究。适用于药物对心血管代谢影响的评估，以及新药的药效学和安全性评价，助力IND申报。

研究方法与核心实验

作者构建了两个ECG基础模型：DeepECG-SL（监督学习）和DeepECG-SSL（自监督学习）。模型训练基于来自蒙特利尔心脏研究所（MHI）、MIMIC-IV和Code-15等多个队列的超过140万份ECG数据。DeepECG-SL使用MHI-ds-train中带有77个诊断标签的数据进行端到端训练，而DeepECG-SSL则首先在包含未标注ECG的MHI-train-extended数据集上进行对比学习与掩码导联建模预训练，随后在相同标签数据上微调。为确保跨设备兼容性，研究团队开发了一套标准化预处理流程，包括高频滤波、工频干扰抑制与幅值归一化，有效提升了跨中心泛化性能。

模型在4个公开数据集（CLSA、UKB、PTB、MIMIC-IV）和7个私人医疗中心（UCSF、UW、NYP、JGH、MGH、CSH、CHUM）共88万余份ECG上进行外部验证。主要任务包括77类ECG报告分类、左心室射血分数（LVEF）预测、五年房颤风险（iAF5）预测以及长QT综合征（LQTS）检测与基因型分类。通过AUROC、AUPRC、NRI等指标评估性能，并采用t-SNE与随机森林攻击测试评估隐私泄露风险。

关键结论与观点

在标准ECG解读任务中，DeepECG-SL与DeepECG-SSL表现相当，AUROC均超过0.98，表明两种范式均具备高诊断准确性。
在数字生物标志物任务中，DeepECG-SSL显著优于DeepECG-SL，尤其在LVEF ≤40%分类（AUROC 0.926 vs 0.917, P < 0.001）和LQTS基因型分类（AUROC 0.931 vs 0.850, P = 0.026），显示出SSL在低数据量任务中的优越迁移能力。
随着训练数据量减少，SSL的优势愈发明显，在仅1%训练数据时性能差距达ΔAUROC=0.09，提示其在罕见病或新发疾病建模中具有巨大潜力。
公平性分析显示，两模型在不同年龄和性别组间真阳性率与假阳性率差异均小于0.1，表明其具备良好的临床公平性，适用于多样化人群。
隐私评估揭示模型对成员推理攻击具有一定脆弱性，尤其是在MIMIC-IV和UKB等分布偏移明显的队列中，强调了未来需加强隐私保护机制设计。
资源消耗方面，DeepECG-SSL参数量达9037万，是DeepECG-SL（151万）的60倍，推理能耗高318%，提示在部署时需权衡性能与效率。

研究意义与展望

该研究推动了AI在心血管疾病诊断中的可及性与公平性，通过开源模型与预处理工具降低了全球研究者构建高性能ECG-AI系统的门槛。尤其对于LQTS、房颤等需长期监测的疾病，SSL框架可从大量未标注动态心电数据中学习稳健表征，助力早期预警系统开发。

在药物开发中，该模型可用于识别药物诱发LQTS风险的ECG特征，辅助安全性药理评价；在临床监测中，集成至可穿戴设备后可实现连续心功能评估（如LVEF趋势），提升慢性病管理效率；在疾病建模方面，其多任务能力支持构建虚拟患者ECG表型，用于模拟遗传性心律失常进展。

为支持心血管疾病机制研究与药物开发，赛业生物提供HUGO-GT®全基因组人源化小鼠模型，涵盖阿尔茨海默病、脊髓性肌萎缩症、雷特综合征等疾病相关基因，支持原位基因替换与突变定制，是精准模拟人类疾病表型的理想工具。

结语

本研究确立了自监督学习作为ECG分析的新范式，尤其适用于标注数据稀缺的临床环境。DeepECG-SSL在数字生物标志物提取任务中展现出卓越性能，显著优于传统监督模型，为心律失常、心功能不全等疾病的早期识别提供了更灵敏的AI工具。其高泛化性、公平性与开源特性，使得该模型可广泛应用于不同医疗体系，支持个性化心血管风险分层。未来结合可穿戴设备与远程监测平台，此类模型有望成为社区筛查与慢病管理的重要组成部分，提升心血管疾病的整体照护水平。同时，其成功也为其他生理信号（如EEG、PPG）的基础模型开发提供了方法学参考，推动数字健康向更智能、更普惠方向发展。

文献来源：

Alexis Nolin-Lapalme, Achille Sowa, Jacques Delfrate, Julie Hussin, and Robert Avram. Foundation models for electrocardiogram interpretation: clinical implications. European Heart Journal.

更多热门文章推荐

Nature Genetics
INSPIRE算法实现多平台空间转录组数据的可解释整合分析

Annual review of biochemistry
婴儿肠道菌群的塑造：母乳寡糖的多维度调控机制