Nature Cancer
谷歌AI mammography系统在乳腺癌筛查中的诊断准确性与临床可行性研究

2026-04-02

研究领域分类

免疫（414）肿瘤（531）代谢及心血管（403）神经及肌肉（534）眼科（36）其他（530）

加入邮件订阅!

您将获得赛业生物最新资讯

摘要速览

Nature Cancer | 谷歌AI mammography系统在乳腺癌筛查中的诊断准确性与临床可行性研究

小赛推荐：

该研究通过多中心回顾性与前瞻性研究，验证了谷歌AI mammography系统在乳腺癌筛查中优于首读医生的敏感性，并展示了其在真实世界部署中的技术可行性，同时强调了自适应校准的重要性。

文献概述

本文《Diagnostic accuracy, fairness and clinical implementation of AI for breast cancer screening: results of multicenter retrospective and prospective technical feasibility studies》，发表于《Nature Cancer》杂志，回顾并总结了谷歌开发的乳腺X线摄影AI系统（版本1.2）在英国国家卫生服务体系（NHS）五个乳腺癌筛查中心的多中心回顾性与前瞻性技术可行性研究结果。研究评估了该AI系统在独立读片模式下对乳腺癌的检测性能，重点分析其敏感性、特异性、癌症检出率及与人类读片医生的对比，同时探讨了其在真实世界部署中的公平性、操作适应性与系统集成挑战。研究发现AI系统在敏感性上显著优于首读医生，特异性非劣效，且能检测25%的隐匿性癌症。前瞻性研究揭示了数据分布偏移问题，需通过动态阈值校准加以调整。研究强调，为确保安全性与公平性，AI系统在临床部署中需持续监控与自适应校准。该工作为AI在大规模癌症筛查项目中的实施提供了关键证据和实践框架。

背景知识

乳腺癌是全球女性最常见的恶性肿瘤之一，早期筛查可显著降低死亡率。目前，许多国家采用双读流程，即两名放射科医生独立审阅乳腺X线片，以提高癌症检出率。然而，这一流程成本高昂且依赖大量专业人力，全球范围内放射科医生短缺问题日益严重。人工智能（AI）在医学影像分析中展现出巨大潜力，尤其在乳腺癌筛查领域，已有多个回顾性研究表明AI模型可达到与专业放射科医生相当甚至更优的性能。然而，这些研究多为单中心或回顾性设计，缺乏在真实世界、多中心、前瞻性环境下的验证。此外，AI系统在实际部署中可能面临数据分布偏移（如设备更新、人群变化）、公平性偏差（如不同种族、社会经济地位人群中的性能差异）和工作流集成难题。因此，一项全面评估AI系统在多中心、真实世界环境下的诊断准确性、公平性及临床实施可行性的研究至关重要。本研究正是填补了这一关键空白，其选题意义在于为AI从实验室走向临床实践提供了坚实的循证基础，推动了AI辅助乳腺癌筛查的标准化与规范化进程。

针对阿尔茨海默病、脊髓性肌萎缩、视网膜色素变性等罕见病，可提供HUGO-GT®全基因组人源化模型，搭载了更高效的大片段载体融合技术，可以作为万能模板进行针对性的突变定制服务，是更贴近真实世界生物机制的药物临床前研究模型，我们期待与你共同开发新型全基因组人源化小鼠，加速基因治疗研究

研究方法与实验

本研究采用多阶段设计，包括一个大型多中心回顾性评估和一个前瞻性观察性可行性研究。回顾性研究纳入了来自英国五个NHS乳腺筛查中心的115,973名女性（50–70岁）的乳腺X线影像，这些影像均经过39个月的随访以确认癌症结局，包括筛查检出癌、隐匿性癌症和下一轮筛查检出癌。主要终点是AI系统与首读医生相比的敏感性和特异性，非劣效性界值设定为5%。研究在病例、乳腺和病灶水平上对AI系统进行了全面评估，并进行了亚组分析以评估公平性。此外，研究模拟了AI作为第二读片者替代人类读片者的工作流，评估其对读片时间和癌症检出率的影响。

关键结论与观点

在回顾性分析中，AI系统在癌症检测的敏感性上显著优于首读医生（0.541 vs 0.437, P < 0.001），且特异性非劣效（0.943 vs 0.952, P < 0.001）
AI系统的癌症检出率从每千名女性7.54例提高到9.33例，同时检测到了25.0%的隐匿性癌症，显示出其在早期诊断方面的巨大潜力
AI系统在女性首次筛查（初筛）和浸润性癌症的检测上表现尤为出色，与首次筛查相比，减少了39.3%的假阳性召回率，同时提高了8.8%的检出率
在所有测试的临床和社会人口学亚组中（包括年龄、多重剥夺指数、种族和乳腺密度），未观察到系统性的表现差异，表明该AI系统具有良好的公平性
模拟AI作为第二读片者的工作流，可将读片时间减少32%，同时使癌症检出率提高17.7%，显示出显著的临床效率提升
前瞻性可行性研究在12个筛查点进行，证实了技术上的可行性，但揭示了数据分布偏移问题，导致初始召回率过高，这需要通过自适应阈值校准来解决
研究强调，成功的AI临床实施需要自适应校准和持续监控，以确保其安全性和公平性，尤其是在设备或人群发生变化时

研究意义与展望

该研究为AI在乳腺癌筛查中的临床应用提供了迄今为止最全面和严谨的证据之一。其多中心、多队列的设计增强了结果的外部有效性。研究不仅证明了AI系统的高诊断性能，更重要的是，它通过前瞻性部署揭示了真实世界中的关键挑战——数据分布偏移。这一发现强调了静态模型部署的局限性，未来AI系统必须具备动态调整能力，才能适应不断变化的临床环境。研究提出的自适应校准框架为解决此问题提供了可行方案。

此外，研究对公平性的深入分析为确保AI工具不会加剧现有健康不平等提供了重要保障。然而，研究也指出，持续的公平性监控在统计上具有挑战性，需要更大规模和更长周期的数据。未来的研究应进一步探索AI与放射科医生的协同作用，例如AI作为第一读片者或实时辅助工具，以及其对下游医疗成本的影响。本研究的成功实施还突显了工作流数字化和数据标准化的重要性，这是未来AI无缝集成的先决条件。总体而言，这项研究为全球范围内安全、公平、高效地部署AI辅助乳腺癌筛查铺平了道路。

专业的眼科药效学分析平台可提供从眼部注射给药、眼部活体检测、眼部组织取材、病理学分析和基因与蛋白表达分子检测等全流程的眼科药效学分析服务

结语

本研究系统性地评估了谷歌乳腺X线摄影AI系统在英国多中心环境下的诊断准确性、公平性和临床实施可行性。通过大规模回顾性分析，研究证实该AI系统在敏感性上显著优于首读医生，同时保持非劣效的特异性，能有效提高癌症检出率并减少首次筛查的假阳性召回。AI系统在检测隐匿性癌症和浸润性癌症方面表现突出，且在不同人口亚组中未发现系统性偏差，展现了良好的泛化能力和公平性。模拟工作流分析表明，AI可显著提升筛查效率。然而，前瞻性部署研究揭示了关键挑战：数据分布偏移导致初始性能不佳，必须通过自适应阈值校准来纠正。这表明，AI模型的静态部署是不够的，需要建立持续监控和动态调整机制。研究最终强调，成功的AI临床转化不仅依赖于高精度的算法，更需要一个包含自适应校准、持续监控、工作流数字化和跨机构协作的综合性实施框架。该研究为AI从实验研究走向真实世界临床实践提供了宝贵的范例和关键指导，标志着AI辅助乳腺癌筛查迈向成熟应用的重要一步。

文献来源：

Christopher J Kelly, Marc Wilson, Lucy M Warren, Hutan Ashrafian, and Deborah Cunningham. Diagnostic accuracy, fairness and clinical implementation of AI for breast cancer screening: results of multicenter retrospective and prospective technical feasibility studies. Nature Cancer.

更多热门文章推荐

Diabetes Care
香港糖尿病登记系统：重新定义糖尿病表型与推动精准防治

Brain
空间转录组技术在人脑研究中的应用与挑战