Nature Cancer
人工智能作为第二读片者在乳腺癌筛查中的应用：一项包含仲裁流程的回顾性研究

2026-04-03

研究领域分类

免疫（414）肿瘤（531）代谢及心血管（403）神经及肌肉（534）眼科（36）其他（530）

加入邮件订阅!

您将获得赛业生物最新资讯

摘要速览

Nature Cancer | 人工智能作为第二读片者在乳腺癌筛查中的应用：一项包含仲裁流程的回顾性研究

小赛推荐：

该研究基于5万名女性的长期随访数据，系统评估了AI作为第二读片者在真实筛查流程中的性能，发现其在保持非劣效性的同时显著降低工作量，为AI在乳腺筛查中的临床部署提供了关键证据。

文献概述

本文《Impact of using artificial intelligence as a second reader in breast screening including arbitration》，发表于《Nature Cancer》杂志，回顾并总结了在英国国家乳腺筛查计划（NHSBSP）中引入人工智能（AI）作为第二读片者并纳入仲裁流程的临床影响。研究基于两个筛查中心共5万名女性的回顾性数据，结合长期随访（39个月），评估了AI辅助流程在敏感性、特异性、召回率和癌症检出率等方面的性能，并重点分析了仲裁环节对最终决策的影响。研究结果显示，在包含仲裁的双读流程中，以AI替代第二位人类读片者在敏感性和特异性上均达到非劣效性标准，同时显著降低读片工作量。该研究为AI在真实世界乳腺筛查中的整合提供了高质量的临床证据，具有重要的转化价值。

背景知识

乳腺癌是全球女性最常见的恶性肿瘤之一，早期筛查是提高生存率的关键策略。在英国，NHSBSP采用双读片流程，即每份乳腺X线摄影（mammogram）由两名专业读片者独立评估，若意见不一致或根据中心政策，需通过第三位仲裁者达成最终决定。该流程虽提高了特异性，但加剧了放射科医生人力短缺问题，英国临床放射科医生缺口已达30%，预计2028年将升至40%。人工智能在医学影像分析中展现出巨大潜力，尤其在乳腺癌检测任务中，已有研究表明其独立性能可媲美甚至优于人类读片者。然而，大多数研究未充分模拟真实临床流程，尤其是仲裁环节，导致结果难以直接转化为临床实践。此外，如何在保持高敏感性的同时降低假阳性率、如何处理AI与人类意见冲突、以及AI在不同亚组人群中的表现稳定性，仍是尚未完全解决的问题。本研究的切入点在于构建一个高度贴近真实NHSBSP流程的回顾性读者研究，纳入8,732例需仲裁的病例，由22名读片者在常规工作环境下进行仲裁，从而系统评估AI作为第二读片者的整体效能、工作量影响及潜在优化方向，填补了现有证据的空白。

针对阿尔茨海默病、脊髓性肌萎缩、视网膜色素变性等罕见病，可提供HUGO-GT®全基因组人源化模型，搭载了更高效的大片段载体融合技术，可以作为万能模板进行针对性的突变定制服务，是更贴近真实世界生物机制的药物临床前研究模型，我们期待与你共同开发新型全基因组人源化小鼠，加速基因治疗研究

研究方法与实验

研究采用回顾性队列设计，纳入来自两个NHS乳腺筛查中心的50,000名代表性女性，所有参与者均拥有长期随访数据（至少39个月），以确定筛查结果的最终临床结局。研究设置了两个分析臂：人类臂（标准护理），即基于两位历史读片者的决策；AI臂（AI辅助护理），即基于第一位历史读片者与AI工具的决策。AI系统由Google开发（v1.2版本），用于评估乳腺X线摄影的召回风险。需仲裁的病例（共8,732例）由22名读片者以配对形式进行独立仲裁，模拟真实临床决策流程。主要终点为非劣效性（5%非劣效性界值）的敏感性和特异性，次要终点包括召回率、癌症检出率、工作量指标及癌症定位准确性。研究还进行了广泛的亚组分析，涵盖年龄、种族、乳腺密度、X射线设备制造商、癌症分级等，并对仲裁过程中被错误否决的AI召回案例进行了详细回顾。

关键结论与观点

在包含仲裁的完整筛查流程中，以AI替代第二位读片者在敏感性和特异性上均达到非劣效性标准（P < 0.001），AI臂的敏感性为49.2%，人类臂为48.0%；特异性分别为96.8%和96.5%。
AI辅助流程显著降低了读片工作量，AI臂的读片次数较人类臂减少50%，整体屏幕读取量减少46%，预计阅读时间减少约40%。
仲裁过程显著提高了AI臂的特异性，通过否决AI错误召回的病例实现；但同时也否决了部分由AI正确识别的间隔癌和下一轮癌症，导致AI在早期癌症检测方面的潜在优势在仲裁后消失。
在需仲裁的病例中，AI工具的假阳性定位率较低（0.12/例），远优于传统计算机辅助诊断系统；但在被仲裁者错误否决的真阳性病例中，假阳性定位率显著升高（1.27/例），提示过多的可疑区域可能是导致AI建议被忽略的原因之一。
亚组分析显示，AI性能在不同亚组中总体稳定，但在西门子设备和“未指定”种族亚组中敏感性略低，可能与训练数据中西门子图像比例过低（0.9%）有关。
读者调查显示，多数读片者对AI工具“ somewhat trusted”（部分信任），认为其在钙化过度召回和处理既往图像方面不可靠，凸显了模型可解释性和与既往图像整合的重要性。

研究意义与展望

本研究是迄今为止规模最大、流程最贴近真实世界的评估AI在乳腺筛查中作为第二读片者的临床研究。其核心意义在于证实了在包含仲裁的复杂临床流程中，AI辅助双读流程在保持非劣效性的同时，能显著降低50%的读片工作量，为缓解放射科医生短缺提供了切实可行的解决方案。研究结果为未来前瞻性临床试验（如EDITH试验）的设计和AI在NHSBSP中的部署提供了关键证据和参数。

然而，研究也揭示了当前AI系统的局限性。尽管AI在识别早期癌症方面显示出潜力，但仲裁过程未能保留这一优势，部分真阳性病例被错误否决。这提示未来的AI开发需更注重可解释性，减少假阳性提示，并整合既往图像信息，以增强读片者的信任度和采纳率。此外，AI在不同设备制造商间的性能差异强调了模型泛化能力和持续监控的重要性。未来的研究应探索更优化的人机协作模式，如自适应筛查、AI信心阈值直接召回等，以进一步提升筛查效率和癌症早期检出率。

专业的眼科药效学分析平台可提供从眼部注射给药、眼部活体检测、眼部组织取材、病理学分析和基因与蛋白表达分子检测等全流程的眼科药效学分析服务

结语

本研究系统评估了人工智能作为第二读片者在英国国家乳腺筛查计划中的应用，首次在包含真实仲裁流程的大规模队列中证实了其临床非劣效性。研究基于5万名女性的长期随访数据，发现以AI替代第二位读片者，在保持敏感性和特异性非劣效的同时，可将读片工作量降低近一半，显著提升筛查效率。这一结果为AI在缓解放射科医生短缺危机、实现可持续的乳腺癌筛查提供了强有力的证据。然而，研究同时发现，当前的仲裁流程未能充分利用AI在早期癌症检测上的潜力，部分由AI正确识别的间隔癌被仲裁者否决，这主要归因于AI定位不准确和过多的假阳性提示。因此，未来的发展方向应聚焦于提升AI模型的可解释性、定位精度以及与既往影像的整合能力，以增强读片者的信任和采纳。此外，AI在不同成像设备上的性能差异提示需关注模型的泛化和持续监控。总体而言，该研究为AI在乳腺筛查中的临床转化奠定了坚实基础，标志着从技术验证迈向真实世界应用的关键一步，未来需通过前瞻性试验进一步验证其长期效益。

文献来源：

Lucy M Warren, Jenny Venton, Kenneth C Young, Ara Darzi, and Hutan Ashrafian. Impact of using artificial intelligence as a second reader in breast screening including arbitration. Nature Cancer.

更多热门文章推荐

European Heart Journal
左束支起搏与双心室起搏在失同步性心力衰竭犬模型中的机制对比

Journal for ImmunoTherapy of Cancer
循环耗竭CD8+效应记忆T细胞可区分免疫检查点抑制剂诱导肝损伤与其他免疫介导性肝损伤