
Nature Cancer
人工智能作为第二读片者在乳腺癌筛查中的应用:一项包含仲裁流程的回顾性研究
小赛推荐:
该研究基于5万名女性的长期随访数据,系统评估了AI作为第二读片者在真实筛查流程中的性能,发现其在保持非劣效性的同时显著降低工作量,为AI在乳腺筛查中的临床部署提供了关键证据。
文献概述
本文《Impact of using artificial intelligence as a second reader in breast screening including arbitration》,发表于《Nature Cancer》杂志,回顾并总结了在英国国家乳腺筛查计划(NHSBSP)中引入人工智能(AI)作为第二读片者并纳入仲裁流程的临床影响。研究基于两个筛查中心共5万名女性的回顾性数据,结合长期随访(39个月),评估了AI辅助流程在敏感性、特异性、召回率和癌症检出率等方面的性能,并重点分析了仲裁环节对最终决策的影响。研究结果显示,在包含仲裁的双读流程中,以AI替代第二位人类读片者在敏感性和特异性上均达到非劣效性标准,同时显著降低读片工作量。该研究为AI在真实世界乳腺筛查中的整合提供了高质量的临床证据,具有重要的转化价值。背景知识
乳腺癌是全球女性最常见的恶性肿瘤之一,早期筛查是提高生存率的关键策略。在英国,NHSBSP采用双读片流程,即每份乳腺X线摄影(mammogram)由两名专业读片者独立评估,若意见不一致或根据中心政策,需通过第三位仲裁者达成最终决定。该流程虽提高了特异性,但加剧了放射科医生人力短缺问题,英国临床放射科医生缺口已达30%,预计2028年将升至40%。人工智能在医学影像分析中展现出巨大潜力,尤其在乳腺癌检测任务中,已有研究表明其独立性能可媲美甚至优于人类读片者。然而,大多数研究未充分模拟真实临床流程,尤其是仲裁环节,导致结果难以直接转化为临床实践。此外,如何在保持高敏感性的同时降低假阳性率、如何处理AI与人类意见冲突、以及AI在不同亚组人群中的表现稳定性,仍是尚未完全解决的问题。本研究的切入点在于构建一个高度贴近真实NHSBSP流程的回顾性读者研究,纳入8,732例需仲裁的病例,由22名读片者在常规工作环境下进行仲裁,从而系统评估AI作为第二读片者的整体效能、工作量影响及潜在优化方向,填补了现有证据的空白。
研究方法与实验
研究采用回顾性队列设计,纳入来自两个NHS乳腺筛查中心的50,000名代表性女性,所有参与者均拥有长期随访数据(至少39个月),以确定筛查结果的最终临床结局。研究设置了两个分析臂:人类臂(标准护理),即基于两位历史读片者的决策;AI臂(AI辅助护理),即基于第一位历史读片者与AI工具的决策。AI系统由Google开发(v1.2版本),用于评估乳腺X线摄影的召回风险。需仲裁的病例(共8,732例)由22名读片者以配对形式进行独立仲裁,模拟真实临床决策流程。主要终点为非劣效性(5%非劣效性界值)的敏感性和特异性,次要终点包括召回率、癌症检出率、工作量指标及癌症定位准确性。研究还进行了广泛的亚组分析,涵盖年龄、种族、乳腺密度、X射线设备制造商、癌症分级等,并对仲裁过程中被错误否决的AI召回案例进行了详细回顾。关键结论与观点
研究意义与展望
本研究是迄今为止规模最大、流程最贴近真实世界的评估AI在乳腺筛查中作为第二读片者的临床研究。其核心意义在于证实了在包含仲裁的复杂临床流程中,AI辅助双读流程在保持非劣效性的同时,能显著降低50%的读片工作量,为缓解放射科医生短缺提供了切实可行的解决方案。研究结果为未来前瞻性临床试验(如EDITH试验)的设计和AI在NHSBSP中的部署提供了关键证据和参数。
然而,研究也揭示了当前AI系统的局限性。尽管AI在识别早期癌症方面显示出潜力,但仲裁过程未能保留这一优势,部分真阳性病例被错误否决。这提示未来的AI开发需更注重可解释性,减少假阳性提示,并整合既往图像信息,以增强读片者的信任度和采纳率。此外,AI在不同设备制造商间的性能差异强调了模型泛化能力和持续监控的重要性。未来的研究应探索更优化的人机协作模式,如自适应筛查、AI信心阈值直接召回等,以进一步提升筛查效率和癌症早期检出率。
结语
本研究系统评估了人工智能作为第二读片者在英国国家乳腺筛查计划中的应用,首次在包含真实仲裁流程的大规模队列中证实了其临床非劣效性。研究基于5万名女性的长期随访数据,发现以AI替代第二位读片者,在保持敏感性和特异性非劣效的同时,可将读片工作量降低近一半,显著提升筛查效率。这一结果为AI在缓解放射科医生短缺危机、实现可持续的乳腺癌筛查提供了强有力的证据。然而,研究同时发现,当前的仲裁流程未能充分利用AI在早期癌症检测上的潜力,部分由AI正确识别的间隔癌被仲裁者否决,这主要归因于AI定位不准确和过多的假阳性提示。因此,未来的发展方向应聚焦于提升AI模型的可解释性、定位精度以及与既往影像的整合能力,以增强读片者的信任和采纳。此外,AI在不同成像设备上的性能差异提示需关注模型的泛化和持续监控。总体而言,该研究为AI在乳腺筛查中的临床转化奠定了坚实基础,标志着从技术验证迈向真实世界应用的关键一步,未来需通过前瞻性试验进一步验证其长期效益。






