Nature：微软研究院/华盛顿大学等合作推出基于真实世界数据的数字病理学全切片AI模型

Nature：微软研究院/华盛顿大学等合作推出基于真实世界数据的数字病理学全切片AI模型

数字病理学利用高分辨率图像和自动化分析技术，可显著提升癌症诊断的准确性和效率，并且支持远程会诊和便捷的数据存储检索，对病例回顾和研究具有重要价值。然而，这一领域也面临着处理十亿像素图像的计算挑战，并且传统模型忽略了切片的全局背景信息。

微软研究院、华盛顿大学和Providence Genomics公司合作进行了一项数字病理学研究，以克服在癌症诊断领域全面实施人工智能（AI）的一些障碍。

基于Providence卫生网络的171189张全切片中的13亿张病理图像数据，研究团队构建了一个全切片病理AI基础模型Prov-GigaPath，可以读取整个切片的模式，以提高对患者特定癌症突变及其亚型的预测，以及肿瘤微环境可能对不同疗法的影响。分析显示，Prov-GigaPath可以准确地完成17个典型病理任务和9个亚型任务，包括预测泛癌基因突变，并优于其他数字病理方法。总之，Prov-GigaPath是一种开放权重的基础模型，可在各种数字病理任务中实现最先进的性能，证明了真实世界数据和全切片建模的重要性。近日，该研究成果发表在Nature上，文章题为“A whole-slide foundation model for digital pathology from real-world data”。

Providence Genomics首席分析和研究官Ari Robicsek表示：“这项变革性的工作是专注于克服三大挑战的结果，这三大挑战阻碍了已有的计算病理学模型在临床环境中的广泛应用：缺乏真实世界数据、无法整合全切片建模以及缺乏可访问性。”

为应对上述三大挑战，研究团队开发了Prov-GigaPath模型。

01 Prov-GigaPath概述

首先，Prov-GigaPath在来自Providence卫生网络的大型数字病理学数据集Prov-Path上进行了预训练。该数据集涵盖28个癌症中心的3万多名患者，包括31种主要组织类型的171,189个全切片的13亿个病理图像。就数据量而言，Prov-Path比TCGA大5倍多，就患者数量而言，比TCGA大2倍多。同时，Prov-Path还包含组织病理学发现、癌症分期、基因组突变谱以及相关的病理学报告数据。

其次，为了捕捉整个切片的局部和全局模式，研究团队提出了一种新型视觉转换器架构GigaPath，用于在千兆像素病理切片上预训练大型病理基础模型。其关键思想是嵌入图像块作为视觉标记，从而将切片变成一长串标记。

为了将GigaPath扩展到具有数万个图像块的切片级学习，GigaPath将新开发的LongNet方法应用于数字病理学。通过一个跨越多GB的高分辨率文件，以前的计算机视觉程序很难理解来自标准切片的大量信息，而且它们是将图像分解成数千个单独的图像块进行分析。为了理解这些信息，研究人员改进了微软的LongNet程序，该程序的操作类似于大型语言模型，但能够处理更长的序列数据。例如，给AI聊天机器人的书面提示可能会被计算机读取为由数十个相互关联令牌组成的序列，而LongNet可以同时处理多达10亿个令牌。

最后，为了加快数字病理学的研究进展，研究团队使Prov-GigaPath完全开放权重，包括源代码和预训练模型权重。

图1.Prov-GigaPath概述

02 Prov-GigaPath改进突变预测

从病理图像预测肿瘤突变可能有助于为治疗选择提供信息并提高个性化药物的利用率。研究团队将Prov-GigaPath与其它方法在5基因突变预测基准上进行了比较（图2）。在泛癌症环境中常见突变的18个生物标志物预测，以及肺腺癌突变预测（EGFR、FAT1、KRAS、TP53和LRP1B）分析中，Prov-GigaPath表现出最好的性能：在18种生物标志物上的AUROC下的macro-area为3.3%，在AUPRC下的macro-area为8.9%；肺腺癌突变预测的平均macro-AUROC为0.626。研究人员还验证了Prov-GigaPath的通用性，发现其与其它方法相比具有类似的优势。此外，在肿瘤突变负荷（TMB）预测中，Prov-GigaPath也获得了最佳性能。

总之，与之前最先进的病理基础模型相比，Prov-GigaPath在各种病理任务上表现出明显的性能提升。

图2.基因突变预测。

03 Prov-GigaPath改善癌症亚型

在9种主要癌症类型中，研究团队分析了Prov-GigaPath是否可以从图像中准确预测癌症亚型（图3）。研究显示，与其它方法相比，Prov-GigaPath在6种癌症类型上取得了显著改进，表明使用LongNet在整个切片中高效、有效地整合超大规模图像块集是有前景的。

图3.癌症分型的比较。

04 Prov-GigaPath的病理学视觉语言预训练潜力

Prov-GigaPath在病理图像上的良好结果进一步激励研究团队探索了其在多模态视觉语言处理中的应用。研究团队通过利用每张切片的相关报告来检查病理图像和文本的切片水平对齐（图4a）。这种自然发生的切片报告可以潜在地揭示更丰富的切片信息，但是建模相当具有挑战性，因为没有单个图像块和文本之间的细粒度对齐信息。研究在持续预训练中使用标准的跨模态对比损失作为视觉编码器，最先进的生物医学语言模型PubMedBERT作为文本编码器（图4b）。

与三种最先进的病理学视觉语言模型相比，Prov-GigaPath在两种癌症类型的所有3个指标上都获得了最佳的zero-shot分类结果（图4c，e），表明LongNet支持的切片级对齐确实很有优势。此外，使用视觉语言预训练的Prov-GigaPath还可以预测基因突变，预示着其未来在研究罕见癌症类型和新突变方面的潜在应用。

图4.图像-文本对齐的比较。

该研究展示了Prov-GigaPath在各种病理学和癌症亚分类任务以及视觉语言处理上的一流性能。Prov-GigaPath模型建立在迄今为止真实世界中最大的AI训练工作之一的基础上，即全切片组织分析，同时整个项目还包括放射学扫描结果、基因组学结果和患者健康记录。

Providence Genomics首席医疗官Carlo Bifulco表示：“通过Prov-GigaPath等AI工具，病理切片中的丰富数据可以揭示出人眼所不能识别的新关系和见解。研究团队下一步将是利用AI模型开发新的诊断应用，包括肿瘤微环境的研究和帮助治疗选择。”

Prov-GigaPath的开发和应用不仅展示了AI在处理和分析大规模病理图像数据方面的强大能力，也为未来的临床诊断带来了前所未有的潜力，推动了癌症诊断的智能化和精确化。未来数字病理学的发展将继续依赖于大数据和AI技术的深度融合，持续推动癌症等复杂疾病的早期诊断、精准治疗和个性化医疗的发展。

论文原文：

Xu, H., Usuyama, N., Bagga, J. et al. A whole-slide foundation model for digital pathology from real-world data. Nature (2024). https://doi.org/10.1038/s41586-024-07441-w