Nat Commun：香港科技大学陈浩/中山大学林僖开发多模态卵巢癌诊断分析模型OvcaFinder

Nat Commun：香港科技大学陈浩/中山大学林僖开发多模态卵巢癌诊断分析模型OvcaFinder

卵巢癌是目前死亡率最高的妇科癌症，早期诊断和干预可显著提高患者生存率。与计算机断层扫描（CT）和磁共振成像（MRI）相比，经阴道超声（TVUS）是临床诊断卵巢癌最常用的工具，但受限于缺乏标准化术语或客观标准，其接受度有限。近期，深度学习（DL）在诊断卵巢癌方面已取得了显著进步，但仍缺乏透明度和对相关决策的解释。此外，常用于卵巢癌筛查诊断的临床变量，如血清生物标志物癌症抗原125（CA125），尚未包含在已提出的深度学习模型中。总而言之，现在仍缺乏将多模态信息整合到卵巢癌风险分层方法中的研究。

香港科技大学陈浩团队联合中山大学林僖团队在Nature Communications发表了题为“Development and validation of an interpretable model integrating multimodal information for improving ovarian cancer diagnosis”的研究文章，介绍了多模态卵巢癌诊断分析模型OvcaFinder。

OvcaFinder是通过整合基于超声图像的深度学习预测、放射科医生评估和常规临床参数构建，可用于识别良性和卵巢肿瘤。研究显示，与任何单一模型或放射科医生相比，OvcaFinder的性能最高，在内部测试数据集和外部测试数据集中的AUC分别为0.978和0.947。OvcaFinder提高了放射科医生的诊断水平，假阳性率在内部和外部测试数据集中分别降低了13.4%和8.3%，为OvcaFinder在卵巢癌诊断中的效用提供了明确证据。

文章发表在Nature Communications

主要研究内容

研究纳入1011名卵巢病变患者，这些患者被随机分为训练（532个病灶的2941张超声图像）、验证（63个病灶的334张图像）和内部测试数据集（129个病灶的697张图像）。在外部数据集中，有来自387名患者的2200张图像。以35U/mL为阈值，近88.2%（449/509）的患者评估了CA125水平。

开发OvcaFinder模型

研究团队首先在放射科医生评估中使用了卵巢附件报告和数据系统（O-RADS）系统，以确保准确和可重复的评估，O-RADS评分内部测试数据集和外部数据集的平均AUC分别为0.927和0.904。在内部数据集中，平均敏感性为96.2%，特异性为73.3%，在外部数据集中，平均敏感性和特异性分别为85.7%和81.8%。

随后，研究人员分析了基于图像的机器学习预测性能，评估了DenseNet121、DenseNet169、DenseNet201、ResNet34、EfficientNet-b5和EfficientNet-b6等深度学习模型在卵巢癌诊断中的表现。以上模型的表现均低于最终的集成深度学习模型，集成模型在内部数据集中AUC值为0.970，敏感性为97.3%，特异性为74.1%；在外部数据集中，AUC值为0.893，敏感性为88.9%，特异性为68.6%。热点图显示，红色区域对分类贡献最大，蓝色区域贡献较小（图1）。

同时，研究团队分析了临床模型。在内部测试数据集中，临床模型的AUC为0.936，灵敏度为97.3%，特异性为40.7%；在外部测试数据集中，临床模型的AUC为0.842，敏感性为85.2%，特异性为53.3%。

通过整合O-RADS评分、基于图像的深度学习预测和临床模型，研究团队开发了多模态卵巢癌诊断分析模型OvcaFinder。

图1.基于图像的深度学习预测恶性肿瘤的热图可视化。

OvcaFinder的性能分析

OvcaFinder在内部测试数据集中表现出最高性能（AUC：0.978），优于仅基于临床模型（AUC：0.936）和基于图像的深度学习预测（AUC：0.970）。在外部测试数据集肿中，OvcaFinder（AUC：0.947）也优于临床模型（AUC：0.842）和基于图像的深度学习预测（AUC：0.893）（图2）。

为了公平比较，研究团队通过保持相似的敏感性来比较三种模型的特异性。在内部测试数据集上，当敏感性保持在97.3%时，OvcaFinder的特异性（83.3%）高于临床模型（40.7%）和基于图像的深度学习预测（74.1%）；在外部测试数据集上，在相似敏感性的条件下，OvcaFinder的特异性为90.5%，优于临床模型（53.3%）和基于图像的深度学习预测（68.6%）。此外，基于图像的深度学习预测在OvcaFinder决策预测中权重最大，其次是O-RADS评分、CA125浓度、患者年龄和病灶直径（图3）。

图2. OvcaFinder、临床模型与深度学习预测模型的性能比较

图3. 用于解释OvcaFinder的Shapley值

经验证，OvcaFinder在提高卵巢癌诊断准确性方面表现出色，在内部测试数据集上AUC值范围为0.971至0.981，敏感性没有下降，外部测试数据集上的表现也有类似改进。同时，OvcaFinder提高了放射科医生的诊断准确性，减少了假阳性（图4），在内部和外部测试数据集的平均假阳性率分别从26.7%和18.2%降至13.3%和9.9%，有助于避免不必要的活检或手术。在内部和外部测试数据集中，放射科医生间的Kappa值分别为0.711-0.924和0.588-0.796，使用OvcaFinder后，放射科医生间Kappa值分别提高到0.886-0.983和0.863-0.933，表明一致性极佳。

图4.基于图像的深度学习模型、临床模型、放射科医生和OvcaFinder的性能

结语

综上所述，OvcaFinder模型集成了超声图像、临床信息和放射科医生评估，并在内部和外部数据集中呈现了最高性能，凸显了多模态信息集成在卵巢癌诊断中的重要性。在不降低灵敏性的情况下，OvcaFinder显著提高了放射科医生评估的准确性，平均AUC分别提高了5%和3.8%，内部和外部测试数据集中的假阳性率分别降低了13.4%和8.3%，放射科医生评估之间的一致性也有所改善。以上结果突出了OvcaFinder作为一种非侵入性工具，可以提高放射科医生在区分卵巢良恶性病变和降低假阳性率方面的准确性和一致性。

论文原文：

Xiang H, Xiao Y, Li F, Li C, Liu L, Deng T, Yan C, Zhou F, Wang X, Ou J, Lin Q, Hong R, Huang L, Luo L, Lin H, Lin X, Chen H. Development and validation of an interpretable model integrating multimodal information for improving ovarian cancer diagnosis. Nat Commun. 2024.15(1):2681.

https://www.nature.com/articles/s41467-024-46700-2