Nat Commun：灵敏度94%、特异性87%，基于游离RNA的深度生成式AI模型可检测早期肺癌及不同亚型

Nat Commun：灵敏度94%、特异性87%，基于游离RNA的深度生成式AI模型可检测早期肺癌及不同亚型

肺癌的早期发现可以提高治疗的有效性和患者的存活率，但相关筛查依从性往往很低。以循环肿瘤DNA（ctDNA）为基础的液体活检对早期肺癌的敏感性较低（55%-57%）。虽然表观基因组分析利用DNA甲基化的细胞类型特异性或DNA片段化模式，提高了基于突变模式的总体敏感性，但由于DNA脱落有限，对早期和较小肿瘤的敏感性仍然很低。近期的表观基因组学研究报告了更高灵敏度的肺癌检测，但这种增益通常是以较低的特异性为代价。

癌症中RNA调控机制的整体破坏也可能导致正常组织中出现不常见RNA片段及其稳定性。2018年，美国加州大学旧金山分校的Hani Goodarzi团队发现了一种新的癌症小RNA，称为孤儿非编码RNA（oncRNA），它们是癌症特异性基因组重编程的结果。研究显示，oncRNA含量丰富、稳定，并由活的癌细胞主动分泌到血液中，这与ctDNA相反。oncRNA的活跃表达和分泌可以在液体活检中发现早期癌症和亚型分层。此外，研究团队认为，变分自编码器的生成能力能够学习基于血液的生物标志物的稳健和可泛化的特征，因此开发了双臂半监督多输入变分自动编码器Orion，用于oncRNA的液体活检应用。

近日，Goodarzi团队在最新研究“Deep generative AI models analyzing circulating orphan non-coding RNAs enable detection of early-stage lung cancer”中，展示了Orion在各种应用中学习循环oncRNA一般模式的能力，包括肺癌早期检测，肿瘤亚型分型等。研究团队分析了1050名不同分期非小细胞肺癌（NSCLC）患者血清样本中的oncRNA，证明了该多任务生成AI模型Orion在整体性能和对保留数据集的泛化能力方面都超过了常用的方法。Orion在不同分期的癌症检测中达到了94%的整体灵敏度和87%的特异性，在保留的验证数据集中的敏感性超过其他方法约30%。

文章发表在Nature Communications

主要研究内容及结果

研究使用的液体活检和癌症检测方法使用新注释的肺癌新发和肿瘤释放的oncRNA作为血液中癌症检测的标志物。研究人员利用来自TCGA公开可用的smRNA-seq数据发现了一组oncRNA，同时利用1050名未接受治疗个体（419名患有非小细胞肺癌，631名没有癌症史）的血清样本生成了一个内部数据集，使用选定的oncRNA特征的表达进行癌症检测（图1a）。然后，利用深度生成AI模型Orion对血清样本中的oncRNA丰度进行癌症检测（图1b）。

研究团队使用80%的样本进行模型训练，并通过10倍交叉验证（训练数据集）进行评估，随后计算了50个模型在20%数据（验证数据集）上的平均得分。研究人员对从0.5mL血清中分离的游离smRNA进行测序，以量化TCGA数据中鉴定的NSCLC特异性oncRNA的表达（图1a），在至少一个样本中检测到来自组织样本的237,928个（93.15%）选定的oncRNA。

图1.基于oncRNA的液体活检平台和Orion架构

Orion架构

研究团队开发的Orion是一种定制的、正则化的、多输入的、半监督的变分自编码器（VAE），可以根据游离oncRNA含量将患者与对照区分开来（图1b）。该模型具有双臂结构，在一只手臂中模拟oncRNA的表达，在另一只手臂中模拟带注释的smRNA的表达。后者用于解释样本间测序文库大小的差异。Orion还包括额外的分类和对比学习目标，以适应标签预测并消除学习表征中不需要的混杂因素（图1b）。

基于训练数据集的交叉验证得分，Orion模型的AUC为0.97，总灵敏度为94% ，特异性为90%（图2a），优于其他方法，如常用的ElasticNet26模型、XGBoost27和k-近邻（k-NN）分类器的表现。更重要的是，Orion的I期灵敏度为90%。Orion对晚期（II、III和IV）的敏感性分别为97%（图2b）。对于检测小于2cm的肿瘤，Orion的灵敏度为87%，特异性为90%。

在bootstrap分析中，Orion的AUC显著高于SVM分类器和XGBoost。虽然Orion和XGBoost的AUC相对相似，但Orion的F1评分和90%特异性下的灵敏度也优于XGBoost。该模型检测发现oncRNA与一些对肺癌病因和预后有重要意义的基因重叠或邻近，包括SOX2-OT30、HSP90AA1、31、32和FZD233（图2e）。

图2.训练和验证集上的Orion模型性能

为了评估Orion的普遍性，研究人员在10倍交叉验证的预测中选择了对应于90%特异性的截止点，并在验证数据集上检测了各种分类指标。Orion的性能表现出了很强的一致性，优于XGBoost、ElasticNet和其他模型的性能。

为更好地了解Orion检测癌症样本的敏感性，研究团队将来自癌症样本和对照样本的测序读数以不同的比例结合起来。来自验证集的Orion癌症检测可以耐受高达40%的稀释度，而不影响灵敏度，这是在其他方法中没有观察到的特性。同时，即使有计算机扰动，Orion预测也表现出鲁棒性和高灵敏度。此外，对于有或没有吸烟史的个体，该模型性能几乎没有变化。

Orion可以从游离oncRNA中识别肿瘤亚型

由于不同癌症中染色质可及性的组织特异性景观，oncRNA表达模式对癌症类型和亚型是独特的。研究团队假设肺腺癌和鳞状细胞癌的生物学差异也会反映在游离oncRNA含量上，从而能够区分这些主要的NSCLC亚型。虽然肿瘤组织与正常组织有很大的不同，但特定肿瘤亚型的差异要小得多，肿瘤组织学亚型预测比癌症检测更困难。

为了评估上述假设，研究分析了使用血液中的oncRNA区分腺癌和鳞状细胞癌两种主要NSCLC亚型的可能性，使用20倍交叉验证来调整样本数量的减少。对于晚期肿瘤（III/IV期），Orion的AUC为0.75，在血清样本中区分鳞状细胞癌和腺癌样本的特异性为70%时，灵敏度为71%（图3）。

图3.Orion允许从血液的肿瘤RNA谱中区分肿瘤亚型

结语

该研究不仅展示了Orion在癌症检测方面的卓越性能，而且还展示了对大量数据集的泛化能力。Orion在利用血液预测肿瘤亚型方面表现良好，在不同来源或不同吸烟史个体的样本中性能也保持不变，强调了该模型的稳健性。研究表明，将稳定、丰富的癌症特异性生物标志物oncRNA，以及生成式AI模型的结合，为填补灵敏和早期癌症检测和监测的临床空白提供了新的机会。

论文原文：

Karimzadeh, M., Momen-Roknabadi, A., Cavazos, T.B. et al. Deep generative AI models analyzing circulating orphan non-coding RNAs enable detection of early-stage lung cancer. Nat Commun 15, 10090 (2024). https://doi.org/10.1038/s41467-024-53851-9