Sci Transl Med:机器学习+扩增子片段组测序实现灵敏的癌症早期检测
医疗资讯网-妇科问诊
Alu元件是约300个碱基对的短散在元件(SINE),在整个人类基因组中分布超过100万个拷贝。虽然Alu元件在生物学和进化中的作用正在被探索,但部分Alu元件已被证明参与基因调控和结构变化。在癌细胞中,Alu元件可通过同源重组参与结构变化,在肿瘤进展期间低甲基化,并且该特征已被并入通过浆细胞游离DNA(cfDNA)分析的早期癌症检测方法。
理论上,全基因组测序(WGS)可以用于评估Alu元件,但开发相应的预测算法非常具有挑战性,这些挑战主要来自各元件彼此的相似性以及难以准确地鉴定。此前,美国约翰·霍普金斯大学医学院的科研团队开发了一种RealSeqS测序方法,可用于评估Alu元件的拷贝数变化。RealSeqS方法通过单个引物扩增约350,000个重复元件来评估cfDNA的非整倍性,提供了优于WGS的优势,包括更简单的工作流程,不需要构建文库,计算分析速度更快,单个Alu基因座的测序覆盖率更高等。
研究团队假设,对RealSeqS获得的大量测序数据进行公正的评估可能会揭示癌症患者和非癌症患者血浆样本之间的其他差异。这一假设通过一种名为A-PLUS的机器学习方法的开发进行了验证。研究团队利用在包括11种癌症类型的一系列病例对照样本集中开发并验证了该方法。在验证队列中,A-PLUS对11种不同癌症类型的敏感性为40.5%,特异性为98.5%。将A-PLUS与非整倍体和8种常见蛋白质生物标志物结合,检测出51%的癌症,特异性为98.9%。研究发现,A-PLUS的部分功效可以归因于一个单一的特征——实体癌患者cfDNA中Alu元件的整体减少。该成果已发表在Science Translational Medicine上,文章题为“Machine learning to detect the SINEs of cancer”。
虽然A-PLUS的性能还需要更多的验证研究来证实,但其敏感性和特异性与已有的Galleri检测等癌症筛查方法几乎相当。针对癌症的早期检测,研究团队相信A-PLUS能够成为比现有基于表观遗传学和片段组学检测方法更简单、更有效的新工具。
文章发表在Science Translational Medicine
主要研究内容
A-PLUS旨在检测cfDNA重复区域的差异,研究人员能够使用机器学习将其调整为正常和癌症相关信号的鉴别器。与其他从WGS中获得片段信号的方法不同,A-PLUS使用基于扩增子的方法,可以对基因组的目标区域进行更深层次的测序。
该团队在开发A-PLUS时纳入了几项原则:首先,试图识别和消除与技术噪音、种族、性别和批次差异相关的混杂位点;其次,使用主成分分析(PCA)缩小了特征数量;第三,使用了更多了样本量;第四,将样本分为四个预先指定且不重叠的队列,以最大限度地减少过度拟合。队列1用于选择特征并训练机器学习模型;队列2用于建立将样本评分为阳性或阴性的阈值;队列3用于独立测试或验证模型效果;队列4来评估评分系统的再现性。
图1. 整体研究概述
队列1:
A-PLUS特征选择和模型训练
队列1由354名无癌个体和202名实体瘤患者组成。为了减少过拟合的可能性并在评价样本之前建立质量指标,研究人员使用先前发布的指标和阈值纳入患者,而不是因为与A-PLUS性能相关的任何指标而排除任何参与者。
训练的重要要素包括reads深度的标准化和去除覆盖不足的扩增子,以及去除基于T检验不稳定的扩增子数据。经过这些步骤,原来的350000个位点中有121197个保留下来。然后使用PCA降低维度,并使用支持向量机来识别前60个PCA特征。
队列2:
分析整合和阈值测定
队列2包括来自704名实体瘤患者和958名非癌对照个体的样本。在血液采集时没有转移,并且与队列1一样,癌症包括来自食道、胃、乳腺、结直肠、肺、卵巢和胰腺的癌症。在队列2中,对应于对照样本中99%特异性的A- PLUS评分为0.28,在该阈值下,来自患有食道癌和胃癌患者的样本具有最高的灵敏度。
研究团队还在队列2中生成了全局非整倍体评分(GAS)。GAS使用不同的机器学习方法来生成反映39个染色体臂的获得或丢失的单个评分。GAS阈值大于0.64在队列2的对照样本中产生99%特异性。在99%特异性下,食管癌和肝癌的灵敏度最高(43% CI:26-62%和37% CI:17-61%),乳腺癌的灵敏度最低(6% CI:4-10%)。在GAS测定评分为阴性的687个癌症样本中,318个在A-PLUS测定中评分为阳性;相反,81%在GAS中得分为阳性的癌症样本在A-PLUS中得分也为阳性。此外,A-PLUS阳性非癌样本在GAS中得分为阳性的现象没有出现。
然后,研究团队使用逻辑回归将A-PLUS和GAS与蛋白质生物标志物整合到多个分类器中,使用10倍交叉验证评估性能,发现阈值大于0.87产生99%特异性。食管癌和肝癌患者的敏感性最高,乳腺癌患者的敏感性最低。
图2. 队列2血浆样品中的癌症检测
队列3:
独立验证
队列3样本来自2960例个体,包括1167例患有11种类型实体瘤的患者:乳腺癌、结直肠癌、食管癌、头颈部癌、肾癌、肺癌、卵巢癌、胰腺癌、前列腺癌、胃癌和子宫癌。
研究团队使用队列2定义的99%阈值评估队列3中所选测定方法的性能。对于A-PLUS,在队列3中观察到的特异性(98.5%)略低于队列2预期的99%。在队列2和队列3中评估的七种癌症类型中,癌症类型敏感性相似。在队列2和3中,单独非整倍体以及单独蛋白质生物标志物的灵敏度和特异性也相似。结合A-PLUS、非整倍性和蛋白质方法以98.9%的特异性能够检测到以下器官中的癌症:食道癌、胰腺癌、卵巢癌、胃癌和结直肠癌。
研究团队随后进行了比较分析,发现与非整倍体或蛋白质生物标志物相比,A-PLUS对阳性检测的贡献更大,A-PLUS可检测到41%的非整倍体或蛋白质未检测到的样品。
图3. 队列3血浆样品中的癌症检测
队列4:
再现性
最后,研究团队在来自队列2或队列3的1686名个体中评估了A-PLUS和GAS测定(均基于RealSeqS测序数据)的技术再现性。所有样本均为在同一时间点从同一患者采集的技术重复样本。
使用队列2定义的阈值,1632对中有95.8%的评分一致(阳性或阴性),A-PLUS的Cohen kappa为0.56。A-PLUS的不完全一致性反映了特异性和灵敏度之间的平衡。有目的地将特异性设置为非常高(99%),这可能会限制灵敏度。因此,在相同的预设阈值下,重复检测的特异性之间的差异仅为1.2%,而重复检测的灵敏度之间的差异超过10倍。
对于GAS,99.3%的配对是一致的,其中Cohen kappa为0.66。与队列3相比,队列4中GAS的敏感性较低,这是由于队列4中的大多数癌症病例来自乳腺癌患者,而队列3中只有6%的癌症来自乳腺癌,在队列3中,乳腺癌的GAS最低。
图4. 在技术重复中的再现性
结 语
对SINE的代表性元件Alu的评估可以增加非整倍性检测癌症的能力。在RealSeqS数据中,在设定的特异性下,A-PLUS算法相对于单独的非整倍体所实现的灵敏度显著增强。研究团队将来自癌症患者和无癌对照的样本预先指定为四个组群,用于模型训练、分析整合以及阈值确定、验证和再现性。在验证队列中,Alu元件的评估具有提高几种用于早期癌症检测方法性能的潜力。
文章共同第一作者Kamel Lahouel表示:“自从完成了当前文章中描述的工作以来,希望之城团队已经创建了一个新版本的A-PLUS,用来检测癌症和对照组之间片段长度差异的信号。”据悉,基于该方法已经开展了一项前瞻性临床试验,旨在衡量其在65-75岁成年人中检测癌症的有效性。
论文原文:
Douville C, Lahouel K, Kuo A, Grant H, et,. Machine learning to detect the SINEs of cancer. Sci Transl Med. 2024. doi: 10.1126/scitranslmed.adi3883.
https://www.science.org/doi/10.1126/scitranslmed.adi3883