Translational Psychiatry：基于机器学习和深度学习方法对抑郁症相关血液DNA甲基化的全面多队列探索

Translational Psychiatry：基于机器学习和深度学习方法对抑郁症相关血液DNA甲基化的全面多队列探索

抑郁症是一种复杂的精神疾病，受多种因素的影响，包括生活经历、人际关系以及生物学决定因素如遗传学和表观遗传学。目前，抑郁症的诊断主要依赖于精神病学评估，临床上尚无实验室生物标志物用于验证。这种缺乏可靠的实验室诊断方法使得区分重度抑郁症（MDD）患者与暂时性低落情绪或其他类似精神疾病患者变得困难。

本研究利用八个不同的队列（包括六个公共队列和两个国内队列，共1942个样本）进行血液DNA甲基化的mega分析和meta分析，以评估抑郁症的甲基化标志物。通过使用12种机器学习和深度学习方法，对数据进行跨验证（CV）和持出测试，构建了包含有偏和无偏特征选择的模型。研究中采用的机器学习方法包括随机森林、支持向量机（SVM）和深度神经网络（DNN），而深度学习方法则包括多层感知器（MLP）和自编码器。

数据处理分为两个阶段：首先是数据的预处理，包括批次效应的校正和数据标准化；其次是特征选择，主要采用limma作为特征选择策略。此外，还探讨了不同特征选择方法对模型性能的影响。所有模型的训练和优化过程均在不同的交叉验证折中进行，以评估其泛化性能。

图1.本研究的工作流程概述

在mega分析和meta分析中，发现了1987个与抑郁症相关的CpG位点，这些位点在基因富集分析和eQTM数据中与轴突导向和免疫通路相关。随机森林分类器在批次处理的数据中表现最佳，在CV和持出测试中分别达到了0.73和0.76的AUC。然而，当使用标准化数据时，所有分类器在CV中的AUC均低于0.57，在持出测试中没有预测能力。

在特征预选的模型中，所有模型的性能显著提升（AUC增加超过14%），某些模型（如联合自编码器分类器）在最终测试中AUC达到了0.91，不受数据处理方法的影响。不同算法的特征选择方法（如L1惩罚逻辑回归）在某些情况下也优于limma。结果表明，随机森林模型在所有数据处理策略中均表现出色，适用于DNA甲基化评分。

图2.深度学习模型的配置

本研究概述了未来可能用于抑郁症的生物标志物，并强调了DNA甲基化抑郁症分析中的许多重要方法学问题，包括机器学习策略的使用。研究结果显示，随机森林分类器在不同数据处理策略下均表现良好，而复杂的深度学习模型在小数据集上的表现不如树模型。这些发现为未来的抑郁症生物标志物研究提供了有价值的见解，并指出了数据处理和特征选择对模型性能的关键影响。

原始出处：
A.V. Sokolov and H.B. Schiöth. Decoding depression: a comprehensive multi-cohort exploration of blood DNA methylation using machine learning and deep learning approaches. Translational Psychiatry, 2024, 14:287. https://doi.org/10.1038/s41398-024-02992-y.