Nature:单细胞分析技术的革命性进展
医疗资讯网-妇科问诊
引言
人类细胞图谱(Human Cell Atlas,HCA)是生命科学领域一项划时代的国际合作项目,旨在绘制每种人类细胞的详细图谱。这一项目的目标不仅是理解每种细胞在健康状态下的功能,还要探明它们在病理条件下的特征变化,以及这些细胞如何相互作用。自2016年启动以来,HCA已完成了对超过2亿个单细胞的分析,发布了约440篇研究论文,并引入了多种革新性的湿实验与计算方法。这些进展让研究人员们能够前所未有地深入探索细胞的世界,从整体到细节,逐层剖析生命的奥秘。
HCA并不仅仅是一个静态的细胞类型图谱,它还希望建立一个动态的、全面的细胞生态系统。通过这个系统,研究人员可以了解细胞在发育过程中如何特异化,如何响应环境刺激,以及在健康与疾病之间如何转化。HCA的研究涵盖了多种器官和组织,例如肺、肾脏、肝脏、大脑等。这些研究成果不仅为理解各器官中细胞的特异性提供了宝贵数据,也为未来的疾病研究和治疗提供了坚实的理论基础。
尽管如此,HCA面临的挑战仍然巨大。单细胞技术的数据收集、处理与分析成本高昂,需要协调分辨率、数据通量以及空间信息的复杂性。研究人员们需要突破单个细胞的分析局限性,实现精确追踪其空间来源。为了克服这些障碍,HCA团队致力于发展一系列创新的计算技术,以追踪细胞命运、整合多种数据来源,并建立疾病的预测模型。(11月20日 Nature “Computational technologies of the Human Cell Atlas”)
单细胞技术的挑战与突破
单细胞测序技术的出现突破了传统细胞群体研究的局限,使得研究人员能够逐一分析每个细胞的基因表达。这让我们能够从细胞的视角深入剖析复杂的生物现象,例如不同疾病状态下特定细胞类型的动态响应。然而,单细胞测序生成的数据量庞大且复杂,如何对这些数据进行高效标注、分类和整合,成为研究人员亟待解决的难题。
例如,在癌症研究中,单细胞测序能够揭示肿瘤微环境中不同免疫细胞的动态变化,为癌症免疫疗法的开发提供了重要信息。然而,数据的巨大复杂性也意味着标注这些细胞需要耗费大量的人力和时间。
细胞自动标注工具:PopV的突破
为了应对这一挑战,研究人员开发了多种自动标注工具,其中之一便是PopV(Popular Vote)。PopV的设计灵感源自“投票”机制——它整合了八种不同的细胞标注算法,并对每个细胞的类型进行投票。所有算法一致认定某种细胞类型时,结果被认为是高度可靠的;而如果存在分歧,研究人员可以通过“不确定性评分”来衡量结果的可信度。这样的多算法投票机制显著提高了标注的效率和准确性。
PopV的开发者使用Tabula Sapiens数据集对其进行训练,该数据集涵盖来自15个个体的24个器官、近50万个细胞。PopV在Human Lung Cell Atlas(人类肺细胞图谱,包含超过2300万个细胞)中的测试中表现卓越,其预测与人工标注结果高度一致,准确性达到了92%,比单一算法平均准确率提高了15%。这一工具不仅提高了标注的效率,还显著减少了人工干预的需求,使得研究人员们可以将精力集中在更具创新性的研究上。
PopV的成功不仅在于其高准确性,还在于它的广泛适用性。不同器官和组织中的细胞类型差异很大,人工标注这些细胞往往需要丰富的专业知识。而PopV通过结合多种算法,能够适应不同类型的细胞标注需求,为研究人员提供了可靠且高效的基础数据。这对于像HCA这样的大规模国际合作项目来说,PopV的引入大大加速了数据处理和研究的进展。
探索细胞相似性:SCimilarity工具
在标注细胞之后,研究人员往往想知道某种细胞类型是否存在于其他组织或环境中。为了解决这个问题,Aviv Regev和她的团队开发了SCimilarity工具,旨在帮助研究者识别与目标细胞类型相似的细胞群体。SCimilarity的原理类似于遗传学家查找相似基因序列的BLAST算法。
SCimilarity通过将细胞的基因表达数据压缩为128个关键特征,来简化搜索过程。开发团队利用超过5000万个细胞的三重组数据对工具进行了训练,使其能够快速识别数据库中具有相似基因表达模式的细胞。在纤维化肺组织的研究中,SCimilarity对比了17个体内和体外实验的数据集,涵盖约42,000个细胞,成功识别出了与纤维化肺组织中免疫细胞相似的白细胞,这些细胞是通过3D水凝胶系统培养的。进一步的实验验证显示,这些相似细胞在实验室重新培养后,其基因表达模式与纤维化肺组织中的细胞表现出惊人的相似性,充分证明了SCimilarity在相似细胞识别中的有效性。
SCimilarity的开发为研究人员们提供了一个强大的工具,能够通过大规模单细胞数据发现不同组织和环境中的相似细胞类型。这一工具的应用不仅帮助研究人员追踪关键细胞在生理和病理状态下的分布,还为新药开发提供了潜在的靶点。例如,在纤维化研究中,SCimilarity识别出的相似细胞为研究它们在纤维化进程中的作用提供了重要线索,为寻找抑制纤维化的新疗法开辟了新的途径。
从大数据到高精度预测:计算模型的强大应用
尽管单细胞测序技术让大规模数据的获取成为可能,但高昂的成本仍然是许多研究团队的主要障碍。因此,研究人员逐渐转向人工智能(AI)和机器学习(ML)来推断和预测数据,从而降低实验成本。
例如,scSemiProfiler是一款能够从RNA测序数据(bulk RNA sequencing)中推断单细胞RNA分布的工具。可以把它比作从低分辨率照片推断高分辨率版本。scSemiProfiler在COVID-19相关研究中表现出显著优势。研究人员仅通过124名研究对象的体积样本,结合28个代表性单细胞样本,就成功预测了准确的单细胞RNA特征,从而节省了80%的测序成本,约相当于125,000美元。实验结果还表明,scSemiProfiler在预测免疫细胞亚型方面的准确率达到了85%,这使得单细胞测序的广泛应用变得更加可行。
scSemiProfiler的独特之处在于其能够整合不同来源的数据,并通过机器学习推断出单细胞的详细特征。这对于预算有限、难以进行大规模单细胞测序的团队来说无疑是巨大的进步。此外,scSemiProfiler还被应用于多种疾病的研究,如自身免疫疾病、感染性疾病等,帮助研究人员更好地理解免疫系统在疾病中的反应机制。
SCHAF(Single-Cell Omics from Histology Analysis Framework)也是一种利用组织切片染色数据推断单细胞RNA表达的工具。传统的H&E(Haematoxylin and Eosin)染色技术已有百年以上的应用历史,全球实验室和医院保存了大量使用这种方法染色的组织切片。Regev团队设想,能否利用这些染色信息推断出更复杂的分子特征,如基因表达。结果显示,SCHAF在乳腺癌和小细胞肺癌的数据集中的预测准确率超过90%,并与实验获得的空间RNA测序结果高度一致,证明了这一方法的有效性。
SCHAF将传统病理学与现代分子生物学结合,为组织切片赋予了更多的分子信息。过去只能通过形态学观察的组织切片,如今可以通过SCHAF揭示其背后的基因表达特征。这一突破对病理学诊断、肿瘤研究以及其他疾病的分析具有重要意义。例如,通过对乳腺癌组织切片的重新分析,研究人员可以更准确地判断肿瘤的分子特征,从而为个性化治疗提供更加精确的依据。
多数据整合:multiDGD的应用
multiDGD是一款整合多模态数据的工具,结合了RNA表达和染色质可及性(chromatin accessibility)数据来构建细胞的多维模型。通过结合基因表达和染色质开放状态,研究人员可以获得更全面的细胞生物学图景。multiDGD将20,000个基因表达数据和数十万个染色质特征简化为一个代表性特征集,从而用于细胞类型聚类和发育轨迹的推断。研究表明,multiDGD在处理小型数据集时,其表现优于其他流行的模型,尤其是在复杂细胞类型的聚类任务中,其准确率提升了12%。
multiDGD的优势在于其对多模态数据的整合能力。单一的数据类型往往无法全面反映细胞状态,例如,基因表达数据可以揭示细胞的功能状态,而染色质开放状态则反映基因的可及性和潜在的转录活性。通过结合这些数据,multiDGD可以为研究人员提供一个更为全面的细胞动态变化图景。例如,在干细胞分化的研究中,multiDGD揭示了基因表达和染色质状态的协同变化,从而为理解细胞命运决策提供了新的视角。
细胞间相互作用:CellAgentChat模型
除了对单细胞进行标注和数据整合之外,研究人员还希望模拟细胞之间的相互作用,尤其是在疾病状态下,细胞与周围环境之间的交流。为此,Jun Ding团队开发了CellAgentChat模型,该模型将每个细胞视为一个自主体(agent),模拟其在复杂环境中的行为。每个细胞自主体具备数字“受体”,可以接收其他细胞释放的分子信号,并基于这些信号激活相应的基因表达模式。通过这种方式,研究人员可以在实验前模拟不同药物对细胞间信号的影响,从而优化药物筛选过程。
在乳腺癌研究中,CellAgentChat被用来模拟不同药物对细胞间信号通路的影响。结果显示,表皮生长因子受体(epidermal growth factor receptor,EGFR)在信号调控中扮演着关键角色,这与现有实验数据相符。CellAgentChat的模拟准确率达到89%,并成功预测了多种药物对信号通路的抑制效果,为乳腺癌治疗药物的开发提供了新的思路。
CellAgentChat的开发为研究人员模拟细胞间复杂通信网络提供了一种新方法。在复杂的生物系统中,细胞通过分泌信号分子与周围细胞进行交流,这种交流在组织发育、免疫反应及疾病进展中发挥着至关重要的作用。通过将每个细胞视为一个自主体,CellAgentChat能够真实地模拟细胞间交互过程,从而为理解生物系统整体行为提供了新的工具。例如,在肿瘤微环境中,肿瘤细胞与免疫细胞之间的相互作用对肿瘤的生长和转移至关重要。CellAgentChat帮助揭示了这些相互作用的具体机制,为干预这些过程提供了新的药物靶点。
虚拟疾病模型:UNAGI工具的潜力
Jun Ding团队还开发了一款名为UNAGI的工具,用于模拟细胞在时间维度上的动态变化。研究人员利用UNAGI来模拟特发性肺纤维化(Idiopathic Pulmonary Fibrosis, IPF)进展过程中细胞的基因表达变化,并测试了多种药物对疾病进展的影响。结果表明,FDA批准的药物nintedanib在模型中显示出抑制纤维化的效果,而UNAGI还发现了一些潜在候选药物,这些药物在模拟中表现出比现有药物更好的疗效。
通过UNAGI,研究人员能够创建一个虚拟的疾病进展“沙盒”,分析不同阶段的基因表达变化,并测试药物是否能够使细胞恢复到更健康的状态。在实验中,UNAGI通过分析四个不同阶段的IPF数据,成功模拟了疾病的进展路径,并预测nintedanib能够将纤维化标志物的表达降低35%。此外,UNAGI还发现了几种新的候选药物,预测它们对纤维化的抑制效果优于现有药物,为IPF治疗提供了新的潜在方向。
UNAGI的潜力不限于IPF的研究。其核心思想是利用深度学习模型来模拟细胞在疾病进展中的动态变化,这一思想可以广泛应用于其他慢性疾病的研究,例如肝纤维化、心肌病等。通过建立虚拟疾病模型,研究人员可以更好地理解疾病的发展机制,并在计算机中测试各种治疗策略的效果,从而减少实验室中大量的试验。UNAGI的这一特点使其成为未来疾病研究和药物开发中的重要工具之一。
人类细胞图谱的未来
随着人类细胞图谱的第一版即将在未来数年内发布,相关的研究和技术仍将继续发展。这些工具的应用,使得研究人员能够从海量单细胞数据中提取有意义的信息,为理解细胞行为及其在健康和病理状态下的变化提供了全新的视角。这不仅为基础科学研究带来了前所未有的可能性,也为精准医疗和个性化治疗奠定了基础。尽管这些技术和工具仍在不断进步,但它们为揭示生命的本质提供了无限的潜力。正如Aviv Regev所言:“天空才是极限,一切皆有可能。”
人类细胞图谱项目的未来充满希望,随着更多数据的积累和技术的进步,研究人员们有望进一步揭示细胞行为背后的复杂机制。通过整合多种数据类型,开发新的工具,以及建立更精细的细胞模型,我们将能够更好地理解生命的奥秘。这些努力不仅将促进基础生物学的发展,还将推动医学革命,尤其是在个体化医疗和新药开发方面。正如HCA的目标所设想的那样,未来的研究将帮助我们更加精准地理解每一个细胞在人体中的角色,从而为战胜多种疾病带来新的希望和可能性。
参考文献
https://doi.org/10.1038/d41586-024-03762-y
Ergen, C. et al. Nature Genet. https://doi.org/10.1038/s41588-024-01993-3 (2024).
Travaglini, K. J. et al. Nature 587, 619–625 (2020).
Heimberg, G. et al. Nature https://doi.org/10.1038/s41586-024-08411-y (2024).
Xu, Y. et al. Protein Cell 13, 808–824 (2022).
Wang, J., Fonseca, G. J. & Ding, J. Nature Commun. 15, 5989 (2024).
Comiter, C. et al. Preprint at bioRxiv https://doi.org/10.1101/2023.03.21.533680 (2023).
Schuster, V., Dann, E., Krogh, A. & Teichmann, S. Nature Commun. https://doi.org/10.1038/s41467-024-53340-z (2024).
Raghavan, V., Li, Y. & Ding, J. Preprint at bioRxiv https://doi.org/10.1101/2023.08.23.554489 (2024).
Zheng, Y. et al. Preprint at Research Square https://doi.org/10.21203/rs.3.rs-3676579/v1 (2023).