Nature:计算蛋白质设计:AI如何重塑生物学的未来
医疗资讯网-妇科问诊
引言
近年来,计算蛋白质设计(Computational Protein Design)与机器学习(Machine Learning)的进展,使得设计定制化蛋白质的梦想逐渐成为可能。自上世纪90年代以来,蛋白质结构与功能的研究不断取得突破,但实现蛋白质的精确设计仍然面临诸多技术挑战。德国慕尼黑路德维希·马克西米利安大学(Ludwig Maximilian University)的生物物理化学家阿莱娜·赫梅林斯卡娅(Alena Khmelinskaia)将这一过程比作“自动贩卖机”,她希望任何研究人员都能简单地指定蛋白质的功能、大小、位置以及相互作用伙伴等特性,便能得到满足所有要求的完美设计。这一愿景源于科学界对简化与自动化蛋白质工程的强烈渴望,类似于基因编辑技术的出现使得基因操作变得更为便捷。然而,尽管这一目标仍具有挑战性,但人工智能(AI)驱动的工具如RFdiffusion和Chroma正在使之逐步成为现实。(11月4日 Nature “Five protein-design questions that still challenge AI”)
人工智能带来的突破
传统上,研究人员通过将蛋白质克隆到细菌或酵母中,并诱导这些微生物产生突变,直到获得目标蛋白质。此外,研究人员还可以手动修改氨基酸序列来设计蛋白质,但这一过程极为繁琐,且易导致蛋白质错误折叠或无法在细胞中成功表达。如今,机器学习技术彻底改变了这种现状。研究人员可以借助AlphaFold和RoseTTAFold等工具来预测蛋白质的正确折叠,借助这些工具,他们可以在计算机上生成新蛋白质的结构,并通过算法如ProteinMPNN匹配合适的氨基酸序列。只有当模拟结果令人满意时,研究人员才会进行物理蛋白质的合成与验证,而很多情况下实验结果也表现出色。
机器学习的快速发展使得许多曾经耗时且具有高度不确定性的任务现在可以高效地在计算机上完成。通过AlphaFold对蛋白质折叠的准确预测,研究人员可以避免繁琐的实验步骤,从而节省大量的时间和资源。与此同时,人工智能还帮助研究人员更好地理解蛋白质结构与功能之间的关系,这对于推动生物医学研究具有重要意义。例如,RoseTTAFold结合了深度学习算法,使得研究人员能够以更高的精度预测蛋白质的三维结构,这不仅提高了研究效率,也扩大了蛋白质工程的应用前景。
这种通过AI设计新蛋白质的方法已得到了广泛认可。2024年,AlphaFold及其开发团队因其在蛋白质结构预测和设计上的杰出成就荣获诺贝尔化学奖。这个奖项的获得标志着人工智能在生命科学领域的深远影响,尤其是蛋白质设计和工程领域的革命性变革。
蛋白质结合的挑战
蛋白质间相互作用的预测是早期蛋白质设计中的一大难题,这对于药物开发至关重要,因为特定蛋白质的结合物可能充当药物以激活或抑制特定的疾病通路。蛋白质与配体的精确结合是药物设计的关键,而生成式AI工具在解决这一问题方面发挥了重要作用。得益于RFdiffusion和AlphaProteo等生成式AI工具,预测蛋白质间相互作用变得相对简单。对于大多数蛋白质,这些工具能够生成与目标蛋白质精准结合的配体,就像手套与手的契合。
尽管如此,当目标是其他小分子时,AI的表现仍不尽如人意,尤其是在药物与蛋白质结合的情境下。小分子与蛋白质之间的相互作用比蛋白质之间的相互作用更加复杂,因为小分子通常具有多样的化学结构和特性。许多制药公司拥有大量与小分子结构及其与蛋白质的相互作用相关的数据,但这些数据大多是商业机密,而公开的数据往往数量有限且注释不足。这些限制使得AI在该领域的表现难以全面推广和普及。
为了应对这些挑战,研究人员正致力于开发新的机器学习模型,这些模型能够更好地处理小分子与蛋白质的结合预测问题。举例来说,AlphaFold3的推出为蛋白质与小分子的相互作用提供了更高的预测精度。虽然这种方法仍然面临数据不足和模型复杂度等问题,但它为药物发现提供了新的工具和思路。谷歌DeepMind团队的计算生物学家Jue Wang指出,尽管公开数据有限,但通过对现有数据进行深度学习训练,模型在一些重要类别的相互作用上已实现了显著提升。
新型催化剂的设计努力
研究人员希望通过计算工具来设计出具有全新功能的酶,例如可以从大气中捕获二氧化碳或有效分解环境塑料的催化剂。设计出全新功能的酶不仅具有重要的环境意义,还有助于推进生物化学反应的高效化和绿色化。最合理的起点是利用自然界中具有相似功能的酶作为基础。例如,能够分解氢-硅键的天然酶可能是设计能分解碳-硅键的人工酶的理想模板。
然而,蛋白质形状的相似性并不总是意味着功能的相似性。有些酶的形状截然不同,但却能执行相同的任务。因此,理解酶之间的功能联系,以及如何重新创造这些功能,是蛋白质设计中的一个重大挑战。研究人员必须在大量的酶样本中寻找特定功能的线索,这一过程既需要对生物学的深刻理解,也需要先进的机器学习工具的辅助。
为了克服这一挑战,一些研究团队开发了新方法来分析酶的活性部分。例如,大卫·贝克(David Baker)及其同事利用RFdiffusion设计了一组水解酶(hydrolases),并通过机器学习分析这些酶在每个反应步骤中的活性区域。这些工作为理解酶的活性机制提供了新的视角,并证明了通过AI分析酶活性区域以指导新型催化剂设计的可行性。
研究人员还在探索如何设计可以在特定环境条件下发挥作用的酶,例如在极端温度或pH值下保持活性的酶。这些特殊酶在工业和环境工程中具有广泛的应用前景,例如高温条件下的生物降解过程或在酸性环境中的催化反应。通过结合机器学习和实验验证,研究人员希望能够开发出一系列适应性强、效率高的人工酶。
蛋白质的构象变化
蛋白质通常不是静态的分子,而是能够打开、关闭、扭曲和弯曲。这些构象变化受温度、pH值、化学环境以及与其他分子结合的影响。然而,实验中获得的蛋白质结构往往只是其最稳定的构象,这并不一定是蛋白质在活性状态下的形态。
蛋白质的动态特性对于其功能至关重要,尤其是在涉及信号传导和催化反应的情况下。计算蛋白质的所有可能构象是一个极具挑战性的任务。微软研究院的杨凯文(Kevin Yang)表示,要真正理解蛋白质如何发挥作用,研究人员需要掌握其所有可能的构象变化。设计能够模拟这些动态变化的AI模型因此显得尤为重要。
为了更好地理解蛋白质的动态行为,研究人员采用了多种策略,包括使用分子动力学模拟和机器学习模型来捕捉蛋白质在不同条件下的构象变化。分子动力学模拟可以提供关于蛋白质运动的详细时间序列数据,但计算成本高昂且耗时,而机器学习模型则可以通过从大量数据中学习来快速预测蛋白质的可能构象,从而在精度与效率之间取得平衡。
复杂结构的设计
蛋白质不仅可以作为酶类,其还能够作为构建模块,用于自组装成能够携带货物进入细胞、产生机械力,或展开错误折叠的蛋白质等复杂结构。通过合理设计,蛋白质可以被赋予多种新颖的功能,用于解决实际的生物医学问题。在COVID-19大流行期间,韩国和英国相继批准了基于计算设计的蛋白质制成的疫苗SKYCovione的紧急使用,这标志着计算蛋白质设计在医疗领域取得了重要进展。
赫梅林斯卡娅的团队正在利用机器学习算法开发中空纳米颗粒,这些纳米颗粒可以用于将药物或毒素输送到细胞内部。这些纳米颗粒的设计需要考虑多种因素,包括其在细胞环境中的稳定性、与细胞膜的相互作用以及其在目标位置的释放机制。对于更为复杂的结构,如细菌鞭毛,目前仍面临巨大的挑战,因为现有的数据量不足以训练生成式AI模型来从头开始设计这类分子机器。因此,研究人员需要逐个开发分子机器的组成部分,并通过这些组件的灵活组合来实现最终的设计目标。
此外,蛋白质自组装的研究也取得了显著进展。蛋白质自组装体可以作为纳米材料,用于药物传递、基因治疗和疫苗开发等领域。通过计算工具,研究人员可以预测和优化蛋白质自组装的过程,从而提高其稳定性和功能性。例如,某些设计的蛋白质可以自发地组装成纳米笼结构,这些纳米笼能够包裹其他分子并在特定条件下释放,从而实现精确的药物输送。
尽管AI在蛋白质设计领域取得了巨大进展,但它仍然存在诸多局限性。例如,AI系统有时会生成一些在自然界中并不存在的“幻觉”结构,或者在缺乏足够的训练数据时,其预测准确性受到影响。因此,人类研究人员在设计和组合蛋白质时的创造性依然不可或缺。
要使AI真正实现赫梅林斯卡娅的“自动贩卖机”愿景,团队协作至关重要。计算机资源和数据的充足使得蛋白质设计成为一个日益热门的研究领域。随着越来越多的研究人员加入,合作的力量将加速这一领域的发展,使我们离梦想中的全自动蛋白质设计机器更进一步。各领域的专家需要紧密合作,将计算生物学、化学、物理学和生物技术相结合,以解决蛋白质设计中的多重挑战。
在未来,研究人员希望能够开发出更多功能强大且应用广泛的蛋白质,从医疗到工业再到环境保护,计算蛋白质设计的应用前景几乎是无穷无尽的。例如,在医疗领域,人工智能辅助的蛋白质设计可以帮助开发新型药物靶点、精准的抗体疗法以及个性化的治疗方案;在工业领域,定制化的酶可以显著提高化学反应的效率,减少能耗和污染;在环境保护方面,特定设计的酶可以用于污染物的降解以及温室气体的固定。
参考文献
https://www.nature.com/articles/d41586-024-03595-9