深度学习网络AlphaFold2——训练了大约17万个蛋白质结构——在科学界引起了极大的兴奋

谷歌分支DeepMind的一个团队表示,他们的人工智能网络在解决人工智能问题上取得了巨大的飞跃50年前的蛋白质折叠问题在蛋白质结构预测挑战中,它击败了所有其他团队。该项目受到了全球研究人员的热烈欢迎,他们认为这可能会给生物学带来革命性的变化,特别是在药物设计或环境可持续性等领域。

谷歌的算法,叫做AlphaFold2她无疑是今年的赢家结构预测关键评估“,(Casp14)挑战赛-两年一次的比赛,旨在衡量计算蛋白质结构预测准确性的进展。AlphaFold2能够确定约三分之二的目标蛋白的3D形状,其精度与实验室实验相当,大大超过了其他约100个团队。

蛋白质是由可以折叠成不同形状的氨基酸链组成的复杂分子。预测最终的3D结构是什么样子是科学家们研究了几十年的挑战。穆罕默德AlQuraishi来自美国哥伦比亚大学,他开发了一种竞争算法他认为,DeepMind的AI可以通过将蛋白质的预测结构与已知功能和形状的蛋白质进行比较,帮助研究人员理解蛋白质的功能。他补充说,尽管该程序不是为蛋白质设计而开发的,但从其他模型中获得的经验罗塞塔这表明有可能将其用于此目的。他说:“对于专注于小分子的医疗应用来说,这可能还不够准确,但它可能有助于为基于蛋白质的治疗设计抗体。”

安德烈领袖德国马克斯·普朗克发育生物学研究所的研究员,Casp14的评委之一,他认为在幕后有很多算法的魔法。他指出,他们一直不太清楚自己在做什么,但他们花了很多时间来确定细节,这似乎构成了一个非常非常好的整体预测。“我的部门为一种蛋白质提供了一个目标,我们已经有十年没能解决这个问题了。他们给了我们一个模型,我们在半小时内就解出了这个结构!”

这张图片显示了自2006年第一次Casp挑战以来GDT(衡量结构预测准确性的一种测量方法)的增加

来源:©DeepMind

在今年的Casp挑战赛中,AlphaFold2将GDT分数(一种衡量结构预测准确性的指标)提高到90以上

Casp竞赛使用全局距离测试(GDT)度量来评估准确性。任何达到90 GDT左右的程序都被认为与实验方法具有竞争力。AlphaFold2在所有目标上的GDT中位数得分为92.4,将所有竞争对手远远甩在后面。该软件在大约17万个结构上进行了训练蛋白质数据库,是在2018年Casp13上提出的先前版本的基础上构建的。

AlQuraishi解释说,这两个版本之间有一个关键的区别。他说:“这是端到端可微的,这意味着系统从序列到最终的3D结构进行了优化,系统中的所有部分都进行了联合优化,以从数据中学习。”“最初的AlphaFold有多个独立的片段,经过独立训练,只能预测原子间的距离,而不是3D结构,我们用Rosetta等更传统的方法来折叠蛋白质。”他解释说:“AlphaFold2是迭代的,生成一个初始的3D结构,然后经过许多步骤来完善,所以它能够从数据中提取更复杂的模式。”

尽管AlQuraishi自己的模型表现不如AlphaFold2,但它也比之前的版本有所改进。“我们的方法是从单个蛋白质序列出发,而不是像AlphaFold2这样的同源蛋白质序列。我们认为这条路线是值得的,因为它可能使蛋白质设计与自然产生的蛋白质非常不同,并且可能对单个序列的变化(例如突变)更敏感。”

DeepMind现在想进一步改进算法,让它弄清楚蛋白质是如何形成复合物的,以及它们是如何与小分子相互作用的。