在基于人工智能(AI)的蛋白质结构预测研究人员共享了庞大的数据集并开放了他们的方法后,从药物发现到塑料回收的科学领域都发生了变化。7月22日,总部位于英国伦敦的谷歌分支DeepMind和欧洲分子生物学实验室(EMBL)发布了由AlphaFold系统计算的35万个蛋白质结构。这些包括来自人类蛋白质组的所有2万种蛋白质,并将随后增加1亿多种蛋白质。

AlphaFold团队强调,这几乎是“科学界已知的所有测序蛋白质”。目前估计自然界中存在2亿种或更多的蛋白质结构。它们是由单长链氨基酸组成的分子机器,折叠成独特的3D形状。了解这些形状对于理解蛋白质的工作原理至关重要。

DeepMind创始人兼首席执行官德米斯·哈萨比斯描述这是“人工智能迄今为止对推动科学知识发展做出的最重要贡献”。哈萨比斯说,它的应用范围包括“药物发现、蛋白质设计、疾病理解和酶设计”。他补充说,AlphaFold已经帮助设计出更快的酶,用于回收一次性塑料。

“对我来说,这个数据集很像人类基因组,”评论道伊万伯尼他指出,这些资源将使以前不可能的科学得以实现。“我非常、非常兴奋地开始走上这条路。”

DeepMind的声明是在这两者之后发布的AlphaFold团队1而且大卫•贝克RoseTTAFold集团2美国西雅图华盛顿大学的科学家描述了他们的系统,并于7月15日公开了他们的代码。2020年12月,AlphaFold赢得蛋白质结构预测比赛被称为结构预测关键评估“,(Casp14)的挑战。然而,DeepMind并未透露其系统的工作原理。

细节了

RoseTTAFold团队试图开发自己的蛋白质预测工具,并描述了他们是如何基于DeepMind在研究中提供的五个线索进行构建的。华盛顿大学(University of Washington)的计算化学家说:“这就像你听说了一幅伟大的画作,并试图在没有任何细节的情况下复制它,比如他们使用的颜色或方法。Minkyung门敏他领导了RoseTTAFold项目。

蛋白质结构的图像显示为蓝色和蓝绿色的螺旋和漩涡图案

来源:©DeepMind

结核菌一种来自引起肺结核的细菌的蛋白质

这两个团队的架构都是从通过多序列比对(MSA)从遗传信息中收集蛋白质序列数据开始的,MSA是一个收集与感兴趣的蛋白质在进化上相关的所有已知序列的过程。

DeepMind的人工智能将MSA和配对信息表输入一个名为Evoformer的神经网络,对数据进行组织,并对相似的蛋白质进行分组。它还输入相关的已知蛋白质结构作为模板进行学习。然后,该系统将Evoformer的输出传递到第二个神经网络结构模块,以预测目标蛋白质的3D形状。与此同时,它将预测结构的准确性与实际蛋白质结构进行了比较。AlphaFold不断地将Evoformer和结构模型的输出反馈回流程的开始,直到这些估计不再改善。

相比之下,RoseTTAFold依赖于三个被组织成独立轨迹的神经网络。第一种方法不断地改进MSA。第二种方法同样适用于来自MSA和已知模板蛋白结构的对相互作用信息。这些预测是并行进行的,相互反馈以改进预测。在最初以这种方式优化预测之后,RoseTTAFold随后添加了第三个结构生成轨道,这也反馈到前两个轨道。这使得整个网络可以集体推理序列、成对距离和3D形状之间的关系。

AlphaFold和RoseTTAFold都可以在短短几分钟内预测一个含有大约400个氨基酸的蛋白质的结构。

这些工具有多好?

西蒙Erlendsson英国医学研究委员会分子生物学实验室的一位生物化学家说,研究世界正在“沸腾”谈论新工具和它们的预测。他说:“AlphaFold和RoseTTAFold代表了巨大的突破,毫无疑问将在未来多年指导结构生物学和复杂的蛋白质设计。”

Erlendsson研究的是大脑蛋白质的结构,研究人员还没有完全弄清楚,比如帮助调节记忆的Arc。他指出,AlphaFold的预测提出了一种以前没有人见过的Arc可能与自身相互作用的方式。Erlendsson说:“我实际上有点尴尬,因为我一开始就没有注意到这一点。”“但也许它不在那里,对吧?””

他提出了一个至关重要的问题,这些蛋白质预测到底有多好。在Casp14中,AlphaFold对蛋白质主干的中位数精度在碳原子的宽度内。然而,约翰跳投DeepMind AlphaFold的负责人指出,该系统在满足三个条件时工作得最好。一个蛋白质的序列必须有很好的信息,至少有30个结构未知的相关序列,还有一些结构已知的相关序列。他说,当输入信号较弱时,准确率会“大幅下降”。

另一个潜在的问题是蛋白质可以采用不同的形式,这些预测模型可能提供不那么有趣的非活性结构。例如,g蛋白偶联受体——我们细胞上触发化学钥匙变化的“锁”——有活性和非活性两种形式。为了确保RoseTTAFold在这种情况下输出活性形式,Baek解释说,她只让它从已知模板蛋白质结构的活性形式中学习。

尽管存在这些潜在的问题,凯瑟琳TunyasuvunakoolDeepMind的高级研究科学家,他说AlphaFold已经可以帮助物理结构研究。她解释说:“有时,当有人获得x射线晶体学数据集时,他们不能立即从中确定蛋白质的原子结构。”“这有助于对结构有一个很好的初步猜测。”

虽然这些新技术前景广阔,但贝克并不认为它们已经完全解决了蛋白质折叠的问题。他说:“如果你所说的蛋白质折叠问题是指从蛋白质的主要序列预测蛋白质的结构,那么这些方法接近于解决问题。”“然而,他们本质上是在做模式识别。它们并没有描述蛋白质从延伸链到折叠结构的过程。”