尽管神经网络对化学或生物学几乎一无所知,但它可以很好地解决生物化学中最棘手的问题之一——仅仅通过观察蛋白质的氨基酸序列就能预测蛋白质的折叠方式。该机器学习算法比其他预测程序快100万倍,有望赢得明年的全球蛋白质折叠锦标赛。

分析蛋白质的氨基酸序列很简单,但揭示它的三维结构却不容易。虽然有许多方法-核磁共振x射线晶体学而且低温电子显微镜——它们仍然是费力而昂贵的。这就是为什么世界上只有大约14万个建筑的部分原因蛋白质数据库——只占估计的10个的很小一部分12天然蛋白质。

近半个世纪以来,科学家们一直在试图预测氨基酸序列是如何扭曲和折叠成有功能的蛋白质的.现在,穆罕默德AlQuraishi美国哈佛大学的一名研究人员在这项任务上推出了一种机器学习算法。他的神经网络击败了2018年之前六届蛋白质折叠世界锦标赛中的每一个预测程序蛋白质结构预测技术的关键评估(Casp)。

自2006年以来,对Casp的挑战进行了测试,该算法比新折叠类别中的其他预测器更准确(以较小的差距)。这组蛋白质的结构与已知蛋白质非常不同,这使得依赖于与已知蛋白质进行比较的软件非常困难。

虽然其他程序需要几个小时甚至几天来模拟蛋白质折叠,但AlQuraishi的算法在几毫秒内就完成了同样的事情。AlQuraishi解释说:“人们搜索蛋白质数据库,提取片段,做各种各样的模拟来最小化基于物理的能量函数——非常复杂,通常有数百万行代码。”“我们的想法是把这些非常复杂的管道重新规划成一个单一的神经网络。”

实验和预测的循环几何网络(RGN)结构图

来源:©2019爱思唯尔公司。

实验确定的蛋白质结构与AlQuraishi的神经网络预测的蛋白质结构比较

AlQuraishi说,这个模型对物理和化学知之甚少,尽管它尊重局部几何,不会把两个原子放在彼此的上面。它通过几个月观察1万到5万个序列及其结构来了解蛋白质。

AlQuraishi惊讶地发现,算法已经意识到长氨基酸链折叠成螺旋状和褶皱片——蛋白质中最常见的结构。他解释说:“尽管从未被告知二级结构的存在,但神经网络已经自己学会了这一点。”

“我认为他的方法的关键在于它是完全可微的,”蛋白质折叠专家说阿尔贝托·佩雷斯来自美国佛罗里达大学。他解释说,这使得从零开始设计蛋白质变得更容易——只需反转过程并预测哪个氨基酸序列会产生所需的3D结构。

佩雷斯认为AlQuraishi的神经网络也可以改善他自己的模拟。“机器学习能够很好地得到蛋白质的整体折叠,然后基于物理的方法能够细化结构的细节。”

2020年,AlQuraishi将让他的神经网络参加下一个蛋白质折叠挑战,可能与谷歌的人工智能竞争在去年的卡斯普掀起了波澜.佩雷斯说:“我们都期待下一个卡斯普能有出色的表现。”AlQuraishi的算法可能会成为一个重要角色。