预测蛋白质结构不一定能说明蛋白质的功能

在屏幕上显示数字蛋白质结构的图像

来源:屏幕©Getty Images;结构©科学图片库

蛋白质折叠问题已经解决了吗?

就在不久前,一份“化学圣杯”的清单就像最近由manbetx手机客户端3.0很可能还包括“解决蛋白质折叠问题”。人们普遍认为,仅凭氨基酸序列就能预测蛋白质的结构对生命科学具有巨大的价值。

12月初,许多媒体的头条都宣布了这一目标似乎已经实现的消息。人工智能公司DeepMind展示了他们的AlphaFold深度学习算法能预测很多蛋白质结构吗从它们的序列中获得的原子级精度通常可与从最好的晶体学分析中获得的精度相媲美。这被誉为一项重大突破。“这将改变一切,”进化生物学家安德烈·卢帕斯说自然而结构生物学家珍妮特·桑顿表示,这一进展将“真正帮助我们了解人类是如何运作和运作的”。一些报告让我们相信,阿尔茨海默氏症(由蛋白质错误折叠引起)等疾病的治疗方法就在眼前。

但这样的断言一直存在争议。一些生物化学家指出,预测的准确性并不总是那么令人印象深刻,如果没有晶体学、核磁共振研究或冷冻电子显微镜的实验证实,一般不太可能被接受。虽然大多数预测的结构都在实验分辨率范围内,但人们无法先验地判断哪些是,哪些不是——所以你需要实验来检查。此外,目前还不清楚这种准确性是否满足了寻找可能与蛋白质活性位点结合以阻断其功能的候选药物的需求。

解开主要问题

其他人则对这种方法“解决了蛋白质折叠问题”的概念提出异议。自20世纪50年代Christian Anfinsen的开创性工作以来,人们已经知道,被解开(变性)的蛋白质分子可以自发地恢复其“原生”构象,这意味着肽序列本身编码了正确折叠的规则。挑战在于找到这些规则并预测折叠路径。

AlphaFold没有做到这一点。它没有提到折叠的机制,只是使用标准的机器学习来预测结构。它通过对蛋白质数据库中大约17万个已知结构进行训练来发现序列和结构之间的相关性:该算法与其说解决了蛋白质折叠问题,不如说是逃避了它。它如何从序列“推理”到结构仍然是一个黑箱。

如果有人认为这是作弊,从实际目的来看,这并不重要。仅仅从序列推断出它的结构,即使是一个很好的猜测,也肯定是有价值的。据此,我们通常可以推断蛋白质的功能及其作用方式的化学机制。而“足够好的”预测可以成为利用晶体学数据改进的有用起点。

但是,蛋白质折叠问题是理解基因序列如何决定细胞功能的关键,这一观点看起来不像几十年前那么引人注目。我们知道真实的情况要复杂得多,原因有很多。

纠缠

酶的作用不仅仅是正确的折叠。许多蛋白质在核糖体上翻译后会发生化学修饰:部分肽链可能会交联,并加入非氨基酸基团,如卟啉或金属离子。此外,知道结构本身并不能告诉你函数。有时这可以通过类比来推断,或者更确切地说,同源性:具有相似折叠的蛋白质可能具有相似的功能。但这并不总是正确的:具有非常相似结构的蛋白质可以以非常不同的化学方式表现,而非常不同的折叠可以实现相似的转换。没有唯一的结构-功能关系。

更重要的是,即使你非常准确地知道蛋白质的结构,为蛋白质设计配体也可能是一项挑战,部分原因是我们不知道所有的识别规则——例如,有些规则取决于活性位点上溶剂化的精细细节。对于药物发现来说,最大的障碍通常来自于潜在分子靶点的识别——尤其是因为它经常被证明是错误的靶点。

无论如何,认为蛋白质的功能是由一种独特的静态晶体结构决定的观点现在看来过于简单了。动力可能是至关重要的。配体结合通常涉及活性位点的一些灵活性和适应性-但更一般地,蛋白质功能的新兴观点调用系综它可以达到的构象:它可以达到的不同动态状态的统计种群和占用时间。更重要的是,许多蛋白质根本没有定义明确的折叠构象,而是包含“内在无序”的肽链松散部分。这不是自然的草率:无序和由此产生的灵活性似乎是功能性的。人工智能方法可能很好地识别出哪些序列可能是无序的,但仅凭这一点并不能帮助理解它们的行为。

最后,任何深度学习系统都只能在其训练集的范围内胜任。我们不知道人类蛋白质组的大小,但据估计,只有大约5%的人类蛋白质被结晶并确定了结构。所以训练数据很可能偏向于相对容易解决的结构。一些研究人员认为,可能存在一种我们不知道的系统的蛋白质结构。

这一切都不会削弱AlphaFold的成就——事实上,我们可以预期,人工智能方法也可能有助于解决其中一些问题。真正的问题是,我们很久以前就不得不放弃这样一个简单的概念,即细胞的秘密是用任何分子序列进行数字编码的。

就在不久前,一份“化学圣杯”的清单就像最近由manbetx手机客户端3.0可能还包括“解决蛋白质折叠问题”。人们普遍认为,仅凭氨基酸序列就能预测蛋白质的结构对生命科学具有巨大的价值。

12月初,许多媒体的头条都宣布了这一目标似乎已经实现的消息。人工智能公司DeepMind已经证明,他们的AlphaFold深度学习算法可以从蛋白质序列中预测许多蛋白质结构,其原子级精度通常可与最好的晶体学分析相媲美。“这将改变一切,”进化生物学家安德烈·卢帕斯说自然而结构生物学家珍妮特·桑顿表示,这一进展将“真正帮助我们了解人类是如何运作和运作的”。一些报告让我们相信,阿尔茨海默氏症(由蛋白质错误折叠引起)等疾病的治疗方法就在眼前。

但这样的断言一直存在争议。一些生物化学家指出,预测的准确性并不总是那么令人印象深刻,如果没有晶体学、核磁共振研究或冷冻电子显微镜的实验证实,一般不太可能被接受。此外,目前还不清楚这种准确性是否满足了寻找可能与蛋白质活性位点结合以阻断其功能的候选药物的需求。

其他人则对这种方法“解决了蛋白质折叠问题”的概念提出异议。自20世纪50年代Christian Anfinsen的开创性工作以来,人们已经知道,被解开(变性)的蛋白质分子可以自发地恢复其“原生”构象,这意味着肽序列本身编码了正确折叠的规则。挑战在于找到这些规则并预测折叠路径。

AlphaFold没有做到这一点。它没有提到折叠的机制;它如何从序列“推理”到结构仍然是一个黑箱。

如果有人认为这是作弊,从实际目的来看,这并不重要。仅仅从序列推断出它的结构,即使是一个很好的猜测,也肯定是有价值的。据此,我们通常可以推断蛋白质的功能及其作用方式的化学机制。而“足够好的”预测可以成为利用晶体学数据改进的有用起点。

但是酶的作用不仅仅是正确的折叠。许多蛋白质在核糖体上翻译后会发生化学修饰:部分肽链可能会交联,并加入非氨基酸基团,如卟啉或金属离子。此外,知道结构本身并不能告诉你它的功能:结构非常相似的蛋白质可以以非常不同的化学方式表现,而非常不同的折叠可以实现相似的转换。没有唯一的结构-功能关系。

更重要的是,即使你非常准确地知道蛋白质的结构,为蛋白质设计配体也可能是一项挑战,部分原因是我们不知道所有的识别规则——例如,有些规则取决于活性位点上溶剂化的精细细节。对于药物发现来说,最大的障碍通常来自于潜在分子靶点的识别——尤其是因为它经常被证明是错误的靶点。

无论如何,认为蛋白质的功能是由一种独特的静态晶体结构决定的观点过于简单了。动力可能是至关重要的。配体结合通常涉及活性位点的一些灵活性和适应性-但更一般地,蛋白质功能的新兴观点调用系综它可以达到的构象:它可以达到的不同动态状态的统计种群和占用时间。更重要的是,许多蛋白质根本没有定义明确的折叠构象,而是包含“内在无序”的肽链松散部分。这不是自然的草率:无序和由此产生的灵活性似乎是功能性的。人工智能方法可能很好地识别出哪些序列可能是无序的,但仅凭这一点并不能帮助理解它们的行为。

最后,任何深度学习系统都只能在其训练集的范围内胜任。据估计,只有大约5%的人类蛋白质被结晶并确定了结构。所以训练数据很可能偏向于相对容易解决的结构。一些研究人员认为,可能存在一种我们不知道的系统的蛋白质结构。

这一切都不会削弱AlphaFold的成就——事实上,我们可以预期,人工智能方法也可能有助于解决其中一些问题。真正的问题是,我们很久以前就不得不放弃这样一个简单的概念,即细胞的秘密是用任何分子序列进行数字编码的。