人工智能和机器学习既有用又强大,但它们需要高质量的数据输入,而这些数据目前还无法用于药物研发

我们最近得到了很多关于人工智能(AI)和机器学习(ML)在化学(和生物学),而且步伐并没有放缓。2020年底,Deepmind-AlphaFold该团队在蛋白质结构预测方面取得了巨大进步,这一进展很快得到了美国华盛顿大学RosettaFold团队的跟进。现在,这两个小组都宣布在预测蛋白质-蛋白质相互作用以及由此产生的复合物的结构方面取得了同样令人印象深刻的进展,这些问题被许多人视为该领域合乎逻辑的下一步(也是更难的)步骤。

如果你在20世纪70年代用你选择的时间机器把这一切告诉研究人员,他们可能会认为,在21世纪20年代初,我们已经学到了很多关于蛋白质折叠、氢键、水分子相互作用的能量学,以及关于平衡熵能和焓能贡献的基本原理。现在,我们确实比四五十年前对这些东西有了更多的了解,但奇怪的是:我们对它们的了解还不够多,不足以用它们作为我们现在所拥有的那种异常准确的蛋白质结构预测的基础。

这一切的一个关键因素是大量高质量的数据

那么,它们来自哪里呢?我们看到的更多的是模式匹配和数据库争论的胜利。到目前为止,我们已经通过x射线衍射、核磁共振和(最近的)冷冻电子显微镜积累了大量关于蛋白质结构的实验数据。这让我们有机会(在一些巧妙和精心设计的算法的帮助下)挑选出各种结构基序及其相关的氨基酸序列,这使得蛋白质结构空间的大部分可以通过类比我们已经确定的结构来填充。

这一切的一个关键因素是大量高质量的数据。用于分类的技术非常棒。但是,如果没有足够的关于蛋白质结构的基本事实,任何算法都无法在这个问题上取得足够的进展。这说明了关于信息的一个重要事实,这个事实可能看起来微不足道,但一直在变得越来越有趣:你不可能从数据中得到比开始时更多的东西。这可以用更正式的方式表述,比如香农熵还有算法压缩性,但一般来说,有一个守恒定律在起作用,类似于能量和物质的守恒定律。

经典的计算“垃圾输入,垃圾输出”定律在机器学习中最适用

蛋白质数据集庞大、丰富、详细,人们可以从中提取出以前从未想过的关于蛋白质结构的有用预测。因此,如果你想知道下一个令人惊叹的人工智能结果可能来自哪里,那么请寻找其他有足够黄金的数据集,以便从中获利。机器学习技术创造不出黄金;他们揭开它,找出它最丰富的接缝是如何连接的。正如他们所说,把这样的数据库放在一起并非易事。您需要(自然地)确定的数字,覆盖相对于您的问题的大量空间,并以这样一种方式格式化,以便为软件提供最快和最有用的方法来查找所有隐藏的连接。如果没有干净、结构良好的数据,你和你的算法将会度过一段非常不愉快的时光。经典的计算“垃圾输入,垃圾输出”定律在机器学习中最适用。

对于蛋白质来说,你可能会认为预测新的药物靶点和疾病途径是一个强有力的下一步。但这将是一项比结构预测困难得多的工作(到目前为止,结构预测已经足够困难了)。根本就没有一个精心策划的数据集来记录这项工作所需的知识,而我们现有的知识也充满了空白。让事情变得更复杂的是,有些差距是显而易见的,但有些差距目前还看不见。只有当我们更多地了解细胞生物学和整个生物体时,它们才会变得清晰。50年后,研究人员回顾我们时,会对这些事情感到遗憾。“那些可怜的人!”他们会说。“他们甚至不知道X,也不知道Y,甚至没有人想到Z!”难怪他们过得这么艰难!”

你知道谁会发现这些事吗?不是我们的AI和ML系统,尽管我相信它们会在任何可能的时候提供帮助。不,是我们。就像以前一样。