人工智能和机器学习非常有用和强大,但它们需要高质量的数据输入,而这些数据还不能用于药物研发

我们有很多最近的新闻人工智能(ai)和机器学习(ML)在化学(和生物),而且步伐没有放缓。到2020年底,美国的Deepmind-AlphaFold队伍在蛋白质结构预测方面具有巨大改善的头条新闻,从华盛顿大学的Rosettafold团队开始随后随后。现在,两组都宣布在预测蛋白质 - 蛋白质相互作用和所得复合物的结构中宣布的同样令人印象深刻的进展,许多人看到的问题是该领域中的逻辑下一步(和更难的)。

如果你想用你选择的时间机器把这些信息传达给20世纪70年代的研究人员,他们可能会认为,在21世纪20年代初,我们已经学习了大量关于蛋白质折叠、氢键、水分子相互作用的能量学,以及平衡熵能和焓能对第一性原理的贡献。现在,我们对这些东西的了解确实比四五十年前要多,但奇怪的是:我们对它们的了解还不够,不能以它们为基础来预测我们现在拥有的那种异常准确的蛋白质结构。

这一切的一个关键成分是大量的高质量数据

那么他们来自哪里?我们所看到的更像是模式匹配和数据库争吵的胜利。现在,我们通过X射线衍射,NMR和(最近)通过冷冻电子显微镜来分配巨大的实验数据。This gives us the chance (aided by some ingenious and well-honed algorithms) to pick out a variety of structural motifs and their associated amino acid sequences, which lets large parts of protein structural space be filled in by analogy to structures we’ve already determined.

这一切的一个关键因素是大量高质量的数据。用来分类的技术非常棒。但是,如果没有关于蛋白质结构的足够的基本知识,任何算法都无法在这个问题上获得足够的关注。这说明了一个关于信息的重要事实,这个事实可能看起来微不足道,但却变得越来越有趣:你不可能从数据中得到比一开始更多的东西。这可以更正式地表达为关于类似的事情香农熵和算法可压缩性,但一般来说,在与能源和物质的工作类似的工作中存在守恒法。

经典的“垃圾输入,垃圾输出”的计算法则在机器学习中是最适用的

蛋白质的数据集是巨大的、丰富的和详细的,人们可以从中提取有用的预测蛋白质的结构,甚至以前从未想过。所以,如果你想知道下一个惊人的人工智能结果可能来自哪里,那么就去寻找其他数据集,其中包含足够多的黄金,可以从中获利。机器学习技术并不能创造黄金;他们发现它,并找出它最丰富的接缝是如何连接的。正如他们所说,将这些数据库整合在一起并非易事。您需要(自然地)确定的数字,覆盖与您的问题相关的大量空间,并以这样一种方式格式化,以便为软件提供找到所有这些隐藏联系的最快和最有用的方法。没有干净、结构良好的数据,您和您的算法将会有一段非常不愉快的时光。经典的“垃圾输入,垃圾输出”的计算法则在机器学习中是最适用的。

对于蛋白质,你可能会认为下一步强有力的工作是预测新的药物靶点和疾病途径。但这将是一项比结构预测更难的工作(到目前为止,结构预测肯定已经够难的了)。我们根本没有一个精心策划的数据集来展示这项工作所需的知识,而我们所掌握的知识也充满了空白。更复杂的是,其中一些差距是明显的,但也有一些是不可见的。只有当我们更多地了解细胞生物学和生物体作为一个整体时,它们才会变得清晰。这些将是50年后研究人员回顾我们时会感到遗憾的事情。“那些可怜的人!”他们会说。“他们甚至不知道X,也不知道Y,甚至没有人想到Z!”难怪他们过得这么艰难!”

你知道谁会发现这些东西吗?不是我们的AI和ML系统,虽然我相信他们会尽可能帮助。不,这将是我们。就像它总是一样。