“互联网是现存唯一可与之媲美的网络,”来自美国科学院的Bartosz Grzybowski说蔚山国立科学技术院美国、韩国和波兰科学院。他说的是Chematica——一个绘制已知化学宇宙中数百万分子和反应的计算机网络。有机合成化学家质疑Chematica是否预示着合成计划的新时代,但Grzybowski确信,这样的软件将是制造分子不可或缺的工具。

“计算机能想出有效的合成方法吗?””问Varinder Aggarwal他是英国布里斯托尔大学有机合成方面的专家。他说,一旦它接近于这样做,那就是一个巨大的突破。

用简单的积木制造复杂的产品,无论是重磅药物还是DNA碱基,都是一场战斗。研究人员通常必须根据记忆回忆反应或机制,并查阅文献来制定综合方案。即使到那时,也不能保证它会起作用,这条道路上往往充斥着低产量、不断上升的成本和不存在的化学品。

研究人员的记忆力是综合计划的关键资产,但它很脆弱。Grzybowski评论道:“在一年不使用特定的反应后,你会不断忘记Pictet-Spengler环化,不管它是什么。”“这些知识会随着时间的流逝而消失。”

化学越野识途比赛

Chematica就是在这种挫折中诞生的。在过去的15年里,Grzybowski和他的同事已经手动输入了大约1000万种物质的信息,以及将它们连接到一个复杂的软件中的反应。1他解释说:“这就像一个机场网络。”你有枢纽,你有连接。”

这种网络布局使Chematica的算法能够快速搜索路径,而且只需筛选数据库或列表所需时间的一小部分。这类似于人类如何规划旅程——例如,在伦敦地铁地图上绘制路线,比在所有车站连接列表中搜索要容易得多。

Chematica软件的截图

来源:Wiley-VCH

Chematica的成本优化路线的药物伐地那非确定了跨越半个世纪的合成反应

化学家可以将他们的目的地(目标分子)输入Chematica,并根据成本、底物流行度或可用性和步骤数搜索任意数量的火车线路(路径)——所有这些都在几秒钟内完成。每一步,以及它所产生的产物,都根据两个方程给出一个分数:反应和化学评分函数。反应评分函数(RSF)将惩罚一个移动,如果所涉及的化学很难进行。但是化学评分函数(CSF)将根据分子的简单性和是否为已知结构进行评分——CSF评分越高,该途径越有吸引力。

这些评分函数允许Chematica调查不同的路径,如果它们产生不理想的结果,则将其废弃,并转向下一个可能的路径。然而,路线延伸得越长,可能性就越多。在目标分子的5个步骤内,可能的路径数量可以增长到10个数量级20.

你的一举一动

Grzybowski表示,人们很容易将这种高强度的计算技巧与计算机在国际象棋或围棋中击败人类的方式相提并论,但这是一个有缺陷的类比。他说:“如果你下国际象棋,一旦你在棋盘上有了特定的棋子排列,你就不会回头。”“你只是向前看。”

化学提出了一个更大的问题,Grzybowski将综合规划比作国际象棋和魔方的结合:“位置是你走了多少步,以及这些步骤是否是必需的,因为不是每一步都是相等的。“但如果你想要合成一种文献中找不到的完全未知的产品呢?”这样的计算需要高质量的数据,根据以前的情况来计算可能有点太过了理查德•惠特比,他领导了“Dial-a-molecule”网络这是一个评估化学自动化的方案。

过去的反合成努力,如ARChem而且SynChem因为软件自动起草化学规则而遭受痛苦Reaxys-已知化学文献数据库。惠特比说:“这些数据充满了错误和不足。”这些都被推而广之,以致于arch和SynChem公司提出的很多建议都非常愚蠢。”

“人们开始认为机器学习可以做到这一点:‘我去Reaxys,以某种方式自动提取反应规则’,”Grzybowski哀叹道。“你必须教计算机更多东西——你必须教它反应冲突、保护化学、哪些基团与反应类型不相容等等。”

惠特比接着解释说,另一个由E J Corey在20世纪70年代开发的应用于综合分析的逻辑和启发式程序采用了不同的方法。2他说:“这些规则……是有机化学家用他们的化学知识写的。”

虽然拉萨是一个重要的时刻,但它所能取得的成就是有限的。根据Grzybowski的说法,解决问题所需的规则数量超过了科里的团队可以手动输入的数量。他解释说:“科里有300条(规则),而不是3万条,而且没有人愿意手工编码。”这就是为什么有些人一开始就选择了机器学习路线。

危在旦夕

但是Grzybowski重新考虑了这个想法,通过手工工作来塑造一个自动化平台,在瓷器店里放了另一头公牛:Syntaurus。3.在过去的十年里,Grzybowski的团队在软件中手动编码了超过2万个化学规则。这些反应规则解释了不相容的基团,保护化学,甚至键角和长度的微小差异。

epicolactone

Syntaurus在几个小时内就找到了合成表内酯的途径

考虑到该团队不能依靠机器学习来生产Syntaurus,这是一个令人生畏的挑战。Grzybowski说:“你会意识到,要么艰难地去做,要么干脆不做。”“到目前为止,化学的规则基础比大英百科全书要大得多。”

在他们最近的研究中,Grzybowski的团队已经证明了Syntaurus的潜力。该项目已经完成了对表内酯的全合成,表内酯是2012年从一种植物真菌中分离出来的一种复杂的天然产物。合成化学家花了近三年的时间来设计出一种合理的生物合成途径。Syntaurus在几个小时内计算出了相似的路径。

共产主义的信仰

然而,对于所有这些证明,对Chematica和Syntaurus仍有相当多的怀疑。阿加瓦尔说:“我认为下一步是让计算机合成一种相对复杂的分子,然后在实验室里进行演示。”“如果你能在一个相对复杂的分子上做到这一点,并且诚实地对待它,那么我认为你已经有所收获。”

对惠特比来说,看到它的实际运行将是最终的考验。他说:“如果他真的生产出Chematica,可能会产生良好、合理的结果。”“如果我们真的能使用它,我们都会更有信心。”

但是Grzybowski声称Syntaurus已经接受了阿加瓦尔的挑战,并且取得了成功。尽管他对这个话题守口如瓶,但他的团队表示,他们制定了一种畅销药物的最短、最便宜的合成方法,并在实验室中成功地进行了实验。

Syntaurus的真正价值还有待观察,但利用计算机内存来保存我们自己的内存并促进新的化学可能是前进的方向。惠特比说:“如果有人在设计一种新药或材料,你可以找出你真正想要的分子……然后化学家可以在几周内做出来。”当它运作良好时,它将是革命性的。

更正:8月10日,一份报价因技术错误而更新