Andy exance发现,基于机器学习的系统有望超越专家引导的反应计划技术

1997年,当IBM的“深蓝”超级计算机击败国际象棋世界冠军加里·卡斯帕罗夫(Garry Kasparov)时,很少有化学家意识到这可能也意味着他们的胜利。但是Bartosz Grzybowski做到了。当时他是美国哈佛大学(Harvard University)的一名博士生,除了化学,他还热衷于玩桥牌游戏。Grzybowski的对手对深蓝这样的算法很感兴趣。“我开始思考,为什么分子不能这样做?他回忆道。特别是,类似的算法是否有助于规划制造目标分子的策略,化学家称之为逆合成。

计算机辅助的反合成以前也有过尝试,最著名的是诺贝尔奖得主、有机化学家E J科里。然而,这些尝试受到了挑战规模的限制。“我甚至去找了一位非常著名的化学家,他告诉我‘这是不可能的’,”Grzybowski说。但他并没有被吓倒。

Grzybowski在成立了自己的研究小组后,一直坚持这个想法,他们在2005年开始将化学合成描述为网络。首先,他们研究了以前的化学反应,通过一系列统计定律来描述化学家如何制造有机分子.到2012年,他们引入了评分函数来评估和优化现有的合成,参考了精细化学品供应商Sigma-Aldrich的起始材料,称他们的工具为Chematica。但Grzybowski希望算法能够使用化学文献中前所未有的步骤来改进合成路线,就像深蓝在全新的游戏中寻找最佳的国际象棋走法一样。

然而公布的化学实验细节可能存在问题。有很多错误,他们偏向于简单和成功的实验。因此,在2010年左右,Grzybowski和同事们做出了一个关键决定:手动编写描述反应机制类的规则,包括与它们不兼容且必须受到保护的官能团。Grzybowski的团队来自波兰科学院发表了第一个路径Chematica在2016年从零开始发现的。但直到2020年,他们才宣布战胜了他们著名的化学家怀疑论者,当时Chematica公司生产出了复杂的天然产品。

有机化学不仅仅是记忆规则,它还需要学习其中的微妙之处

随着这个故事的展开,2017年,拥有Sigma-Aldrich业务的德国化学巨头默克公司,收购了Chematica并重新命名为Synthia.在对西格玛-奥尔德里奇想要制造的7种化合物进行了自动反合成测试后,该公司决定这样做。“在三天的时间里,我们上了一堂如何使用它的速成课,”现在担任Synthia销售和市场经理的林赛•里克肖瑟(Lindsey Rickershauser)解释说。“我们有相关规定,这样我们就能模拟科学家和化学家所处的压力。辛西亚发现了每一种情况新的合成路线,全新的产品,增加了实验获得的产量,降低了成本和/或减少了所需的合成步骤数。

现在是默克公司的一部分,Synthia包含了超过10万个手工编码的规则每一个都需要很长时间的搜索,可能需要几周的时间。Rickershauser说,光是对默克集团的潜在价值就足以让这项投资物有所值。然而今天,其他地方的化学家也可以获得许可,20家最大的制药公司中有10家都在使用它,里克肖瑟补充道。里克肖泽评论说:“大多数使用Synthia的化学家,他们不一定会从软件中提取出完整的路径来从头到尾执行。”“他们找到了以前从未想过的灵感和联系。”

然而辛西亚现在面临着许多挑战。

限制检查

在2014年,Marwin赛格勒在德国Münster大学攻读博士学位期间,他从一个略微不同的方向研究了自动反合成。他试图避免专家教授逆合成算法有机化学规则。相反,塞格勒转向了机器学习。传统上,单纯基于规则的模式匹配技术被提议用来自动教授计算机化学,但对于逆向合成来说,这种技术并不能很好地发挥作用。但塞格勒采用了更适合化学挑战的新技术。Segler说:“我们发现,将机器学习应用于逆合成的效果非常好,解决了一些长期存在的挑战。”直观上,这是有道理的。有机化学不仅仅是记忆规则,它还需要从实验数据中学习其微妙之处。”

这项工作后来被证明具有影响力,其他组织也采取了类似的方法。像Segler这样的科学家,目前在英国剑桥的微软研究院工作,正在寻求开发一种无需专家指导就能完成Synthia功能的系统。他们超越了逆合成,挑战可能会困扰人类化学家。从回顾过去到找出如何制造目标分子,他们已经在展望未来并预测反应结果。

该算法产生的逆合成与人类产生的难以区分

Segler还将逆向合成比作国际象棋。最长的国际象棋比赛是269步,但每一步的选择相对较少。逆合成——从你想要制造的最终产物开始,通过多次反应反推到起始材料——在这两点上都是不同的。20步,或中间步骤,对于大多数逆合成来说太长了,但在每一步可能有数千条潜在的合成路线。机器学习包括通过向神经网络输入数据来教授它。Segler的算法首先从Reaxys数据库中的数百万个反应中学习了化学反应的规则。然后,为了进行逆向合成,它会搜索已经学过的步骤。作为理论化学家,Münster团队在测试这种方法的效果如何时面临着一个实际问题。他们不能简单地尝试建议的路线,那么他们能做什么呢?

答案来自计算机领域的先驱之一:艾伦·图灵。图灵提出了一个著名的测试,通过与真人对话来判断计算机是否能够像人一样思考。在这种情况下,Münster科学家测试人类化学家是否能分辨出反合成是否由计算机产生。Segler说:“如果你看一下2000年以来的评论论文,你总是会受到批评,认为你从这种体系中得到了很多不合理的途径,而这些对于专业的有机化学家来说是很容易发现的。”Münster团队的算法生成的一些典型药物化学靶标的逆向合成与人类合成的靶标难以区分。塞格勒说:“这令人惊讶。

在瑞典哥德堡制药巨头阿斯利康工作的埃斯本·比杰鲁姆表示,2018年,Münster团队的研究发表后,“激发了人们对自动反合成的新兴趣”。不久之后,他加入了该公司,由于最初的系统并不是免费提供的,他与同事塞缪尔·根海登和博士生阿莫尔·塔卡尔合作开发了一个。他们称自己的版本为AiZynthFinder, Bjerrum强调了的优势公开可用的源代码

Bjerrum说:“我们也看到了RetroBioCat的集成,这是一种旨在预测生物转化的工具,但使用AiZynthFinder的标准反应作为替代方案。”我们正在开发的工具已经可以使用了。但是,我们将继续努力改进它们。一个日本人推特机器人还使用AiZynthFinder转发预测合成路线,如果你发送一个Smile字符串格式的结构。

化学方面的出版物呈指数级增长。很难想象长期保持下去。

AiZynthFinder还被集成到美国麻省理工学院开发的基于知识的连续有机合成自动化系统(ASKCOS)的一个版本中。麻省理工学院的康纳·科利(Connor Coley)说,ASKCOS是2016年美国国防部高级研究计划局(darpa)资助的“制造”(making - it)项目的产物,它既关注自动逆向合成的方法,也关注结果。他说:“我们处理这个问题的方式与那些更靠专家驱动的系统有很大不同。”“我们的目标是相同的,即能够获得更大的化学空间,使合成新结构更快、更便宜、更容易,或者提出更好的方法来合成旧结构。”但接下来就是要了解技术的局限性,改进我们用来处理、描述有机反应实验数据并从中学习的算法和计算方法。”

比例模型

ASKCOS是药物发现和合成的机器学习由麻省理工学院领导,15家制药公司参与。2019年,该联盟发布了一份论文将ASKCOS集成到自动化机器人合成中揭示了它的能力和局限性。科利补充说,机器学习面临的一个根本挑战是,从有错误和大缺口的嘈杂数据中进行泛化。他说:“当然,人类可以进行推断,并写下我们认为的规则和反应范围。”“我们正在试图通过数据来推断这一点。这一点很重要,因为Coley看到了一些场景,在这些场景中,自动化推理将比人工推理更快、更可扩展。他说:“化学领域的出版物呈指数级增长。”很难想象长期保持下去。”

对于很少使用的反应,通常没有足够的数据来建立可靠的模型

一些研究人员使用机器学习技术来预测哪些反应会起作用,包括它们的条件,并有可能设计出全新的反应类别。同样,他们正在从重复过去的国际象棋走法转向发明全新的走法。对于这种应用,“在某些方面,专家系统的部署可能会比逆向合成更加繁琐”,Coley说。

Bjerrum谨慎地回应了这一观点。他说:“天平可能会从基于规则的专家系统向能够更好地适应不断增长的数据量的方法倾斜。”然而,他指出,数据通常需要“大量的管理和清理,才能用于深度学习”。Bjerrum说:“对于很少使用的反应,通常没有足够的数据来建立可靠的模型,在这方面,基于规则的系统有一个优势,因为它可以在化学背景的知识中构建。”“但是为什么不合并呢?”我很想尝试深度学习和Chematica使用的手工模板。”

从阿斯利康的角度来看,Bjerrum并不认为化学家普遍使用自动逆合成工具,他们更喜欢自己的经验和知识。他说:“我们需要更多地认识到自动化逆合成工具的好处和易用性。”“这些工具拥有数以百万计的反应的知识库,并可以自动搜索现有库存的全面概况。”因此,使用我们工具的化学家可以很好地了解给定目标分子的潜在反应和构建模块,即使预测的路线可能不包含最终使用的确切路线。”

然而,今年,正是深蓝的开发商IBM在自学系统方面迈出了重大步伐。自2017年以来,该公司已经机器学习在化学中的应用使用类似于自动翻译的技术。通过对化学专利数据进行算法训练,IBM可以自动提取反应规则,然后从反应物中预测反应结果。结果是RXN表示化学2018年可在线使用工具。2019年,该公司将这些模型与其他算法结合起来进行逆向合成。IBM的Alessandra Toniato解释说,RXN使用反应预测算法来帮助评估反合成结果,检查所提议的路线是否会产生目标分子。

这可以自动清理脏数据集,如模型努力学习反应包含不正确的元素。IBM指示模型观察难以学习的反应,并将其从原始数据集中删除。托尼亚托说:“我们做的一个有趣的实验是采用更清晰的数据集,并引入一些噪音。”“把随机的分子放在不应该出现的地方,用相似的产物取代正确的产物。而这个模型,通过应用这种无辅助技术,真的能够检测到这种噪音。”

业绩压力

2020年,IBM扩展了在机器人上自动和远程合成分子的方法。它创建了一个操作数据集比如从70万条反应记录中提取液-液过滤。IBM的阿兰·沃彻(Alain Vaucher)解释说,研究人员随后使用这些记录来训练一个新的机器学习模型,“将一个化学方程转化为一系列步骤,原则上可以直接在RoboRXN机器人上执行”。该系统目前是免费使用的,团队负责人Teodoro Laino补充道。他说,每个人都可以使用机器人的模拟器。“如果你想访问真正的硬件,那么你需要我们提供的密钥。如果你喜欢它,也可以在你的房子里安装一个类似的装置。”

沃彻说,到目前为止,RXN共有2.6万名用户,他们一共做出了370万次反应预测。IBM用它来开发新的碳捕获和半导体制造材料。在英国,钻石光源同步加速器将于2021年上半年开始使用RXN的模型和自己的机器人。

没有什么灵丹妙药

莱诺承认,完全基于机器学习的逆向合成工具在性能上落后于Synthia。他说:“Synthia建立在大量文献和数据源的基础上。”“有机化学家的表现,实际上是数据集中知识的结果。但现在IBM准备与一家欧洲出版商合作,用高质量的化学数据来训练模型。莱诺说,这将是一个更加公平的比较。高质量的数据和无监督的规则提取将使IBM“在短短几天内复制Synthia”,Laino补充道。

Grzybowski对专门使用机器学习的系统的前景持怀疑态度,称这种想法“不太可能,因为文献是如此嘈杂,而且在很大程度上是由简单的反应类型主导的”。然而,几个团队,首先赛格勒的而且绿青鳕的,后来也Grzybowski的,已经显示出机器学习和基于规则的专家系统之间的协同作用。Grzybowski说:“没有单一的灵丹妙药。“是的,人工智能在其中有一席之地,但机械知识、量子力学、分子力学也有一席之地。他总结说,归根结底,哪种技术最擅长逆合成是次要的。“我不想被某个流行语所束缚,我想解决问题。”

安迪·Extance是一位生活在英国埃克塞特的科学作家