研究人员说,能够预测反应收率的机器学习算法仍然难以捉摸,因为化学家倾向于将低收率反应埋在实验室笔记本上,而不是发表它们。“我们有这样的印象,失败的实验就是糟糕的实验,”他说Felix Strieth-Kalthoff.“但它们包含知识,包含对人类和人工智能都有价值的信息。”

来自加拿大多伦多大学的Strieth-Kalthoff和他的团队弗兰克Glorius德国Münster大学的研究人员要求化学家在论文中不仅包括他们最好的结果,也包括他们最差的结果。这一点,以及无偏倚的试剂选择和以标准化格式报告实验程序,将允许研究人员最终创建产量预测算法。

逆向合成已经在使用机器学习模型创造更短、更便宜或非专有的合成路线。但这种情况很少试图创建预测产量的程序.其中大多数都要求研究人员首先生成一个自定义的高通量实验数据集。

Strieth-Kalthoff说:“当然,最理想的情况是……我们只是利用现有的数据,即文献中的数据。”但是对于像Buchwald-Hartwig aminations和Suzuki coupling这样的流行反应,这样做产生的算法是如此不准确,“我们几乎可以只是猜测训练分布的平均[产量]”。

该团队表明,尽管机器学习算法对实验错误(比如由于规模而导致的产量波动)相当稳健,但它们深受人类偏见的影响。“整个化学领域和反应条件的领域非常广泛,但我们总是倾向于做同样的事情,”斯特里eth- kalthoff说。哪些化学品是最便宜和最容易获得的,这进一步加强了这一点。但我们发现的更重要的因素是,我们没有报告我们所有的实验结果。

复利计算错误

研究人员在高通量反应数据集上训练了一种算法。当他们删除了许多低产量的例子时,与使用整个未更改的数据集相比,AI的产量预测误差增加了50%以上。当将训练数据偏向于只使用特定的试剂组合时,误差增加了30%。当该团队故意将实验误差引入数据集的产量时,预测误差保持在10%以下。

添加假阴性数据——以0%收率分配的随机试剂组合——实际上提高了算法的预测精度。Strieth-Kalthoff解释说:“我们不知道(这些反应)的真实收率是多少,我们很可能引入了一些小错误,但这种策略实际上显示出了一点希望。”但在目前阶段,我不认为这是解决方案,而是强调了负面数据的重要性。

“当我们考虑将现有的反应数据用于不同类型的机器学习来完成预测化学任务时,这是一种很好的方式,可以让我们意识到应该考虑的不同因素,”他说康纳绿青鳕他在美国麻省理工学院从事计算机辅助化学发现的工作。数据限制带来的问题在机器学习社区是众所周知的。但随着越来越多具有实验背景的化学家开始使用人工智能工具,“我认为确保这些主题得到思考是件好事”。

“我认为,更广泛地说,在文献中,我不会说(省略低产反应)是唯一的问题,甚至不一定是主要的限制,”科利指出。他说,一个大问题是,文献数据通常是缺失信息或隐藏在文本文档中。诸如添加试剂的顺序或混合物是否搅拌等因素可能是至关重要的。

提高标准

以标准化的格式报告所有这些细节,不仅对计算机有帮助,对人类化学家也有帮助。科利说:“我想很多人可能已经浪费了几个小时或几天的时间,试图复制他们在论文中读到的反应。”后来才发现,像用烤箱烘干烧瓶这样简单的事情就能改变一切。

去年,科利所在的团队创建了开放反应数据库.这种开放存取的存储库允许以结构化的、机器可读的方式捕获有机反应数据。科利说,虽然这是朝着解决数据共享的技术障碍迈出的一步,但也有文化障碍。“我们必须改变人们选择报告数据的方式,使用这些更结构化的格式,并愿意分享他们认为是负面的例子。”

有很好的理由不报告一些失败的实验:例如,它们可能是一个新项目的开始,你不想被抢先报道。但是Strieth-Kalthoff说,省略所有0%收率的反应可能只会让其他化学家不必要地重复努力。

科利说,有时很难确定反应失败是因为设置错误还是因为固有的反应性。“自动化、高通量实验、程序标准化都将有助于实现这一目标。”

自动化与人工智能的结合还将减轻实验室工作中的一些苦差事。斯特里eth- kalthoff笑着说:“在方法开发中,我最讨厌的就是坐在天平前,称出第40种催化剂来尝试。”“如果我们有机器人自动化系统来做这件事,那么化学家就可以更专注于更高层次的任务,比如引导模型走向正确的方向,找到正确的研究问题。”