5000个纳米级实验教会算法如何预测抑制剂存在下的反应结果

棘手的交叉偶联反应的产量现在可以被一个自学如何解决这个棘手问题的计算机程序准确预测。该算法专业知识的关键在于它从数千个小规模反应中训练出来的数据。“最大的目标,这是一小步,是能够在没有实验的情况下预测新底物的反应性能,”解释说阿比盖尔道尔他和默克公司的斯宾塞·德雷尔一起领导了这项工作。

机器学习帮助了科学家探索化学空间寻找新的合成途径而且预测反应结果.然而,产量预测软件仍然经常出错。这是因为数据算法必须处理的——多年来由许多小组收集的反应参数——往往是不一致和不完整的。例如,不起作用的反应通常不会被报道。

为了解决这个问题,美国团队创建了一个定制的数据库,其中包括近5000个Buchwald-Hartwig偶联,这是一种钯催化反应,在碳和氮之间形成键。异恶唑-一种已知抑制交叉偶联的杂环-被添加到每个反应中。尽管有这个额外的困难,普林斯顿-默克公司团队在这些数据上训练的算法可以在很小的范围内正确预测产量,接近实验误差。

因为进行5000个实验需要一个人类化学家数月甚至数年的时间,多伊尔和德雷尔得到了一位科学家的帮助默克公司的高通量平台可以在一天内进行1500纳摩尔的反应。然后用随机森林算法输入3000种反应的结果以及每种试剂的计算参数(如HOMO和LUMO能量)。

机器学习在反应预测中的应用

来源:科学/美国科学促进会

在将5000个交叉耦合实验的数据输入程序后,它能够准确地预测这种反应的产量

森林算法通过构建决策树进行学习。“这些树可以是或否的问题,比如‘如果芳基卤化物的LUMO能量上升,产量会提高吗?Doyle解释道。对于每个问题,程序都会添加一个新的分支;输出是数千棵决策树的平均值。

为了了解算法在获得更多数据时预测精度的变化,该团队仅在230次实验中对其进行了训练。尽管该模型失去了一些预测能力,但通过一项测量,其准确性变化相对较小。“我认为在稀疏数据集上的强大模型表现特别有趣,因为大多数小组都很难筛选超过4600个反应,”他说娜塔莉Fey他是英国布里斯托尔大学的计算化学家。

然而,找出算法预测背后的原因通常仍然具有挑战性。“正如作者自己指出的那样,这些模型可能很难解释,”菲说。她补充说,虽然这种“黑盒”方法“如果重点是使反应起作用,可能很好,但从学术上讲,它是不令人满意的”。

尽管如此,“结果真的很有希望”,他说安娜Gambin他是波兰华沙大学的计算分子生物学家。“这篇论文的重要信息是,假设有足够的预测因子,反应效率的分类是可行的。”

该团队希望教会他们的算法如何处理结构更复杂的化合物。道尔指出:“我们研究中的基底都是平的。”“当你研究三维结构时,在描述基材之间的差异方面将面临额外的挑战。”