由机器学习精确定位的巨大化学网络中的战略化合物

在搜索了50多万种化合物后,一种算法确定了569种可以推动循环经济的分子,在循环经济中,化学废物可以成为新材料的原料。它们被称为战略分子,是从生物废物(如造纸工业产生的萜烯混合物)到有价值化合物(如药物)的途径中的关键角色。

“目前,如果你有一个废物流,你想生产高价值的终端产品,在制造什么和通过什么途径上有很多不确定性,”解释道嘉娜·玛丽·韦伯来自英国剑桥大学。“人们通常只关注特定的废物原料,然后看看能从中得到什么。或者他们从产品开始,一步一步地,将高价值的最终产品与他们拥有的生物废物联系起来。“然而,这两种方法都需要大量的化学专业知识和计算能力。

显示算法识别出的潜在战略分子的图像

来源:©2019爱思唯尔有限公司

该算法确定了有助于推动循环、无浪费经济的关键战略分子

在算法的帮助下,韦伯,阿列克谢Lapkin而且彼得利奥他们已经确定了569种分子,它们是废物和价值之间的关键连接点。韦伯说:“我们的研究方向是战略性分子,然后从战略性分子出发,经过几个反应步骤,就得到了我们想要的最终产品。”“通过这样做,我们可以将计算时间缩短两个数量级。”

该团队从Reaxys数据库中挖掘了50多万种化合物和近100万种反应,并将它们组合成一个巨大的化学网络。然后,他们让隔离森林算法找到那些在多步反应中具有最多连接和最中心位置的分子。

在战略分子中有许多常见的中间产物,如二氧化碳甲醇、醋酸和苯酚.但也有一些化合物对特定的行业分支很重要,例如过氧化苯甲酰-聚合的自由基起始剂-药物前体piceol超分子的组成部分tetraphenylethylene

匹配人类专业知识

该算法证明了它几乎可以与人类的专业知识相媲美——尽管它不懂任何化学知识。通过简单地按照谷歌对搜索结果进行排名的方式对商品进行排名,它发现了一半被命名为重要组成部分的化合物国家可再生能源实验室的报告

“人类如何识别(重要化合物)的传统方法通常需要大量的知识和经验,而这可能不容易获得,”他说东大张他在英国曼彻斯特大学从事生物过程系统工程和机器学习方面的研究。“这项工作提供了一种更系统、更智能、更自动的方法,在早期研究阶段识别潜在的重要化合物,这是创新的,值得研究。”

虽然该方法可以找到从废物成分到战略分子,再到增值化学品的合成途径,但它还没有评估这些途径在化学上是否可行。韦伯说:“我们工作的关键成果是,我们可以专注于所有可能路线组装的早期工艺开发。”