包含数千种结构的公开数据集可以帮助化学家开发数据驱动的有机合成反应优化方法

研究人员已经建立了一个由4000种实验衍生的有机催化剂组成的公共数据库。该数据库还包含数千个分子片段和基于实验衍生条目的组合富集结构。该数据库的共同创建者说,它“代表了向具有大量化学多样性的有机催化剂空间的广泛映射迈出的第一步”克Corminboeuf来自瑞士联邦理工学院(EPFL)。研究人员将能够使用有机结构催化剂存储库数据库,即奥斯卡,来训练机器学习模型,并预测新催化剂的性质,EPFL团队成员Simone Gallarati评论道。该团队还希望该数据库能够作为有机化学家设计新催化剂的起点。

显示创建奥斯卡步骤的方案

来源:©Clemence Corminboeuf/EPFL

构建Oscar需要五个步骤,首先是团队从评论、期刊文章、书籍和商业目录中手动收集催化剂(作为2D对象)

在奥斯卡的策划过程中,科明伯夫团队制定了一个收集、分解和重组结构的总体策略,以产生数千种新的化合物。这种基于片段的方法将来自现有催化剂的不同基序与不同的连接剂结合起来,建立了一套以前可能没有经过实验研究的大型结构。罗伯特·佩顿他是美国科罗拉多州立大学的教授,也是计算机辅助合成中心他说,“预测或调查尚未真正合成的结构的能力将是非常令人兴奋的”。

彩色圆点图代表不同的催化剂

来源:©Clemence Corminboeuf/EPFL

奥斯卡涵盖了催化剂空间的广阔区域,具有无与伦比的化学多样性,并包括用于估计催化性能的空间和电子分子描述符的选择

近年来,我们看到了开放科学和数据共享的趋势。虽然一些研究人员担心被抢先,大多数人看到了好处,包括基于新旧数据的见解、交叉验证和透明度.创建广泛的,定制的数据库是必不可少的开发催化领域的数据驱动工具和其他化学领域。因此,为了改善催化化学领域的数据共享,奥斯卡奖的策展人对催化剂的结构和性能进行了研究可以在Materials Cloud上公开使用.帕顿说:“通过获取高质量的数据,整个领域都将加速发展,我认为这就是这个团队所做的。”

随着Oscar现在提供了有机催化剂的构建模块,Corminboeuf说他们“计划将它们与分子生成模型一起使用,特别是遗传算法,以发现具有理想目标特性的新分子”。她补充说:“在这些进化实验中,我们可以找到产生更好、更高效有机催化剂的最佳片段组合。”

EPFL团队表示,他们的数据库不仅有助于在有机合成中建立数据驱动的反应优化方法,而且用于管理它的一般策略将有助于那些建立以前无法使用的数据库的人。