科学家们使用谷歌设计的机器学习软件开发了第一个将化学结构转换为Iupac名称的开源工具。

自1919年成立以来,国际纯粹与应用化学联合会(Iupac)一直维持着一套化合物命名系统。然而,在过去的几十年里,出现了其他更便于计算机处理的识别化学结构的系统。简化分子输入线输入系统(Smiles)用直线符号描述化学结构,例如,丁烷-2-醇被写成CCC(C)O

但是Iupac命名法并没有消失,因为它是人类最容易理解的命名法,所以它继续在教学、化学期刊和专利中流行。但是没有开源工具可以在Smiles之间进行转换符号和Iupac名称。ChemDraw等程序已经包含了结构到名称的算法,但这些算法不能免费访问,也不能使用Smiles作为输入。

谷歌最近开发了人工神经网络来改善自然语言的翻译,称为Transformer。俄罗斯科学家在此基础上进行了生产一个程序该软件将Smiles字符串和结构图转换为Iupac名称,反之亦然。

显示大型化学结构的图像。不同的部分用不同的颜色圈出,以显示对命名很重要的各个功能组。下面写着两个长长的名字

来源:©Lev Krasnov et al 2021

根据Iupac的命名法,这个分子有四个名字——神经网络找到了所有的名字

PubChem有近1亿种不同的分子结构,该团队用它们来训练和测试程序。然后,随机选择10万个这样的分子来验证算法。

当一个分子可能有多个Iupac名称时,该软件可以识别出来,这在大型和高度功能化的结构中经常出现。然而,它确实很难处理非常小的分子,即甲烷,有时会漏掉一些非常大的化合物。总的来说,将Smiles结构转换为Iupac名称时,准确率为98.9%。