俄罗斯的研究人员汇集了迄今为止世界上最大的数据集,用于训练深度神经网络模型。该数据集包含约100万个类药物分子的约600万个构象。

从计算的角度来看,人们必须知道诸如构象能和哈密顿矩阵参数等细节,才能在实验室合成一种潜在药物之前很久预测其生物活性。密度泛函理论(DFT)可以用来预测这些参数,但量子化学计算往往是耗时和计算昂贵的。然而,机器学习可以用来降低DFT的计算复杂度。

由于缺乏用于训练机器学习模型的数据集,该团队开始填补这一空白,并最终降低围绕药物化学的计算成本。他们从一个包含10万个分子的436,581种构象的训练集开始,并使用DFT计算它们的构象能量和哈密顿系数。这个训练集明显大于公开可用的深度神经网络模型中使用的数据集。然后,研究人员将原始基于dft的模型的性能与包含不同分子的测试集进行了比较。研究小组指出,在使用更大的数据集进行训练后,这些模型的表现要好得多。

该团队公开了这些代码,以鼓励其他研究人员使用和开发该数据集,他们希望这将有助于未来的量子化学研究。