当我们试图在化学方面训练机器时,发表负面结果比以往任何时候都更重要

典型的疯狂科学家

来源:©Colin Elgie/Ikon Images

不幸的是,发明家每次都顺利地发明出所需的发明,这种情况只存在于科幻小说中

在化学、药物研发以及一般的科学领域,我们都存在负数据问题。我指的是报告那些失败的实验结果。对这种想法的一个直接反应总是“谁想听这些?”,但人数比你想象的要多。现在越来越明显的是,不仅仅是人们需要听到这些事情。

总是有一种观点认为,报告这样的结果仅仅是出于知识上的诚实。毕竟,在科学史上,从来没有一个研究项目从成功到成功的过程是顺利而完美的,每个人都能立即理解每个实验的教训,并继续走向下一个胜利。这只会发生在老式的“爱迪生时代”(edidisoniade)类型的低俗杂志故事中,在那里,才华横溢、富有创造力的发明家通过一个又一个惊人的新发现推进情节(并击败他们邪恶的敌人!)作为一名科学家,现实生活中明显缺乏这种经验。老实说,首先,我从来没有任何邪恶的敌人需要打败。

从来没有一个研究项目从成功走向成功,每个人都能立即理解每个实验的教训,并走向下一个成功

不,真正的研究项目会走错误的弯路,有难以或不可能重现的结果,而且回想起来所花费的时间似乎比任何人最初想象的要长得多。可以理解的是,人们不想在期刊上强调这类事情,但不幸的结果是,我们的工作听起来很像20世纪30年代的科幻小说故事。如果你太过努力地避免显得尴尬,你最终会看起来很可笑。的确,“命中注定,我们最终的临床候选化合物与最初的化合物只差了一个甲基”,这并不是一个鼓舞人心的故事(尽管我有过这样的经历!)但每个领域都能产生这样的故事。这并不是说你只是在项目的最后才得到这个结果——更有可能的是,当你在早期就得到了一个好的结果,但花了几个月的时间才发现无论你做什么尝试,你似乎都无法改善它。这不是耻辱!

即使对于那些成功之路不那么艰难的项目来说,用一系列不活跃的化合物或被放弃的实验来加长手稿仍然会让人感觉有点奇怪。作为一个实际的问题。如果尝试这样做,可能会遇到日志页长要求的麻烦,尽管补充材料对他们来说是个好地方.我一直很欣赏至少提到“尽管无数次尝试……”或“即使经过了广泛的实验……”,因为这让我更加相信论文的其余部分。但我们需要更进一步。

撇开知识诚实不谈(我一直想以这种方式开始一段话!),有一个非常合理的科学理由让负面结果可见并详细。它们确实有价值,而且随着机器学习(ML)技术的出现,这种价值只会变得更加明显。一个好的ML模型的开发绝对需要负面结果,并且它们需要在与正面结果相同的严格程度上生成。事实上,将这些技术应用于现有科学文献的一个大问题是系统地遗漏了失败的实验。人们担心(这是理所当然的)大量的文献不能被复制,但是那些根本没有出版的作品的损失,那些被刻意删减以使一切看起来更好的作品,是我们许多人现在才开始感激的事情。

有人试图建立数据存储库,甚至是真正的期刊,强调负面结果,但据我所知,这些都失败了。与其把他们隔离在自己的科学孤岛上,我认为更好的方法是现实一点,把失败视为科学的自然组成部分。既然我们现在都是电子出版,我想要一个编辑控制,标记每一份低于给定阈值的负面结果内容的手稿,并将其发送给研究人员。这对我们有好处。