区块链是捍卫科学的新范式,还是仅仅束缚了我们的手脚?

1957年,Berni Alder和Tom Wainwright首次报告了分子动力学计算,使用了当时相对较新的“电子计算机”技术。1在一台笨重的Univac机器上,他们以每小时300次碰撞的速度进行计算。那时,人们对用电子计算机建模的前景持悲观态度是可以被原谅的。但这是一项开创性的工作,奠定了现代分子动力学的基础。

最近的一项研究可能会出现类似的悲观情绪亚历山大·阿什莫尔和马格努斯·汉森-海涅。与之前的阿尔德和温赖特一样,阿什莫尔和汉森-海涅首次实现了突破性的突破,他们使用了一种与20世纪50年代的Univac一样新颖、一样慢的计算机:以太坊区块链。2他们以0.1秒为增量,总共使用了400个时间步,模拟了一氧化碳分子超过40秒的振动。与现代计算系统相比数以亿计的原子在纳秒的时间尺度上在美国,安石和汉森-海涅研究中的数据至少看起来并不令人印象深刻。那么,为什么认为它具有开创性呢?

最近的一项研究可能会出现类似的悲观情绪亚历山大·阿什莫尔和马格努斯·汉森-海涅。与之前的Alder和Wainwright一样,Ashmore和Hanson-Heine首次实现了一项突破性的成就,他们使用了一种与20世纪50年代的UNIVAC一样新、一样慢的计算机:以太坊区块链。2他们以0.1秒为增量,总共使用了400个时间步,模拟了一氧化碳分子超过40秒的振动。与现代计算系统相比数以亿计的原子在纳秒的时间尺度上manbetx手机客户端3.0, 2020年6月,pXX),至少可以说,安石和汉森-海涅的研究中的数字看起来并不令人印象深刻。那么,为什么认为它具有开创性呢?

永远不要打破链条

术语“区块链技术”宽泛地指的是可以协作维护数据库或执行计算的计算机网络,而不需要中央管理员。这个想法最初是由中本聪在他的数字货币中提出的,比特币.当时,中本聪将允许的计算限制在被认为对金融交易有用的简单命令上,但几年后,加拿大科学家维塔利克·布特林(Vitalik Buterin)开发出了Ethereum,它没有这样的限制(用计算机理论的语言来说,它是“图灵完备”)。

以太坊区块链因此能够作为一个大型的、大规模的分布式计算机,由:没有特定的人拥有、管理和操作。这种去中心化管理的直接结果是,一旦数据上传到网络,任何人都没有能力删除或修改数据——这一特性通常被称为不可变性。因此,对信息审查、数据篡改、甚至只是丢失数据的担忧可以通过使用区块链来缓解。这使得它对各种各样的应用程序具有吸引力,这些应用程序中的数据既非常重要,但也有潜在的争议(例如,专利、土地所有权、医疗记录、碳信用和供应链)。

可以想象,未来化学界要求所有模拟都使用区块链

对于计算化学家来说,区块链技术有几个优点。首先,它在再现性方面提供了无与伦比的改进:不仅Ashmore和Hanson-Heine开发的模拟代码和他们的结果数据是公开的永远,但他们用来运行代码的硬件也将是相同的永远.计算化学界的很多人都知道,几十年前编写的代码在现在已经过时或根本不存在的硬件上运行的程序,在原则上比在实践中更具可重复性。其次,由于上传到区块链的计算和数据都有时间戳,如果所有各方都使用区块链,就没有谁先执行模拟的争论。一个密切相关的好处是,人们对模型对实验现象的预测更加信任;稳健的时间戳可以清楚地表明是实验结果先出现,还是“预测”先出现。最后,当科学数据成为气候变化等有争议的政治问题的焦点时,区块链可以作为信息的避风港,这些信息可能会在其他地方被审查或删除。

对于计算化学家来说,区块链技术有几个优点。首先,它在再现性方面提供了无与伦比的改进:不仅Ashmore和Hanson-Heine开发的模拟代码和他们的结果数据是公开的永远,但他们用来运行代码的硬件也将是相同的永远.计算化学界的很多人都知道,几十年前编写的代码,在现在已经过时或根本不存在的硬件上运行,在原则上比在实践中更具可重复性(见p10)。其次,由于上传到区块链的计算和数据都有时间戳,如果所有各方都使用区块链,就没有谁先执行模拟的争论。一个密切相关的好处是,人们对模型对实验现象的预测更加信任;稳健的时间戳可以清楚地表明是实验结果先出现,还是“预测”先出现。最后,当科学数据成为气候变化等有争议的政治问题的焦点时,区块链可以作为信息的避风港,这些信息可能会在其他地方被审查或删除。

链式法则?

然而,我们离化学中的常规区块链计算还有很长的路要走,因为这些好处伴随着一些重大的代价。首先,以太坊虚拟计算机比传统计算机慢了许多个数量级(与传统分布式计算系统相比,这种比较更加明显)。尽管区块链技术的改进可能会显著提高它的速度,但它总是比传统计算机慢。这是因为区块链中的分布式计算机必须复制每个计算,而不是像传统的分布式网络那样在它们之间分担工作负载。这种冗余对区块链的可靠性和鲁棒性至关重要,但也是对其效率的基本限制。

还有一个问题是,这种彻底的透明度是否甚至是需要的——考虑到包含错误和拼写错误的模拟代码一旦上传到区块链就不能修改。我们的学术文化需要变得更加宽容人类的错误,否则社会就会陷入一种范式,让我们的基本错误永远被展示出来。

然而,我们离化学中的常规区块链计算还有很长的路要走,因为这些好处伴随着一些重大的代价。首先,以太坊虚拟计算机比传统计算机慢了许多个数量级。尽管区块链技术的改进可能会显著提高其速度,但它总是比传统计算机慢,因为以太坊和其他区块链中的分布式计算机必须各自复制,而不是共享工作负载每一个计算。这种大规模冗余复制对区块链的可靠性和鲁棒性至关重要,但也是其效率的基本限制。还有一个问题是,这种彻底的透明度是否甚至是需要的——考虑到包含错误和拼写错误的模拟代码一旦上传到区块链就不能修改。我们的学术文化需要变得更加宽容人类的错误,否则社会就会陷入一种范式,让我们的基本错误永远被展示出来。

区块链也可能是解决我们问题的一种不必要的复杂解决方案。例如,遗留代码和可再现性问题可以通过许多其他解决方案来解决。如今,软件工程师竭尽全力确保代码即使在不同的硬件上也是可复制的,而云基础设施的出现——可以根据需要立即调用不同的计算硬件——加速了这一趋势。此外,软件“容器化”方法可以打包代码,这样应用程序就可以在任何计算环境中可靠地运行,就像集装箱从运输方式中抽象出要运输的东西一样。

阿什莫尔和汉森-海涅的动机是科学界的“复制危机”,他们引用了一项元分析,该分析表明“大约2%的被调查科学家承认至少一次捏造、伪造或修改数据或结果”。3.通过使追溯篡改不可行,并以其他方式提高可重复性,区块链有望至少在某些方面帮助解决这场危机。然而,最终,任何解决复制危机的方案都需要文化转变。

尽管如此,人们可以想象,在经历了太多的丑闻之后,化学界和我们发表的期刊要求所有数据和模拟都使用区块链,就像今天我们将新的化合物上传到数据库一样。也许安石和汉森-海涅已经开始了最终可能成为计算科学的新标准。

克里斯威尔默Daniel Salmon是美国匹兹堡大学的一名研究生