Kai Kohlhoff讨论做科学与分布式计算的承诺和陷阱

云计算是在上升。云服务已经很经常用于合作研究分享文档、文件和结果。然而,在大多数情况下,计算化学和结构生物学的研究仍在进行现场或在专用的超级计算中心、数据集是不容易与世界共享。这是一定会改变,最近有很多的讨论保存共享数据

融合图像除

然而,云可以远远超过一个文件柜——它允许分布式团队协作共享数据集,提高透明度和重现性,并提供一个全球平台评估结果。云准备大规模科学计算。我们是吗?

的思考

云计算的计算能力是强大的,它已经推动的边界具有挑战性的计算问题。最近我和我的同事模仿2肾上腺素能受体蛋白分子动力学的女士ß2AR,超过了此前的记录在一个专用的计算机通过一个数量级。1

但首先,一些谨慎的话语。有一个陡峭的学习曲线,所以准备好适应和迭代。经过数周的编写脚本的运行模拟,我把这一切——扩展了数以万计的程序简单地失败了。我的第二次尝试是擅长产生巨大的数据集,但分析管道还没有准备好。

不要被规模——更多的数据意味着小没有明确和正确的分析问题。拟合和有趣的论文指导基因组学研究领域,2作者用漫画来在高通量基因组学代表陷阱。农夫,收成数据不管它的实用性,淘金者寻找难以捉摸的金块在一个数据集。相同的警告也适用于工作在云中:声音计划可以防止资源浪费,在阻止早期错误放大和监控。

基因组学说明了云的另一个警告:支持在深度广度。在世纪之交,解码一个基因序列可能需要数年时间,并获得博士学位,提供时间反思基因的特性。高通量测序的焦点从基因到基因,揭示新关系但模糊单个基因。复杂的算法能够检测微弱信号在巨大的数据集可以提取这些微妙的细节。发展中是耗时的,但最重要的对于许多大规模的计算研究。

一线希望

云计算的另一个优点是消除了传统观念的匮乏,在个人实验室资源共享,部门或高性能计算中心。云计算是一种商品与可用性控制的市场力量。

我办公室的老博士学位,嘈杂的工作站,在喧嚣的机器的前学生,现在被遗弃和遗忘。拥有自己的硬件有其好处,但不可避免地会导致效率低下和负担,因为计算基础设施迅速恶化的价值。

贴纸工程师的笔记本电脑在谷歌总结说:我的其他电脑是一个数据中心”。拥有一个强大的工作站是伟大的,但在这个世界上,人移动和云资源是廉价而丰富,笔记本电脑与互联网连接的灵活性和力量。

云基础设施只会变得更便宜、更快。研究,使用它可以稳定性能增加,从用户需要不努力。随着时间的推移不变的代码只会表现得更好。这也让云一个好的教学工具,学生之间可以共享设置,复制先前的计算和参数变化的实验。

在云

到目前为止,许多科学家不得不拥有和管理他们的计算基础设施。没有更多的。在未来,科学家将专注于科学,而基础设施专家应用改进在幕后。会有精简进程共享数据,不仅在研究得出结论,但即使在检索和分析。

通过分析在线和制作工具,透明度,resproducibility,重要的是,可信度计算研究改进。这将增加对科学突破的信心。

云计算不再是可选的,这是一个改变游戏规则的存在。所以开始探索。教育自己,并开始讨论在实验室看到如何利用新范式。

这将是值得的。云使新的科学,加速发现,像大多数破坏性技术一样,它开辟了一个未知领域。今天的早期采用者将塑造未来的计算科学和安全的一个明显的竞争优势。下一代的科学家必须训练他们使用云资源时是有意义的。他们的工作将维护和无限期使用,而不是最终放弃了在办公室角落里。

Kai Kohlhoff是谷歌的研究科学家