马特·莱特福特在剑桥结构数据库的职业生涯中导航

图为Matt Lightfoot站在CCDC的第100万个建筑旁

来源:©CCDC

马特·莱特福特站在CCDC的第一百万幢建筑旁

马特·莱特福特(Matt Lightfoot)是一名化学家,他已经将近20年没有在实验室工作了。他说:“但做这份工作,你会被化学反应包围。”

作为剑桥晶体学数据中心(CCDC)的首席科学编辑,莱特福特帮助管理剑桥结构数据库(CSD),一个有机和有机金属晶体结构的存储库,自20世纪60年代以来一直在收集化合物。今年早些时候,惩教署庆祝了一个重要的里程碑百万分之一结构

莱特福特2001年在CCDC开始他的职业生涯时,CSD只有目前规模的五分之一,有20万个建筑。他在曼彻斯特大学(University of Manchester)完成碱金属配位化学博士学位后,就已经熟悉了这个数据库,在此期间,他经常使用CSD。莱特福特加入了一个小编辑团队,致力于将研究人员提交的晶体结构转换为CSD条目。

他回忆起在CCDC工作的经历:“读博士期间,我经常待在实验室里,所以感觉很不一样,尤其是刚开始的时候。”他说,你可能要长时间坐在电脑前,因为(录入数据库)是一个相当缓慢的手工过程。

当时,只有一小部分构筑物以电子方式提交惩教署。许多都是从印刷的期刊文章中打印出来的。甚至当结构以晶体学信息文件格式(表示晶体学信息的标准格式)到达时,将它们输入数据库的过程也是费力的。莱特福特说:“在文件中,你只有坐标,它没有说明什么与什么成键,也没有说明化学成分是什么。”“我们必须解决所有这些问题。”

当然,从那以后发生了很多变化。现在,99%向CSD提交的文件是电子的,专业软件有助于将大部分过程自动化。CCDC还与大多数主要出版商签订了协议,他们直接从公认的出版物中提交晶体学信息。

莱特福特说,大约在9年前,人们开始认真努力提高CSD的效率和自动化程度。那时,他正在管理数据库编辑小组。他说:“我们每天处理大约25到30个结构,在我们每年处理5到6万个结构的情况下,这是不可持续的。”这促使了对流程的审查,莱特福特被任命领导一个为期三年的项目,以彻底改革内部系统,使团队工作得更快、更有效。

他说:“我成了产品负责人——负责内部用户需求的那种人,帮助开发团队了解需求是什么。”这项工作包括与开发人员密切合作,从零开始重写CSD老化的软件。莱特福特早年作为编辑的经验被证明是无价的——他知道数据库是如何工作的,并且了解将要使用它的研究人员的需求。

2013年,新系统启动。现在,它的编辑每天可以处理大约100个结构。

此后,Lightfoot一直担任产品负责人,负责内部和外部项目。他说:“我现在可能一半时间都花在开发人员身上,一半时间花在数据库上。”她说:“这里非常多样,也非常繁忙。”

他目前参与的一个项目是与其他数据库合作,这些数据库保存了无机化合物的结构数据,有助于通过CCDC开发的沉积门户网站改善对这些数据的访问。莱特福特说:“随着无机和有机之间的界限变得不那么重要,我们已经得到了很多关于它对社区的有用性的良好反馈。”

CSD本身继续增长和发展,新结构提交的速度也在不断增加。莱特福特说,对于晶体学界来说,100万个结构的里程碑是一个“相当大的成就”,随着机器学习技术的出现,可以处理大量数据,许多令人兴奋的机会就在前面。

他说:“你在很多学科上都没有这么好的资源。”“我刚开始的时候,只有20多万个(结构),现在有100万个——这是相当多的数据。“机器学习已经帮助CCDC改进了自动管理新结构的方式,莱特福特热衷于使用类似的方法来更多地了解数据库中保存的结构数据。重要的是,这项新技术也为更广泛的科学界提供了新的机会:“我很高兴我们的高数据质量将使其他人能够使用人工智能和机器学习从CSD获得新的见解。”