一种使用自然语言处理和机器学习算法的工具正在期刊上推广,可以自动标记科学论文的可重复性、透明度和作者身份问题。

的工具,Ripeta自2017年以来就已经存在,发布后已经在数百万篇期刊论文上运行,但现在该工具的创造者已经允许其最新版本在同行评审之前在论文上运行。8月,里佩塔是集成的使用广泛使用的稿件提交系统编辑经理,以便在论文被发送到期刊的同行评审之前识别出论文中的不足之处。目前,该工具的创建者以商业机密为由,不愿透露哪些期刊在使用Ripeta。

Ripeta通过筛选论文来识别论文的“信任标记”,例如它们是否包含数据和代码可用性声明、开放访问声明,以及伦理批准、作者贡献、存储库通知和资助声明。

从2022年10月起,Ripeta背后的技术也被集成到学术数据库Dimensions中,使用户可以付费访问自2010年以来发表的3300万篇学术论文中关于信任标记的元数据。

即将发布的一份基于3300万份维度记录的白皮书报告趋势显示,包含资金报表的学术论文比例已从2011年的略高于30%稳步上升到2021年的略低于50%。在同一时期,竞争利益报表也急剧上升至略低于40%——增幅略高于30%。与此同时,有关伦理认证和作者贡献声明的信息在学术论文中所占比例从2011年的5%左右飙升至2021年的25%以上。尽管包含数据可用性声明的论文数量已经从2011年的接近零增长到2021年的20%以上,但特定的代码可用性部分还没有被普遍采用,只是在过去三年才出现。

总部位于美国的Ripeta公司首席执行官兼创始人莱斯利•麦金托什说:“这就像在智能手机平台上安装了一款应用程序。”“我们希望人们能在发表之前使用它来改进手稿。”

麦金托什说,如果Ripeta促使研究人员解决诸如代码和数据可用性声明或伦理批准声明等问题,这将为编辑和同行审稿人腾出时间来专注于实际的科学。他说,仅仅因为他们拥有了所有的证据,(这并不)意味着他们实际上有了一个表述良好的假设,他们的方法是好的。

一些学术出版商推出了自己的内部人工智能系统标记潜在的利益冲突、作者身份问题或其他违反研究完整性的行为。

麦金托什说,她的客户包括研究机构、资助机构、政策制定者和个人研究人员。麦金托什说,目前“检查邪恶的东西很热门”。他说,我们检查这一点、利用各个维度并(识别)潜在的邪恶网络的方式实际上非常独特。

米歇尔Nuijten他是荷兰蒂尔堡大学的元科学研究员,帮助创建了该算法statcheck他说,在论文发表前发现缺点是个好主意。他说,我确实希望这些工具能够继续存在,因为我们需要一些帮助来应对巨大的产出。

人工智能工具的一个缺点是它们不是完全透明的,通常不清楚它们是如何工作的。麦金托什同意,所有软件都有偏见,这是由于它们所训练的数据,以及创建工具的人的隐性偏见。为了最大限度地减少偏见,她认为总是需要人工数据验证和管理,人类总是在发现的循环中并做出最终决定。