一个新的、公开可用的数据库创建包含成千上万的蛋白质编码的基因在人类基因组中功能仍是一个谜。被称为“Unknome”数据库,这个存储库的目的是促进更快的探索可以理解蛋白质。它分配一个“knownness”分数的这些蛋白质和排名等因素作用的基础上,保护物种和亚细胞上。

由牛津大学的开发马修·弗里曼肖恩·芒罗在剑桥大学医学研究委员会分子生物学实验室和同事,Unknome包含所有蛋白质集群包含至少一个从人类或任何11生物模型。

当研究小组研究了蛋白质数据库的一个子集,关注260个基因在人类的几乎没有知道有类似的基因在果蝇,他们发现,多数为基本功能影响生育能力,发展,组织生长,蛋白质质量控制和对压力的弹性。的结果表明,尽管几十年的详细研究,有成千上万的基因仍然飞到被理解在即使是最基本的层面上,同样的显然是对人类基因组,”作者总结道。

Munro说这些蛋白质的忽视是不劳而获的。我们的数据库提供了一个强大的、通用的、高效的平台来识别和选择重要的未知功能的基因进行分析,从而加速关闭unknome代表生物知识的差距,”他说。Unknome团队表示担忧,成千上万的人类蛋白质的作用尚不清楚,但研究倾向于关注那些已经很好理解。

Unknome数据库的创建者希望,不像其他数据库,它将缩小而不是随着时间的推移而增长。