蛋白质本体论:结构生物信息学的关键
1. 引言
在当今生物科学领域,生物信息学数据源丰富多样,未来还将产生更多的数据。然而,单一数据源无法满足所有查询需求,需要整合多个数据源的知识。例如,若想了解某一特定蛋白质的序列和结构信息,可能需要从Swiss - Prot和PDB这两个蛋白质数据库获取数据并进行整合。
在后基因组时代,从异质蛋白质数据源中提取特定数据成为一大挑战。主要问题包括解读蛋白质命名、处理大量同义词和缩写、确定数据来源以及从自然语言中提取数据等。
2. 蛋白质注释的定义
随着生物数据库的快速增长,出现了两个重要的发展趋势。一是数据库的高效利用,以实现对数据的便捷管理和访问;二是通过创建本体论,对生物概念及其关系进行形式化定义。
在蛋白质数据的背景下,注释通常指除蛋白质序列之外的所有信息。在蛋白质数据集中,每个蛋白质至少有一个标识符,通常还会有自由文本或编码信息的注释,如负责该蛋白质的作者姓名、蛋白质数据提交日期等。考虑到蛋白质复合物及其结构的规模和复杂性,蛋白质组学中的注释工作颇具挑战性。
蛋白质注释主要有两个来源:一是来自蛋白质数据作者根据其发表的实验结果提交的各种蛋白质数据源;二是由注释者或注释小组通过使用各种工具分析原始数据(通常是蛋白质序列或原子结构描述)从其他蛋白质数据集中提取的生物信息。
3. 蛋白质注释的潜在问题
传统的蛋白质数据整合方法通常采用关键字搜索,但这种方法会排除未注释或注释不佳的数据,也会排除使用用户未知同义词注释的蛋白质。而且,部分生物资源不会记录数据来源信息,导致注释缺乏证据。
另一种方法是依靠序列同一性、结构相