表的内容
- A.生物数据库是一个大型的、有组织的持久数据体,通常与用于更新、查询和检索存储在系统中的数据组件的计算机化软件相关联。
- 开发数据库的主要目的是将数据组织成一组结构化的记录,以便于检索信息。
- 根据生物数据库的内容,生物数据库可分为主数据库和次数据库。
- 在这两个数据库中,二级数据库在过去十年左右的时间里已经成为生物学家的参考图书馆,为研究界调查的任何研究或研究产品提供了丰富的信息。
介绍
- 主数据库中的序列注释信息通常很少。
- 为了将原始序列信息转化为更复杂的生物学知识,需要对序列信息进行大量的后处理。
- 这就需要二级数据库,其中包含从主数据库派生的经过计算处理的序列信息。
- 因此,二级数据库是由分析一级数据的结果所产生的数据。
- 二级数据库通常利用多种来源的信息,包括其他数据库(初级和二级)、受控词汇表和科学文献。
- 它们是高度精心策划的,通常使用计算算法和人工分析与解释的复杂组合,从科学的公共记录中获取新知识。
- 然而,计算处理工作量在二级数据库之间差异很大;一些是DNA中已识别的开放阅读框的翻译序列数据的简单档案,而另一些则提供与结构和功能更高层次信息相关的附加注释和信息。
辅助数据库的重要性
- 二级数据库包含从正则表达式(模式)、指纹、配置文件块或隐藏马尔可夫模型形式的主序列数据派生的信息。
- 存储在每个辅助数据库中的信息类型是不同的。但在二级数据库中,同源序列可能在多次比对中聚集在一起。
- 在多重比对中,存在保守区域,在组成序列之间显示很少或没有变化。这些保守区域称为基序。
- 基序反映了一些重要的生物学作用,对蛋白质的结构功能起着至关重要的作用。这就是辅助数据库的重要性。
- 因此,通过对基序的研究,我们可以发现序列中的共同保守区域,并研究生物体的功能和进化细节。
一些常见的辅助数据库包括:
1.原生动物
- 这是开发的第一个二级数据库。
- 蛋白质家族通常包含一些最保守的基序,这些基序可以通过编码来发现各种各样的生物学功能。
- 因此,通过使用这种数据库工具,我们可以在搜索新序列时轻松找到蛋白质家族。这就是PROSITE的重要性。
- 在PROSITE中,基序被编码为正则表达式(称为模式)。
- 条目存放在PROSITE中的两个远程文件中。第一个文件给出了模式并列出了模式的所有匹配项,而第二个文件给出了家族的详细信息、生物角色的描述等。
- 用于导出模式的过程包括构建多重对齐和手动检查。
- 因此PROSITE包含描述蛋白质结构域、家族和功能位点的文档条目,以及识别它们的相关模式和配置文件。
2.印刷品
- 大多数蛋白质家族都有几个保守的基序。
- 所有这些主题都有助于构建不同家庭的“签名”。在构建PRINT数据库时重点强调了这一原则。
- 在印刷品中,图案被编码为未加权的局部对齐。因此,小的初始多重比对被用来识别保守的基序。
- 然后在数据库中搜索这些区域以找出相似之处。
- 对结果进行分析,找出与指纹中所有基序相匹配的序列。
- PROSITE和PRINTS是唯一手工注释的二级数据库。指纹是蛋白质指纹的诊断集合。
3.大厦
- 这两种数据库的局限性导致了块数据库的形成。
- 在这个数据库中,通过突出显示和检测每个蛋白质家族的最保守区域,自动创建基序(这里称为块)。
- 块数据库是完全自动化的。
- 关键字和序列搜索是这类数据库的两个重要特征。
- 块是未接合的多重序列比对代表保守的蛋白质区域。
4.概况
- 剖面数据库用于找出序列比对中最保守的区域。对轮廓进行加权,以表明序列中允许修改(在生物信息学中称为INDEL)。
- Indels可以是插入新序列或从序列中删除。
- 配置文件也被称为“权重矩阵”,以提供一种检测远距离序列关系的方法。
参考文献
- 熊j .(2006)。重要的生物信息学。德州农工大学。剑桥大学出版社。
- 阿瑟M莱斯克(2014).生物信息学概论。牛津大学出版社。牛津大学,英国
- http://www.electronicsandcommunications.com/2018/08/secondary-databases-in-bioinformatics.html
- https://www.ebi.ac.uk/training/online/course/bioinformatics-terrified-2018/primary-and-secondary-databases
- https://www.omicsonline.org/scholarly/bioinformatics-databases-journals-articles-ppts-list.php
- https://www.ncbi.nlm.nih.gov/books/NBK44933/