生物数据库-类型和重要性

  • 现代基因组研究的标志之一是产生大量的原始序列数据。
  • 随着基因组数据量的增长,需要复杂的计算方法来管理海量的数据。
  • 因此,基因组学时代的第一个挑战是通过建立和使用计算机数据库来存储和处理数量惊人的信息。
  • 生物数据库是一个大型的、有组织的持久数据体,通常与计算机化软件相关联,这些软件旨在更新、查询和检索存储在系统中的数据。
  • 一个简单的数据库可能是一个包含许多记录的文件,每个记录都包含相同的一组信息。
  • 开发数据库的主要目的是将数据组织成一组结构化的记录,以便于检索信息。

的例子。一些流行的数据库有NCBI(国家生物技术信息中心)的GenBank,瑞士生物技术研究所的SwissProt生物信息学蛋白质信息资源中的PIR。

生物数据库-类型和重要性

生物资料库的类型

根据内容,生物数据库大致可分为两类:

1.主数据库

  • 主数据库也称为档案数据库。
  • 他们填充实验数据,如核苷酸序列,蛋白质序列或大分子结构。
  • 实验结果由研究人员直接提交到数据库中,数据本质上是存档的。
  • 一旦给了数据库登录号,初级数据库中的数据就不会改变:它们是科学记录的一部分。

例子

  • ENA, GenBank和DDBJ(核苷酸序列)
  • Array Express存档和GEO(功能基因组学数据)
  • 蛋白质数据库(PDB;三维大分子结构的坐标)

2.二次数据库

  • 二级数据库包括分析初级数据所得的数据。
  • 辅助数据库通常从许多来源获取信息,包括其他数据库(主数据库和辅助数据库)、受控词汇表和科学文献。
  • 它们是高度精心策划的,通常使用复杂的计算算法和人工分析和解释的组合,从公共科学记录中获得新的知识。

例子

  • InterPro(蛋白家族,基序和结构域)
  • UniProt知识库(蛋白质的序列和功能信息)
  • 整体(变异、功能、调控和更多层的全基因组序列)

3.然而,许多数据资源同时具有主要和次要特征。例如,UniProt接受来自肽测序实验的初级序列。然而,UniProt也从基因组信息推断肽序列,它提供了丰富的额外信息,一些来自自动注释(TrEMBL),甚至更多来自仔细的手工分析(SwissProt)。

4.也有专门的数据库是那些迎合特定的研究兴趣。例如,Flybase、HIV序列数据库和核糖体数据库项目是专门针对特定生物体或特定类型数据的数据库。

数据库的重要性

  • 数据库起着信息仓库的作用。
  • 数据库用于存储和组织数据,以便通过各种搜索条件轻松检索信息。
  • 它允许知识发现,这是指识别信息第一次输入时不知道的信息片段之间的联系。这有助于从原始数据中发现新的生物学见解。
  • 在过去十年左右的时间里,二级数据库已经成为分子生物学家的参考图书馆,提供了研究界研究过的几乎所有基因或基因产品的丰富信息。
  • 它有助于解决许多用户希望访问相同数据项的情况。
  • 允许对数据进行索引。
  • 它有助于消除数据冗余。

参考文献

  1. 熊j .(2006)。重要的生物信息学。德州农工大学。剑桥大学出版社。
  2. Arthur M Lesk(2014).生物信息学概论。牛津大学出版社。牛津大学,英国
  3. https://www.ebi.ac.uk/training/online/course/bioinformatics-terrified-2018/primary-and-secondary-databases
  4. https://www.omicsonline.org/scholarly/bioinformatics-databases-journals-articles-ppts-list.php
  5. https://www.ncbi.nlm.nih.gov/books/NBK44933/

留下你的评论

这个网站使用Akismet来减少垃圾邮件。了解如何处理您的评论数据