蛋白质数据库-类型和重要性

  • 随着生物学日益成为一门数据丰富的科学,存储和通信大型数据集的需求也急剧增长。
  • 明显的实例是由X射线晶体学和大分子NMR产生的核苷酸序列,蛋白质序列和3D结构数据。
  • 蛋白质的生物学信息可以通过序列和结构获得。序列以单维表示,而结构包含序列的三维数据。
  • 生物数据库是数据的集合,它被组织起来以便于其内容可以被访问、管理和更新。
  • 蛋白质数据库是关于蛋白质的一个或多个数据集,其可包括蛋白质的氨基酸序列,构象,结构和特征,例如活性位点。
  • 通过来自不同基因数据库的DNA序列的翻译并包括结构信息来编译蛋白质数据库。它们是重要的资源,因为蛋白质调解了大多数生物学功能。

蛋白质数据库-类型和重要性

蛋白质数据库的重要性

正在产生巨大的蛋白质结构,功能和特别序列的巨大数据。搜索数据库通常是研究新蛋白质的第一步。它有以下用途:

  1. 蛋白质或蛋白质家族之间的比较提供了关于基因组内或跨越不同物种的蛋白质之间的关系的信息,因此提供了通过仅研究分离的蛋白质来获得的更多信息。
  2. 从实验数据库衍生出来的二级数据库也很容易获得。这些数据库重新组织并注释数据或提供预测。
  3. 多个数据库的使用通常有助于研究人员了解蛋白质的结构和功能。

D.一种TA.B.一种S.E.S.O.F蛋白质

主要数据库持有从核苷酸序列的概念翻译中推断出实验确定的蛋白质序列。当然,这不是实验衍生信息,而是由于核苷酸序列信息的解释而产生,因此必须被视为可能包含误解的信息。存在许多主要蛋白质序列数据库,每个数据库都需要一些特定的考虑。

一个P。R.O.Tein信息资源(PIR) - 蛋白质序列数据库(PIR-PSD):

  • PIR-PSD是PIR,MIPS(慕尼黑蛋白序列,德国)和JIPID(日本国际蛋白质信息数据库,日本)之间的协作努力。
  • PIR-PSD现在是一个全面的、非冗余的、经过专业注释的对象关系DBMS。
  • PiR-PSD的独特特征是基于超家族概念的蛋白质序列的分类。
  • PIR-PSD中的序列还基于同源域​​和序列图案分类。
  • 同源域可能对应于进化的构建块,而序列基序则代表功能位点或保守区域。
  • 这种分类方法可以更全面地理解序列的函数结构关系。

湾瑞士人

  • 其他众所周知的和广泛使用的蛋白质数据库是瑞士 - prot。与PiR-PSD一样,这种策序蛋白质序列数据库也提供了高水平的注释。
  • 每个条目中的数据可以分别视为核心数据和注释。
  • 核心数据包括在普通单字母氨基酸代码中输入的序列以及相关的参考和参考书目。获得序列的生物的分类也构成了该核心信息的一部分。
  • 注释包含有关蛋白质的功能或功能的信息,翻译后修饰,例如磷酸化,乙酰化等,功能性和结构结构域和位点,例如钙结合区域,ATP结合位点,锌指状物等,已知的二次结构特征,如实施例α螺旋,β片等,蛋白质的季结构,与其他蛋白质的相似性,如果不同的作者可能出现的任何蛋白质,并且由于不同的作者出现的不同蛋白质,或由于不同蛋白质而出现的不同序列作为注释的一部分描述的不同菌株中的突变。

trembl(用于翻译的embl)是一个计算机注释的蛋白质序列数据库,作为SWISS-PROT的补充发布。它包含了EMBL核苷酸数据库中所有未被充分注释的编码序列的翻译。因此,它可能包含了从未在生物体中表达过或从未真正识别过的蛋白质序列。

c.蛋白质数据库:

  • PDB是主要蛋白质结构数据库。它是大型生物分子的三维结构的结晶数据库,例如蛋白质。
  • 尽管如此,PDB归档不仅是蛋白质的三维结构,还归档蛋白质,也是核酸片段,RNA分子,大肽,如抗生素禾本霉素和蛋白质和核酸的复合物。
  • 该数据库持有从主要三个来源衍生的数据:由X射线晶体学,NMR实验和分子建模确定的结构。

中学D.一种TA.B.一种S.E.S.O.F蛋白质

二级数据库之所以被称为二级数据库,是因为它们包含了对主数据库中保存的序列的分析结果。许多二级蛋白质数据库是寻找不同蛋白质相关特征的结果。一些常用的序列和结构二级数据库如下:

一个P。ROSITE:

  • 一组数据库收集蛋白质序列中的模式,而不是完整的序列。PROSITE就是这样一个模式数据库。
  • 蛋白质基序和图案被编码为“正则表达式”。
  • 对应于PROSITE的每个条目的信息是两种形式 - 模式和相关描述性文本。

打印:

  • 在打印数据库中,蛋白质序列模式被存储为“指纹”。指纹是一组图案,而不是单个图案。
  • PRINT条目中包含的信息可以分为三个部分。除了条目名称、登录号和主题号之外,第一部分还包含了到其他数据库的交叉链接,这些数据库有关于该特征族的更多信息。
  • 第二部分提供了一个表,示出了在该系列中的许多序列中发生了组成指纹的主题。
  • 该条目的最后一部分包含作为多个对齐的序列集存储的实际指纹,对齐进行对齐而没有间隙。因此,每个主题的一组对齐序列。

c。MHCPep:

  • MHCPEP是一种数据库,其包含已知具有13000多个肽序列,该序列结合免疫系统的主要组织相容性。
  • 数据库中的每个条目包含不仅肽序列,这可能是8到10氨基酸长除了信息的特定的MHC分子结合,实验方法用于测定肽,活性度和亲和力,蛋白质来源,当分解时,产生了这个肽段和其他肽段,肽段上的位置,它锚定在MHC分子上,并参考和交叉链接到其他信息。

天。PFAM.

  • PFAM包含使用隐藏马尔可夫模型使用的配置文件。
  • HMMS将模式的模型构建为一系列匹配,替换,插入或删除状态,分配分级为对齐,从一个状态转到另一个状态。
  • PFAM中定义的每个族或模式包括四个元素。第一个是注释,它具有关于源的信息来进行条目,使用的方法和一些数字作为优点图。
  • 第二个是种子对齐,用于将其余序列引导到多个对齐,然后是家族。
  • 第三是嗯剖面。
  • 第四个元素是在该系列中确定的所有序列的完全对准。

参考

  1. Xiong J.(2006)。基本生物信息学。德克萨斯州A&M大学。剑桥大学出版社。
  2. Arthur M Lesk(2014)。生物信息学介绍。牛津大学出版社。牛津,英国
  3. https://sta.uwi.edu/fst/dms/icgeb/documents/1910NucleotideandProteinsequencedatabasesDGL3.pdfphys.1
  4. https://www.nature.com/subjects/pricein-databases.
  5. https://www.slideshare.net/PuneetKulyana/primary-and-secondary-databases-ppt-by-puneet-kulyana
  6. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3265122/
  7. https://www.rcsb.org/
  8. https://web.warwick.ac.uk/telri/Bioinfo/MODULES/2_Molecular_Biology_Databases/2_Molecular_Biology_Databases.html

对“蛋白质数据库类型与重要性”的三种思考

发表评论

这个网站使用Akismet来减少垃圾邮件。了解如何处理评论数据