基因预测的重要性和方法

  • 利用计算方法进行基因预测,寻找蛋白质编码区域的位置是生物信息学的基本问题之一。
  • 基因预测基本上是指沿着基因组定位基因。又称基因发现,是指识别基因组区域的过程DNA编码基因。
  • 这包括蛋白质编码基因,核糖核酸基因和其他功能元件如调节基因。

基因预测

基因预测的重要性

  • 帮助注释大型连续序列
  • 帮助识别基因组的基本和基本元素,如功能基因,内含子,外显子,剪接位点,调控位点,已知蛋白质的基因编码,基序,EST, ACR等。
  • 区分基因组的编码区和非编码区
  • 预测蛋白质编码区完整的外显子-内含子结构
  • 从功能的角度描述单个基因
  • 它在结构基因组学、功能基因组学、代谢组学、转录组学、蛋白质组学、基因组学和其他遗传相关研究中有广泛的应用,包括遗传疾病的检测、治疗和预防。

生物信息学与基因预测“,

  • 随着人类和模型生物DNA序列的数据库随着时间的推移迅速增加,几乎不可能对活细胞和生物进行传统的艰苦实验来预测基因。
  • 以前,通过对几个不同基因的同源重组率进行统计分析,可以确定它们在某条染色体上的顺序,并将许多这样的实验得到的信息结合起来,创建一个基因图谱,详细说明已知基因相对于其他基因的大致位置。
  • 然而,今天,生物信息学研究的前沿正使仅根据基因序列来预测这种基因洪流的功能变得越来越可能。

基因预测方法

一般采用两类方法:

A.基于相似度的搜索

它是一种基于序列相似性搜索的方法。

  • 这是一种概念上简单的方法,它基于寻找est(表达序列标签)、蛋白质或其他基因组与输入基因组之间的基因序列相似性。
  • 这种方法基于这样一个假设:功能区(外显子)比非功能区(基因间区或内含子区)在进化上更为保守。
  • 一旦某个基因组区域与EST、DNA或蛋白质之间存在相似性,相似性信息就可以用来推断该区域的基因结构或功能。
    • 局部对齐和全局对齐是基于相似度搜索的两种方法。最常见的局部比对工具是BLAST程序家族,它可以检测与已知基因、蛋白质或est的序列相似性。
    • 另外两种类型的软件,procruste和GeneWise,使用同源蛋白的全局校准翻译orf在基因组序列中进行基因预测。
    • 在CSTfinder软件中实现了一种新的基于两两基因组比较的启发式方法。

B.从头计算预测

它是一种基于基因结构和信号搜索的方法。

  • 它以基因结构为模板检测基因
  • 从头计算基因预测依赖两类序列信息:信号传感器和含量传感器。
  • 信号传感器是指短序列基序,如剪接位点、分支点、多嘧啶束、起始密码子和终止密码子。
  • 另一方面,内容传感器是指物种特有的密码子使用模式,通过统计检测算法将编码序列与周围的非编码序列区分开来。外显子检测必须依靠内容传感器。
  • 因此,这种方法的搜索依赖于基因中存在的主要特征。
    • 对基因结构建模的算法有很多,如动态规划、线性判别分析、语言学方法、隐马尔可夫模型和神经网络。
    • 在这些模型的基础上,开发了大量的从头计算基因预测程序。常用的有GeneID, FGENESH, GeneParser, GlimmerM, GENSCAN等。

参考文献

  1. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5187414/
  2. https://www.researchgate.net/publication/281858060_Bioinformatics_Approaches_for_Gene_Finding
  3. https://ksvi.mff.cuni.cz/~mraz/bioinf/BioAlg10-9.pdf
  4. https://www.academia.edu/17972052/Bioinformatics_Approaches_for_Gene_Finding
  5. http://genome.crg.es/courses/laCaixa05/laCaixa05.pdf

留下你的评论

这个网站使用Akismet来减少垃圾邮件。了解如何处理您的评论数据