基因预测医学知识课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一旦获得一个基因组序列,除了将这段序列通过数据库相 似性和同源性比较,还可以计算DNA的碱基组成,分析密码子的 偏好性,简缩重复序列,寻找DNA的特殊位点或信号,以及鉴定 DNA的编码区。用外显子-内含子结构和每个预测基因的位置信 息,以及基于数据库搜索的任何功能信息来注释基因组DNA序列。 随后可以鉴别最可能的蛋白质编码区。
http://argon.cshl.org/genefinder/pombe/pombe.htm
GeneMark
GeneMark 依赖编码与非编码二者的非同源Mark链模型,是建 立在已知基因和已确定其功能的基础上,用来预测E. coli. 的 DNA序列,甚至可以重新训练来预测H. influenz,M. jannaschia 和其他的生物.
文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。
基因预测的背景
生物学家开始研究基因结构主要是在实验的基础上进行的: 构建cDNA文库、PCR扩增、Northern blot 和测序等。
随着全基因组测序计划的实现,大量的基因组DNA序列产生, 但对基因的注释远落后于基因测序。因此,应用计算机程序从 DNA序列中寻找基因(尤其是那些编码蛋白质的基因),成为研 究人员考虑的重要问题。
一个亚适的截断值(1.0、0.50、0.25、0.10、0.05、0.02、0.01)。
HMMGene
HMMGene是专门为脊椎动物和线虫未知DNA 序列的基因预测,可 以预测整个质粒基因,甚至更长的DNA序列。同时也可以预测剪 切位点和起始/终止密码子。如果一段序列的一些特征是已知的, 如ESTs,蛋白质或重复元件,那么这些区域就被认定为编码区或者 非编码区,甚至于在这一约束下找出最优的基因结构。
来自百度文库
文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。
GeneScan
GeneScan是一种广义上的目的基因预测软件,用来分析多个物种的 DNA序列,包括人类、其他脊椎动物、无脊椎动物和植物的基因 组。 它可以从下面网站获得:http://genes.mit.edu/GENESCAN.html. 其参数设置选定一个模式生物(脊椎动物、拟南芥或玉米)并选取
除了以上几种外,目前用于基因预测的算法还很多,如基因 结构的线性判别式分析和概率模型等。不过大多数算法都是基于 已知基因顺序,所以需要深入研究,寻找基因不同的内在规律。
文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。
但目前最为流行的预测模型是HMM改进后的广义隐马 尔科夫模型(GHMM)。 GHMM比HMM的模型框架更具有 良好的可扩展性。
文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。
3 动态规划法
用来将预测的各个可能外显子和内含子拼接成完整的基因, 这种算法将各种可能的拼接进行记分,从而得出最可能的基因结 构。
4 神经网络预测方法
该法是使用一个训练数集来训练神经网络,使其达到局部极 小,然后,神经网络去掉这些最小权重,将最低预测值加到整体 预测值上,经过数据修剪后,再次训练神经网络使其达到局部极 小,这个过程不断被重复,直至达到规定的误差值,最后给出一 个预测结果。
文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。
基因预测的同源比较算法和预测模型
1 同源比较算法:
① Smith-Waterman算法 :它是将一条序列代替另一条序列所 需的“最小代价”(Weight)。
② FASTA算法 是用来进行DNA/DNA、DNA/蛋白质(将DNA 按6个ORFs 翻译成氨基酸序列,再与蛋白质比较)和蛋白质 /蛋白质的同源比较。
文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。
GeneMark-Genesis是用来分析M. jannaschia和 H. pylori的软 件 , 是 确 定 可 用 于 训 练 和 能 预 测 到 单 独 使 用 Genscan 或 BLASTX所不能检测到的编码区。 GeneMark.hmm算法是对 DNA序列片段的编码和非编码区域 的概率分析,力求更准确地找出明确的基因边界。以S.pombe 和拟南芥(A.thaliana )为模式生物。
这个程序是建立在HMM(Hidden Markov model)模型上的, HMM模型是一个基因结构概率模型,能够为一段序列提供多个最 优的预测结果。
文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。
Pombe
Pombe专门设计来寻找S.pombe的基因和预测外显子-内含子结构。 识别{位点,外显子,内含子}和{假位点,假内含子,假外显 子}。同时可以识别起始位点,供体位点和受体位点,而对于外 显子和内含子的预测必须要结合线性判别分析。而且还要考虑 到其他的因素如少数核苷酸偏好、三联体位点偏好和ORFs的定 位。同时把这些分析结果与动态分析程序相结合来预测基因的 结构。
2 隐马尔可夫模型(Hidden Markov Model,HMM)
它将DNA看成是一个随机过程,根据编码和非编码的DNA 序列在核苷酸选用频率上的不同而自动寻找出其内部隐藏的 规律。
广义隐马尔可夫模型(Generalized Hidden Markov Model,GHMM )
是通过对HMM简化和在HMM下建立了相应的子模型,使 其具有很大的可扩展性,是第二代基因预测软件的基础。
下面介绍几种以HMM和GHMM为模型而发展的计算机识别软 件: 第一代基因识别软件:GENMARK,GeneID和GRAILⅡ等, 它们采用的方法包括神经网络、隐Markov模型等。但是它们 通常假定序列中正好包含了一个完整的基因, 因而预测的正确 率不高。 第二代基因识别软件:包括GenScan,HMMGene,FFG, GeneMark.hmm 等等, 它们一般不需要假设序列中正好包含一 个完整的基因, 而且 其预测正确率也有大幅提高。 它们的模 型的框架基本上都是采用的广义隐Markov 模型,是对GHMM 在简化方法和子模型的构建方上存在不同。
http://argon.cshl.org/genefinder/pombe/pombe.htm
GeneMark
GeneMark 依赖编码与非编码二者的非同源Mark链模型,是建 立在已知基因和已确定其功能的基础上,用来预测E. coli. 的 DNA序列,甚至可以重新训练来预测H. influenz,M. jannaschia 和其他的生物.
文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。
基因预测的背景
生物学家开始研究基因结构主要是在实验的基础上进行的: 构建cDNA文库、PCR扩增、Northern blot 和测序等。
随着全基因组测序计划的实现,大量的基因组DNA序列产生, 但对基因的注释远落后于基因测序。因此,应用计算机程序从 DNA序列中寻找基因(尤其是那些编码蛋白质的基因),成为研 究人员考虑的重要问题。
一个亚适的截断值(1.0、0.50、0.25、0.10、0.05、0.02、0.01)。
HMMGene
HMMGene是专门为脊椎动物和线虫未知DNA 序列的基因预测,可 以预测整个质粒基因,甚至更长的DNA序列。同时也可以预测剪 切位点和起始/终止密码子。如果一段序列的一些特征是已知的, 如ESTs,蛋白质或重复元件,那么这些区域就被认定为编码区或者 非编码区,甚至于在这一约束下找出最优的基因结构。
来自百度文库
文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。
GeneScan
GeneScan是一种广义上的目的基因预测软件,用来分析多个物种的 DNA序列,包括人类、其他脊椎动物、无脊椎动物和植物的基因 组。 它可以从下面网站获得:http://genes.mit.edu/GENESCAN.html. 其参数设置选定一个模式生物(脊椎动物、拟南芥或玉米)并选取
除了以上几种外,目前用于基因预测的算法还很多,如基因 结构的线性判别式分析和概率模型等。不过大多数算法都是基于 已知基因顺序,所以需要深入研究,寻找基因不同的内在规律。
文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。
但目前最为流行的预测模型是HMM改进后的广义隐马 尔科夫模型(GHMM)。 GHMM比HMM的模型框架更具有 良好的可扩展性。
文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。
3 动态规划法
用来将预测的各个可能外显子和内含子拼接成完整的基因, 这种算法将各种可能的拼接进行记分,从而得出最可能的基因结 构。
4 神经网络预测方法
该法是使用一个训练数集来训练神经网络,使其达到局部极 小,然后,神经网络去掉这些最小权重,将最低预测值加到整体 预测值上,经过数据修剪后,再次训练神经网络使其达到局部极 小,这个过程不断被重复,直至达到规定的误差值,最后给出一 个预测结果。
文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。
基因预测的同源比较算法和预测模型
1 同源比较算法:
① Smith-Waterman算法 :它是将一条序列代替另一条序列所 需的“最小代价”(Weight)。
② FASTA算法 是用来进行DNA/DNA、DNA/蛋白质(将DNA 按6个ORFs 翻译成氨基酸序列,再与蛋白质比较)和蛋白质 /蛋白质的同源比较。
文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。
GeneMark-Genesis是用来分析M. jannaschia和 H. pylori的软 件 , 是 确 定 可 用 于 训 练 和 能 预 测 到 单 独 使 用 Genscan 或 BLASTX所不能检测到的编码区。 GeneMark.hmm算法是对 DNA序列片段的编码和非编码区域 的概率分析,力求更准确地找出明确的基因边界。以S.pombe 和拟南芥(A.thaliana )为模式生物。
这个程序是建立在HMM(Hidden Markov model)模型上的, HMM模型是一个基因结构概率模型,能够为一段序列提供多个最 优的预测结果。
文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。
Pombe
Pombe专门设计来寻找S.pombe的基因和预测外显子-内含子结构。 识别{位点,外显子,内含子}和{假位点,假内含子,假外显 子}。同时可以识别起始位点,供体位点和受体位点,而对于外 显子和内含子的预测必须要结合线性判别分析。而且还要考虑 到其他的因素如少数核苷酸偏好、三联体位点偏好和ORFs的定 位。同时把这些分析结果与动态分析程序相结合来预测基因的 结构。
2 隐马尔可夫模型(Hidden Markov Model,HMM)
它将DNA看成是一个随机过程,根据编码和非编码的DNA 序列在核苷酸选用频率上的不同而自动寻找出其内部隐藏的 规律。
广义隐马尔可夫模型(Generalized Hidden Markov Model,GHMM )
是通过对HMM简化和在HMM下建立了相应的子模型,使 其具有很大的可扩展性,是第二代基因预测软件的基础。
下面介绍几种以HMM和GHMM为模型而发展的计算机识别软 件: 第一代基因识别软件:GENMARK,GeneID和GRAILⅡ等, 它们采用的方法包括神经网络、隐Markov模型等。但是它们 通常假定序列中正好包含了一个完整的基因, 因而预测的正确 率不高。 第二代基因识别软件:包括GenScan,HMMGene,FFG, GeneMark.hmm 等等, 它们一般不需要假设序列中正好包含一 个完整的基因, 而且 其预测正确率也有大幅提高。 它们的模 型的框架基本上都是采用的广义隐Markov 模型,是对GHMM 在简化方法和子模型的构建方上存在不同。