基因的测定与预测方法1

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

HMMGene
HMMGene是专门为脊椎动物和线虫未知DNA 序列的基因预测,可 以预测整个质粒基因,甚至更长的DNA序列。同时也可以预测剪 切位点和起始/终止密码子。如果一段序列的一些特征是已知的, 如ESTs,蛋白质或重复元件,那么这些区域就被认定为编码区或 者非编码区,甚至于在这一约束下找出最优的基因结构。 这个程序是建立在HMM(Hidden Markov model)模型上的, HMM模型是一个基因结构概率模型,能够为一段序列提供多个最 优的预测结果。
5 5’供体位点:G^GTAAGTnnYCnYY; 剪切分支点:WRCTRACMnnnnnnYY; 3’受体位点:WACAG^。
GSA(Gene Structure Assembly)
GSA程序就是由ATT和Genscan综合而成的。
GenomeScan
是Burge对自己的Genscan的延伸并结合BLASTX或BLASTP 的方法而来。 该法在信息相似性方面是最可靠的,能预测到单 独使用Genscan或BLASTX所不能检测到的编码区。
HumGene
HumGene是一个采用广义隐Markov模型(GHMM)的人类基 因预测软件,是利用人类基因的结构特点,采用概率模型为基 因结构中各个特定区域建立了独立的子模型,能够获得全局 统一的评价指数,使得系统整体框架具有一定的扩展性,采 用一种新的简化算法,有效地降低了计算的复杂度。
FFG
GeneMark
GeneMark 依赖编码与非编码二者的非同源Mark链模型,是建 立在已知基因和已确定其功能的基础上,用来预测E. coli. 的 DNA序列,甚至可以重新训练来预测H. influenz,M. jannaschia 和其他的生物.
GeneMark-Genesis是用来分析M. jannaschia和 H. pylori的软 件 , 是 确 定 可 用 于 训 练 和 能 预 测 到 单 独 使 用 Genscan 或 BLASTX所不能检测到的编码区。 GeneMark.hmm算法是对 DNA序列片段的编码和非编码区域 的概率分析,力求更准确地找出明确的基因边界。以S.pombe 和拟南芥(A.thaliana )为模式生物。
2 转录终止信号
原核生物:茎环结构后跟随一串Un。 真核生物:AATAAA+上游或下游元件。 真核生物从DNA →成熟的mRNA,其除去内含子有一些特殊模 式即: 5’-供体位点AG/GT;3’-受体位点YAG/GT;分支点 YNYTRAY,在酵母中为TACTAAC;多聚腺苷化位点 AATAAA。
3 动态规划法
用来将预测的各个可能外显子和内含子拼接成完整的基因, 这种算法将各种可能的拼接进行记分,从而得出最可能的基因结 构。
4 神经网络预测方法
该法是使用一个训练数集来训练神经网络,使其达到局部极 小,然后,神经网络去掉这些最小权重,将最低预测值加到整体 预测值上,经过数据修剪后,再次训练神经网络使其达到局部极 小,这个过程不断被重复,直至达到规定的误差值,最后给出一 个预测结果。
基因的始研究基因结构主 和测序等。 随着全基因组测序计划的实现,大量的基因组DNA序列产生, 但对基因的注释远落后于基因测序。因此,应用计算机程序从 DNA序列中寻找基因(尤其是那些编码蛋白质的基因),成为研 究人员考虑的重要问题。 一旦获得一个基因组序列,除了将这段序列通过数据库相 似性和同源性比较,还可以计算DNA的碱基组成,分析密码子的 偏好性,简缩重复序列,寻找DNA的特殊位点或信号,以及鉴定 DNA的编码区。用外显子-内含子结构和每个预测基因的位置信 息,以及基于数据库搜索的任何功能信息来注释基因组DNA序列。 随后可以鉴别最可能的蛋白质编码区。
该工具网址: /emboss/cpgplot/
基因编码区的预测
1 启动子与转录因子结合位点的识别 其应用工具:TRES、神经网络法和Dragon Promoter Finder。
2 其它顺式作用元件的预测 其应用工具:Cister:Cis-element Cluster Finder
Pombe
Pombe专门设计来寻找S.pombe的基因和预测外显子-内含子结构。 识别{位点,外显子,内含子}和{假位点,假内含子,假外显 子}。同时可以识别起始位点,供体位点和受体位点,而对于外 显子和内含子的预测必须要结合线性判别分析。而且还要考虑 到其他的因素如少数核苷酸偏好、三联体位点偏好和ORFs的定 位。同时把这些分析结果与动态分析程序相结合来预测基因的 结构。 /genefinder/pombe/pombe.htm
涉及基因转录起始和终止的信号 1 启动子
原核生物 ① -10元件:TATAAT; ② - 35元件:TTGCA; ③ 特定启动子的变异; ④ +1:G或A; ⑤ 各种相关因子的结合位点 真核生物(PolⅡ) ① -30:TATAA(60%的具有该序列),有时为CAAT-box 或GC-box; ② +1:inr区; ③ +20—50:下游启动子元件dpe(果蝇特有); ④ 各种相关因子的结合位点。
预测程序存在的局限性
1 很多算法目前只适用少数物种; 2 所有的程序(除了GENSCAN)在输入序列中包含有多基因 或者部分基因时,所预测的外显子可靠,但所预测的基因结 构就不一定可靠; 3 由于受许多未知因素的影响,预测的精确度能比预期的低得 多,尤其是对新发现的基因; 4 大多算法都明显对测序错误十分敏感; 5 象交替剪接、重叠基因和启动子结构等这样的基因语法结构 仍超出当前程序的处理能力。
2 隐马尔可夫模型(Hidden Markov Model,HMM)
它将DNA看成是一个随机过程,根据编码和非编码的DNA 序列在核苷酸选用频率上的不同而自动寻找出其内部隐藏的 规律。
广义隐马尔可夫模型(Generalized Hidden Markov Model,GHMM )
是通过对HMM简化和在HMM下建立了相应的子模型,使 其具有很大的可扩展性,是第二代基因预测软件的基础。
FFG是根据N.crassa基因的序列特征统计分析建立起来的,可以 直接对N.crassa基因进行预测。
1 编码区含有较高的GC含量,表现出对C的偏好, 对G的偏好其 次。 2 终止子:UAA比UAG和UGA更为常用, 3 起始密码子ATG及其周围的共有序列: CAMMATGGCT 4 研究发现N.crassa许多基因至少有一个内含子:52—691,平均 为63,中等长度为70。而长度变化范围较宽,在3-5367,平均 为509,中等长度为148。
基因预测的同源比较算法和预测模型
1 同源比较算法:
① Smith-Waterman算法 :它是将一条序列代替另一条序列所 需的“最小代价”(Weight)。 ② FASTA算法 是用来进行DNA/DNA、DNA/蛋白质(将DNA 按6个ORFs 翻译成氨基酸序列,再与蛋白质比较)和蛋白质 /蛋白质的同源比较。
剪切位点预测
5’-donor sites ↓ …CAGGTGAGA……CTATCCTTCTCACAGG… ↑ 3’-acceptor sites
可以用HMM、碱基频率、权重矩阵等判别式分析方法和神经 网络方法 。使用的工具SpliceView 和NetGene2结合综合应用
基因预测方法的评价
CpG岛(HTF岛)
CpG岛是一些富含GC(>50%)的小区域,它可能有几百bp 至几千bp,其中CpG通常出现在管家基因或频繁表达的启动 子周围,具有抵抗序列甲基化的作用。通常出现在脊椎动物 基因的5’端,80%的人类基因转录起始位点前面就有CpG 的存在,因而CpG岛是发现基因的重要线索。 CpG岛的计算工具很多,常用EMBL提供的工具: CpGPlot/ CpG Report/Isochore
FGENESH+和FGENESH-C
是用已存在的FGENESH算法延伸去提高基因预测。 ( FGENESH 是针对蛋白质或cDNA序列的相似性的预测方法。
基因预测中遇到的问题
1 真核生物序列重复序列大量存在; 2 大多程序都有特定生物物种适用性; 3 许多程序只能特定适用于基因组DNA数据或者只适用于 cDNA的数据; 4 序列的长度也是一个重要因素。例如,用鸟枪法测序得到 的单个序列片段很少能用在序列中搜寻整个基因的老式程序。
当预测完后就要对预测结果的精确度和可靠性进行评估。一般 而言,预测的精确度要从以下三个方面评估: 编码的核苷酸水平,外显子结构水平和预测的蛋白质水平。用灵 敏度Sn(sensitivity)和Sp(specificity)分别表示预测编码的正确性 和非编码的正确性:
Sn =TP/(TP+FN) 或真阳性/实际阳性; Sp=TP(TN+FP) 或真阳性/预测阳性。
应用工具有:RepeatMasker 和XBLAST;然后可以用REPEAT View 和HMM/N-TUPLE
开放阅读框(ORF)的识别
一个起始密码子和终止密码子之间的序列称为一个ORF。 当一个DNA序列被测定以后,还不知道其编码的蛋白质时用 此术语。常见起始密码子为ATG,终止密码子为TAA、TAG 和TGA。 一个双链DNA有6个潜在的ORF,3(+)和3(-)ORF; 一个ORF就是一个潜在的蛋白质编码区,要确定DNA的 编码区,就必须要检测它有多少个ORF。 原核生物中一个编码区就是一个单独的ORF; 真核生物基因的编码区被内含子分隔成若干不连续的编 码片段。 因此,首先要找出编码区内含子和外显子的边界。 若用cDNA序列,问题可大大简化。 常用工具:NCBI提供的分析工具:ORF Finder。
GeneScan
GeneScan是一种广义上的目的基因预测软件,用来分析多个物种的 DNA序列,包括人类、其他脊椎动物、无脊椎动物和植物的基因 组。 它可以从下面网站获得:/GENESCAN.html. 其参数设置选定一个模式生物(脊椎动物、拟南芥或玉米)并选取 一个亚适的截断值(1.0、0.50、0.25、0.10、0.05、0.02、0.01)。
除了以上几种外,目前用于基因预测的算法还很多,如基因 结构的线性判别式分析和概率模型等。不过大多数算法都是基于 已知基因顺序,所以需要深入研究,寻找基因不同的内在规律。
但目前最为流行的预测模型是HMM改进后的广义隐马 尔科夫模型(GHMM)。 GHMM比HMM的模型框架更具有 良好的可扩展性。 下面介绍几种以HMM和GHMM为模型而发展的计算机识别软 件: 第一代基因识别软件:GENMARK,GeneID和GRAILⅡ等, 它们采用的方法包括神经网络、隐Markov模型等。但是它们 通常假定序列中正好包含了一个完整的基因, 因而预测的正确 率不高。 第二代基因识别软件:包括GenScan,HMMGene,FFG, GeneMark.hmm 等等, 它们一般不需要假设序列中正好包含一 个完整的基因, 而且 其预测正确率也有大幅提高。 它们的模 型的框架基本上都是采用的广义隐Markov 模型,是对GHMM 在简化方法和子模型的构建方上存在不同。
基因的识别可以分为三个步骤
找出序列中的非编码区;
找到基因; 鉴定找到的基因。
要找出DNA序列中的非编码区一般涉及以下几个元素
去掉序列中的载体污染:载体,接头和PCR引物,转座子和插入 序列,DNA/RNA样品的纯度不高等。常用NCBI的 “VecScreen”和EMBL的分析工具“Blast2 EVEC”。 屏蔽重复序列:在真核生物和原核生物 中都广泛存在重复序列, 人类基因组中约有30%,而瓜蟾蜍有70%的重复序列。重复元 件有:SINE、ALU、MIR、LINE、LTR、MALR、ERVL、小 RNA、卫星DNA、简单重复序列和低复杂度序列。
相关文档
最新文档