第六章 基因预测和基因结构分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(二) Baidu Nhomakorabea因预测的基本方法
1. 序列相似性搜索 基因组DNA序列
A. 在6个阅读框中进行翻译并与蛋白质数据库中的序 列进行比较分析(如Blastx) B. 对EST数据库中同一生物的cDNA序列进行比较分 析(如Blastn) 确定基因数目和对应的ORF
分析举例:水稻Xa21基因区段DNA序列 (U37133) CDS:1-2677 bp处和3521-3921 bp处
TTGACA和TATAAT
核糖体结合位点(转录起始位点后) GGAGG
真核生物
基因结构复杂
已知外显子、内含子-外显子边界、启动子序 列特征
目前还没有一个基因预测工具可以完全正确地预测 一个基因组中的所有基因(Mathe C, Sagot MF, Schiex T, Rouze P. Current methods of gene prediction, their strengths and weaknesses. Nucleic Acids Res. 30 (19):4103-4117, 2002)
分析举例(1) Softberry(http://www.softberry.com)的 Gene Finding工具,分三大类 Gene Finding in Eukaryota Operon and Gene Finding in Bacteria Gene Finding in Viruses
Blastx分析结果(检索蛋白质数据库):与 水稻蛋白质序列比较
有些蛋白质序列是推测获得的 Blastn分析结果(检索est other数据库): 与水稻cDNA序列比较 取决于数据库中EST数据的数量和长度 通过“Tree view”查看与U37133序列同 源的其它EST序列
Arabidopsis(拟南芥 ) Maize(玉米 ) 在GenScan主页粘贴AY364476的DNA序列、选择 “Arabidopsis”作为参照 分析结果(文字和图像)
分析举例(3)
GrailEXP(http://compbio.ornl.gov/grailexp) 分析重复序列 在GrailEXP主页选择参照物种和“Repetive Elements”分析功能、粘贴AY364476的DNA序列 在GrailEXP的分析网页点击“Check results” 分析结果:检测到两处simple repeat(位 于Xa26基因后)
2. 根据模式序列预测基因 各种基因预测软件 取决于人们对已知基因结构特征的认识
采用统计学方法
基于一个或多个已知序列模式对未知序 列进行分类 启动子结构 外显子、内含子 密码子偏爱性
对发现的模式进行统计检验
原核微生物(大肠杆菌lexA基因的DNA模式) LexA repressor的结合位点(启动子区段) CTGNNNNNNNNNNCAG 与RNA聚合酶相互作用位点(-10至-35的启动 子区)
目前最好的基因预测工具预测一个基因组中的所有 外显子的准确率最多达到75%,预测基因结构的准 确率< 50%(Rogic S, Ouellette BF, Mackworth AK. Improving gene recognition accuracy by combining predictions from two gene-finding programs. Bioinformatics 18 (8):1034-1045, 2002)
分析结果
3. 上机操作
练习内容见“生物信息学课程操 作练习”
分析举例(4) Gene Feature Searches (http://dot.imgen.bcm.tmc.edu) 包括多个基因预测软件 NNPP分析启动子位点 在BCM的分析主页选择“Gene Feature Searches”
在“Gene Feature Searches”网页粘贴AY364476 序列、选择“NNPP/Eukaryotic-eukaryotic promoter prediction”
每一大类包括多个分析软件
在Softberry主页选择“Gene Finding in Eukaryota” 类中的“FGENESH” 在FGENESH网页粘贴AY364476的DNA序列、选 择物种作为参照
分析结果(文字和图像)
分析举例(2)
GenScan(http://genes.mit.edu/GENSCAN.html) 用三个物种模式作为参照 Vertebrate(脊椎动物 )
六、基因预测和基因结构分析
生物信息学中的重要内容之一
预测编码蛋白质的基因 (一) 基因预测的基本分析内容 排除重复序列
确定开放阅读框(open reading frame, ORF)
确定基因的调控区-启动子
ATG
Promoter 5’-UTR Exon 1 Exon 2
TGA
3’-UTR
不同的基因预测软件分析结果有差异
综合多个基因预测软件的分析结果
一种分析工具可选择分析基因的不同结构 exon, poly-A, promoter(启动子 ) 重复序列 某些分析工具可选择物种模式(matrix)作 为参照比较对象 某些分析工具可用不同的方式呈现分析结果 (文字或图形)
相关文档
最新文档