五基因结构预测与基因表达分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
❖ CDS:1-2677 bp处和3521-3921 bp处 ❖ Blastx分析结果(检索蛋白质数据库):与
水稻蛋白质序列比较 ✓ 有些蛋白质序列是推测获得的
❖ Blastn分析结果(检索est other数据库): 与水稻cDNA序列比较 ✓ 取决于数据库中EST数据的数量和长度 ✓ 通过“Tree view”查看与U37133序列 同源的其它EST序列
Exon 2
3’-UTR
(二) 基因预测的基本方法 1. 序列相似性搜索 基因组DNA序列
A. 在6个阅读框中进行翻译并与蛋白质数据库中的序 列进行比较分析(如Blastx)
B. 对EST数据库中同一生物的cDNA序列进行比较 分析(如Blastn)
确定基因数目和对应的ORF
分析举例:水稻Xa21基因区段DNA序列(U37133)
目前最好的基因预测工具预测一个基因组中的所有外显 子的准确率最多达到75%,预测基因结构的准确率< 50%(Rogic S, Ouellette BF, Mackworth AK. Improving gene recognition accuracy by
combining predictions from two gene-finding programs. Bioinformatics 18 (8):1034-1045, 2002)
Blastx结果 与cDNA的比对结果
2. 根据模式序列预测基因
各种基因预测软件 取决于人们对已知基因结构特征的认识 采用统计学方法
❖ 基于一个或多个已知序列模式对未知序 列进行分类 ✓ 启动子结构 ✓ 外显子、内含子
❖ 密码子偏爱性 ❖ 对发现的模式进行统计检验
原核微生物(大肠杆菌lexA基因的DNA模式) ❖ LexA repressor的结合位点(启动子区段)
/ WindowsΒιβλιοθήκη Baidu
Web
目前还没有一个基因预测工具可以完全正确地预测一个 基因组中的所有基因(Mathe C, Sagot MF, Schiex T, Rouze P. Current
methods of gene prediction, their strengths and weaknesses. Nucleic Acids Res. 30 (19):4103-4117, 2002)
CTGNNNNNNNNNNCAG ❖ 与RNA聚合酶相互作用位点(-10至-35的启动
子区)
TTGACA和TATAAT ❖ 核糖体结合位点(转录起始位点后)
GGAGG
真核生物
❖ 基因结构复杂
❖ 已知外显子、内含子-外显子边界、启动子序 列特征
基因预测方法
• 不同方法预测 – 核酸序列出现频率统计法 – 同源比较法 – 隐马尔可夫模型法 – 决策树方法 – 语言学方法 – 神经网络分析法 ……
• 训练数据集有针对性 – 原核生物vs.真核生物 – 动物vs.植物
基因预测软件
基因结构分析工具
GENSCAN http://genes.mit.edu/GENSCAN.html
GeneMark
Gene Finder
FGENESH GlimmerM FgeneSB/
FgeneSV
http://www.ebi.ac.uk/genemark/ http://opal.biology.gatech.edu/GeneMark/ http://rulai.cshl.org/tools/genefinder/(Dr. Michael
不同的基因预测软件分析结果有差异
因此,要综合多个基因预测软件的分析结果
一种分析工具可选择分析基因的不同结构
❖ exon, poly-A, promoter ❖ 重复序列 某些分析工具可选择物种模式(matrix)作 为参照比较对象
某些分析工具可用不同的方式呈现分析结果 (文字或图形)
分析举例(1) Softberry(http://www.softberry.com)的
(一) 基因预测的基本分析内容
排除重复序列 确定开放阅读框(open reading frame, ORF)——内含子/外显子
剪切位点识别;选择性剪切分析
确定基因的调控区——核心启动子/转录因子结合位点/转录启始位 点的识别;转录终止信号的预测; CpG 岛的识别等
ATG
TGA
Promoter 5’-UTR Exon 1
Zhang ) http://www.softberry.com/all.htm http://www.tigr.org/tdb/glimmerm/glmr_form.html
http://www.softberry.com/all.htm
Generation http://compbio.ornl.gov/generation/
GeneBuilder
FGENESH+ /++
GenomeScan GeneWise
http://l25.itba.mi.cnr.it/~webgene/genebuilder.html http://www.softberry.com/all.htm http://genes.mit.edu/genomescan.html http://www.sanger.ac.uk/Software/Wise2/
Chapter 5 基因结构预测 与基因表达分析
cDNA序列 基因组序列
翻译
编码区预测 蛋白质序列
蛋白质理化性质 二级结构预测 结构域分析 重要信号位点分析 三级结构预测
基因结构分析
调控元件分析 选择性剪切 SNP
序列比对 功能注释
KEGG GO 系统发育树
基因预测和基因结构分析
生物信息学中的重要内容之一 预测编码蛋白质的基因
GRAIL
http://grail.lsd.ornl.gov/grailexp/
BCM Gene http://searchlauncher.bcm.tmc.edu/seq-search/gene-
Finder
search.html
Web/Linux
Web
Web
Web/Linux Linux
Web
Web Web Web/Linux Web Web Web/Linux
水稻蛋白质序列比较 ✓ 有些蛋白质序列是推测获得的
❖ Blastn分析结果(检索est other数据库): 与水稻cDNA序列比较 ✓ 取决于数据库中EST数据的数量和长度 ✓ 通过“Tree view”查看与U37133序列 同源的其它EST序列
Exon 2
3’-UTR
(二) 基因预测的基本方法 1. 序列相似性搜索 基因组DNA序列
A. 在6个阅读框中进行翻译并与蛋白质数据库中的序 列进行比较分析(如Blastx)
B. 对EST数据库中同一生物的cDNA序列进行比较 分析(如Blastn)
确定基因数目和对应的ORF
分析举例:水稻Xa21基因区段DNA序列(U37133)
目前最好的基因预测工具预测一个基因组中的所有外显 子的准确率最多达到75%,预测基因结构的准确率< 50%(Rogic S, Ouellette BF, Mackworth AK. Improving gene recognition accuracy by
combining predictions from two gene-finding programs. Bioinformatics 18 (8):1034-1045, 2002)
Blastx结果 与cDNA的比对结果
2. 根据模式序列预测基因
各种基因预测软件 取决于人们对已知基因结构特征的认识 采用统计学方法
❖ 基于一个或多个已知序列模式对未知序 列进行分类 ✓ 启动子结构 ✓ 外显子、内含子
❖ 密码子偏爱性 ❖ 对发现的模式进行统计检验
原核微生物(大肠杆菌lexA基因的DNA模式) ❖ LexA repressor的结合位点(启动子区段)
/ WindowsΒιβλιοθήκη Baidu
Web
目前还没有一个基因预测工具可以完全正确地预测一个 基因组中的所有基因(Mathe C, Sagot MF, Schiex T, Rouze P. Current
methods of gene prediction, their strengths and weaknesses. Nucleic Acids Res. 30 (19):4103-4117, 2002)
CTGNNNNNNNNNNCAG ❖ 与RNA聚合酶相互作用位点(-10至-35的启动
子区)
TTGACA和TATAAT ❖ 核糖体结合位点(转录起始位点后)
GGAGG
真核生物
❖ 基因结构复杂
❖ 已知外显子、内含子-外显子边界、启动子序 列特征
基因预测方法
• 不同方法预测 – 核酸序列出现频率统计法 – 同源比较法 – 隐马尔可夫模型法 – 决策树方法 – 语言学方法 – 神经网络分析法 ……
• 训练数据集有针对性 – 原核生物vs.真核生物 – 动物vs.植物
基因预测软件
基因结构分析工具
GENSCAN http://genes.mit.edu/GENSCAN.html
GeneMark
Gene Finder
FGENESH GlimmerM FgeneSB/
FgeneSV
http://www.ebi.ac.uk/genemark/ http://opal.biology.gatech.edu/GeneMark/ http://rulai.cshl.org/tools/genefinder/(Dr. Michael
不同的基因预测软件分析结果有差异
因此,要综合多个基因预测软件的分析结果
一种分析工具可选择分析基因的不同结构
❖ exon, poly-A, promoter ❖ 重复序列 某些分析工具可选择物种模式(matrix)作 为参照比较对象
某些分析工具可用不同的方式呈现分析结果 (文字或图形)
分析举例(1) Softberry(http://www.softberry.com)的
(一) 基因预测的基本分析内容
排除重复序列 确定开放阅读框(open reading frame, ORF)——内含子/外显子
剪切位点识别;选择性剪切分析
确定基因的调控区——核心启动子/转录因子结合位点/转录启始位 点的识别;转录终止信号的预测; CpG 岛的识别等
ATG
TGA
Promoter 5’-UTR Exon 1
Zhang ) http://www.softberry.com/all.htm http://www.tigr.org/tdb/glimmerm/glmr_form.html
http://www.softberry.com/all.htm
Generation http://compbio.ornl.gov/generation/
GeneBuilder
FGENESH+ /++
GenomeScan GeneWise
http://l25.itba.mi.cnr.it/~webgene/genebuilder.html http://www.softberry.com/all.htm http://genes.mit.edu/genomescan.html http://www.sanger.ac.uk/Software/Wise2/
Chapter 5 基因结构预测 与基因表达分析
cDNA序列 基因组序列
翻译
编码区预测 蛋白质序列
蛋白质理化性质 二级结构预测 结构域分析 重要信号位点分析 三级结构预测
基因结构分析
调控元件分析 选择性剪切 SNP
序列比对 功能注释
KEGG GO 系统发育树
基因预测和基因结构分析
生物信息学中的重要内容之一 预测编码蛋白质的基因
GRAIL
http://grail.lsd.ornl.gov/grailexp/
BCM Gene http://searchlauncher.bcm.tmc.edu/seq-search/gene-
Finder
search.html
Web/Linux
Web
Web
Web/Linux Linux
Web
Web Web Web/Linux Web Web Web/Linux