真核生物基因结构的预测分析方法(软件)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
实习二 真核生物基因结构的预 测分析
浙江加州国际纳米技术研究院 2010年11月
苏锟楷 楼小燕 韩序 蒋 琰
1
课程内容
实习一 实习二 基因组数据注释和功能分析 真核生物基因结构的预测分析
基因组学 系 统 生 物 学
实习三
实习四 实习五 实习六
芯片的基本数据处理和分析
蛋白质结构与功能分析 蛋白质组学数据分析
提交序列 提交序列文件
21
POLYAH输出结果
GENESCAN预测结果 PolyA位点52490bp
polyA位置
22
启动子区结构
启动子(Promoter)
位于结构基因5’端上游,能活化RNA聚合酶,使之与模板 DNA结合并具有转录起始的特异性。 转录起始位点(Transcription start site, TSS)
http://bimas.dcrt.nih.gov:80/molbio/proscan/ http://biowulf.bu.edu/zlab/PromoSer/ http://www.fruitfly.org/seq_tools/promoter.html Web Web Web
Softberry: BPROM, TSSP, TSSG, TSSW
MatInspector
http://www.softberry.com/berry.phtml?topic=ind ex&group=programs&subgroup=promoter
http://www.gene-regulation.de/
Web
Web
RSAT
Cister
http://rsat.ulb.ac.be/rsat/
CpGPlot
CpG finder CpGi130
CpGproD
http://pbil.univlyon1.fr/software/cpgprod_query.html
web
17
CpG岛的预测:CpGPlot
http://www.ebi.ac.uk/emboss/cpgplot/index.html
开放读码框的识别
• 开放读码框(open reading frame, ORF) 是一段起始密码子和终止密码子之间的碱基序列 • ORF 是潜在的蛋白质编码区
6
基因开放阅读框/基因结构分析识别工具
ORF Finder BestORF GENSCAN Gene Finder FGENESH GeneMark GLIMMER http://www.ncbi.nlm.nih.gov/gorf/gorf.html http://linux1.softberry.com/berry.phtml?topic=bestorf& group=programs&subgroup=gfind http://genes.mit.edu/GENSCAN.html http://rulai.cshl.org/tools/genefinder/ http://linux1.softberry.com/berry.phtml?topic=fgenesh &group=programs&subgroup=gfind http://opal.biology.gatech.edu/GeneMark/eukhmm.cgi http://www.ncbi.nlm.nih.gov/genomes/MICROBES/gli mmer_3.cgi http://www.cbcb.umd.edu/software/glimmer http://linux1.softberry.com/berry.phtml?topic=fgenes& group=programs&subgroup=gfind http://linux1.softberry.com/berry.phtml?topic=virus&gr oup=programs&subgroup=gfindv http://compbio.ornl.gov/generation/ http://linux1.softberry.com/berry.phtml?topic=fgenesb &group=programs&subgroup=gfindb http://genes.mit.edu/genomescan.html http://www.ebi.ac.uk/Wise2/ NCBI Softberry MIT Zhang lab Softberry GIT Maryland 通用 真核 脊椎、拟南芥、玉米 人、小鼠、拟南芥、酵母 真核(基因结构) 原核 原核
参数选项
提交序列
提交序列文件
GENESCAN 预测结果
起始为532bp 终止于51783bp
19
转录终止信号
上游作用元件:AAUAAA
mRNA前体 5’ AAUAAA CA GU 3’
成熟mRNA
5’
AAUAAA
CAAAAAAAAAAAAA
3’
下游作用元件:GC rich二重对称区、UUUUUU
序列联配结果
外显子 序号
外显子 一致性 长度 百分比
错配和gap
41
课堂练习
• 1 练习两种预测剪切位点的软件的使用, NetGene2和Spidey。
计算同义密码子数量 密码子总数
31
CodonW结果界面
各项指数输出结果
密码子使用频率
32
课堂练习
• 使用CodonW分析基因的密码子使用偏好, 了解密码子偏好分析中各指数的含义。
33
内含子/外显子剪切位点识别
如何分析核酸序列中的外显子组成?
通过对特征序列(GT-AG)的分析进行直 接的预测基因预测软件(NetGene2)
http://www.ncbi.nih.gov/spidey
• NCBI开发的在线预测程序 • 用于mRNA序列同基因组序列比对分析
38
源自文库
Spidey同源序列的获得:序列比对
• 通过BLAST进行序列比对,找到可能同源 的相似性好的一系列mRNA序列。
BLAST比对到的三条mRNA序列
39
输入基因组序列或序列数据库号
输入相似性序列
判断用于分析的序列间的 差异,并调整比对参数 比对阈值
不受默认内含子长度限 制, 默认长度:内部内含子 为35kb, 末端内含子为 100kb 输出格式选择
选择物种
40
Spidey输出结果
第一条蓝色序列 为基因组序列, 橘黄色为外显子 外显子对应于 外显子对应于 基因组上的 mRNA/cDNA上的 起始/结束位置 起始/结束位置 供体、受体位点
原核和真核生物基因转录起始位点上游区 结构
原核生物
-35 -10 +1 mRNA
TTGACA
TATAAT
A
真核生物
-110 -40 -25 +1
mRNA
GC区
增强子
CAAT区
TATAAT
PyAPy
上游启动子元件,UPE
核心启动子元件
转录起始 位点
24
启动子结合位点分析常用软件
PromoterScan Promoser Neural Network Promoter Prediction
Fgenes FgeneSV Generation FGENESB GenomeScan GeneWise2
Softberry Softberry ORNL Softberry MIT EBI
人(基因结构) 病毒 原核 细菌(基因结构) 脊椎、拟南芥、玉米 人 7 人、小鼠、拟南芥、果蝇
GRAIL
http://grail.lsd.ornl.gov/grailexp/
与相应的基因组序列比对,分析比对片 段的分布位置(Spidey)
34
35
剪切位点识别:NetGene2
http://www.cbs.dtu.dk/services/NetGene2/
选择物种
提交序列
36
NetGene2输出结果
相位 供体位点 可信度
受体位点
37
mRNA剪切位点识别:Spidey
13
课堂练习
• 1使用GENESCAN预测序列中可能的ORF。 • 2使用GENOMESCAN预测序列中可能的 ORF。
• 练习用的序列文件在c:\zcni\shixi2文件下, 名字为clone.fasta,使用写字板打开查看。
14
转录调控序列分析
CpG岛、转录终止信号和启动子区域的预测
15
CpG岛的预测
CpG岛
常位于真核生物基因转录起始位点,GC含>50% , 长度>200bp的一段DNA序列。
16
CpG Island 分析常用软件
CpG Island http://www.uscnorris.com/cpgislands2/cpg.asp Web x http://www.ebi.ac.uk/emboss/cpgplot/index. Web html http://www.softberry.com/berry.phtml?topic=c pgfinder&group=programs&subgroup=pro Web moter http://methycancer.psych.ac.cn/CpG130.do web
http://zlab.bu.edu/~mfrith/cister.shtml
Web
Web
25
启动子预测:PromoterScan
http://www-bimas.cit.nih.gov/molbio/proscan/
提交序列
26
PromoterScan输出结果
找到的TATA box和转录起始位点
10
ORF识别: GenomeScan
http://genes.mit.edu/genomescan.html
提交待分析序列
提交同源蛋白质序列
11
运行GenomeScan
GenomeScan输出结果:文本
预测外显子位置、可 信度等信息
同源比 对信息
预测结果的氨基酸序列
12
GenomeScan输出结果:图形
预测可能的转录因子
转录因子在提交序列中的位置
27
课堂练习
• 1 使用CpG Plot预测基因的CpG island位 置。 • 2 使用PolyAH预测基因可能的转录终止 的位置。 • 3 使用PromotorScan寻找基因上游序列 里可能的转录因子调控区域。
28
基因密码子偏好性
1.研究蛋白质结 构功能中的作用 2.在表达外源基 因方面的作用 3.在生物信息学 研究中的作用
转录物组学
蛋白质组学
系统生物学软件实习
2
基因组功能分析
基因组序列 cDNA序列
翻译
编码区预测
基因结构分析
蛋白质序列
蛋白质理化性质 二级结构预测 结构域分析 重要信号位点分析 三级结构预测
Codon bias 选择性剪切 GC Content 转录调控因子 限制性酶切位点
序列比对 功能注释 KEGG GO 系统发育树
RNA 5’
UUUUUUUUU C-G C-G G-C G-C U-A G-C G-C C-G G-C
3’
20
转录终止信号预测:POLYAH
http://www.softberry.com/berry.phtml?topic=polyah&group=programs &subgroup=promoter
29
基因密码子偏好性: CodonW
粘帖目的序列
密码子表的选择 如需计算FOP/CBI 选择相应物种 如需计算CAI选择 相应物种 输出格式(默认不选) 汇总所有基因的信息 30
参数选择
计算所有指数
选择导入对应物种 CAI FOP CBI数据 计算有效密码子数 计算GC含量 计算GC3s含量
计算同义密码子 第三位碱基组成
3
真核生物基因的主要结构
4
基因结构分析常用软件
GENSCAN 开放读码框 GENOMESCAN CpG岛 转录终止信号 CpGPlot POLYAH PromoterScan CodonW NETGENE2 mRNA剪切位点 Spidey 选择性剪切 ASTD
5
基因结构分析
启动子/转录起始位点 密码子偏好分析
PYCAPY(嘧啶)
核心启动子元件(Core promoter element) TATA box,Pribnow box (TATAA)
上游启动子元件(Upstream promoter element,UPE)
CAAT box,GC box,SP1,Otc
增强子(Enhancer)
23
ORNL
ORF识别:GENSCAN
选择物种类型
http://genes.mit.edu/GENSCAN.html
是否显示非最优外显子 序列名称(可选) 显示氨基酸或CDS序列 提交序列文件
提交序列
结果返回到邮箱(可选)
8
运行GENSCAN
GENSCAN输出结果:文本
9
GENSCAN输出结果:图形
浙江加州国际纳米技术研究院 2010年11月
苏锟楷 楼小燕 韩序 蒋 琰
1
课程内容
实习一 实习二 基因组数据注释和功能分析 真核生物基因结构的预测分析
基因组学 系 统 生 物 学
实习三
实习四 实习五 实习六
芯片的基本数据处理和分析
蛋白质结构与功能分析 蛋白质组学数据分析
提交序列 提交序列文件
21
POLYAH输出结果
GENESCAN预测结果 PolyA位点52490bp
polyA位置
22
启动子区结构
启动子(Promoter)
位于结构基因5’端上游,能活化RNA聚合酶,使之与模板 DNA结合并具有转录起始的特异性。 转录起始位点(Transcription start site, TSS)
http://bimas.dcrt.nih.gov:80/molbio/proscan/ http://biowulf.bu.edu/zlab/PromoSer/ http://www.fruitfly.org/seq_tools/promoter.html Web Web Web
Softberry: BPROM, TSSP, TSSG, TSSW
MatInspector
http://www.softberry.com/berry.phtml?topic=ind ex&group=programs&subgroup=promoter
http://www.gene-regulation.de/
Web
Web
RSAT
Cister
http://rsat.ulb.ac.be/rsat/
CpGPlot
CpG finder CpGi130
CpGproD
http://pbil.univlyon1.fr/software/cpgprod_query.html
web
17
CpG岛的预测:CpGPlot
http://www.ebi.ac.uk/emboss/cpgplot/index.html
开放读码框的识别
• 开放读码框(open reading frame, ORF) 是一段起始密码子和终止密码子之间的碱基序列 • ORF 是潜在的蛋白质编码区
6
基因开放阅读框/基因结构分析识别工具
ORF Finder BestORF GENSCAN Gene Finder FGENESH GeneMark GLIMMER http://www.ncbi.nlm.nih.gov/gorf/gorf.html http://linux1.softberry.com/berry.phtml?topic=bestorf& group=programs&subgroup=gfind http://genes.mit.edu/GENSCAN.html http://rulai.cshl.org/tools/genefinder/ http://linux1.softberry.com/berry.phtml?topic=fgenesh &group=programs&subgroup=gfind http://opal.biology.gatech.edu/GeneMark/eukhmm.cgi http://www.ncbi.nlm.nih.gov/genomes/MICROBES/gli mmer_3.cgi http://www.cbcb.umd.edu/software/glimmer http://linux1.softberry.com/berry.phtml?topic=fgenes& group=programs&subgroup=gfind http://linux1.softberry.com/berry.phtml?topic=virus&gr oup=programs&subgroup=gfindv http://compbio.ornl.gov/generation/ http://linux1.softberry.com/berry.phtml?topic=fgenesb &group=programs&subgroup=gfindb http://genes.mit.edu/genomescan.html http://www.ebi.ac.uk/Wise2/ NCBI Softberry MIT Zhang lab Softberry GIT Maryland 通用 真核 脊椎、拟南芥、玉米 人、小鼠、拟南芥、酵母 真核(基因结构) 原核 原核
参数选项
提交序列
提交序列文件
GENESCAN 预测结果
起始为532bp 终止于51783bp
19
转录终止信号
上游作用元件:AAUAAA
mRNA前体 5’ AAUAAA CA GU 3’
成熟mRNA
5’
AAUAAA
CAAAAAAAAAAAAA
3’
下游作用元件:GC rich二重对称区、UUUUUU
序列联配结果
外显子 序号
外显子 一致性 长度 百分比
错配和gap
41
课堂练习
• 1 练习两种预测剪切位点的软件的使用, NetGene2和Spidey。
计算同义密码子数量 密码子总数
31
CodonW结果界面
各项指数输出结果
密码子使用频率
32
课堂练习
• 使用CodonW分析基因的密码子使用偏好, 了解密码子偏好分析中各指数的含义。
33
内含子/外显子剪切位点识别
如何分析核酸序列中的外显子组成?
通过对特征序列(GT-AG)的分析进行直 接的预测基因预测软件(NetGene2)
http://www.ncbi.nih.gov/spidey
• NCBI开发的在线预测程序 • 用于mRNA序列同基因组序列比对分析
38
源自文库
Spidey同源序列的获得:序列比对
• 通过BLAST进行序列比对,找到可能同源 的相似性好的一系列mRNA序列。
BLAST比对到的三条mRNA序列
39
输入基因组序列或序列数据库号
输入相似性序列
判断用于分析的序列间的 差异,并调整比对参数 比对阈值
不受默认内含子长度限 制, 默认长度:内部内含子 为35kb, 末端内含子为 100kb 输出格式选择
选择物种
40
Spidey输出结果
第一条蓝色序列 为基因组序列, 橘黄色为外显子 外显子对应于 外显子对应于 基因组上的 mRNA/cDNA上的 起始/结束位置 起始/结束位置 供体、受体位点
原核和真核生物基因转录起始位点上游区 结构
原核生物
-35 -10 +1 mRNA
TTGACA
TATAAT
A
真核生物
-110 -40 -25 +1
mRNA
GC区
增强子
CAAT区
TATAAT
PyAPy
上游启动子元件,UPE
核心启动子元件
转录起始 位点
24
启动子结合位点分析常用软件
PromoterScan Promoser Neural Network Promoter Prediction
Fgenes FgeneSV Generation FGENESB GenomeScan GeneWise2
Softberry Softberry ORNL Softberry MIT EBI
人(基因结构) 病毒 原核 细菌(基因结构) 脊椎、拟南芥、玉米 人 7 人、小鼠、拟南芥、果蝇
GRAIL
http://grail.lsd.ornl.gov/grailexp/
与相应的基因组序列比对,分析比对片 段的分布位置(Spidey)
34
35
剪切位点识别:NetGene2
http://www.cbs.dtu.dk/services/NetGene2/
选择物种
提交序列
36
NetGene2输出结果
相位 供体位点 可信度
受体位点
37
mRNA剪切位点识别:Spidey
13
课堂练习
• 1使用GENESCAN预测序列中可能的ORF。 • 2使用GENOMESCAN预测序列中可能的 ORF。
• 练习用的序列文件在c:\zcni\shixi2文件下, 名字为clone.fasta,使用写字板打开查看。
14
转录调控序列分析
CpG岛、转录终止信号和启动子区域的预测
15
CpG岛的预测
CpG岛
常位于真核生物基因转录起始位点,GC含>50% , 长度>200bp的一段DNA序列。
16
CpG Island 分析常用软件
CpG Island http://www.uscnorris.com/cpgislands2/cpg.asp Web x http://www.ebi.ac.uk/emboss/cpgplot/index. Web html http://www.softberry.com/berry.phtml?topic=c pgfinder&group=programs&subgroup=pro Web moter http://methycancer.psych.ac.cn/CpG130.do web
http://zlab.bu.edu/~mfrith/cister.shtml
Web
Web
25
启动子预测:PromoterScan
http://www-bimas.cit.nih.gov/molbio/proscan/
提交序列
26
PromoterScan输出结果
找到的TATA box和转录起始位点
10
ORF识别: GenomeScan
http://genes.mit.edu/genomescan.html
提交待分析序列
提交同源蛋白质序列
11
运行GenomeScan
GenomeScan输出结果:文本
预测外显子位置、可 信度等信息
同源比 对信息
预测结果的氨基酸序列
12
GenomeScan输出结果:图形
预测可能的转录因子
转录因子在提交序列中的位置
27
课堂练习
• 1 使用CpG Plot预测基因的CpG island位 置。 • 2 使用PolyAH预测基因可能的转录终止 的位置。 • 3 使用PromotorScan寻找基因上游序列 里可能的转录因子调控区域。
28
基因密码子偏好性
1.研究蛋白质结 构功能中的作用 2.在表达外源基 因方面的作用 3.在生物信息学 研究中的作用
转录物组学
蛋白质组学
系统生物学软件实习
2
基因组功能分析
基因组序列 cDNA序列
翻译
编码区预测
基因结构分析
蛋白质序列
蛋白质理化性质 二级结构预测 结构域分析 重要信号位点分析 三级结构预测
Codon bias 选择性剪切 GC Content 转录调控因子 限制性酶切位点
序列比对 功能注释 KEGG GO 系统发育树
RNA 5’
UUUUUUUUU C-G C-G G-C G-C U-A G-C G-C C-G G-C
3’
20
转录终止信号预测:POLYAH
http://www.softberry.com/berry.phtml?topic=polyah&group=programs &subgroup=promoter
29
基因密码子偏好性: CodonW
粘帖目的序列
密码子表的选择 如需计算FOP/CBI 选择相应物种 如需计算CAI选择 相应物种 输出格式(默认不选) 汇总所有基因的信息 30
参数选择
计算所有指数
选择导入对应物种 CAI FOP CBI数据 计算有效密码子数 计算GC含量 计算GC3s含量
计算同义密码子 第三位碱基组成
3
真核生物基因的主要结构
4
基因结构分析常用软件
GENSCAN 开放读码框 GENOMESCAN CpG岛 转录终止信号 CpGPlot POLYAH PromoterScan CodonW NETGENE2 mRNA剪切位点 Spidey 选择性剪切 ASTD
5
基因结构分析
启动子/转录起始位点 密码子偏好分析
PYCAPY(嘧啶)
核心启动子元件(Core promoter element) TATA box,Pribnow box (TATAA)
上游启动子元件(Upstream promoter element,UPE)
CAAT box,GC box,SP1,Otc
增强子(Enhancer)
23
ORNL
ORF识别:GENSCAN
选择物种类型
http://genes.mit.edu/GENSCAN.html
是否显示非最优外显子 序列名称(可选) 显示氨基酸或CDS序列 提交序列文件
提交序列
结果返回到邮箱(可选)
8
运行GENSCAN
GENSCAN输出结果:文本
9
GENSCAN输出结果:图形