真核生物基因结构的预测分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Neural Network Promoter Prediction
Softberry: BPROM, TSSP, TSSG, TSSW MatInspector RSAT Cister
http://www.fruitfly.org/seq_tools/promoter.html
Web
http://www.softberry.com/berry.phtml?topic=ind ex&group=programs&subgroup=promoter http://www.gene-regulation.de/ http://rsat.ulb.ac.be/rsat/ http://zlab.bu.edu/~mfrith/cister.shtml
密码子表的选择
计算所有指数 27
CodonW结果界面
各项指数输出结果
密码子使用频率
28
• CAI (Codon Adaptation Index)密码子适应指数
目标基因与高表达基因的密码子偏好性的相似程度 (1完全相同,0完全不相同,本例为0.173)
• CBI (Condon Bias Index)密码子偏好指标
10
转录调控序列分析
CpG岛、转录终止信号和启动子区域的预测
11
CpG岛的预测
CpG岛
常位于真核生物基因转录起始位点,GC含>50% , 长度>200bp的一段DNA序列。
12
CpG Island 分析常用软件ຫໍສະໝຸດ Baidu
CpG Island CpGPlot CpG finder CpGi130 CpGproD http://www.uscnorris.com/cpgislands2/cpg.asp Web x http://www.ebi.ac.uk/emboss/cpgplot/index. Web html http://www.softberry.com/berry.phtml?topic=c pgfinder&group=programs&subgroup=pro Web moter http://methycancer.psych.ac.cn/CpG130.do web web
mRNA
GC区
增强子
CAAT区
TATAAT
PyAPy
上游启动子元件,UPE
核心启动子元件
转录起始 位点
20
启动子结合位点分析常用软件
PromoterScan Promoser
http://bimas.dcrt.nih.gov:80/molbio/proscan/ http://biowulf.bu.edu/zlab/PromoSer/ Web Web
选择物种
提交序列
33
NetGene2输出结果
相位 供体位点 可信度
受体位点
34
mRNA剪切位点识别:Spidey
http://www.ncbi.nih.gov/spidey
• NCBI开发的在线预测程序 • 用于mRNA序列同基因组序列比对分析
35
Spidey同源序列的获得:序列比对
• 通过BLAST进行序列比对,找到可能同源 的相似性好的一系列mRNA序列。
上游启动子元件(Upstream promoter element,UPE)
CAAT box,GC box,SP1,Otc
增强子(Enhancer)
19
原核和真核生物基因转录起始位点上游区 结构
原核生物
-35 -10 +1 mRNA
TTGACA
TATAAT
A
真核生物
-110 -40 -25 +1
http://pbil.univlyon1.fr/software/cpgprod_query.html
13
CpG岛的预测:CpGPlot
http://www.ebi.ac.uk/Tools/emboss/cpgplot/
参数选项
提交序列
提交序列文件
GENESCAN 预测结果
起始为624bp 终止于51875bp
3’
16
转录终止信号预测:POLYAH
http://www.softberry.com/berry.phtml?topic=polyah&group=programs &subgroup=promoter
提交序列 提交序列文件
17
POLYAH输出结果
GENESCAN预测结果 PolyA位点52490bp
Fgenes FgeneSV Generation FGENESB GenomeScan GeneWise2
Softberry Softberry ORNL Softberry MIT EBI
人(基因结构) 病毒 原核 细菌(基因结构) 脊椎、拟南芥、玉米 人 7 人、小鼠、拟南芥、果蝇
GRAIL
http://grail.lsd.ornl.gov/grailexp/
BLAST比对到的三条mRNA序列
36
输入基因组序列或序列数据库号
输入相似性序列
判断用于分析的序列间的 差异,并调整比对参数 比对阈值
不受默认内含子长度限 制, 默认长度:内部内含子 为35kb, 末端内含子为 100kb 输出格式选择
选择物种
37
Spidey输出结果
第一条蓝色序列 为基因组序列, 橘黄色为外显子 外显子对应于 外显子对应于 基因组上的 mRNA/cDNA上的 起始/结束位置 起始/结束位置 供体、受体位点
15
转录终止信号
上游作用元件:AAUAAA
mRNA前体 5’ AAUAAA CA GU 3’
成熟mRNA
5’
AAUAAA
CAAAAAAAAAAAAA
3’
下游作用元件:GC rich二重对称区、UUUUUU
RNA 5’
UUUUUUUUU C-G C-G G-C G-C U-A G-C G-C C-G G-C
目标基因与随机序列的最优密码子的差异程度 (1完全偏好,0随机情况,可能为负值,本例为-0.049)
• Fop (Frequency of optimal codon)最优密码子频率
目标基因的最优密码子数与全部同义密码子数的比值 (1完全偏好,0完全无偏好,本例为0.380)
29
课堂练习
• 使用CodonW分析基因的密码子使用偏好, 了解密码子偏好分析中各指数的含义。
6
基因开放阅读框/基因结构分析识别工具
ORF Finder BestORF GENSCAN Gene Finder FGENESH GeneMark GLIMMER http://www.ncbi.nlm.nih.gov/gorf/gorf.html http://linux1.softberry.com/berry.phtml?topic=bestorf& group=programs&subgroup=gfind http://genes.mit.edu/GENSCAN.html http://rulai.cshl.org/tools/genefinder/ http://linux1.softberry.com/berry.phtml?topic=fgenesh &group=programs&subgroup=gfind http://opal.biology.gatech.edu/GeneMark/eukhmm.cgi http://www.ncbi.nlm.nih.gov/genomes/MICROBES/gli mmer_3.cgi http://www.cbcb.umd.edu/software/glimmer http://linux1.softberry.com/berry.phtml?topic=fgenes& group=programs&subgroup=gfind http://linux1.softberry.com/berry.phtml?topic=virus&gr oup=programs&subgroup=gfindv http://compbio.ornl.gov/generation/ http://linux1.softberry.com/berry.phtml?topic=fgenesb &group=programs&subgroup=gfindb http://genes.mit.edu/genomescan.html http://www.ebi.ac.uk/Wise2/ NCBI Softberry MIT Zhang lab Softberry GIT Maryland 通用 真核 脊椎、拟南芥、玉米 人、小鼠、拟南芥、酵母 真核(基因结构) 原核 原核
序列联配结果
外显子 序号
外显子 一致性 长度 百分比
错配和gap
38
课堂练习
• 1 练习两种预测剪切位点的软件的使用, NetGene2和Spidey。
• 2 Spidey的同源序列文件保存在 c:\zcni\shixi2文件下,名字为Spidey.txt, 使用写字板打开查看。
基因组序列 cDNA序列
翻译
编码区预测
基因结构分析
蛋白质序列
蛋白质理化性质 二级结构预测 结构域分析 重要信号位点分析 三级结构预测
Codon bias 选择性剪切 GC Content 转录调控因子 限制性酶切位点
序列比对 功能注释 KEGG GO 系统发育树
3
真核生物基因的主要结构
4
基因结构分析常用软件
真核生物基因结构的 预测分析
楼小燕
冯晔
陈晓龙
蒋华蔚
1
课程内容
实习一 实习二 基因组数据注释和功能分析 真核生物基因结构的预测分析
基因组学 系 统 生 物 学
实习三
实习四 实习五 实习六
芯片的基本数据处理和分析
蛋白质结构与功能分析 蛋白质组学数据分析
转录物组学
蛋白质组学
系统生物学软件实习
2
基因组功能分析
ORNL
ORF识别:GENSCAN
选择物种类型
http://genes.mit.edu/GENSCAN.html
是否显示非最优外显子 序列名称(可选) 显示氨基酸或CDS序列 提交序列文件
提交序列
结果返回到邮箱(可选)
8
运行GENSCAN
GENSCAN输出结果:文本
9
课堂练习
• 使用GENESCAN预测序列中可能的ORF。 • 练习用的序列文件在c:\zcni\shixi2文件下, 名字为clone.txt,使用写字板打开查看。
24
基因密码子偏好性
25
1.研究蛋白质结 构功能中的作用 2.在表达外源基 因方面的作用 3.在生物信息学 研究中的作用
26
基因密码子偏好性: CodonW
http://mobyle.pasteur.fr/cgi-bin/portal.py?form=codonw#forms::codonw
粘帖目的序列
Web
Web Web Web
21
启动子预测:PromoterScan
http://www-bimas.cit.nih.gov/molbio/proscan/
提交序列
22
PromoterScan输出结果
找到的TATA box和转录起始位点
预测可能的转录因子
转录因子在提交序列中的位置
23
课堂练习
• 1 使用CpG Plot预测基因的CpG island位 置。 • 2 使用PolyAH预测基因可能的转录终止 的位置。 • 3 使用PromotorScan寻找基因上游序列 里可能的转录因子调控区域。
polyA位置
18
启动子区结构
启动子(Promoter)
位于结构基因5’端上游,能活化RNA聚合酶,使之与模板 DNA结合并具有转录起始的特异性。 转录起始位点(Transcription start site, TSS)
PYCAPY(嘧啶)
核心启动子元件(Core promoter element) TATA box,Pribnow box (TATAA)
30
内含子/外显子剪切位点识别
如何分析核酸序列中的外显子组成?
通过对特征序列(GT-AG)的分析进行直 接的预测基因预测软件(NetGene2)
与相应的基因组序列比对,分析比对片 段的分布位置(Spidey)
31
32
剪切位点识别:NetGene2
http://www.cbs.dtu.dk/services/NetGene2/
开放读码框 CpG岛 转录终止信号 GENSCAN CpGPlot POLYAH PromoterScan CodonW NETGENE2 mRNA剪切位点
基因结构分析
启动子/转录起始位点 密码子偏好分析
Spidey
选择性剪切 ASTD
5
开放读码框的识别
• 开放读码框(open reading frame, ORF) 是一段起始密码子和终止密码子之间的碱基序列 • ORF 是潜在的蛋白质编码区