Chapter 核苷酸序列分析2012

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Web
Web Web/Linux Web Web Web/Linux/ Windows Web
GenomeScan GeneWise GRAIL BCM Gene Finder
核苷酸序列分析
ORF
开放读码框的识别
• 预测ORF的方法都是针对特定物种而设计的, 如GENSCAN最初是针对人类的,后扩展对 脊椎动物、果蝇、拟南芥、玉米基因的预测。
• Kozak规则: ORF中起始密码子ATG前后的碱基具 有特定的偏好性。若将第一个ATG中的碱基分别 标为1、2、3位,则Kozak规则可描述如下:
1. 第4位的偏好碱基为G; 2. ATG的5’端的15bp范围内的侧翼序列内不含碱基T; 3. 第3、6、9位G为偏好碱基; 4. 除第3、6、9位,在整个侧翼序列区中,C为偏好碱基。
• 原核生物中多数基因的编码序列在100氨基酸以上; 真核生物的编码区由内含子和外显子组成,其外显 子的平均长度约为50个氨基酸。
• 预测ORF的方法有两类:基于统计分析和模式识别 (如GENSCAN, GeneMark, GRAIL II 等),基于 同源比对。
核苷酸序列分析
ORF
开放读码框的识别
RNASPL
与相应的基因组序列比对,分析比对片段的 分布位置 预测工具:
Spidey,SIM4,BLAT,BLAST,FASTA
核苷酸序列分析
Gene Structure
基因开放阅读框/基因结构分析工具
对基因组序列的读码框区域进行预测
NNSplice Splice View NetGene2
SPL/SPLM/RNASPL/FSPLICE
• GlimerM适于恶性疟原虫、拟南芥、曲霉菌 和水稻 • 对mRNA, cDNA, EST, 宜用GetOrf, ORF Finder, Plotorf, BestORF 等
核苷酸序列分析
ORF
应用ORF Finder预测水稻瘤矮病毒 (RGDV)S8片断的ORF
• ORF Finder: http://www.ncbi.nlm.nih.gov/gorf/gorf.html
http://www.repeatmasker.org/cgi-bin/WEBRepeatMasker
Arabidopsis thaliana chromosome 2, part sequence (NC_003071.1)
Output
核苷酸序列分析
ORF
开放读码框的识别
• 开放读码框(open reading frame, ORF) 是一段起始密码子(ATG)和终止密码子(TAA, TAG, TGA)之间的碱基序列 • ORF 是潜在的蛋白质编码区
PromoterScan
http://bimas.dcrt.nih.gov:80/molbio/proscan
粘贴AY684193 输出结果
核苷酸序列分析
Gene Structure
内含子/外显子剪切位点识别
对基因组序列的读码框区域进行预测
内含子5’端供体位点(donor splice site): GT 内含子3’端受体位点(acceptor splice site): AG 内含子区域核苷酸组分是识别编码区的重要依据
核苷酸序列分析
ORF
Getorf
Plotorf ORF Finder BestORF
基因开放阅读框/基因结构分析识别工具
http://bioweb.pasteur.fr/seqanal/interfaces/getorf.html
http://bioweb.pasteur.fr/seqanal/interfaces/plotorf.html http://www.ncbi.nlm.nih.gov/gorf/gorf.html http://www.softberry.com/all.htm
Web/Linux
Web Web Web/Linux Linux Web
Generation
GeneBuilder
FGENESH+ /++
http://compbio.ornl.gov/generation/
http://l25.itba.mi.cnr.it/~webgene/genebuilder.html http://www.softberry.com/all.htm http://genes.mit.edu/genomescan.html http://www.sanger.ac.uk/Software/Wise2/ http://grail.lsd.ornl.gov/grailexp/ http://searchlauncher.bcm.tmc.edu/seq-search/genesearch.html
Web/Linux
Web/Linux Web Web
GENSCAN
GeneMark Gene Finder FGENESH GlimmerM FgeneSB/ FgeneSV
http://genes.mit.edu/GENSCAN.html
http://www.ebi.ac.uk/genemark/ http://opal.biology.gatech.edu/GeneMark/ http://rulai.cshl.org/tools/genefinder/(Dr. Michael Zhang ) http://www.softberry.com/all.htm http://www.tigr.org/tdb/glimmerm/glmr_form.html http://www.softberry.com/all.htm
核苷酸序列分析
ORF
重复序列分析
• 原核基因组中除rRNA、tRNA基因有多个 拷贝外,重复序列(repetitive sequences) 不多。

哺乳动物基因组中则存在大量重复序列, 分为3类:
1. 高度重复序列。一般较短,长10~300bp,重复 106次左右,占基因组10%~60%,在人类基因 组中约占20%,功能还不明确。
ggccagatgg aacatattgc tttcgggagc acaaggatcg ggtctactac gtctcggagc
ggattttgaa gctgagcgag tgcttcggct acaagcagct ggtgtgcgtg ggcacctgct tcggcaagtt ctccaagacc aacaaactga agttccatat cacggcgctc tactacttgg
Web Web Web Web
GeneSplicer
MZEF SpliceProximalCheck SplicePredictor
http://www.tigr.org/tdb/GeneSplicer/gene_spl.html
http://www.ebi.ac.uk/~thanaraj/MZEF-SPC.html http://corba.ebi.ac.uk/cgi-bin/sp/wrapper.cgi http://bioinformatics.iastate.edu/cgi-bin/sp.cgi
核苷酸序列分析
ORF
重复序列分析
2. 中度重复序列。长10~300bp,重复10~105次, 占基因组10~40%。哺乳类中含量最多的一种 称为Alu的序列,长约300bp,重复3×105次, 在人类基因组中约占7%,功能不是很清楚。 3. 单拷贝序列。这类序列基本上不重复,占哺乳 类基因组的50%~80%,在人类基因组中约占 65%。 • 由于大量重复序列影响序列分析,因此在对真核 基因分析前,最好把重复序列屏蔽掉。
不同的序列通常采用不同的分析方法
NetGene2和Splice View用于分析基因组核苷酸序 列编码区的剪切位点和内含子 mRNA/cDNA序列可用Spidey,SIM4,BLAT和 BLAST等分析工具
核苷酸序列分析
Gene Structure
内含子/外显子剪切位点识别
如何分析mRNA/cDNA的外显子组成?
1. CAP序列(增强聚合酶的结合和转录的起始序列,70~-40) 2. -10序列:在-4到-13bp处,有保守序列TATAAT,称为 Pribnow框,各碱基频率:T89 A89 T50 A65 A65 T100
3. -35序列:约在-35处有保守序列TTGACA, 其中TTG十 分保守,各碱基频率:T85 T83 G81 A61 C69 A52
核苷酸序列分析
胡松年 2005 《基因表达序列标签 (EST)数据分析手册》第七章
吴祖建等 2011 《生物信息学分析实践 》 第4.3节
核苷酸序列分析
重复序列分析 开放读码框(open reading frame, ORF)的识别 基因结构分析 内含子/外显子剪切位点识别 选择性剪切分析 CpG 岛的识别 核心启动子/转录因子结合位点/转录启始位 点的识别 转录终止信号的预测 GC含量/密码子偏好性分析
• 提交序列:以登陆号或直接粘贴FASTA格式的序列. • 参数设置:可设置待分析序列片断的起始和结束位置;ORF Finder提供 了22种遗传密码表可供选择。这里选择默认参数.
The Genetic Codes
点击
点击
结果验证
• 采用数据库搜索方法对选定的ORF进行 验证 • BLASTB比对搜索到多个显著相似的序 列, 因此所预测的ORF可信度比较高
Leabharlann Baidu
http://www.fruitfly.org/seq_tools/splice.html http://l25.itba.mi.cnr.it/~webgene/wwwspliceview.html http://www.cbs.dtu.dk/services/NetGene2/ http://www.softberry.com/all.htm
Web/Linux
Web Web
分析mRNA/cDNA的外显子组成
GeneSeqer Spidey PROT_MAP Sim4 BLAT BLAST FASTA http://bioinformatics.iastate.edu/cgi-bin/gs.cgi http://www.ncbi.nih.gov/spidey http://sun1.softberry.com/berry.phtml?topic=prot_map&group=pr ograms&subgroup=xmap http://gamay.univ-perp.fr/analyse_seq/sim4 http://globin.cse.psu.edu/ http://www.cse.ucsc.edu/~kent/src/unzipped/blat/ ftp://ftp.ncbi.nlm.nih.gov/BLAST/Executables ftp://ftp.virginia.edu/pub/fasta/win32_fasta/fasta34t21b5d.zip Web/Linux Web Web Web/Linux Linux Web/Windows/ Linux Web/Windows/ Linux
点击
GetOrf
http://bioweb.pasteur.fr/seqanal/interfaces/getorf.html
ggccagatgg aacatattgc tttcgggagc acaaggatcg ggtctactac gtctcggagc
ggattttgaa gctgagcgag tgcttcggct acaagcagct ggtgtgcgtg ggcacctgct
tcggcaagtt ctccaagacc aacaaactga agttccatat cacggcgctc tactacttgg cgccctacgc ccagtacaag gtgtgggtga agccctcctt cgagcagcag tttctctacg
输出结果
GENSCAN
http://genes.mit.edu/GENSCAN.html
核苷酸序列分析
ORF
启动子及转录因子结合位点分析
• 真核生物启动子是在基因转录起始位点(+1)及其5’ 上游大约100~200bp或下游100bp的一组具有独立 功能的DNA序列,包括: 1. 核心启动子( core promoter): 转录起始位点(+1) 一般是A或G及转录起始位点上游-25~-30的 TATA框 2. 上游启动子元件(upstream promoter element, UPE): 包括通常-70bp附近的CAAT框 (GGCCAATCT)和GC框(GGGCGG)等
cgccctacgc ccagtacaag gtgtgggtga agccctcctt cgagcagcag tttctctacg
输出结果
核苷酸序列分析
ORF
启动子及转录因子结合位点分析
• 启动子(Promoter)是RNA聚合酶识别、结合并开 始转录所必需的一段DNA序列。

原核生物启动子序列包括:
• 水稻瘤矮病毒(rice gall dwarf virus, RGDV)引起的水稻瘤矮 病是中国及东南亚国家水稻上的一种重要病毒病害. • 为构建融合蛋白的表达载体,需要对RGDV S8片断的基因 序列(GenBank登陆号:AY216767)进行ORF分析并确定 其位置,为设计表达引物提供信息.
相关文档
最新文档