核苷酸序列分析优秀课件

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
核苷酸序列分析
核苷酸序列分析
重复序列分析 开放读码框(open reading frame, ORF)的识别 基因结构分析
内含子/外显子剪切位点识别 选择性剪切分析 CpG 岛的识别 核心启动子/转录因子结合位点/转录启始位 点的识别 转录终止信号的预测 GC含量/密码子偏好性分析
核苷酸序列分析 ORF
http://grail.lsd.ornl.gov/grailexp/
http://searchlauncher.bcm.tmc.edu/seq-search/genesearch.html
Web/Linux
Web
Web Web/Linux Linux
Web
Web Web Web/Linux Web Web Web/Linux/ Windows
Web
核苷酸序列分析 ORF
开放读码框的识别
• 预测ORF的方法都是针对特定物种而设计的, 如GENSCAN最初是针对人类的,后扩展对 脊椎动物、果蝇、拟南芥、玉米基因的预测。
• GlimerM适于恶性疟原虫、拟南芥、曲霉菌 和水稻
• 对mRNA, cDNA, EST, 宜用GetOrf, ORF Finder, Plotorf, BestORF 等
ORF Finder http://www.ncbi.nlm.nih.gov/gorf/gorf.html
BestORF http://www.softberry.com/all.htm
Web/Linux Web/Linux Web Web
GENSCAN
GeneMark
Gene Finder FGENESH GlimmerM FgeneSB/ FgeneSV Generation GeneBuilder
重复序列分析
• 原核基因组中除rRNA、tRNA基因有多个 拷贝外,重复序列(repetitive sequences) 不多。
• 哺乳动物基因组中则存在大量重复序列, 分为3类:
1. 高度重复序列。一般较短,长10~300bp,重复 106次左右,占基因组10%~60%,在人类基因 组中约占20%,功能还不明确。
1. 第4位的偏好碱基为G; 2. ATG的5’端的15bp范围内的侧翼序列内不含碱基T; 3. 第3、6、9位G为偏好碱基; 4. 除第3、6、9位,在整个侧翼序列区中,C为偏好碱基。
核苷酸序列分析 ORF Getorf
Plotorf
基因开放阅读框/基因结构分析识别工具
http://bioweb.pasteur.fr/seqanal/interfaces/getorf.html http://bioweb.pasteur.fr/seqanal/interfaces/plotorf.html
核苷酸序列分析 ORF
开放读码框的识别
• 开放读码框(open reading frame, ORF)
是一段起始密码子(ATG)和终止密码子(TAA, TAG, TGA)之间的碱基序列
• ORF 是潜在的蛋白质编码区
• 原核生物中多数基因的编码序列在100氨基酸以上; 真核生物的编码区由内含子和外显子组成,其外显 子的平均长度约为50个氨基酸。
核苷酸序列分析
ORF 应用ORF Finder预测水稻瘤矮病毒 (RGDV)S8片断的ORF
• ORF Finder: http://www.ncbi.nlm.nih.gov/gorf/gorf.html
• 水稻瘤矮病毒(rice gall dwarf virus, RGDV)引起的水稻瘤矮 病是中国及东南亚国家水稻上的一种重要病毒病害.
http://www.softbቤተ መጻሕፍቲ ባይዱrry.com/all.htm
http://compbio.ornl.gov/generation/ http://l25.itba.mi.cnr.it/~webgene/genebuilder.html http://www.softberry.com/all.htm http://genes.mit.edu/genomescan.html http://www.sanger.ac.uk/Software/Wise2/
FGENESH+ /++
GenomeScan GeneWise
GRAIL
BCM Gene Finder
http://genes.mit.edu/GENSCAN.html http://www.ebi.ac.uk/genemark/ http://opal.biology.gatech.edu/GeneMark/ http://rulai.cshl.org/tools/genefinder/(Dr. Michael Zhang ) http://www.softberry.com/all.htm http://www.tigr.org/tdb/glimmerm/glmr_form.html
• 由于大量重复序列影响序列分析,因此在对真核 基因分析前,最好把重复序列屏蔽掉。
http://www.repeatmasker.org/cgi-bin/WEBRepeatMasker
Arabidopsis thaliana chromosome 2, part sequence (NC_003071.1) Output
• 为构建融合蛋白的表达载体,需要对RGDV S8片断的基因 序列(GenBank登陆号:AY216767)进行ORF分析并确定 其位置,为设计表达引物提供信息.
核苷酸序列分析 ORF
重复序列分析
2. 中度重复序列。长10~300bp,重复10~105次, 占基因组10~40%。哺乳类中含量最多的一种 称为Alu的序列,长约300bp,重复3×105次, 在人类基因组中约占7%,功能不是很清楚。
3. 单拷贝序列。这类序列基本上不重复,占哺乳 类基因组的50%~80%,在人类基因组中约占 65%。
• 预测ORF的方法有两类:基于统计分析和模式识别 (如GENSCAN, GeneMark, GRAIL II 等),基于 同源比对。
核苷酸序列分析 ORF
开放读码框的识别
• Kozak规则: ORF中起始密码子ATG前后的碱基具 有特定的偏好性。若将第一个ATG中的碱基分别标 为1、2、3位,则Kozak规则可描述如下:
相关文档
最新文档