核苷酸序列

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

核苷酸序列分析 ORF
核苷酸序列分析 ORF
开放读码框的识别
• 预测ORF的方法都是针对特定物种而设计的 ,如GENSCAN最初是针对人类的,后扩展 对脊椎动物、果蝇、拟南芥、玉米基因的预 测。
• GlimerM适于恶性疟原虫、拟南芥、曲霉菌 和水稻
• 对mRNA, cDNA, EST, 宜用GetOrf, ORF Finder, Plotorf, BestORF 等
输出结果
GENSCAN
ggccagatgg aacatattgc tttcgggagc acaaggatcg ggtctactac gtctcggagc ggattttgaa gctgagcgag tgcttcggct acaagcagct ggtgtgcgtg ggcacctgct tcggcaagtt ctccaagacc aacaaactga agttccatat cacggcgctc tactacttgg cgccctacgc ccagtacaag gtgtgggtga agccctcctt cgagcagcag tttctctacg
核苷酸序列分析
ORF 应用ORF Finder预测水稻瘤矮病毒( RGDV)S8片断的ORF
• ORF Finder:
• 水稻瘤矮病毒(rice gall dwarf virus, RGDV)引起的水稻瘤矮 病是中国及东南亚国家水稻上的一种重要病毒病害.
• 为构建融合蛋白的表达载体,需要对RGDV S8片断的基因 序列(GenBank登陆号:AY216767)进行ORF分析并确定 其位置,为设计表达引物提供信息.
• 原核基因组中除rRNA、tRNA基因有多个 拷贝外,重复序列(repetitive sequences) 不多。
• 哺乳动物基因组中则存在大量重复序列, 分为3类:
1. 高度重复序列。一般较短,长10~300bp,重复 106次左右,占基因组10%~60%,在人类基因 组中约占20%,功能还不明确。
核苷酸序列分析 ORF
开放读码框的识别
• Kozak规则: ORF中起始密码子ATG前后的碱基具 有特定的偏好性。若将第一个ATG中的碱基分别标 为1、2、3位,则Kozak规则可描述如下:
1. 第4位的偏好碱基为G; 2. ATG的5’端的15bp范围内的侧翼序列内不含碱基T; 3. 第3、6、9位G为偏好碱基; 4. 除第3、6、9位,在整个侧翼序列区中,C为偏好碱基
是一段起始密码子(ATG)和终止密码子(TAA, TAG, TGA)之间的碱基序列
• ORF 是潜在的蛋白质编码区
• 原核生物中多数基因的编码序列在100氨基酸以上 ;真核生物的编码区由内含子和外显子组成,其外 显子的平均长度约为50个氨基酸。
• 预测ORF的方法有两类:基于统计分析和模式识别 (如GENSCAN, GeneMark, GRAIL II 等),基于 同源比对。
点击
GetOrf
ggccagatgg aacatattgc tttcgggagc acaaggatcg ggtctactac gtctcggagc ggattttgaa gctgagcgag tgcttcggct acaagcagct ggtgtgcgtg ggcacctgct tcggcaagtt ctccaagacc aacaaactga agttccatat cacggcgctc tactacttgg cgccctacgc ccagtacaag gtgtgggtga agccctcctt cgagcagcag tttctctacg
核苷酸序列分析
重复序列分析 开放读码框(open reading frame, ORF)的识别 基因结构分析
内含子/外显子剪切位点识别 选择性剪切分析 CpG 岛的识别 核心启动子/转录因子结合位点/转录启始位 点的识别 转录终止信号的预测 GC含量/密码子偏好性分析
Biblioteka Baidu
核苷酸序列分析 ORF
重复序列分析
• 由于大量重复序列影响序列分析,因此在对真核 基因分析前,最好把重复序列屏蔽掉。
Arabidopsis thaliana chromosome 2, part sequence (NC_003071.1)
Output
核苷酸序列分析 ORF
开放读码框的识别
• 开放读码框(open reading frame, ORF)
• 提交序列:以登陆号或直接粘贴FASTA格式的序列. • 参数设置:可设置待分析序列片断的起始和结束位置;ORF Finder提供
了22种遗传密码表可供选择。这里选择默认参数.
The Genetic Codes
点击
点击
结果验证
• 采用数据库搜索方法对选定的ORF进行 验证
• BLASTB比对搜索到多个显著相似的序 列, 因此所预测的ORF可信度比较高
3. -35序列:约在-35处有保守序列TTGACA, 其中TTG十 分保守,各碱基频率:T85 T83 G81 A61 C69 A52
核苷酸序列分析 ORF
启动子及转录因子结合位点分析
• 真核生物启动子是在基因转录起始位点(+1)及其5’ 上游大约100~200bp或下游100bp的一组具有独立 功能的DNA序列,包括:
输出结果
核苷酸序列分析 ORF
启动子及转录因子结合位点分析
• 启动子(Promoter)是RNA聚合酶识别、结合并开 始转录所必需的一段DNA序列。
• 原核生物启动子序列包括:
1. CAP序列(增强聚合酶的结合和转录的起始序列,70~-40)
2. -10序列:在-4到-13bp处,有保守序列TATAAT,称为 Pribnow框,各碱基频率:T89 A89 T50 A65 A65 T100
核苷酸序列分析 ORF
重复序列分析
2. 中度重复序列。长10~300bp,重复10~105次, 占基因组10~40%。哺乳类中含量最多的一种 称为Alu的序列,长约300bp,重复3×105次, 在人类基因组中约占7%,功能不是很清楚。
3. 单拷贝序列。这类序列基本上不重复,占哺乳 类基因组的50%~80%,在人类基因组中约占 65%。
相关文档
最新文档