结构基因组学
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
AAUAAA
剪切
Poly (A) 聚合酶
AAUAAA An
mRNA 3 ’端加 Poly(A)尾巴
Ⅶ 编码区与非编码区
由于内含子的进化没有外显子受到的选择压 力大,内含子的序列比外显子的序列更随机。
这是目前各种预测程序中被广泛应用的一种 方法,如GCG的TestCode、美国波士顿大学 GeneID和Baylor Medcine College的BCM Gene Finder等程序。
任意一段DNA序列都有6种可能的读码框。
ORF的长度:
终止密码子: TAA, TAG, TGA
GC% = 50%,终止密码子每 64 bp出现一 次;
GC% > 50%,终止密码子每100~200 bp 出现一次;
由于多数基因 ORF 均多于50个密码子,因 此最可能的选择应该是 ORF 不少于100 个 密码子。
该序列被后人称为Kozak序列,并被应用于表达载 体的构建中。
Kozak规则的内容:
若将第一个ATG中的碱基A、T、G分别标为1、2、 3位,则Kozak规则可描述如下:
(1) 第4位的偏好碱基为G; (2) ATG的5’端约15bp范围的侧翼序列内不含碱基T; (3) 在-3,-6和-9位置,G是偏好碱基; (4) 除-3,-6和-9位,在整个侧翼序列区,C是偏好碱
Ⅳ 上游控制顺序
几乎所有基因(或操纵子)都有上游调控序列,它 们可与DNA结合蛋白作用,控制基因表达,如启动 子序列。
生物的基因组特有组成也可作为判别依据,如几乎 所有的管家基因(House-Keeping gene)及约占 40%的组织特异性基因的5’末端含有CpG岛。在大 规模DNA测序计划中,每发现一个CpG岛,则预示 可能在此存在基因。
② 人工注释:人为检测评价自动注释的结果并 根据其他数据进行分析与校正。
③ 实验注释:根据实验结果进行检测,如EST 或全长cDNA。
自动注释的内容:
① 依据基因结构的特点采用软件预 测,不依赖已有的表达序列;
② 同源性比较,在同一物种或不同 物种中查找已有的基因序列;
基因序列注释
③ 功能域(domain)或基序 (motif)分析。
基因功能注释
5.1 搜寻基因
5.1.1 根据基因结构特征搜寻基因
5’非翻译区
基因(gene)
3’非翻译区
Ⅰ. 开放读码框
• 在DNA链上,由蛋白质合成的起始密码子开始, 到终止密码子为止的一个连续编码序列称为一 个开放读码框(open reading frame, ORF)。
读码框(reading frame)
G 外显子 2
核 RNA 的剪接反应(仿 B.Lewin: 《GENES》Ⅵ,1997,Fig30.5)
Ⅵ 3’端的确认
3’端的确认主要根据Poly(A)尾序列,若测试 序列不含Poly(A),则根据加尾信号序列 “AATAAA”和BLAST同源性比较结果共同 判断。
转录起始
延伸
5 ’帽子 5’帽子
最长ORF法
① 在细菌基因组中,蛋白质编码基因从起始密 码子ATG到终止密码子平均有100 bp,而 300 bp长度以上的ORF平均每36 Kb才出现 一次,所以只要找出序列中最长的ORF(> 300 bp)就能相当准确地预测出基因。
② 在真核生物中,存在大量非编码序列和内含 子,ORF阅读比较复杂。
基。
Kozak规则是基于已知数据的统计结果,不见得必须 全部满足,一般来说,满足前两项即可。
Ⅲ 密码子偏爱性(codon bias)
编码同一氨基酸的不同密码子称为同义密码, 其差别仅在密码子的第3位碱基不同。不同 种属间使用同义密码的频率有很大差异:
如人类基因中,丙氨酸(Ale)密码子多为 GCA、GCC或GCT,而GCG很少使用。
全长cDNA的编码区一般也可以用最长ORF 法,如水稻的3万多条的全长cDNA的编码 区预测,有时例外。
全长cDNA的编码蛋白序列应为4-029B,而非最 长的4-029A。
Ⅱ 起始密码子 ATG
第一个ATG的确定依据Kozak规则。
Kozak是一个女科学家,她研究过起始密码子ATG 周边碱基定点突变后对转录和翻译所造成的影响, 并总结出在真核生物中,起始密码子两端序列 为:——G/N-C/N-C/N-ANNATGG——,如 GCCACCATGG、GCCATGATGG时,转录和翻译效 率最高,特别是-3位的A对翻译效率非常重要。
第五章 基因组序列注释
完成基因组测序仅仅是基因组计划的第一步,更 大的挑战在于弄清:
① 基因组序列中所包含的全部遗传信息是什么; ② 基因组作为一个整体如何行使其功能。 这两项任务都必须依赖于对基因组序列的正确注
释(annotation)。
基因组注释方法:
① 自动注释:依据某些规则进行数据分析得出 是否为基因的结论。
5.1.2 同源基因查询
物种之间存在着广泛的同源基因,包括编码和非编码序列。
生物 人类
黑猩猩 大猩猩
小鼠 狗
线虫
基因组相似性% 99.9 100 98.4 98.7 98.38 98 85 95 74
资料来源 Human Genome Project 孪生子 Americans for Medical Progress Celera Genomics Am J Hum Genet 2001, 682: 444 ~ 456. Americans for Medical Progress NHGRI Jon Entine, in the San Francisco Examiner Jon Entine, in the San Francisco Examiner
Ⅴ 外显子与内含子边界
Chambon等发现内含子特点: (1)内含子连接点具有很短的保守序列,称为边界顺序。其
规律称为GT-AG法则(GT-AG rule) 或Chambon法则。 。
Βιβλιοθήκη Baidu
左(5')位点
右(3')位点
外显子 A64G73 G100 T100A62AG8G84T63… 内含子
12PyNC65A100G100 N 外显子
内含子和外显子的交界顺序
GT-AG 法则
(仿 B.Lewin: 《GENES》Ⅵ,1997,Fig30.3)
OH
G
A
外显子 1
(2)分枝点顺序:为
Py80NPy87Pu75APy95 , 其中A为百分之百的保
守,且具有2’-OH。
OH 外显子1
UG O AG
(3)内含子5’端有一保 守序列可以和U1 snRNA P314 的5’ 端的保守顺序互补。 外显子 1 外显子 2