结构基因组学

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

整理课件
6
读码框（reading frame）
• 任意一段DNA序列都有6种可能的读码框。
整理课件
7
ORF的长度：
• 终止密码子: TAA, TAG, TGA
GC% = 50%，终止密码子每 64 bp出现一次；
GC% > 50%，终止密码子每100~200 bp 出现一次；
• 由于多数基因 ORF 均多于50个密码子，因
• 结构域（domain）（功能域）：蛋白质高
级结构中具有相对独立的亚结构区，通常它们含有数个二级结构基序（motif），具有相对独立的功能。
• 真核生物中大约80%的蛋白质，原核生物中
大约66%的蛋白质均含有多个结构域（Apic G等，）。 2001
整理课件
38
蛋白质的域结构（domain architecture）
整理课件
28
• 在基因分类时，缺少同源序列的ORF被称为孤
独基因（orphan gene）。
• 当某一序列从数据库中无法找到同源序列，又
无法排除其是不是基因的可能性时，必须依靠实验来进一步确认。
整理课件
29
两点说明：
• 在DNA水平上区分同源基因的难度要大于氨
基酸水平。
原因：密码子的摇摆性，相似氨基酸的取代。
生物人类
黑猩猩大猩猩
小鼠狗
线虫
基因组相似性% 99.9 100 98.4 98.7 98.38 98 85 95 74
资料来源 Human Genome Project 孪生子 Americans for Medical Progress Celera Genomics Am J Hum Genet 2001, 682: 444 ~ 456. Americans for Medical Progress NHGRI Jon Entine, in the San Francisco Examiner Jon Entine, in the San Francisco Examiner
经发生变异的序列之间的关联性。
同源性只有“是”和“非”的区别，无所谓百分比。
B. 一致性（identity）：同源DNA序列的同一碱基位
置上相同的碱基成员，或者蛋白质中同一氨基酸位置上相同的氨基酸成员的比例。
C. 相似性（similarity）：同源蛋白质的氨基酸序列中
一致性氨基酸和可取代氨基酸所占的比例。
采用生物信息学方法进行基因功能的预测已成为基因功能前期研究的主流内容。
整理课件
35
5.2.1 计算机预测基因功能
• 采用软件分析方法，根据已有的基因功能推测
基因组中具有相似结构的基因的功能。
• 依据：同源性比较
直向同源基因，共生同源基因
整理课件
36
蛋白质结构预测
整理课件
37
5.2.2 蛋白质结构域在功能预测中的意义
的跨膜域。
整理课件
40
整理课件
41
• 蛋白质结构域在基因的功能预测中起着极其
重要的作用，是预测基因功能的主要依据之一。
① 同一物种或不同物种中具有相同结构域的蛋白
• 依据：任何基因都可转录为RNA拷贝。 ① 分子杂交可确定DNA片段是否含表达序列—
—Northern印迹（Northern boltting）。
② 由EST和cDNA指认基因——搜集尽可能多的
EST和cDNA成员是基因组注释最简单最可靠的方法。
整理课件
34
5.2 基因功能预测
• 根据基因结构、功能与进化的内在联系，
• 该序列被后人称为Kozak序列，并被应用于表达载
体的构建中。
整理课件
13
Kozak规则的内容：
• 若将第一个ATG中的碱基A、T、G分别标为1、2、
3位，则Kozak规则可描述如下：
(1) 第4位的偏好碱基为G；
(2) ATG的5’端约15bp范围的侧翼序列内不含碱基T；
(3) 在-3，-6和-9位置，G是偏好碱基；
(4) 除-3，-6和-9位，在整个侧翼序列区，C是偏好碱基。
Kozak规则是基于已知数据的统计结果，不见得必须全部满足，一般来说，满足前两项即可。
整理课件
14
Ⅲ 密码子偏爱性（codon bias）
• 编码同一氨基酸的不同密码子称为同义密码，
其差别仅在密码子的第3位碱基不同。不同种属间使用同义密码的频率有很大差异：
AG
（3）内含子5’端有一保守序列可以和U1 snRNA P314 的5’ 端的保守顺序互补。外显子 1 外显子 2
G 外显子 2
核 RNA 的剪接反应(仿 B.Lewin:
《GENES》Ⅵ,1997，Fig30.5)
整理课件
18
Ⅵ 3’端的确认
• 3’端的确认主要根据Poly(A)尾序列，若测试
• 又称为蛋白质指纹（protein fingerprint）：
用来特指蛋白质中结构域的组合形式及其排列次序。
• 蛋白质的整体功能是通过各个结构域之间的
协同作用实现的，结构域的组成提供了蛋白质功能解读的关键信息。
整理课件
39
举例：细胞跨膜信号传导蛋白的结构域
① 接受外界信号的受体功
能域；
② 传达信号的胞内激酶域； ③ 蛋白质定位在细胞膜上
此最可能的选择应该是 ORF 不少于100 个密码子。
整理课件
8
最长ORF法
① 在细菌基因组中，蛋白质编码基因从起始密
码子ATG到终止密码子平均有100 bp，而 300 bp长度以上的ORF平均每36 Kb才出现一次，所以只要找出序列中最长的ORF（＞ 300 bp）就能相当准确地预测出基因。
② 人工注释：人为检测评价自动注释的结果并根据其他数据进行分析与校正。
③ 实验注释：根据实验结果进行检测，如EST 或全长cDNA。
整理课件
3
自动注释的内容：
① 依据基因结构的特点采用软件预
测，不依赖已有的表达序列；
② 同源性比较，在同一物种或不同
物种中查找已有的基因序列；
基因序列注释
③ 功能域（domain）或基序
12PyNC65A100G100 N 外显子
内含子和外显子的交界顺序
GT-AG 法则
(仿 B.Lewin: 《GENLeabharlann S》Ⅵ,1997，Fig30.3)
整理课件
17
OH
G
A
外显子 1
（2）分枝点顺序：为
OH
Py80NPy87Pu75APy95 ，
外显子1
UG
其中A为百分之百的保守，
O
且具有2’-OH。
第五章基因组序列注释
整理课件
1
• 完成基因组测序仅仅是基因组计划的第一步，更大
的挑战在于弄清：
① 基因组序列中所包含的全部遗传信息是什么； ② 基因组作为一个整体如何行使其功能。 • 这两项任务都必须依赖于对基因组序列的正确注释
（annotation）。
整理课件
2
基因组注释方法：
① 自动注释：依据某些规则进行数据分析得出是否为基因的结论。
力大，内含子的序列比外显子的序列更随机。
• 这是目前各种预测程序中被广泛应用的一种
方法，如GCG的TestCode、美国波士顿大学 GeneID和Baylor Medcine College的BCM Gene Finder等程序。
整理课件
21
5.1.2 同源基因查询
• 物种之间存在着广泛的同源基因，包括编码和非编码序列。
（motif）分析。
基因功能注释
整理课件
4
5.1 搜寻基因
5.1.1 根据基因结构特征搜寻基因
5’非翻译区
基因（gene）
整理课件
3’非翻译区
5
Ⅰ. 开放读码框
• 在DNA链上，由蛋白质合成的起始密码子开始，
到终止密码子为止的一个连续编码序列称为一个开放读码框（open reading frame, ORF）。
A. 存在某些完全相同的序列； B. ORF的排列类似，如等长的外显子； C. ORF的氨基酸序列相同； D. 模拟的多肽高级结构相似。
• 以上标准可单独使用，亦可综合考察；
• 一般认为氨基酸的一致性或相似性在25%以
上可视为同源基因。
整理课件
24
Ⅱ 区分概念：同源性、一致性和相似性
A. 同源性（homology）：起源于同一祖先但序列已
序列不含Poly(A)，则根据加尾信号序列 “AATAAA”和BLAST同源性比较结果共同判断。
整理课件
19
转录起始
延伸
5 ’帽子 5’帽子
AAUAAA
剪切
Poly (A) 聚合酶
AAUAAA An
mRNA 3 ’端加 Poly(A)尾巴
整理课件
20
Ⅶ 编码区与非编码区
• 由于内含子的进化没有外显子受到的选择压
• 第一个ATG的确定依据Kozak规则。
• Kozak是一个女科学家，她研究过起始密码子ATG
周边碱基定点突变后对转录和翻译所造成的影响，并总结出在真核生物中，起始密码子两端序列为：——G/N-C/N-C/N-ANNATGG——，如 GCCACCATGG、GCCATGATGG时，转录和翻译效率最高，特别是-3位的A对翻译效率非常重要。
注：以人类基因组DNA序列为基准，与其他生物基因组DNA序列对比。
整理课件
22
Ⅰ 同源查询（homology search）
• 利用已存入数据库中的基因序列与待查
的基因组序列进行比较，从中查找可与之匹配的碱基序列或蛋白质序列及其比例，这种识别基因的方法称为~。
整理课件
23
同源查询相似性的表现：
整理课件
16
Ⅴ 外显子与内含子边界
• Chambon等发现内含子特点：
（1）内含子连接点具有很短的保守序列，称为边界顺序。其规律称为GT-AG法则（GT-AG rule) 或Chambon法则。。
左(5')位点
右(3')位点
外显子 A64G73 G100 T100A62AG8G84T63… 内含子
• 如人类基因中，丙氨酸（Ale）密码子多为
GCA、GCC或GCT，而GCG很少使用。
整理课件
15
Ⅳ 上游控制顺序
• 几乎所有基因（或操纵子）都有上游调控序列，它
们可与DNA结合蛋白作用，控制基因表达，如启动子序列。
• 生物的基因组特有组成也可作为判别依据，如几乎
所有的管家基因（House-Keeping gene）及约占 40%的组织特异性基因的5’末端含有CpG岛。在大规模DNA测序计划中，每发现一个CpG岛，则预示可能在此存在基因。
偏好等。
整理课件
31
整理课件
32
Ⅳ 基因注释水平的分类
① 已知基因（known gene）：与已知cDNA和蛋白质序列同源
的基因。
② 新基因（novel gene）：与其他物种cDNA或蛋白质序列同源
的基因。
③ 新转录物（novel transcript）：与新基因相似，但缺少明确
的ORF。
④ 可能的基因（putative gene）：有同源EST支持，但缺少
cDNA或ORF。
⑤ 预测基因（predicted gene）：数据库中至少有一个外显子
支持，但缺少cDNA或明确的ORF。
⑥ 假基因（pseudogene）：与已知蛋白质有50%的一致性，但
cDNA残缺，在其他位点存在正常的同源基因的序列。
（Dunham整I理等课件，2001）
33
5.1.3 实验确认基因
• 确定两个基因是否同源，氨基酸序列的比较
以及蛋白质高级结构的模拟给出的结果更为可靠。
原因：同源基因功能相似，关键位置氨基酸相同。
整理课件
30
Ⅲ 基因注释软件
① 信号指令（signal term）：如起始密码、终
止密码、内含子分支点保守序列等；
② 内容指令（content term）：如密码子使用
整理课件
9
② 在真核生物中，存在大量非编码序列和内含
子，ORF阅读比较复杂。
• 全长cDNA的编码区一般也可以用最长ORF
法，如水稻的3万多条的全长cDNA的编码区预测，有时例外。
整理课件
10
整理课件
11
全长cDNA的编码蛋白序列应为4-029B，而非最长的4-029A。
整理课件
12
Ⅱ 起始密码子 ATG
一致性和相似性可用百分比表示，相似性往往高于一致性。
整理课件
25
整理课件
26
同源基因有关概念：
A. 直向同源基因（orthologous gene）：指分布在不
同物种之间的同源基因，它们来自物种分隔之前的同一祖先。
B. 共生同源基因（paralogous gene）：指同一物种因
基因倍增产生的同源基因。（旁系同源基因）
C. 倍增基因（ohnologous gene）：因全基因组加倍
产生的同源基因称~。
D. 异向同源基因（xenologous gene）：不同物种之间
因水平转移产生的同源基因称~。
整理课件
27
globin 基因的直系同源、旁系同源关系图
物种种化（speciation event）而产生了直系同源（orthology）的基因序列，基因重复（duplication event）而产生了旁系同源（paralogy）的基因序列。