结构基因组学

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

整理课件
6
读码框(reading frame)
• 任意一段DNA序列都有6种可能的读码框。
整理课件
7
ORF的长度:
• 终止密码子: TAA, TAG, TGA
GC% = 50%,终止密码子每 64 bp出现一 次;
GC% > 50%,终止密码子每100~200 bp 出现一次;
• 由于多数基因 ORF 均多于50个密码子,因
• 结构域(domain)(功能域):蛋白质高
级结构中具有相对独立的亚结构区,通常它 们含有数个二级结构基序(motif),具有相 对独立的功能。
• 真核生物中大约80%的蛋白质,原核生物中
大约66%的蛋白质均含有多个结构域(Apic G等, )。 2001
整理课件
38
蛋白质的域结构 (domain architecture)
整理课件
28
• 在基因分类时,缺少同源序列的ORF被称为孤
独基因(orphan gene)。
• 当某一序列从数据库中无法找到同源序列,又
无法排除其是不是基因的可能性时,必须依靠 实验来进一步确认。
整理课件
29
两点说明:
• 在DNA水平上区分同源基因的难度要大于氨
基酸水平。
原因:密码子的摇摆性,相似氨基酸的取代。
生物 人类
黑猩猩 大猩猩
小鼠 狗
线虫
基因组相似性% 99.9 100 98.4 98.7 98.38 98 85 95 74
资料来源 Human Genome Project 孪生子 Americans for Medical Progress Celera Genomics Am J Hum Genet 2001, 682: 444 ~ 456. Americans for Medical Progress NHGRI Jon Entine, in the San Francisco Examiner Jon Entine, in the San Francisco Examiner
经发生变异的序列之间的关联性。
同源性只有“是”和“非”的区别,无所谓百分比。
B. 一致性(identity):同源DNA序列的同一碱基位
置上相同的碱基成员,或者蛋白质中同一氨基酸位 置上相同的氨基酸成员的比例。
C. 相似性(similarity):同源蛋白质的氨基酸序列中
一致性氨基酸和可取代氨基酸所占的比例。
采用生物信息学方法进行基因功能的预测 已成为基因功能前期研究的主流内容。
整理课件
35
5.2.1 计算机预测基因功能
• 采用软件分析方法,根据已有的基因功能推测
基因组中具有相似结构的基因的功能。
• 依据:同源性比较
直向同源基因,共生同源基因
整理课件
36
蛋 白 质 结 构 预 测
整理课件
37
5.2.2 蛋白质结构域在功能预测 中的意义
的跨膜域。
整理课件
40
整理课件
41
• 蛋白质结构域在基因的功能预测中起着极其
重要的作用,是预测基因功能的主要依据之一。
① 同一物种或不同物种中具有相同结构域的蛋白
• 依据:任何基因都可转录为RNA拷贝。 ① 分子杂交可确定DNA片段是否含表达序列—
—Northern印迹(Northern boltting)。
② 由EST和cDNA指认基因——搜集尽可能多的
EST和cDNA成员是基因组注释最简单最可靠 的方法。
整理课件
34
5.2 基因功能预测
• 根据基因结构、功能与进化的内在联系,
• 该序列被后人称为Kozak序列,并被应用于表达载
体的构建中。
整理课件
13
Kozak规则的内容:
• 若将第一个ATG中的碱基A、T、G分别标为1、2、
3位,则Kozak规则可描述如下:
(1) 第4位的偏好碱基为G;
(2) ATG的5’端约15bp范围的侧翼序列内不含碱基T;
(3) 在-3,-6和-9位置,G是偏好碱基;
(4) 除-3,-6和-9位,在整个侧翼序列区,C是偏好碱 基。
Kozak规则是基于已知数据的统计结果,不见得必须 全部满足,一般来说,满足前两项即可。
整理课件
14
Ⅲ 密码子偏爱性(codon bias)
• 编码同一氨基酸的不同密码子称为同义密码,
其差别仅在密码子的第3位碱基不同。不同种 属间使用同义密码的频率有很大差异:
AG
(3)内含子5’端有一保 守序列可以和U1 snRNA P314 的5’ 端的保守顺序互补。 外显子 1 外显子 2
G 外显子 2
核 RNA 的剪接反应(仿 B.Lewin:
《GENES》Ⅵ,1997,Fig30.5)
整理课件
18
Ⅵ 3’端的确认
• 3’端的确认主要根据Poly(A)尾序列,若测试
• 又称为蛋白质指纹(protein fingerprint):
用来特指蛋白质中结构域的组合形式及其排 列次序。
• 蛋白质的整体功能是通过各个结构域之间的
协同作用实现的,结构域的组成提供了蛋白 质功能解读的关键信息。
整理课件
39
举例:细胞跨膜信号传导蛋白的结构域
① 接受外界信号的受体功
能域;
② 传达信号的胞内激酶域; ③ 蛋白质定位在细胞膜上
此最可能的选择应该是 ORF 不少于100 个 密码子。
整理课件
8
最长ORF法
① 在细菌基因组中,蛋白质编码基因从起始密
码子ATG到终止密码子平均有100 bp,而 300 bp长度以上的ORF平均每36 Kb才出现 一次,所以只要找出序列中最长的ORF(> 300 bp)就能相当准确地预测出基因。
② 人工注释:人为检测评价自动注释的结果并 根据其他数据进行分析与校正。
③ 实验注释:根据实验结果进行检测,如EST 或全长cDNA。
整理课件
3
自动注释的内容:
① 依据基因结构的特点采用软件预
测,不依赖已有的表达序列;
② 同源性比较,在同一物种或不同
物种中查找已有的基因序列;
基因序列注释
③ 功能域(domain)或基序
12PyNC65A100G100 N 外显子
内含子和外显子的交界顺序
GT-AG 法则
(仿 B.Lewin: 《GENLeabharlann S》Ⅵ,1997,Fig30.3)
整理课件
17
OH
G
A
外显子 1
(2)分枝点顺序:为
OH
Py80NPy87Pu75APy95 ,
外显子1
UG
其中A为百分之百的保守,
O
且具有2’-OH。
第五章 基因组序列注释
整理课件
1
• 完成基因组测序仅仅是基因组计划的第一步,更大
的挑战在于弄清:
① 基因组序列中所包含的全部遗传信息是什么; ② 基因组作为一个整体如何行使其功能。 • 这两项任务都必须依赖于对基因组序列的正确注释
(annotation)。
整理课件
2
基因组注释方法:
① 自动注释:依据某些规则进行数据分析得出 是否为基因的结论。
力大,内含子的序列比外显子的序列更随机。
• 这是目前各种预测程序中被广泛应用的一种
方法,如GCG的TestCode、美国波士顿大学 GeneID和Baylor Medcine College的BCM Gene Finder等程序。
整理课件
21
5.1.2 同源基因查询
• 物种之间存在着广泛的同源基因,包括编码和非编码序列。
(motif)分析。
基因功能注释
整理课件
4
5.1 搜寻基因
5.1.1 根据基因结构特征搜寻基因
5’非翻译区
基因(gene)
整理课件
3’非翻译区
5
Ⅰ. 开放读码框
• 在DNA链上,由蛋白质合成的起始密码子开始,
到终止密码子为止的一个连续编码序列称为一 个开放读码框(open reading frame, ORF)。
A. 存在某些完全相同的序列; B. ORF的排列类似,如等长的外显子; C. ORF的氨基酸序列相同; D. 模拟的多肽高级结构相似。
• 以上标准可单独使用,亦可综合考察;
• 一般认为氨基酸的一致性或相似性在25%以
上可视为同源基因。
整理课件
24
Ⅱ 区分概念: 同源性、一致性和相似性
A. 同源性(homology):起源于同一祖先但序列已
序列不含Poly(A),则根据加尾信号序列 “AATAAA”和BLAST同源性比较结果共同 判断。
整理课件
19
转录起始
延伸
5 ’帽子 5’帽子
AAUAAA
剪切
Poly (A) 聚合酶
AAUAAA An
mRNA 3 ’端加 Poly(A)尾巴
整理课件
20
Ⅶ 编码区与非编码区
• 由于内含子的进化没有外显子受到的选择压
• 第一个ATG的确定依据Kozak规则。
• Kozak是一个女科学家,她研究过起始密码子ATG
周边碱基定点突变后对转录和翻译所造成的影响, 并总结出在真核生物中,起始密码子两端序列 为:——G/N-C/N-C/N-ANNATGG——,如 GCCACCATGG、GCCATGATGG时,转录和翻译效 率最高,特别是-3位的A对翻译效率非常重要。
注:以人类基因组DNA序列为基准,与其他生物基因组DNA序列对比。
整理课件
22
Ⅰ 同源查询(homology search)
• 利用已存入数据库中的基因序列与待查
的基因组序列进行比较,从中查找可与 之匹配的碱基序列或蛋白质序列及其比 例,这种识别基因的方法称为~。
整理课件
23
同源查询相似性的表现:
整理课件
16
Ⅴ 外显子与内含子边界
• Chambon等发现内含子特点:
(1)内含子连接点具有很短的保守序列,称为边界顺序。其 规律称为GT-AG法则(GT-AG rule) 或Chambon法则。 。
左(5')位点
右(3')位点
外显子 A64G73 G100 T100A62AG8G84T63… 内含子
• 如人类基因中,丙氨酸(Ale)密码子多为
GCA、GCC或GCT,而GCG很少使用。
整理课件
15
Ⅳ 上游控制顺序
• 几乎所有基因(或操纵子)都有上游调控序列,它
们可与DNA结合蛋白作用,控制基因表达,如启动 子序列。
• 生物的基因组特有组成也可作为判别依据,如几乎
所有的管家基因(House-Keeping gene)及约占 40%的组织特异性基因的5’末端含有CpG岛。在大 规模DNA测序计划中,每发现一个CpG岛,则预示 可能在此存在基因。
偏好等。
整理课件
31
整理课件
32
Ⅳ 基因注释水平的分类
① 已知基因(known gene):与已知cDNA和蛋白质序列同源
的基因。
② 新基因(novel gene):与其他物种cDNA或蛋白质序列同源
的基因。
③ 新转录物(novel transcript):与新基因相似,但缺少明确
的ORF。
④ 可能的基因(putative gene):有同源EST支持,但缺少
cDNA或ORF。
⑤ 预测基因(predicted gene):数据库中至少有一个外显子
支持,但缺少cDNA或明确的ORF。
⑥ 假基因(pseudogene):与已知蛋白质有50%的一致性,但
cDNA残缺,在其他位点存在正常的同源基因的序列。
(Dunham整I理等课件,2001)
33
5.1.3 实验确认基因
• 确定两个基因是否同源,氨基酸序列的比较
以及蛋白质高级结构的模拟给出的结果更为 可靠。
原因:同源基因功能相似,关键位置氨基酸相同。
整理课件
30
Ⅲ 基因注释软件
① 信号指令(signal term):如起始密码、终
止密码、内含子分支点保守序列等;
② 内容指令(content term):如密码子使用
整理课件
9
② 在真核生物中,存在大量非编码序列和内含
子,ORF阅读比较复杂。
• 全长cDNA的编码区一般也可以用最长ORF
法,如水稻的3万多条的全长cDNA的编码 区预测,有时例外。
整理课件
10
整理课件
11
全长cDNA的编码蛋白序列应为4-029B,而非最 长的4-029A。
整理课件
12
Ⅱ 起始密码子 ATG
一致性和相似性可用百分比表示,相似性往往高于一致性。
整理课件
25
整理课件
26
同源基因有关概念:
A. 直向同源基因(orthologous gene):指分布在不
同物种之间的同源基因,它们来自物种分隔之前的 同一祖先。
B. 共生同源基因(paralogous gene):指同一物种因
基因倍增产生的同源基因。(旁系同源基因)
C. 倍增基因(ohnologous gene):因全基因组加倍
产生的同源基因称~。
D. 异向同源基因(xenologous gene):不同物种之间
因水平转移产生的同源基因称~。
整理课件
27
globin 基因的直系同源、旁系同源关系图
物种种化(speciation event)而产生了直系同源(orthology)的基因序列,基因重复 (duplication event)而产生了旁系同源(paralogy) 的基因序列。
相关文档
最新文档