第十一章 真核基因与基因组
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1. 高度重复序列
高度重复序列是真核基因组中存在的、重复频率可达106次以上的短核苷酸
重复序列,不编码蛋白质或RNA。(1)高度重复序列按其结构特点分为2 类。 ①反向重复序列(inverted repeat sequence):由两个相同顺序的互补 拷贝在同一DNA链上反向排列而成,反向重复的单位长度约为300bp或略
一、真核基因的基本结构
4. 外显子与内含子接头处有一段高度保守的序列,即内含子5′末端
大多数以GT开始,3′末端大多数以AG结束,这一共有序列是真核
基因中RNA剪接的识别信号。
5. 人们约定将一个基因的5′端称为上游,3′端称为下游;将基因序
列中开始RNA链合成的第一个核苷酸所对应的碱基记为+1,向5′ 端依次为-1、-2等,向3′端依次为+2、+3等。
三、调控序列参与真核基因表达调控
位于基因转录区前后并与其紧邻的DNA序列通常是基因的调控
区,又称为旁侧序列(flanking sequence)。这些调控序列又
被称为
、
(cis-acting element),包括
、 、
、
和一些细胞信号反应元
件等。
真核基因及调控序列的一般结构
1. 启动子提供转录起始信号 启动子是DNA分子上能够介导RNA聚合酶结合并形成转录起始复合体
不同生物体基因组的比较 物种 支原体M.genitalium 流感嗜血杆菌H.influenzae 枯草芽孢杆菌B.subtilis 大肠杆菌E.coli 酿酒酵母S.cerevisiae 基因组大小(Mb) 0.58 1.85 4.13 5.14 12.12 基因数 487 1 726 4 049 4 996 5 409 染色体数* 无 无 无 无 16
动子元件(upstream promoter element,UPE)两部分。
(2)Ⅱ类启动子具有TATA盒特征结构:具有Ⅱ类启动子的基因主要是能
转录出mRNA且编码蛋白质的基因和一些snRNA基因。Ⅱ类启动子通常
是由TATA盒、上游调控元件组成。有的Ⅱ类启动子在TATA盒的上游还可
存在CAAT盒、GC盒等特征序列。
第十一章
真核基因与基因组
作者 : 汤立军 单位 : 中南大学湘雅医学院
目录
第一节 真核基因的结构与功能 第二节 真核基因组的结构与功能
重点难点
掌握 1. 基因、基因组的概念 2. 真核基因的基本结构、真核基因组的结构特点 3. 顺式作用元件的类型及特点
熟悉
1. 人基因组中重复序列的类型及特点 2. 多基因家族与假基因的概念
指由某一祖先基因经过重复和变异所产生的一组在结构上相似、功能相关的基因。
(1)基因家族成簇地分布在某一条染色体上,它们可同时发挥作用,合成某些蛋白 质,如组蛋白基因家族就成簇地集中在第7号染色体长臂3区2带到3区6带区域内。 (2)一个基因家族的不同成员成簇地分布于不同染色体上,编码一组功能上紧密相 关的蛋白质,如人类珠蛋白基因家族分为α 珠蛋白和β珠蛋白两个基因簇,分别位于
3. 单拷贝序列(低度重复序列)
单拷贝序列在单倍体基因组中只出现一次或数次,大多数编码蛋
白质的基因属于这一类。在基因组中,单拷贝序列的两侧往往为
散在分布的重复序列。单拷贝序列编码的蛋白质在很大程度上体
现了生物的各种功能。
三、真核基因组中存在大量的多基因家族和假基因
1. 多基因家族(multigene family)
能,使它们不能再编码RNA和蛋白质产物;经过加工的假基因通常缺少 正常基因表达所需的调节序列、没有内含子、可能有poly(A)尾。
(2)未经过加工的假基因:来源于多拷贝或单拷贝基因的突变
2996.43
22 000
20 000
20
23
人染色体上基因分布的特征
• 基因在染色体上并不是均匀分布。基因密度最大的是第
19号染色体,密度最小的是第13号和Y染色体。
• 染色体上存在着无基因的“沙漠区”,即在500kb区域内,
没有任何基因的编码序列。
人的染色体大小示意图
二、真核基因组中存在大量重复序列 真核细胞基因组存在着大量重复序列。人基因组中,重复 序列占基因组长度的50%以上。重复序列的长度不等,短 的仅含两个碱基,长的多达数百、乃至上千个碱基。重复 序列的重复频率也不尽相同。 1. 高度重复序列(highly repetitive sequence) 2. 中度重复序列(moderately repetitive sequence) 3. 单拷贝序列(single copy sequence)或(低度重复序 列)
的序列。大部分真核细胞基因的启动子位于基因转录起点的上游,启
动子本身通常不被转录;但有一些启动子(如编码tRNA基因的启动子)
位于转录起始点的下游,这些DNA序列可以被转录。真核生物主要有
3类启动子
(1)Ⅰ类启动子富含GC碱基对:具有Ⅰ类启动子的基因主要是编码
rRNA的基因。Ⅰ类启动子包括核心启动子(core promoter)和上游启
(3)Ⅲ类启动子包括A盒、B盒和C盒:具有Ⅲ类启动子的基因包括5S
rRNA、tRNA、U6 snRNA等RNA分子的编码基因。
真 核 基 因 三 类 启 动 子
2. 增强子增强邻近基因的转录
增强子是可以增强真核基因启动子工作效率的顺式作用元件, 是真核基因中最重要的调控序列。 (1)其能够在相对于启动子的任何方向和任何位置(上游或 者下游)上发挥增强作用。
第16号和第11号染色体。
基因超家族(superfamily gene) 一些DNA序列相似,但功能不一定相关的若干个单拷贝基因或若干组基 因家族总称,例如免疫球蛋白基因超家族、ras基因超家族。 亚家族(subfamily) 一个多基因家族中可有多个基因,根据结构与功能的不同又可以分为亚 家族。例如G蛋白中属ras 超家族约有50多个成员,根据其序列同源性程 度又可进一步分为Ras、Rho和Rab三个主要的亚家族。
了解
1. 线粒体DNA结构 2. 人基因在染色体上的分布特征
第一节
Structure and Function of Eukaryotic Genes
真核基因的结构与功能
一、真核基因的基本结构
1. 真核基因包含编码蛋白质或RNA的编码序列及其与之相关的非编
码序列。 2. 真核基因结构最突出的特点是其不连续性。 3. 高等真核生物绝大部分编码蛋白质的基因都有内含子,但组蛋白 编码基因例外。编码rRNA和一些tRNA的基因也都有内含子。
(2)长分散重复片段(long interspersed repeat segment,LINES):平均长度为3
500bp~5 000bp,与平均长度为13 000bp(个别可达到数万个碱基)的单拷贝序列间 隔排列。
① Alu 家族
• 哺乳类动物包括人基因组中含量最丰富的一种短分散片
段,平均每6kb DNA有一个Alu序列
第二节
Structure and Function of Eukaryotic Genome
真核基因组的结构与功能
细胞或生物体的一套完整单倍体遗传物质的总和称为基因组。 病毒、原核生物以及真核生物所贮存的遗传信息量有着巨大 的差别,其基因组的结构与组织形式上也各有特点,包括基
因组中基因的组织排列方式以及基因的种类、数目和分布等。
裂殖酵母S.pombe
燕麦O.sativa 果蝇D.melanogaster 秀丽隐杆线虫C.elegans
wenku.baidu.com
12.59
374.42 143.92 101.17
5 132
36 376 14 700 20 000
16
21 4 6
小鼠mouse
人H.sapiens *指单倍体细胞内的染色体数目
2671.82
基因结构
真核生物断裂基因及两侧序列
二、基因编码区编码多肽链和特定的RNA分子
1. 基因编码区中的DNA碱基序列决定一个特定的成熟RNA分子的序列。 2. 有的基因仅编码一些有特定功能的RNA,如rRNA、tRNA及其他小 分子RNA等;大多数基因通过mRNA进一步编码蛋白质多肽链。 3. 编码序列中一个碱基的改变或突变,可能使基因丧失原有功能或获 得新功能。 4. 有些相同的DNA序列由于其起始位点的变化或mRNA不同的剪接产 物可以编码不同的蛋白质多肽链。
• 在单倍体人基因组中重复达30~50万次,约占人基因组
的3%~6%
• 每个单位长度中有一个限制性内切酶Alu的切点
(AG↓CT),将其切成长130bp和170bp的两段
② KpnⅠ家族 • 中度重复序列中仅次于Alu 家族的第二大家族 • 重复序列中含有限制性内切酶KpnⅠ的位点 • 呈散在分布,拷贝数约为3000~4800个 ③ Hinf 家族 • 以319bp长度的串联重复存在于人基因组中 • 重复序列中含有限制性内切酶Hinf Ⅰ的位点
4. 假基因(pseudogene)
基因组中存在的一段与正常基因非常相似但一般不能表达的DNA序列,
以ψ 来表示。
假基因根据其来源分为经过加工的假基因和未经过加工的假基因2种类型
(1)经过加工的假基因:这类基因可能曾经有过功能,但在进化中获得
一个或几个突变,造成了序列上的细微改变阻碍了正常的转录和翻译功
RNA分子中,而有些反向重复序列可以形成发夹结构,有助于稳
定RNA分子; ③参与染色体配对。如α 卫星DNA成簇样分布在染色体着丝粒附 近,可能与染色体减数分裂时染色体配对有关。
2. 中度重复序列 中度重复序列指在真核基因组中重复数十至数千次的核苷酸序列,通常占整个单倍体基
因组的1%~30%。少数在基因组中成串排列在一个区域,大多数与单拷贝基因间隔排列。 依据重复序列的长度,中度重复序列分为两种类型。 (1)短分散重复片段(short interspersed repeat segment,SINES):平均长度约 为300~500bp,与平均长度约为1000bp的单拷贝序列间隔排列。拷贝数可达数十万。 如Alu 家族,KpnⅠ家族和Hinf 家族等属于这种类型的中度重复序列。
(2)增强子序列距离所调控基因距离近者几十个碱基对,远 的可达几千个碱基对。 (3)通常数个增强子序列形成一簇,
(4)有时增强子序列也可位于内含子之中。
(5)不同的增强子序列结合不同的调节蛋白。
3. 沉默子是负调节元件 沉默子(silencer)是可抑制基因转录的特定DNA序列,当其结合 一些反式作用因子时对基因的转录起阻遏作用,使基因沉默。 4. 绝缘子阻碍增强子的作用 绝缘子(insulator)是基因组上对转录调控起重要作用的一种元件, 可以阻碍增强子对启动子的作用,或者保护基因不受附近染色质环 境(如异染色质)的影响。绝缘子阻碍增强子对启动子的作用可能 通过影响染色质的三维结构如DNA发生弯曲或形成环状结构。
人类基因组包含了细胞核染色体DNA(常染色体和性染色体)
及线粒体DNA所携带的所有遗传物质。
人的基因组构成
一、真核基因组具有独特的结构
1. 真核基因组中基因的编码序列所占比例远小于非编码序列。 2. 高等真核生物基因组含有大量的重复序列。 3. 真核基因组中存在多基因家族和假基因。 4. 大多基因转录后发生可变剪接,80%的可变剪接会使蛋白质的序 列发生改变。 5. 真核基因组DNA与蛋白质结合形成染色体,储存于细胞核内,除 配子细胞外,体细胞的基因组为二倍体(diploid)。
真核生物基因组中的rRNA基因也属于中度重复序列
各重复单位中的rRNA基因都是相同的
rRNA基因通常集中成簇存在,而不是分散于基因组中,
这样的区域称为rDNA区
人类的rRNA基因位于13、14、15、21和22号染色体
的核仁组织区,每个核仁组织区平均含有50个rRNA基 因的重复单位 5S rRNA基因似乎全部位于1号染色体,每个单倍体基 因组约有1000个5S rRNA基因。
短,其总长度约占人基因组的5%,多数是散在,而非群集于基因组中。
②卫星DNA(satellite DNA):卫星DNA的重复单位一般由2~10bp组成, 成串排列,主要存在于染色体的着丝粒区域,在人基因组中约占5%~6%。
1. 高度重复序列
(2)主要功能 ①参与复制水平的调节。反向重复序列常存在于DNA复制起点区 的附近,是一些蛋白质(包括酶)的结合位点。 ②参与基因表达的调控。高度重复序列可以转录到核内不均一