第一章 基因和基因组

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(5)原核生物只有一种RNA聚合酶, 启动子比较短(不 超过几百个bp)。真核生物有三种RNA聚合酶,启动子比 较长(上千个bp)。
II. 真核生物基因的结构
真核生物基因都由控制序列和转录序列组成,控制序列包括 启动子和增强子,转录序列包括外显子和内含子。
终止子
1.外显子和内含子 大多数真核生物的基因为不连续基因(interruptesd或 discontinuous gene)。所谓不连续基因就是基因的编码顺序在 DNA分子上是不连续的,被非编码顺序所隔开。编码的顺序称 为外显子(exon),是一个基因表达为多肽链的部分;非编码 顺序所称为内含子(intron),又称插入顺序(intervening sequence,IVS)。内含子只转录,在前mRNA(pre-mNRA)时被 剪切掉。如果一个基因有n个内含子,一般总是把基因的外显子 分隔成n+1部分。内含子的核苷酸数量可比外显子多许多倍。 人外显子平均1340bp,人内含子平均长度3.3kb,人含内含子最 多的基因有233个内含子。
GT/AG规则: GT---intron---AG
内含子功能未知!
exon 7.7kb 1 2 3 A B C 4 D 5 6
intron 7 8 G 卵清蛋白基因
1
E
F
2
3 GpppG 4 5
GpppG GpppG
转录
AAA--AAA
AAA--AAA AAA--AAA
断裂基因及其转录、转录后修饰
II、重复多拷贝基因 (repetitive gene)
根据对多种生物DNA所作的详细分析表明,在真核 基因组存在有四种不同类型的DNA序列: (1) 不重复的唯一序列(只有一个拷贝); (2) 低度重复序列(<10个拷贝); (3) 中度重复序列(10到上万个拷贝); (4) 高度重复序列(几万到几百万个拷贝)。 重复基因,即在基因组中有多个拷贝的基因。在真核生物基因 组中发现这种现象,真核生物中的重复基因可以达到30%, 重复 基因主要是为了满足生物体对某种基因产物的大量需要。 例如组蛋白基因、rRNA基因和tRNA基因在基因组中一般都 是多拷贝的重复基因,他们往往成簇存在,形成基因簇(gene cluster)。
3. 基因的三位一体概念
1910年,Morgan 的果蝇杂交实验,基因的染色体学说,基因是遗传的 基本单位,在染色体上排列。
4. 基因的化学本质是DNA
1944年,Avery 的肺炎双球菌转化实验(细菌表面光滑和粗糙的遗 传),证明了细菌的遗传物质是DNA而不是蛋白质。 Hershey-Chase experiment:噬菌体用32P标记DNA, 35S标记蛋白质, 然后侵染细菌,搅拌后离心沉淀细菌,发现32P标记与细菌共沉淀,而 35S标记与细菌分开。表明噬菌体的DNA进入细菌,DNA是遗传物质。
第一章 基因和基因组
中山医学院生物化学教研室 银 巍 yinwei@mail.sysu.edu.cn
一、 基因概念
1. 遗传因子的概念 19世纪,孟德尔实验,遗传因子的概念:决定遗传性状的基本遗传
单位,从作用上感知它的存在,但无法证明。
2. 基因概念的提出
1909年,Wilhelm Johannsen首次提出“基因”的概念以取代孟德尔的 遗传因子。同时提出了基因型和表现型的概念。
二、编码基因的一般结构、功能 I. 原核生物基因的特点
(1)多以操纵子形式存在(生物学功能相近的基因聚在一 起,受一个启动子和调控元件的控制)。真核生物中一般没 有这种基因聚集现象。 (2)操纵子调控多是通过抑制子的负调控,诱导子的作用 可以解除抑制。真核生物基因调控要复杂的多,并以正调控 为主。 (3)原核生物基因多数是多顺反子结构,真核生物基因绝 大多数是单顺反子。 (4)原核生物基因转录与翻译同时进行,没有5‘帽子,没 有3’polyA, 没有内含子。而这三个结构在真核生物基因普 遍存在。
哺乳动物血红蛋白类α -珠蛋白基因家族、类β -珠蛋白基因家 族都是由功能基因和假基因形成的一个基因簇
三:基因的功能
1. 遗传信息的储存 2. 基因的复制 3. 基因的表达
3. 基因与疾病
1.多基因病(polygenic disorders):遗传疾病的发生不是由一对等位基 因决定,而是由两对或两对以上的等位基因所决定, 因此这类疾病称 为多基因病,同时疾病的形成还受环境因子的影响,也称为多因子疾病 (multi-factorial disorders)。 2.单基因遗传病(monogenic disease; Single Gene Disorder)是指由于 单个基因的突变而引起的遗传病,符合孟德尔遗传方式,所以称为孟 德尔式遗传病。 在线人类孟德尔遗传数据库(OMIM)最新统计:截止2011年2月21日, 人类单基因疾病、性状和基因座已达 20356 种,其中常染色体遗传 19094种,X连锁遗传1138种,Y连锁遗传59种,线粒体遗传65种。 3.线粒体遗传病:由线粒体DNA突变导致的疾病。
ቤተ መጻሕፍቲ ባይዱ 按蛋白质的功能可分为 结构基因:基因产物是酶和其他不直接影响基因表达的蛋白质。 调节基因:通过最终产物蛋白质或RNA来控制其他基因表达的基因 按表达方式 组成型表达基因:在任何组织部位和任何发育时期都表达的基因 选择性表达基因:只在特定的组织部位或特定发育阶段表达的基因 根据拷贝数 单拷贝基因:在基因组中只有一个拷贝 多拷贝基因:在基因组中有多个拷贝
基因多为不连续的,被插入序列(IS)所分隔,这种现象称为 断裂基因(split gene) 断裂基因由内含子(intron)(非编码序列)和外显子 (exon)(编码序列)交替组成。 内含子和外显子在编码不同蛋白的时可转换角色 除少数蛋白(a,ß -interferon和组蛋白)外几乎所有基因都 有内含子。
5. 对基因功能的了解,基因型如何决定表现型
1941年,斯坦福大学George Beadle的真菌突变体的营养缺陷型实验。 诱发突变,检测维生素缺陷型,用遗传学方法证明突变株是在基因位点
发生了突变,用生物化学方法证明了突变株某个代谢步骤发生了故障,
从而提出:基因是通过它的产物,即具有催化功能的酶,来决定生物的 性状。由此,“一个基因,一个酶”的理论诞生。
三、基因结构的多样性
I. 断裂基因
一个基因由几个不相邻的编码序列组成,编码序列之间被 非编码的序列隔开,这样的基因被称为断裂基因。 外显子(Exon): 断裂基因中的编码部分,将包含在成熟 的RNA中。内含子(Intron):断裂基因中非编码部分,在 初始转录物加工成成熟RNA时被除去。 5‘UTR E I E I E 3‘UTR
2. 启动子 启动子(promoter)包括下列几种不同顺序,能促进转录过程:
(1)TATA框(TATA box):其一致顺序为TATAATAAT。它 在基因转录起始点上游约-25bp处,基本上由A-T碱基对组成, 是决定基因转录起始的选择,为RNA聚合酶的结合处之一, RNA聚合酶与TATA框牢固结合之后才能开始转录。
rRNA基因簇的转录产生了一系列小基质块,每个小基质 块对应一个转录单位,它们和后面的基质块通过非转录区 隔开。
III、假基因( pseudo-gene )
假基因(pseudo-gene)最初由Jacq等人提出。他们在非洲爪蟾 DNA中克隆了一个5SrRNA相关基因,比较其功能基因后发现, 这个基因的5’端有16bp的缺失以及另外14bp的错配,就将这个 截短的5SrRNA的同源物描述为假基因。随着大量不同家族的假 基因的发现,假基因就被明确限定为具有与功能基因相似的序列, 但不翻译为功能蛋白质(或RNA)的基因片段。
至目前为止,关于基因的概念一般是这样定义的:
遗传学定义:基因是遗传的物理和功能单位。
分子生物学定义:基因是产生蛋白质或RNA所必 须的全部DNA序列。
其他定义:基因是DNA序列中能被转录为一个初始 RNA分子的区域。
第二节 基因分类
一、基因的种类
按基因的最终产物可分为 蛋白质基因:通过转录和翻译最终产物是蛋白质的基因。 大多数的基因属于此类。产生的蛋白质参与细胞构成、酶 催化、基因表达调节等。 RNA基因:通过转录最终产物是RNA的基因。包括rRNA, tRNA, snRNA, snoRNA, miRNA等。这些RNA也被叫做非 编码RNA(non-coding RNA, ncRNA)。这些RNA主要参 与基因调控、染色体复制、RNA修饰加工、mRNA翻译及 稳定性、蛋白质降解等过程,近年来受到重视。
(2)CAAT框(CAAT box):其一致顺序为GGGTCAATCT, 是真核生物基因常有的调节区,位于转录起始点上游约-75bp处, 可能也是RNA聚合酶的一个结合处,控制着转录起始的频率。 (3)GC框(GC box):有两个拷贝,位于CAAT框的两侧, 由GGCGGG组成,是一个转录调节区,有激活转录的功能。
断裂基因在进化中的意义: (1)通过不同的剪切方式可产生多种不同的mRNA,编码多种 不同功能的蛋白。因此有利于储存信息,增加信息量。 (2)内含子保守性差,变异性强,有利于形成新的基因。
(3)有些内含子可能在基因表达过程中有一定的调节控制作用。
II、重叠基因 (Overlapping gene)
3.增强子 在真核基因转录起始点的上游或下游,一般都有增强子 (enhancer),它不能启动一个基因的转录,但有增强转录的作 用。此外,增强子顺序可与特异性细胞因子结合而促进转录的 进行。研究表明,增强子的作用通常有组织特异性,这是因为 不同细胞有不同的特异因子与增强子结合,从而使基因表达表 现出组织细胞特异性、发育阶段特异性、环境特异性。
4.终止子 在一个基因的末端往往有一段特定顺序,它具有转录终止的功 能,这段终止信号的顺序称为终止子(terminator)。终止子 的共同顺序特征是在转录终止点之前有一段回文顺序,约7-20 核苷酸对。回文顺序的两个重复部分由一个不重复节段隔开。 这段回文序列转录后形成的RNA具有发夹结构,有利于实现转 录的终止。
假基因产生的可能原因:启动子突变; 剪接点丢失;可读框发 生无义突变或错义突变
根据是否保留相应功能基因的间隔序列(如内含子),假基因 分为两大类:一类保留了间隔序列(如珠蛋白假基因家族), 另一类则缺少间隔序列。后一类假基因又称为处理后的假基因 (processed pseudo-gene)或返座假基因(retro-pseudo-gene)。
6. DNA的双螺旋结构以及复制机制的提出
1953年, 美国的Jim Watson and 英国Francis Crick 提出DNA双螺旋结构 和复制模型,这一模型后来被证明是正确的,为了解遗传信息传递机制奠 定了基础。
7. 基因精细结构的分析
1955年,Benzer用T4噬菌体做遗传分析,发现了基因的精细结构,发现基 因具有可分割性,并提出顺反子的概念。
在一个基因的编码顺序内存在着另一种基因的遗传信息, 这样的基因被叫做重叠基因。 1. 重叠基因的发现: 重叠基因是1977年由英国剑桥大学Sanger在研究ΦX174时发 现的。ΦX174是一种单链DNA病毒,宿主为大肠杆菌,因此, 又是噬菌体。它感染大肠杆菌后共合成11个蛋白质分子,总 分子量为25万左右,相当于6078个核苷酸所容纳的信息量。 而该病毒DNA本身只有5375个核苷酸,最多能编码总分子量 为20万的蛋白质分子,Sanger在分析了ΦX174 DNA的全序列 之后,才了解到这11个基因原来是有重叠的。
8. 基因信息的传递过程 20世纪60 年代,提出了中心法则,确定了三联体密码,提出了 操纵子学说。这些成就使得人们对遗传信息传递和基因表达调 控机制有了初步理解。
9. 基因结构的多样性以及基因的人为操纵 20世纪70年代和80年代以后,由于许多重大技术的突破,对 基因的认识又有了新的发展,发现了基因结构的多样性,例如 断裂基因、重叠基因、重复基因、转座基因等。另外,基因工 程技术的诞生,使人们可以合成基因、改造基因、测定基因、 利用基因。基因既是一种客观存在,又可以被人们主观应用, 利用基因定向改造生物变为现实。
10. 基因组时代的到来 当生命科学发展到20世纪最后10 多年和21世纪,对单个基因的 认识已经不能满足人们对复杂生命现象的理解。基因组时代已 经到来。对整个基因组的结构、功能、进化开始进行研究。不 久的将来,人们对非编码基因的作用、基因的表达和调控、基 因的功能表现、基因与基因之间的相互作用将会有更加深刻的 理解。
相关文档
最新文档