分子生物学课件 第3章 基因与基因组
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
最初基因组被定义为一个单倍体细胞中的全套染色体,现 代分子生物学和遗传学则将基因组定义为一个生物体中的 所有遗传信息,由DNA或者RNA编码,包括所有的基因和 非编码序列。
实际应用中“基因组”这个词既可以特指储存在细胞核中 的整套DNA(即核基因组),也可以指储存在细胞器中的 整套DNA(即线粒体基因组或叶绿体基因组),还可以指 一些非染色体的遗传元件,如病毒基因组、质粒基因组和 转座元件等。
不同基因家族各成员之间的序列 相似度也不同:
序列高度相似:经典的基因家族,如rRNA基因家族和组蛋 白基因家族。 保守性较低,但是编码产物具有大段的高度保守的氨基酸 序列。
序列保守性很低,编码产物之间也只有很短的保守氨基酸 序列,但通常由于具有保守的结构和功能区域,因而编码产 物具有相似的功能。
基因家族的成员在染色体上 的分布形式不同:
成簇存在的基因家族(clustered gene family)或称基因簇 (gene cluster),如人类类α链基因簇和类β链基因簇。 散布的基因家族(interspersed gene family),如肌动蛋白 基因家族和微管蛋白基因家族。
基因间隔区较短且内含子较少,基因排列紧密。
3.2.7 沉默基因
沉默基因( Silent Gene)也叫隐蔽基因(Cryptic gene), 是处于不表达状态的基因。它可能是假基因,也可能是被关闭的 基因。这些基因以隐性的方式埋藏在染色体中,但遇到特殊因子 的刺激,有可能解除关闭变成显性基因。
3.2.8 RNA基因
tRNA、rRNA; 核仁小分子RNA(small nucleolar RNA, snoRNA) 微小分子RNA(microRNA, miRNA); 小分子干扰RNA(small interfering RNA, siRNA); 核内小分子RNA(small nuclear RNA, snRNA);
不仅真核生物中编码蛋白质的核基因多数是断裂基因,编码 rRNA或tRNA的核基因也有断裂基因;
植物和低等真核生物的细胞器基因组,如酵母中的线粒体基 因和植物中的叶绿体基因也都发现有断裂基因;
甚至在某些古细菌和大肠杆菌噬菌体中也发现了断裂基因。 但是,真细菌基因组中未发现含断裂基因。
重复基因特点是:拷贝数高,重复几十甚至几百;非转 录的间隔区短,有的间隔区相同。
组蛋白基因是已知的重复基因中唯一具有蛋白质编码机能 的基因。
不同生物基因组中组蛋白基因的拷贝数不同。 组蛋白基因在不同生物基因组中的排列方式不一样。
重复基因属于重复序列 (repetitive sequence)
不仅存在于编码序列中,也存在于调控序列中。
3.2.6 假基因
假基因(pseudo gene)是指不能产生有功能的、全长蛋 白质的基因拷贝,它们与具有正常功能的“亲本基因”序列相 近,但是失去了编码蛋白质或者表达的功能,成为失活基因, 通常用ψ表示,也叫拟基因。
假基因有三种主要类型:
•⑴ 加工的(processed)或者说逆转座的(retrotransposed) 假基因; •⑵ 非加工的(non-processed)或者说复制的(duplicated) 假基因; •⑶ 缺陷的(disabled)或者说单一的(unitary)假基因;
基因组中的基因密度非常高。
基因组中含有大量转座元件、重复序列、原噬菌体和噬菌体残 留序列。
3.3.3 酵母基因组
1996年4月,第一个被测定的真核生物全长基因组: 1.2×107碱基对的酿酒酵母(Saccbarommyces cerevisiae) 基因组测序完成。
12068 kb的全基因组序列中有5885个编码蛋白质的开放阅 读框,约140个编码rRNA的基因、40个编码SnRNA的基因、 275个tRNA基因。
3.3 基因组
3.3.1 噬菌体基因组 3.3.2 细菌基因组 3.3.3 酵母基因组 3.3.4 植物基因组 3.3.5 人类基因组
基 因 组 ( genome ) 一 词 由 德 国 汉 堡 大 学 的 植 物 学 教 授 Hans Winkler于1920年提出,由基因(gene)和染色体 (chromosome)组合而成。
由美国女科学家B.McClintock于上个世纪的40年代在玉米 第九条染色体中首先发现;
60年代晚期,James Shapiro等人在细菌中也发现了转座 现象;
后又发现多种型号的转座子;
McClintock的工作才逐渐得到肯定,获得1983年的诺贝尔 生理学或医学奖。
转座现象普遍存在于原核和真核生物中, 低等生物中较少而高等生物中较多; 人、小鼠和水稻的基因组序列中约有40%来自转座,
⑴ 不同基因中所含内含子的数目差别非常大。 ⑵ 不同基因中所含内含子的大小变化也非常大。 ⑶ 不同真核生物基因中内含子的数目和长度差别很大。 ⑷ 并非所有的内含子都是非编码序列,有些内含子可以编码 其他蛋白质,这些蛋白质的功能一般与内含子序列的转移、加 工相关。 ⑸ 内含子序列在基因组中占有一定的比例,而且内含子的数 目和长度随着生物进化而增加,提示内含子的存在具有一定的 生物学意义。
在低等真核生物中,大多数DNA序列是非重复序列,重复 序列的比例一般低于20%;在高等真核生物如动物细胞中, 这一比例可以达到50%;
在某些植物和两栖类动物中甚至可以超过80%。
重复序列一般分为两种类型:
• (1)中等重复DNA序列:由相对较短的序列组成,在基 因组中,其重复次数一般在10~1000次,一般是非编码序列, 主要在基因调控中起作用。 • (2)高度重复DNA序列:由基因组中非常短的序列(一 般小于100 bp)组成,重复次数在上千次到上百万次,其中 有些是编码基因,如rRNA基因和某些tRNA基因;多数则是 没有转录活性的非编码序列。
表3-1 基因组测序史上的标志性成果
3.3.1 噬菌体基因组
噬菌体X174是最早完成全基 因组测序的噬菌体,
基因组为5387nt的单链DNA, 可以编码11个基因,分为三组 转录得到3个mRNA分子。基 因利用率极高,非编码DNA仅 占基因组的4%,存在重叠基 因和基因内基因,
λ噬菌体是第一个被完整测序的双链DNA噬菌体,包含48513个碱 基对,可以编码61个基因,不同基因按功能的相似性聚集成簇。
其中的编码序列称为外显子(exons),插入序列称为 内含子(introns)。
像这样外显子与内含子交替排列、带有非编码插入序 列的基因称为不连续基因(discontinuous genes)或 断裂基因(split genes)。
1977年分别由Phillip A. Sharp和Richard J. Roberts领导的两 个研究小组在研究腺病毒基因时发现了断裂基因,经历了漫长 的16年,他们迎来了1993年的Nobel生理学或医学奖。
根据基因的功能不同,分为两大类:
⑴ 结构基因,是指能够表达出功能产物的基因,如蛋白 质基因和功能RNA的基因。
⑵ 调控基因,是参与调控结构基因表达的DNA或RNA 序列单元。
根据基因编码的功能产物不同,可 以将结构基因再分为两类:
⑴ 编码多肽链或蛋白质的基因。 ⑵ 编码RNA产物的基因。
3.2 特征基因
噬菌体G4基因组重叠基因示意图 引自 Nature 272:510-515, 1978. Gene K, a new overlapping gene in bacteriophage G4.
重叠基因现象不仅存在于细菌、病毒等原核生物基因中, 也存在于高等真核生物基因组中;
不仅存在于两个基因之间的二重重叠,也有存在于三个基 因之间的三重重叠;
既没有序列同源性,编码产物之间也没有保守的氨基酸序 列,但是结构和功能相似,称为超基因家族,如免疫球蛋白 基因家族。
3.2.3 重复基因
指染色体上存在多个拷贝的基因,主要存在于真核生物 基因组中。
这些基因往往是与生命活动最基本、最重要的功能相关 的基因,如组蛋白基因、rRNA基因、tRNA基因等。
3.2.2 基因家族
许多来源相同、结构相似、功能相关的基因串联在一起, 且又被长短不一的间隔区分开,这组基因称为基因家族 (gene family)。
基因家族是具有共同特征的一组基因,是真核生物基因组 特有的。在大多数情况下,同一个基因家族的基因具有相 似的DNA序列,可以编码具有相似结构和功能的产物(如 蛋白质)。也有的基因家族的成员,基因序列并不相似, 但因为编码的蛋白质产物具有相似的功能而归为同一基因 家族。
3.2.4 跳跃基因及转座子
跳跃基因(jumping gene)也称移动基因(movable gene),是一些可以在染色体基因组上从一个位置转移到 另一个位置,甚至在不同染色体之间跃迁的DNA成分。
像这样DNA序列在基因组中的位置发生转移的现象称为转 座(transposition),这样的DNA序列称为转座子 (transposon, Tn)或者转座元件(transposable element)。
第三章 基因和基因组
第三章 目录
3.1 基因的概念与分类 3.2 特征基因 3.3 基因组
3.4 基因组大小与C值矛盾
3.5 基因组学
3.1 基因的概念与分类
基因是生物体遗传的分子单位,是指编码在生物体中能够 表达特定功能的多肽链或RNA链的一段核酸(DNA或者 RNA)序列单元。
基因是基因组序列中的特定区域,对应于遗传单位,包括 调控区、转录区、以及其他功能序列。
而这一比例在低等生物中一般小于5%。
3.2.5 重叠基因
不同基因共用部分核苷酸序列,即基因的核苷酸序列彼此 重叠,这样的基因称为重叠基因(overlapping genes)或 嵌套基因(nested gene)。
大肠杆菌噬菌体X174基因组示意图 引自 Nature 265:687- 695, 1977. Nucleotide sequence of bacteriophage X174.
图3-1. R-looping示意图。mRNA(红色)与双链DNA(黑色)杂交时,内含子区域 形成双链DNA的loop,而外显子区域形成单链DNA的loop。
Pierre Chambon及其同事证明鸡的 卵清蛋白基因也是断裂基因。
左图:卵清蛋白基因示意图。鸡卵清蛋白基因包含7个内含子(A-G) 、8个外显 子(L, 1-7)。 右图:卵清蛋白基因的单链DNA(粗线表示)与其mRNA(细线表示) 杂交后 的电镜结果示意图。Loop A-G代表7个不同的内含子,片段L和片段1-7代表8
3.2.1 不连续基因 3.2.2 基因家族 3.2.3 重复基因 3.2.4 跳跃基因及转座子 3.2.5 重叠基因 3.2.6 假基因 3.2.7 沉默基因 3.2.8 RNA基因
3.2.1 不连续基因
大多数真核生物基因是镶嵌式的,即编码序列中插入 了一段段非编码序列,使一个基因被分隔成若干不连 续的区段。
3.3.2 细菌基因组
原核生物中携带遗传信息的DNA分子有两类:
核DNAபைடு நூலகம்
质粒DNA
1997年第一个完整的大肠杆菌DNA序列(E.coli K12菌株)发
表了:长约4.6×106 bp,包含4288个编码蛋白质的基因(整
合成2584个操纵子)、7个rRNA操纵子、86个tRNA基因。
功能相关的基因通常串联排列,以操纵子为单位进行表达调控。
重复序列也可以按照其在染色体上 的排列方式分为两种类型:
• (1)串联重复DNA:成簇存在于染色体的特定区域。 • 卫星DNA(satellite DNA) • 隐蔽卫星DNA(cryptic satellite DNA)。
• (2)散布的重复DNA:分散存在于染色体的各个位点。 • 短散布元件(short interspersed element, SINE) • 长散布元件(long interspersed element, LINE)
实际应用中“基因组”这个词既可以特指储存在细胞核中 的整套DNA(即核基因组),也可以指储存在细胞器中的 整套DNA(即线粒体基因组或叶绿体基因组),还可以指 一些非染色体的遗传元件,如病毒基因组、质粒基因组和 转座元件等。
不同基因家族各成员之间的序列 相似度也不同:
序列高度相似:经典的基因家族,如rRNA基因家族和组蛋 白基因家族。 保守性较低,但是编码产物具有大段的高度保守的氨基酸 序列。
序列保守性很低,编码产物之间也只有很短的保守氨基酸 序列,但通常由于具有保守的结构和功能区域,因而编码产 物具有相似的功能。
基因家族的成员在染色体上 的分布形式不同:
成簇存在的基因家族(clustered gene family)或称基因簇 (gene cluster),如人类类α链基因簇和类β链基因簇。 散布的基因家族(interspersed gene family),如肌动蛋白 基因家族和微管蛋白基因家族。
基因间隔区较短且内含子较少,基因排列紧密。
3.2.7 沉默基因
沉默基因( Silent Gene)也叫隐蔽基因(Cryptic gene), 是处于不表达状态的基因。它可能是假基因,也可能是被关闭的 基因。这些基因以隐性的方式埋藏在染色体中,但遇到特殊因子 的刺激,有可能解除关闭变成显性基因。
3.2.8 RNA基因
tRNA、rRNA; 核仁小分子RNA(small nucleolar RNA, snoRNA) 微小分子RNA(microRNA, miRNA); 小分子干扰RNA(small interfering RNA, siRNA); 核内小分子RNA(small nuclear RNA, snRNA);
不仅真核生物中编码蛋白质的核基因多数是断裂基因,编码 rRNA或tRNA的核基因也有断裂基因;
植物和低等真核生物的细胞器基因组,如酵母中的线粒体基 因和植物中的叶绿体基因也都发现有断裂基因;
甚至在某些古细菌和大肠杆菌噬菌体中也发现了断裂基因。 但是,真细菌基因组中未发现含断裂基因。
重复基因特点是:拷贝数高,重复几十甚至几百;非转 录的间隔区短,有的间隔区相同。
组蛋白基因是已知的重复基因中唯一具有蛋白质编码机能 的基因。
不同生物基因组中组蛋白基因的拷贝数不同。 组蛋白基因在不同生物基因组中的排列方式不一样。
重复基因属于重复序列 (repetitive sequence)
不仅存在于编码序列中,也存在于调控序列中。
3.2.6 假基因
假基因(pseudo gene)是指不能产生有功能的、全长蛋 白质的基因拷贝,它们与具有正常功能的“亲本基因”序列相 近,但是失去了编码蛋白质或者表达的功能,成为失活基因, 通常用ψ表示,也叫拟基因。
假基因有三种主要类型:
•⑴ 加工的(processed)或者说逆转座的(retrotransposed) 假基因; •⑵ 非加工的(non-processed)或者说复制的(duplicated) 假基因; •⑶ 缺陷的(disabled)或者说单一的(unitary)假基因;
基因组中的基因密度非常高。
基因组中含有大量转座元件、重复序列、原噬菌体和噬菌体残 留序列。
3.3.3 酵母基因组
1996年4月,第一个被测定的真核生物全长基因组: 1.2×107碱基对的酿酒酵母(Saccbarommyces cerevisiae) 基因组测序完成。
12068 kb的全基因组序列中有5885个编码蛋白质的开放阅 读框,约140个编码rRNA的基因、40个编码SnRNA的基因、 275个tRNA基因。
3.3 基因组
3.3.1 噬菌体基因组 3.3.2 细菌基因组 3.3.3 酵母基因组 3.3.4 植物基因组 3.3.5 人类基因组
基 因 组 ( genome ) 一 词 由 德 国 汉 堡 大 学 的 植 物 学 教 授 Hans Winkler于1920年提出,由基因(gene)和染色体 (chromosome)组合而成。
由美国女科学家B.McClintock于上个世纪的40年代在玉米 第九条染色体中首先发现;
60年代晚期,James Shapiro等人在细菌中也发现了转座 现象;
后又发现多种型号的转座子;
McClintock的工作才逐渐得到肯定,获得1983年的诺贝尔 生理学或医学奖。
转座现象普遍存在于原核和真核生物中, 低等生物中较少而高等生物中较多; 人、小鼠和水稻的基因组序列中约有40%来自转座,
⑴ 不同基因中所含内含子的数目差别非常大。 ⑵ 不同基因中所含内含子的大小变化也非常大。 ⑶ 不同真核生物基因中内含子的数目和长度差别很大。 ⑷ 并非所有的内含子都是非编码序列,有些内含子可以编码 其他蛋白质,这些蛋白质的功能一般与内含子序列的转移、加 工相关。 ⑸ 内含子序列在基因组中占有一定的比例,而且内含子的数 目和长度随着生物进化而增加,提示内含子的存在具有一定的 生物学意义。
在低等真核生物中,大多数DNA序列是非重复序列,重复 序列的比例一般低于20%;在高等真核生物如动物细胞中, 这一比例可以达到50%;
在某些植物和两栖类动物中甚至可以超过80%。
重复序列一般分为两种类型:
• (1)中等重复DNA序列:由相对较短的序列组成,在基 因组中,其重复次数一般在10~1000次,一般是非编码序列, 主要在基因调控中起作用。 • (2)高度重复DNA序列:由基因组中非常短的序列(一 般小于100 bp)组成,重复次数在上千次到上百万次,其中 有些是编码基因,如rRNA基因和某些tRNA基因;多数则是 没有转录活性的非编码序列。
表3-1 基因组测序史上的标志性成果
3.3.1 噬菌体基因组
噬菌体X174是最早完成全基 因组测序的噬菌体,
基因组为5387nt的单链DNA, 可以编码11个基因,分为三组 转录得到3个mRNA分子。基 因利用率极高,非编码DNA仅 占基因组的4%,存在重叠基 因和基因内基因,
λ噬菌体是第一个被完整测序的双链DNA噬菌体,包含48513个碱 基对,可以编码61个基因,不同基因按功能的相似性聚集成簇。
其中的编码序列称为外显子(exons),插入序列称为 内含子(introns)。
像这样外显子与内含子交替排列、带有非编码插入序 列的基因称为不连续基因(discontinuous genes)或 断裂基因(split genes)。
1977年分别由Phillip A. Sharp和Richard J. Roberts领导的两 个研究小组在研究腺病毒基因时发现了断裂基因,经历了漫长 的16年,他们迎来了1993年的Nobel生理学或医学奖。
根据基因的功能不同,分为两大类:
⑴ 结构基因,是指能够表达出功能产物的基因,如蛋白 质基因和功能RNA的基因。
⑵ 调控基因,是参与调控结构基因表达的DNA或RNA 序列单元。
根据基因编码的功能产物不同,可 以将结构基因再分为两类:
⑴ 编码多肽链或蛋白质的基因。 ⑵ 编码RNA产物的基因。
3.2 特征基因
噬菌体G4基因组重叠基因示意图 引自 Nature 272:510-515, 1978. Gene K, a new overlapping gene in bacteriophage G4.
重叠基因现象不仅存在于细菌、病毒等原核生物基因中, 也存在于高等真核生物基因组中;
不仅存在于两个基因之间的二重重叠,也有存在于三个基 因之间的三重重叠;
既没有序列同源性,编码产物之间也没有保守的氨基酸序 列,但是结构和功能相似,称为超基因家族,如免疫球蛋白 基因家族。
3.2.3 重复基因
指染色体上存在多个拷贝的基因,主要存在于真核生物 基因组中。
这些基因往往是与生命活动最基本、最重要的功能相关 的基因,如组蛋白基因、rRNA基因、tRNA基因等。
3.2.2 基因家族
许多来源相同、结构相似、功能相关的基因串联在一起, 且又被长短不一的间隔区分开,这组基因称为基因家族 (gene family)。
基因家族是具有共同特征的一组基因,是真核生物基因组 特有的。在大多数情况下,同一个基因家族的基因具有相 似的DNA序列,可以编码具有相似结构和功能的产物(如 蛋白质)。也有的基因家族的成员,基因序列并不相似, 但因为编码的蛋白质产物具有相似的功能而归为同一基因 家族。
3.2.4 跳跃基因及转座子
跳跃基因(jumping gene)也称移动基因(movable gene),是一些可以在染色体基因组上从一个位置转移到 另一个位置,甚至在不同染色体之间跃迁的DNA成分。
像这样DNA序列在基因组中的位置发生转移的现象称为转 座(transposition),这样的DNA序列称为转座子 (transposon, Tn)或者转座元件(transposable element)。
第三章 基因和基因组
第三章 目录
3.1 基因的概念与分类 3.2 特征基因 3.3 基因组
3.4 基因组大小与C值矛盾
3.5 基因组学
3.1 基因的概念与分类
基因是生物体遗传的分子单位,是指编码在生物体中能够 表达特定功能的多肽链或RNA链的一段核酸(DNA或者 RNA)序列单元。
基因是基因组序列中的特定区域,对应于遗传单位,包括 调控区、转录区、以及其他功能序列。
而这一比例在低等生物中一般小于5%。
3.2.5 重叠基因
不同基因共用部分核苷酸序列,即基因的核苷酸序列彼此 重叠,这样的基因称为重叠基因(overlapping genes)或 嵌套基因(nested gene)。
大肠杆菌噬菌体X174基因组示意图 引自 Nature 265:687- 695, 1977. Nucleotide sequence of bacteriophage X174.
图3-1. R-looping示意图。mRNA(红色)与双链DNA(黑色)杂交时,内含子区域 形成双链DNA的loop,而外显子区域形成单链DNA的loop。
Pierre Chambon及其同事证明鸡的 卵清蛋白基因也是断裂基因。
左图:卵清蛋白基因示意图。鸡卵清蛋白基因包含7个内含子(A-G) 、8个外显 子(L, 1-7)。 右图:卵清蛋白基因的单链DNA(粗线表示)与其mRNA(细线表示) 杂交后 的电镜结果示意图。Loop A-G代表7个不同的内含子,片段L和片段1-7代表8
3.2.1 不连续基因 3.2.2 基因家族 3.2.3 重复基因 3.2.4 跳跃基因及转座子 3.2.5 重叠基因 3.2.6 假基因 3.2.7 沉默基因 3.2.8 RNA基因
3.2.1 不连续基因
大多数真核生物基因是镶嵌式的,即编码序列中插入 了一段段非编码序列,使一个基因被分隔成若干不连 续的区段。
3.3.2 细菌基因组
原核生物中携带遗传信息的DNA分子有两类:
核DNAபைடு நூலகம்
质粒DNA
1997年第一个完整的大肠杆菌DNA序列(E.coli K12菌株)发
表了:长约4.6×106 bp,包含4288个编码蛋白质的基因(整
合成2584个操纵子)、7个rRNA操纵子、86个tRNA基因。
功能相关的基因通常串联排列,以操纵子为单位进行表达调控。
重复序列也可以按照其在染色体上 的排列方式分为两种类型:
• (1)串联重复DNA:成簇存在于染色体的特定区域。 • 卫星DNA(satellite DNA) • 隐蔽卫星DNA(cryptic satellite DNA)。
• (2)散布的重复DNA:分散存在于染色体的各个位点。 • 短散布元件(short interspersed element, SINE) • 长散布元件(long interspersed element, LINE)