分子生物学Chapter 2 基因概念的演变与发展
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Chapter 2 基因概念的演变与发展
2.5 基因概念的多样性
2.5.1 生物进化的C值矛盾 (C value paradox)
Maximun C Value(C值):
某生物物种单倍体基因组DNA的总量。 The total of DNA in the genome of haploid(单倍体) is a characteristic of each living species known as its Maximun C Value.
单拷贝;
<10 拷贝; 大多数的编码蛋白质的结构基因。
Ⅱ。中度重复序列
Mid-frequency repetitive sequence
特征:
重复单位 0.1~1Kb 10~10,000 copies/genome
C0t: 0.001~0.1
rDNA基因家族
例子:
Alu序列家族
并非所有真核生物基因均是间隔基因:
组蛋白基因家族成员
干扰素基因 酵母的大多数基因
间隔基因形成的假说
内含子先存论(Intron early):
内含子存在于古老的基因中,是基因的一部分;所
有基因均起源于原本就具有间隔结构的DNA分子。
原核生物的基因组小,“无功能”的内含子成为快 速复制的包袱,在进化过程中被丢弃.
能
大多数内含子无选择压力,易变异;其突变不影响基因产 物的功能 (也有例外:突变内含子影响转录后的剪接加工)
间隔基因概念的相对性
内含子也有编码功能:
酵母Cytb基因的内含子2编码成熟酶
一些内含子编码小分子RNA,调控目标基因的转录和加工
外显子在某些情况下也没有编码功能:
人尿激酶原基因的外显子1
基因组逐渐扩增 C值逐渐增大
同一生物类别中:C值差异很大
矛盾:
有些进化上更高层次的生物类别的C值比低层次的生物的 小:某些哺乳动物的C值 < 两栖类的C值
C值与c值的矛盾:
人类: c值 / C 值 = 10%
C值 = 3*109 bp → 可编码40~50万基因 c值 = 3~4万基因,相当于3*108 bp 90%的序列的功能是什么?
2.5.4
间 隔 基 因
Interrupted Gene / Splitting Gene
由若干外显子和内含子序列相间隔排列组成的 外显子:
DNA上与成熟mRNA上对应 的核苷酸区段
内含子:
结构基因中能够可转录但在 mRNA出数之前被剪接掉的 核苷酸区段。
结构基因的编码区
非间隔区
非编码区 间隔区
基因组DNA 酶切产物电泳
基因组上的卵清蛋白基因被切断!
Vs.
cDNA上确实没有EcoRⅠ和 HindⅢ的识别位点。
?
另一个实验:1977,Sharp group Roberts group
腺病毒2中的Hexon cp基因 的mRNA分子是由长而不连续的 DNA转录而来,其5’端来自基因 上的几个小片段的转录!
担子菌、烟蚜夜蛾、秀丽新小杆线虫:7 introns 9种动物、5种植物、5种真菌、5种原生动物:21 introns 符合随机插入的理论
间隔序列的进化意义
增加变异概率,有利于进化
内含子不受选择压力,有利于累积突变,增加总变异量
内含子较长,易于进行基因间重组,增加外显子重新组合的概率
与外显子变异相比,有利于物种的稳定性
累积突变,整体进化
Ⅲ。 高度重复序列
High-frequency repetitive sequence
特征:
长度:2~10bp 105~106 copies/genome
C0t: < 0.001
串联排列 分布于着丝点,端粒区,结构基因
的两侧
例子:
卫星DNA
小鼠基因组的密度梯度离心
与鸡卵清蛋白cDNA 杂交 (无EcoRⅠ和 HindⅢ 识别位点)
预期结果
基因组上的卵清蛋白基因 由于没有EcoRⅠ和 HindⅢ的 切点,因此该基因不被切断, 管状细胞DNA 红细胞DNA 而是以一个完整的基因序列被 电泳,得到一条电泳带。点样孔
实际结果
管状细胞DNA
点样孔
红细胞DNA
基因组DNA 酶切产物电泳
Transcription
Splice
唾液腺
Splice 肝脏
一篇最新报道: 《PloS遗传学》: 科学家首次发现无功能性基因“复活”
图片说明:IRGM基因似乎在约2000万 年前复活,重新发挥作用。 (图片来源:Punchstock) 美国、西班牙、德国和意大利科学家近日研究了一个克罗恩氏病相关
2.5.3 重复序列 (Repetitive Sequence)
重复序列的种类:根据重复频率分
I. 单拷贝序列
II. 中度重复序列 III. 高度重复序列
Ⅰ。 单拷贝序列 Non-repetitious sequence
Low-frequency repetitious sequence
的两侧
不编码 (?) 无选择压力:易变异,累积突变
重复序列形成的假说 1。滚环扩增-突变
重复序列形成的假说 2。反转座插入
重复序列形成的假说: 3。跳跃复制
小鼠中的跳跃复制
重复序列形成的假说 4。不等交换假说
部 分 B
―序列重复”引起的思考:
低等真核生物 10%~20% 高等植物 80% 高等动物 50%
insert 假基因
2.5.6
Gene Jumping / Transposon 基因跳跃/转座子
Transposon: One DNA segment that can move from one genomic site to another.
Berget, Susan M. ,Moore, Chaire, and Sharp,Phillip. PNAS 74:3173, 1977
1977,Chambon 对鸡的实验结果的解释和验证
鸡DNA上的卵清蛋白基因:与腺病毒2的Hexon cp基因类似,
编码序列(在成熟mRNA上出现的序列)之间有间隔,没有出现在
主带:92%;42%GC
卫星带:34%GC;“CAAAAATGA‖
Ⅲ。 高度重复序列
High-frequency repetitive sequence
特征:
长度:2~10bp 105~106 copies/genome
C0t: < 0.001
串联排列 分布于着丝点,端粒区,结构基因
间隔基因普遍存在
大多数基因是间隔基因:结构基因,tDNA, rDNA 间隔基因存在于真核生物中,也存在于原核生物中 也存在于某些低等真核生物的线粒体和叶绿体中
间隔基因的共同特征
基因上的外显子排列顺序与成熟mRNA上的排列顺序一致
间隔基因在不同组织细胞中的内含子成分一致
核基因的阅读框通常被内含子隔开,内含子一般无编码功
外显子变异:蛋白质序列、结构变异,受到选择压力,要不淘汰
要不保留 内含子变异:不影响蛋白质功能,不影响物种遗传稳定性,不被 清除而保留下来
扩大遗传信息储量:外显子与内含子区分的相对性 利用内含子进行基因表达调节:酵母Cyt b基因内含子切除的
调节机制
外显子与内含子区分的相对性
S L 2 3
disablement, most commonly through disruptive frameshift mutation or premature stop codon formation。
假基因
加工型假基因
Arising from reverse transcription from messenger RNA (mRNA) and re-integration into the genomic DNA.
排列在核仁组织区,又称主 体rDNA
不同的物种的基因组中,其 拷贝数有所差异
在发育过程中随着生理、发 育的需要发生不同程度的扩增
水杉:1434 copies(但不同群体间有 差异)
灵长类特有的Alu序列家族
人类基因组中:
弥散性的分布; 约500,000 copies; 占基因组5%~6%;
鸡
鼠
存在于鸡胰岛素基因中 的第2个内含子,在鼠胰岛素 基因中丢失。
黑曲霉
玉米 鸡
在3个进化程度不同的物 种中,在TPI基因的相同位置 保留了同样的内含子,但是 进化程度高的物种保留的内 含子更多。
内含子后生论(Intron late)
原始基因的编码区无间隔DNA序列,内含子实在 后期进化的过程中随机插入到基因组中,形成间 隔基因。 果蝇Cyt C基因:无intron 人Cyt C基因:有intron 有intron的基因是 进化的高级形式。
失去正常功能的突变多肽 突变的短肽
不能转录的基因序列
Structural Mutation 基因结构的突变:
ቤተ መጻሕፍቲ ባይዱ
阅读框位移
内部出现终止密码
没有正常的调控序列 剪接位点的突变
假基因种类及其形成
功能基因累积突变型
Arising from duplication in the genomic DNA and subsequent
rDNA 基 因 家 族
(编码3种rRNA)
18s-5.8s-28s 18s-5.8s-28s 18s-5.8s-28s
海胆:450 copies 果蝇:100 copies 烟草:750 copies 非洲爪蟾卵母细胞:500 copies(可 扩增至2000 copies )
18s-5.8s-28s
降钙素基因的选择性加尾
1 2 3 4
AATAAA
5
6
AATAAA
降钙素
降钙素相关蛋白
基因重叠的生物学意义
原核生物生物进化的经济原则
较少的基因组含量(C值小)编码大量的基因; 基因表达调控—同一调控序列调控不同基因的表达。
遗传信息量的估算 丰富和发展了基因的概念
部分解释了 “C值 ≠c值” 的矛盾
成熟mRNA上出现。而EcoRⅠ和 HindⅢ的识别位点正好位于这些 间隔区其中的两个里,因此EcoRⅠ和 HindⅢ 可将卵清蛋白基因
切成3段,电泳得到3条不同大小的带。
点样孔
酶 切
杂 交
鸡DNA
卵清蛋白基因被 切断成3个片段
基因组DNA 酶切产物电泳
1977,Chambon 对鸡的实验结果的解释和验证
基因后发现,这种基因在4000万年前失去功能之后,又于2000万年
前“复活”。相关论文已于3月6日发表在《公共科学图书馆•遗传学》 (PLoS Genetics )上。
2.5.5 假 基 因(Pseudogene)
正常基因的失去功能的非等位拷贝。
Functional Mutation 功能上的突变:
重复序列的功能?
编码 进化潜力
玉米基因组 〉5×水稻基因组
小麦基因组 〉40×水稻基因组
然而, 他们之间的基因组成、排列惊人相似, 差异却大量存在于重复序列之中
换一个话题……
一个实验:1977,Chambon
鸡
鸡管状细胞DNA 鸡红细胞DNA
EcoRⅠ和 HindⅢ
点样孔
基因组DNA酶切 产物电泳
QβRNA病毒:IP gene vs. CP gene 同向;终止密码漏读
外壳蛋白
侵染蛋白
2.5.2 基 因 重 叠 Gene Overlapping
不同基因共用同一段DNA序列
重叠基因的种类
反向重叠
(原核生物基因组)
(线粒体基因组)
同向重叠
(原核生物基因组)
可变剪接
(真核生物中的基因重叠)
Minimun c Value(c值):
所有含基因编码信息的DNA总量。 The total amount of DNA for encoding the genes information
is termed its Minimun C Value.
高等真核生物
低等真核生物 原核生物
低等生物→高等生物;原核生物→真核生物
DR IR
Alu Ⅰ识别位点 AGCT
IR DR
平均每6,000bp就有一个 重复。
300bp,1 copy of Alu family
成员之间 87%以上的同源性
中度重复序列的特征
拷贝数多
重复成员之间序列相同或相似
束状串联(Cluster gene / Tandem gene) 功能相同
Ф X174: 实际C值 < 理论c值
C值 = 5387 bp c值 = 按其功能基因(11个)计算,需22000 bp 如此小的基因组如何编码如此多的基因?
Gene overlapping in ØX174 phage genome
ФX174 噬菌体:A gene vs. B gene 同向;不同的阅读框—选择不同的起始密码或终止密码
2.5 基因概念的多样性
2.5.1 生物进化的C值矛盾 (C value paradox)
Maximun C Value(C值):
某生物物种单倍体基因组DNA的总量。 The total of DNA in the genome of haploid(单倍体) is a characteristic of each living species known as its Maximun C Value.
单拷贝;
<10 拷贝; 大多数的编码蛋白质的结构基因。
Ⅱ。中度重复序列
Mid-frequency repetitive sequence
特征:
重复单位 0.1~1Kb 10~10,000 copies/genome
C0t: 0.001~0.1
rDNA基因家族
例子:
Alu序列家族
并非所有真核生物基因均是间隔基因:
组蛋白基因家族成员
干扰素基因 酵母的大多数基因
间隔基因形成的假说
内含子先存论(Intron early):
内含子存在于古老的基因中,是基因的一部分;所
有基因均起源于原本就具有间隔结构的DNA分子。
原核生物的基因组小,“无功能”的内含子成为快 速复制的包袱,在进化过程中被丢弃.
能
大多数内含子无选择压力,易变异;其突变不影响基因产 物的功能 (也有例外:突变内含子影响转录后的剪接加工)
间隔基因概念的相对性
内含子也有编码功能:
酵母Cytb基因的内含子2编码成熟酶
一些内含子编码小分子RNA,调控目标基因的转录和加工
外显子在某些情况下也没有编码功能:
人尿激酶原基因的外显子1
基因组逐渐扩增 C值逐渐增大
同一生物类别中:C值差异很大
矛盾:
有些进化上更高层次的生物类别的C值比低层次的生物的 小:某些哺乳动物的C值 < 两栖类的C值
C值与c值的矛盾:
人类: c值 / C 值 = 10%
C值 = 3*109 bp → 可编码40~50万基因 c值 = 3~4万基因,相当于3*108 bp 90%的序列的功能是什么?
2.5.4
间 隔 基 因
Interrupted Gene / Splitting Gene
由若干外显子和内含子序列相间隔排列组成的 外显子:
DNA上与成熟mRNA上对应 的核苷酸区段
内含子:
结构基因中能够可转录但在 mRNA出数之前被剪接掉的 核苷酸区段。
结构基因的编码区
非间隔区
非编码区 间隔区
基因组DNA 酶切产物电泳
基因组上的卵清蛋白基因被切断!
Vs.
cDNA上确实没有EcoRⅠ和 HindⅢ的识别位点。
?
另一个实验:1977,Sharp group Roberts group
腺病毒2中的Hexon cp基因 的mRNA分子是由长而不连续的 DNA转录而来,其5’端来自基因 上的几个小片段的转录!
担子菌、烟蚜夜蛾、秀丽新小杆线虫:7 introns 9种动物、5种植物、5种真菌、5种原生动物:21 introns 符合随机插入的理论
间隔序列的进化意义
增加变异概率,有利于进化
内含子不受选择压力,有利于累积突变,增加总变异量
内含子较长,易于进行基因间重组,增加外显子重新组合的概率
与外显子变异相比,有利于物种的稳定性
累积突变,整体进化
Ⅲ。 高度重复序列
High-frequency repetitive sequence
特征:
长度:2~10bp 105~106 copies/genome
C0t: < 0.001
串联排列 分布于着丝点,端粒区,结构基因
的两侧
例子:
卫星DNA
小鼠基因组的密度梯度离心
与鸡卵清蛋白cDNA 杂交 (无EcoRⅠ和 HindⅢ 识别位点)
预期结果
基因组上的卵清蛋白基因 由于没有EcoRⅠ和 HindⅢ的 切点,因此该基因不被切断, 管状细胞DNA 红细胞DNA 而是以一个完整的基因序列被 电泳,得到一条电泳带。点样孔
实际结果
管状细胞DNA
点样孔
红细胞DNA
基因组DNA 酶切产物电泳
Transcription
Splice
唾液腺
Splice 肝脏
一篇最新报道: 《PloS遗传学》: 科学家首次发现无功能性基因“复活”
图片说明:IRGM基因似乎在约2000万 年前复活,重新发挥作用。 (图片来源:Punchstock) 美国、西班牙、德国和意大利科学家近日研究了一个克罗恩氏病相关
2.5.3 重复序列 (Repetitive Sequence)
重复序列的种类:根据重复频率分
I. 单拷贝序列
II. 中度重复序列 III. 高度重复序列
Ⅰ。 单拷贝序列 Non-repetitious sequence
Low-frequency repetitious sequence
的两侧
不编码 (?) 无选择压力:易变异,累积突变
重复序列形成的假说 1。滚环扩增-突变
重复序列形成的假说 2。反转座插入
重复序列形成的假说: 3。跳跃复制
小鼠中的跳跃复制
重复序列形成的假说 4。不等交换假说
部 分 B
―序列重复”引起的思考:
低等真核生物 10%~20% 高等植物 80% 高等动物 50%
insert 假基因
2.5.6
Gene Jumping / Transposon 基因跳跃/转座子
Transposon: One DNA segment that can move from one genomic site to another.
Berget, Susan M. ,Moore, Chaire, and Sharp,Phillip. PNAS 74:3173, 1977
1977,Chambon 对鸡的实验结果的解释和验证
鸡DNA上的卵清蛋白基因:与腺病毒2的Hexon cp基因类似,
编码序列(在成熟mRNA上出现的序列)之间有间隔,没有出现在
主带:92%;42%GC
卫星带:34%GC;“CAAAAATGA‖
Ⅲ。 高度重复序列
High-frequency repetitive sequence
特征:
长度:2~10bp 105~106 copies/genome
C0t: < 0.001
串联排列 分布于着丝点,端粒区,结构基因
间隔基因普遍存在
大多数基因是间隔基因:结构基因,tDNA, rDNA 间隔基因存在于真核生物中,也存在于原核生物中 也存在于某些低等真核生物的线粒体和叶绿体中
间隔基因的共同特征
基因上的外显子排列顺序与成熟mRNA上的排列顺序一致
间隔基因在不同组织细胞中的内含子成分一致
核基因的阅读框通常被内含子隔开,内含子一般无编码功
外显子变异:蛋白质序列、结构变异,受到选择压力,要不淘汰
要不保留 内含子变异:不影响蛋白质功能,不影响物种遗传稳定性,不被 清除而保留下来
扩大遗传信息储量:外显子与内含子区分的相对性 利用内含子进行基因表达调节:酵母Cyt b基因内含子切除的
调节机制
外显子与内含子区分的相对性
S L 2 3
disablement, most commonly through disruptive frameshift mutation or premature stop codon formation。
假基因
加工型假基因
Arising from reverse transcription from messenger RNA (mRNA) and re-integration into the genomic DNA.
排列在核仁组织区,又称主 体rDNA
不同的物种的基因组中,其 拷贝数有所差异
在发育过程中随着生理、发 育的需要发生不同程度的扩增
水杉:1434 copies(但不同群体间有 差异)
灵长类特有的Alu序列家族
人类基因组中:
弥散性的分布; 约500,000 copies; 占基因组5%~6%;
鸡
鼠
存在于鸡胰岛素基因中 的第2个内含子,在鼠胰岛素 基因中丢失。
黑曲霉
玉米 鸡
在3个进化程度不同的物 种中,在TPI基因的相同位置 保留了同样的内含子,但是 进化程度高的物种保留的内 含子更多。
内含子后生论(Intron late)
原始基因的编码区无间隔DNA序列,内含子实在 后期进化的过程中随机插入到基因组中,形成间 隔基因。 果蝇Cyt C基因:无intron 人Cyt C基因:有intron 有intron的基因是 进化的高级形式。
失去正常功能的突变多肽 突变的短肽
不能转录的基因序列
Structural Mutation 基因结构的突变:
ቤተ መጻሕፍቲ ባይዱ
阅读框位移
内部出现终止密码
没有正常的调控序列 剪接位点的突变
假基因种类及其形成
功能基因累积突变型
Arising from duplication in the genomic DNA and subsequent
rDNA 基 因 家 族
(编码3种rRNA)
18s-5.8s-28s 18s-5.8s-28s 18s-5.8s-28s
海胆:450 copies 果蝇:100 copies 烟草:750 copies 非洲爪蟾卵母细胞:500 copies(可 扩增至2000 copies )
18s-5.8s-28s
降钙素基因的选择性加尾
1 2 3 4
AATAAA
5
6
AATAAA
降钙素
降钙素相关蛋白
基因重叠的生物学意义
原核生物生物进化的经济原则
较少的基因组含量(C值小)编码大量的基因; 基因表达调控—同一调控序列调控不同基因的表达。
遗传信息量的估算 丰富和发展了基因的概念
部分解释了 “C值 ≠c值” 的矛盾
成熟mRNA上出现。而EcoRⅠ和 HindⅢ的识别位点正好位于这些 间隔区其中的两个里,因此EcoRⅠ和 HindⅢ 可将卵清蛋白基因
切成3段,电泳得到3条不同大小的带。
点样孔
酶 切
杂 交
鸡DNA
卵清蛋白基因被 切断成3个片段
基因组DNA 酶切产物电泳
1977,Chambon 对鸡的实验结果的解释和验证
基因后发现,这种基因在4000万年前失去功能之后,又于2000万年
前“复活”。相关论文已于3月6日发表在《公共科学图书馆•遗传学》 (PLoS Genetics )上。
2.5.5 假 基 因(Pseudogene)
正常基因的失去功能的非等位拷贝。
Functional Mutation 功能上的突变:
重复序列的功能?
编码 进化潜力
玉米基因组 〉5×水稻基因组
小麦基因组 〉40×水稻基因组
然而, 他们之间的基因组成、排列惊人相似, 差异却大量存在于重复序列之中
换一个话题……
一个实验:1977,Chambon
鸡
鸡管状细胞DNA 鸡红细胞DNA
EcoRⅠ和 HindⅢ
点样孔
基因组DNA酶切 产物电泳
QβRNA病毒:IP gene vs. CP gene 同向;终止密码漏读
外壳蛋白
侵染蛋白
2.5.2 基 因 重 叠 Gene Overlapping
不同基因共用同一段DNA序列
重叠基因的种类
反向重叠
(原核生物基因组)
(线粒体基因组)
同向重叠
(原核生物基因组)
可变剪接
(真核生物中的基因重叠)
Minimun c Value(c值):
所有含基因编码信息的DNA总量。 The total amount of DNA for encoding the genes information
is termed its Minimun C Value.
高等真核生物
低等真核生物 原核生物
低等生物→高等生物;原核生物→真核生物
DR IR
Alu Ⅰ识别位点 AGCT
IR DR
平均每6,000bp就有一个 重复。
300bp,1 copy of Alu family
成员之间 87%以上的同源性
中度重复序列的特征
拷贝数多
重复成员之间序列相同或相似
束状串联(Cluster gene / Tandem gene) 功能相同
Ф X174: 实际C值 < 理论c值
C值 = 5387 bp c值 = 按其功能基因(11个)计算,需22000 bp 如此小的基因组如何编码如此多的基因?
Gene overlapping in ØX174 phage genome
ФX174 噬菌体:A gene vs. B gene 同向;不同的阅读框—选择不同的起始密码或终止密码