第三章 真核生物基因组
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
AAA …
3
蛋白质 非编码序列 编码序列 核蛋白体结合位点 起始密码子 终止密码子
断裂基因(split gene)
真核生物结构基因的 DNA 序列由编码序 列和非编码序列两部分交替组成,编码序 列是不连续的,被非编码序列分割开来, 称为断裂基因。其包括外显子和内含子。
Gilbert (1978年)提出内含子、外显子概念
因丢失;或无剪接加工信号;或编码区出现
终止信号;或编码无功能或不完整的基因。
根据假基因产生的机制分类:
复制假基因:复制后基因发生序列变化而失 去功能,这样产生的假基因带有内含子 加工假基因:基因转录后加工成熟的RNA经
逆转录生成互补DNA,后者在整合到基因组中
称为加工假基因
基因多态性
(polymorphism)
具有种特异性
人类Alu序列特征: 由两个约130bp的正向重复构成的二聚体; 第二个单体中有一个31bp的插入序列,不同成员 之间核苷酸顺序相似但不相同; 两侧为6-20bp的正向重复顺序,不同成员的侧翼
重复顺序各不相同;
正向重复序列 正向重复序列
正向重复序列
130bp
> > >
6-20 bp
130bp+31b p
(一)高度重复序列
高度重复序列在基因组中重复频率高,
可达 106次,因此复性速度很快。高度
重复序列在基因组中所占比例随种属
而异,一般在10~60%范围内。
人的高度重复序列约占整个基因组的
20%左右。
高度重复序列按其结构特点可分为两种:
1. 反向重复序列(inverted repeats)
DNA/short tandem repeat, STR):
其重复单位为2~5 bp,存在于常染色体,常见 于内含子中。
☆ 人类基因组DNA中平均每6~10kb就有一个STR
位点 。不同个体之间在一个同源STR位点的重复 次数不同。 由于重复单位及重复次数不同,使 其在不同种族,不同人群之间的分布具有很大差 异性,构成了STR遗传多态性。
端粒(telomere)
是指真核生物
染 色 体 线 性 DNA 分子末端的结构 部分,通常膨大 成粒状。
(二)染色体外基因组——线粒体
真核生物线粒体和叶绿体中携带遗传物质 ,能自行复制和表达 线粒体DNA(mitochondrial DNA, mtDNA) 属于真核细胞核外遗传物质,可独立编码 存在于线粒体中的多肽链、rRNA或tRNA。 mtDNA为双链环状DNA,其分子结构特点 与原核生物DNA相同。
LINEs):平均长度>1000bp,如KpnⅠ家族
Alu家族
是哺乳动物和人类基因组中含量最丰富的一 种中度重复序列家族 Alu 家族每个成员长度约为 300bp ,典型的特 征 是 内 部 有 一 个 限 制 性 内 切 酶 AluⅠ 位 点 ( AG/CT ),序列被分割成 170bp 和 130bp 的两个 片段,因而称其为Alu序列或Alu家族。
外显子(exon):编码的DNA序列,即被 表达的DNA区段
内含子(intron):非编码的DNA序列
5`GT
—— AG 3`法则
在每个外显子和内含子的接头区都是一段
高度保守的共有序列,内含子的5`端是GT,
3端是AG,这种接头方式称为GT-AG法则,
普遍存在于真核生物中,是RNA剪接的识 别信号,转录后的前体RAN中的内含子剪 接位点。
人类基因组中可分离出三类卫星:
① 大卫星DNA(macrosatellite DNA):
其重复单位为5~171 bp,主要分布于染色体的 着丝粒区。
② 小卫星DNA(minisatellite DNA):
其重复单位为15~70 bp,存在于常染色体。
③ 微卫星DNA/短串联重复序列(microsatellite
• SNP是指单个核苷酸变异而形成的DNA 分子多态性
百度文库
SNP所表现的多态性只涉及到单个
碱基的变异,也就是通常说的基因的点 突变,这种变异可由单个碱基的转换或 颠换所引起。 转换是指同型碱基之间替换 颠换是指发生在嘌呤与嘧啶之间替换
组成DNA的碱基虽然有4种,SNP理论上有四种 等位形式,但实际上某一特定位点的SNP通常只 有一种变异形式,即二等位多态。三等位和四等
chromosome 7
H1 海胆(R) 海胆(S) 海胆(L) H1 果蝇 H1 蝾螈 图 10-31 组蛋白基因簇的重复单位 基因; 间隔区; 转录方向 H3 H2B H2A H4 9000bp H3 H4 H2A H2B 4800bp H4 H2B H3 H2A 6000bp 6540bp 7240bp
是由两个相同顺序的
互 补 拷 贝 在 同 一 DNA
双链上反向排列而成。
反向重复序列的两种形式
发卡结构
回 文 结 构
2. 卫星DNA(satellite DNA)
卫星 DNA 的重复单位一般由 2 ~ 70 bp 组
成,成串排列。
卫星 DNA 占基因组的比例随种属而异,
在0.5~31% 范围内。
• SNP的应用范围较微卫星标记更加宽广,经常被 用于基因组作图、法医鉴定、亲子鉴定、疾病的 连锁反应、群体遗传学及生物学进化的研究,此 外 SNP 在个体化医学及保健中有着广阔的应用前 景。 • 人们希望通过研究 SNP 图谱,更深刻地认识癌症 、糖尿病、血管性疾病和 某些精神性疾病等发病率 高的多基因疾病的发生机 制。
高度重复序列的功能
参与复制水平的调节 参与基因表达的调控 参与转位 与进化有关 与个体特征有关 与染色体减数分裂时染色体配对有关
(二)中度重复序列
基因组中重复次数<105的重复顺序,重复单位平均长 度约300bp;
复性速度快于单拷贝顺序,慢于高度重复顺序。
多与单拷贝基因间隔排列。
指基因组中某个基因在同种 生物的不同个体中,同时和经常 存在的两种或两种以上的变异型 或基因型的现象
基因多态性的类型:
限制性片段长度多态性(RFLP) (restuiction fragment lengh polymorphism)
单核苷酸多态性(SNP)
(single nucleotide polymorphism)
细胞核基因组的特征
※真核生物基因组的一般特征
1. 真核生物基因组都是由大分子双链线状
DNA构成。染色体通常成对出现(双倍
体)。
2. 基因组非常庞大,结构
非常复杂,有多个复制
起始位点。
3. 基因组中存在大量的重复序列以及非编 码序列。真核生物基因组内非编码序列 占90%以上,是与细菌、病毒的重要区 别,在一定程度上也是生物进化的标尺。 4. 功能基因大多不连续,存在有内含子和 外显子; 5. 真核生物基因组中也存在一些可移动的 DNA序列(转座元件)。
多为非编码序列,如Alu序列
也有编码基因产物的,如rDNA、tDNA、组蛋白基因
家族, 一般往往以基因家族的形式存在。
依据重复序列的长度分为:
短散在核元件( short interspersed nuclear elements,
SINEs):平均长度300bp,如Alu家族
长散在核元件( long interspersed nuclear elements,
Bam HⅠ
GGATCC CCTAGG G GATCC + CCTAG G
RFLP的类型
1.点的多态性 表现为DNA链中发生单个碱基的突变,且突变导致 一个原有酶切位点的丢失或形成一个新的酶切位 点。Southern杂交即可诊断。 2.序列多态性 ①由于DNA 顺序上发生突变如缺失、重复、插入所 致。 ②由于高变区(highly variable region )内串 联重复顺序的拷贝数不同所产生的,其突出特征 是限制性内切酶识别位点本身的碱基没有发生改 变,改变的只是它在基因组中的相对位置。
KpnⅠ家族的重复单位一般为6
~
7 kb
或更长,其两侧也各有一段正向重复序
列,功能上与Alu家族相似。
(三)低度重复序列(单拷贝序列)
单拷贝序列在基因组中只出现一次或
少数几次,因此复性速度很慢。
单拷贝序列属于结构基因,它储存了
巨大的遗传信息,编码各种功能不同 的蛋白质。
真核生物基因组中的重复序列
• RFLP指用某个限制性核酸内切酶来酶解
基因组的某段序列时,在同种的不同个体 之间该段序列可能被酶解成长短不等的几 个DNA片段,这些序列在该种生物的群体 中形成多态性。
限制性核酸内切酶 restriction endonuclease, RE
RE是一类能识别和切割双链DNA特定 核苷酸序列的核酸水解酶。
单顺反子结构
多数的真核生物不存在操纵子结构,每一 个基因都单独构成一个转录单位,转录产 生单顺反子mRNA,及编码一种蛋白质。 这是原核生物基 因的操纵子结构, 转录产生多顺反 子mRNA,可编 码多种蛋白质。
原核生物的多顺反子
5 PPP 3
蛋白质
真核生物的单顺反子
5 mG - PPP
第三章 真核生物基因组
细胞核基因组(cytoblast genome) 细胞器基因组(organelle
genome)
(一)细胞核基因组
由染色体DNA组成: DNA+蛋白质=核小体 线性双链DNA分子 染色体的数目,绝大多数真核生物 体细胞都是二倍体 基因表达与染色质结构相关
*M期——染色体形式 大部分细胞周期——染色质(弥散状)
位多态很少见。
人类基因组1SNP/kb,共约300万SNP,是人群
中个体差异最具代表性的DNA多态性
根据SNP在基因组中的位置分为
-编码区SNP
非同义SNP(20-30%)
同义SNP(70-80%)
-基因周边区SNP
-基因间SNP
大多数SNP位点十分稳定,被认为是一
种能稳定遗传的早期突变
SNP的研究意义
DNA染色质的电镜图像
a、常染色质:密度较低, 一部分基因能被表达 b、异染色质:密度较高, 不被表达(着丝粒、端粒)
核小体
——染色体的基本结构 多为
DNA:约200bp 组蛋白:H1 H2A,H2B H3 H4
串珠状核小体结构
核小体的细微结构影响基因表达
- 念珠样结构不利于基 因表达 - 乙酰化组蛋白有利于 基因表达
多基因家族和假基因
多基因家族(multigene family):指由 某一祖先基因经过重复和变异所产生的一 组基因。 DNA序列具有较高的同源性(通常大于 50%),并且其编码产物具有相同或相似生 理功能的一组结构基因。
可分为二类: 一类是基因簇,基因家族成员位置相对集中 ,成簇地分布在同一染色体上并同时进行转 录。如组蛋白基因家族。
人线粒体基因组共编码37个基因
2个RNA---基因16S和12S rRNA 22个tRNA基因 13个蛋白质基因 1个Cyt b基因 2个ATP酶亚基的基因-ATPase6和ATPase8 3个细胞色素氧化酶亚基基因-CO1、CO2、CO3
图例:
另一类是基因家族成员分布在不同的染色体 上,分别进行转录,且不同基因编码的蛋白 质在功能上相关,如珠蛋白基因家族。
假基因( pseudo gene ): 在多基因家族 中,某些并不产生有功能的基因产物的成员 假基因是由于在进化过程中,某些 DNA 片
段发生了缺失、倒位或点突变,导致调控基
断裂基因存在的意义
断裂基因存在是生物进化的结果,是从 复制水平而言,不同的外显子可分别编 码不同的功能结构域,基因外显子不同 的组合产生新的编码蛋白质,即是外显 子改组。如血红蛋白和肌红蛋白均由独 立的外显子编码结合血红素的结构域。
真核生物的重复序列
重复序列:多拷贝的相同或近似序列的 DNA片段 真核生物基因组中通常存在大量的重复序 列,可占整个基因组DNA的90%以上。 按复性动力学方法可将这些重复序列分为 高度重复序列,中度重复序列和低度重复 序列(单拷贝序列)三大类。
正向重复序列
> > >
130bp
170bp
6-20 bp
AluI
Alu家族的功能是多方面的,可能
参与hnRNA的加工与成熟,也与遗
传重组及染色体不稳定性有关。最
近研究表明,Alu顺序可能具有转录 调节作用。
典型的长散在核元件(LINEs)是
KpnⅠ重复序列家族,因在其序列中存 在限制酶KpnⅠ的切点而得名。
3
蛋白质 非编码序列 编码序列 核蛋白体结合位点 起始密码子 终止密码子
断裂基因(split gene)
真核生物结构基因的 DNA 序列由编码序 列和非编码序列两部分交替组成,编码序 列是不连续的,被非编码序列分割开来, 称为断裂基因。其包括外显子和内含子。
Gilbert (1978年)提出内含子、外显子概念
因丢失;或无剪接加工信号;或编码区出现
终止信号;或编码无功能或不完整的基因。
根据假基因产生的机制分类:
复制假基因:复制后基因发生序列变化而失 去功能,这样产生的假基因带有内含子 加工假基因:基因转录后加工成熟的RNA经
逆转录生成互补DNA,后者在整合到基因组中
称为加工假基因
基因多态性
(polymorphism)
具有种特异性
人类Alu序列特征: 由两个约130bp的正向重复构成的二聚体; 第二个单体中有一个31bp的插入序列,不同成员 之间核苷酸顺序相似但不相同; 两侧为6-20bp的正向重复顺序,不同成员的侧翼
重复顺序各不相同;
正向重复序列 正向重复序列
正向重复序列
130bp
> > >
6-20 bp
130bp+31b p
(一)高度重复序列
高度重复序列在基因组中重复频率高,
可达 106次,因此复性速度很快。高度
重复序列在基因组中所占比例随种属
而异,一般在10~60%范围内。
人的高度重复序列约占整个基因组的
20%左右。
高度重复序列按其结构特点可分为两种:
1. 反向重复序列(inverted repeats)
DNA/short tandem repeat, STR):
其重复单位为2~5 bp,存在于常染色体,常见 于内含子中。
☆ 人类基因组DNA中平均每6~10kb就有一个STR
位点 。不同个体之间在一个同源STR位点的重复 次数不同。 由于重复单位及重复次数不同,使 其在不同种族,不同人群之间的分布具有很大差 异性,构成了STR遗传多态性。
端粒(telomere)
是指真核生物
染 色 体 线 性 DNA 分子末端的结构 部分,通常膨大 成粒状。
(二)染色体外基因组——线粒体
真核生物线粒体和叶绿体中携带遗传物质 ,能自行复制和表达 线粒体DNA(mitochondrial DNA, mtDNA) 属于真核细胞核外遗传物质,可独立编码 存在于线粒体中的多肽链、rRNA或tRNA。 mtDNA为双链环状DNA,其分子结构特点 与原核生物DNA相同。
LINEs):平均长度>1000bp,如KpnⅠ家族
Alu家族
是哺乳动物和人类基因组中含量最丰富的一 种中度重复序列家族 Alu 家族每个成员长度约为 300bp ,典型的特 征 是 内 部 有 一 个 限 制 性 内 切 酶 AluⅠ 位 点 ( AG/CT ),序列被分割成 170bp 和 130bp 的两个 片段,因而称其为Alu序列或Alu家族。
外显子(exon):编码的DNA序列,即被 表达的DNA区段
内含子(intron):非编码的DNA序列
5`GT
—— AG 3`法则
在每个外显子和内含子的接头区都是一段
高度保守的共有序列,内含子的5`端是GT,
3端是AG,这种接头方式称为GT-AG法则,
普遍存在于真核生物中,是RNA剪接的识 别信号,转录后的前体RAN中的内含子剪 接位点。
人类基因组中可分离出三类卫星:
① 大卫星DNA(macrosatellite DNA):
其重复单位为5~171 bp,主要分布于染色体的 着丝粒区。
② 小卫星DNA(minisatellite DNA):
其重复单位为15~70 bp,存在于常染色体。
③ 微卫星DNA/短串联重复序列(microsatellite
• SNP是指单个核苷酸变异而形成的DNA 分子多态性
百度文库
SNP所表现的多态性只涉及到单个
碱基的变异,也就是通常说的基因的点 突变,这种变异可由单个碱基的转换或 颠换所引起。 转换是指同型碱基之间替换 颠换是指发生在嘌呤与嘧啶之间替换
组成DNA的碱基虽然有4种,SNP理论上有四种 等位形式,但实际上某一特定位点的SNP通常只 有一种变异形式,即二等位多态。三等位和四等
chromosome 7
H1 海胆(R) 海胆(S) 海胆(L) H1 果蝇 H1 蝾螈 图 10-31 组蛋白基因簇的重复单位 基因; 间隔区; 转录方向 H3 H2B H2A H4 9000bp H3 H4 H2A H2B 4800bp H4 H2B H3 H2A 6000bp 6540bp 7240bp
是由两个相同顺序的
互 补 拷 贝 在 同 一 DNA
双链上反向排列而成。
反向重复序列的两种形式
发卡结构
回 文 结 构
2. 卫星DNA(satellite DNA)
卫星 DNA 的重复单位一般由 2 ~ 70 bp 组
成,成串排列。
卫星 DNA 占基因组的比例随种属而异,
在0.5~31% 范围内。
• SNP的应用范围较微卫星标记更加宽广,经常被 用于基因组作图、法医鉴定、亲子鉴定、疾病的 连锁反应、群体遗传学及生物学进化的研究,此 外 SNP 在个体化医学及保健中有着广阔的应用前 景。 • 人们希望通过研究 SNP 图谱,更深刻地认识癌症 、糖尿病、血管性疾病和 某些精神性疾病等发病率 高的多基因疾病的发生机 制。
高度重复序列的功能
参与复制水平的调节 参与基因表达的调控 参与转位 与进化有关 与个体特征有关 与染色体减数分裂时染色体配对有关
(二)中度重复序列
基因组中重复次数<105的重复顺序,重复单位平均长 度约300bp;
复性速度快于单拷贝顺序,慢于高度重复顺序。
多与单拷贝基因间隔排列。
指基因组中某个基因在同种 生物的不同个体中,同时和经常 存在的两种或两种以上的变异型 或基因型的现象
基因多态性的类型:
限制性片段长度多态性(RFLP) (restuiction fragment lengh polymorphism)
单核苷酸多态性(SNP)
(single nucleotide polymorphism)
细胞核基因组的特征
※真核生物基因组的一般特征
1. 真核生物基因组都是由大分子双链线状
DNA构成。染色体通常成对出现(双倍
体)。
2. 基因组非常庞大,结构
非常复杂,有多个复制
起始位点。
3. 基因组中存在大量的重复序列以及非编 码序列。真核生物基因组内非编码序列 占90%以上,是与细菌、病毒的重要区 别,在一定程度上也是生物进化的标尺。 4. 功能基因大多不连续,存在有内含子和 外显子; 5. 真核生物基因组中也存在一些可移动的 DNA序列(转座元件)。
多为非编码序列,如Alu序列
也有编码基因产物的,如rDNA、tDNA、组蛋白基因
家族, 一般往往以基因家族的形式存在。
依据重复序列的长度分为:
短散在核元件( short interspersed nuclear elements,
SINEs):平均长度300bp,如Alu家族
长散在核元件( long interspersed nuclear elements,
Bam HⅠ
GGATCC CCTAGG G GATCC + CCTAG G
RFLP的类型
1.点的多态性 表现为DNA链中发生单个碱基的突变,且突变导致 一个原有酶切位点的丢失或形成一个新的酶切位 点。Southern杂交即可诊断。 2.序列多态性 ①由于DNA 顺序上发生突变如缺失、重复、插入所 致。 ②由于高变区(highly variable region )内串 联重复顺序的拷贝数不同所产生的,其突出特征 是限制性内切酶识别位点本身的碱基没有发生改 变,改变的只是它在基因组中的相对位置。
KpnⅠ家族的重复单位一般为6
~
7 kb
或更长,其两侧也各有一段正向重复序
列,功能上与Alu家族相似。
(三)低度重复序列(单拷贝序列)
单拷贝序列在基因组中只出现一次或
少数几次,因此复性速度很慢。
单拷贝序列属于结构基因,它储存了
巨大的遗传信息,编码各种功能不同 的蛋白质。
真核生物基因组中的重复序列
• RFLP指用某个限制性核酸内切酶来酶解
基因组的某段序列时,在同种的不同个体 之间该段序列可能被酶解成长短不等的几 个DNA片段,这些序列在该种生物的群体 中形成多态性。
限制性核酸内切酶 restriction endonuclease, RE
RE是一类能识别和切割双链DNA特定 核苷酸序列的核酸水解酶。
单顺反子结构
多数的真核生物不存在操纵子结构,每一 个基因都单独构成一个转录单位,转录产 生单顺反子mRNA,及编码一种蛋白质。 这是原核生物基 因的操纵子结构, 转录产生多顺反 子mRNA,可编 码多种蛋白质。
原核生物的多顺反子
5 PPP 3
蛋白质
真核生物的单顺反子
5 mG - PPP
第三章 真核生物基因组
细胞核基因组(cytoblast genome) 细胞器基因组(organelle
genome)
(一)细胞核基因组
由染色体DNA组成: DNA+蛋白质=核小体 线性双链DNA分子 染色体的数目,绝大多数真核生物 体细胞都是二倍体 基因表达与染色质结构相关
*M期——染色体形式 大部分细胞周期——染色质(弥散状)
位多态很少见。
人类基因组1SNP/kb,共约300万SNP,是人群
中个体差异最具代表性的DNA多态性
根据SNP在基因组中的位置分为
-编码区SNP
非同义SNP(20-30%)
同义SNP(70-80%)
-基因周边区SNP
-基因间SNP
大多数SNP位点十分稳定,被认为是一
种能稳定遗传的早期突变
SNP的研究意义
DNA染色质的电镜图像
a、常染色质:密度较低, 一部分基因能被表达 b、异染色质:密度较高, 不被表达(着丝粒、端粒)
核小体
——染色体的基本结构 多为
DNA:约200bp 组蛋白:H1 H2A,H2B H3 H4
串珠状核小体结构
核小体的细微结构影响基因表达
- 念珠样结构不利于基 因表达 - 乙酰化组蛋白有利于 基因表达
多基因家族和假基因
多基因家族(multigene family):指由 某一祖先基因经过重复和变异所产生的一 组基因。 DNA序列具有较高的同源性(通常大于 50%),并且其编码产物具有相同或相似生 理功能的一组结构基因。
可分为二类: 一类是基因簇,基因家族成员位置相对集中 ,成簇地分布在同一染色体上并同时进行转 录。如组蛋白基因家族。
人线粒体基因组共编码37个基因
2个RNA---基因16S和12S rRNA 22个tRNA基因 13个蛋白质基因 1个Cyt b基因 2个ATP酶亚基的基因-ATPase6和ATPase8 3个细胞色素氧化酶亚基基因-CO1、CO2、CO3
图例:
另一类是基因家族成员分布在不同的染色体 上,分别进行转录,且不同基因编码的蛋白 质在功能上相关,如珠蛋白基因家族。
假基因( pseudo gene ): 在多基因家族 中,某些并不产生有功能的基因产物的成员 假基因是由于在进化过程中,某些 DNA 片
段发生了缺失、倒位或点突变,导致调控基
断裂基因存在的意义
断裂基因存在是生物进化的结果,是从 复制水平而言,不同的外显子可分别编 码不同的功能结构域,基因外显子不同 的组合产生新的编码蛋白质,即是外显 子改组。如血红蛋白和肌红蛋白均由独 立的外显子编码结合血红素的结构域。
真核生物的重复序列
重复序列:多拷贝的相同或近似序列的 DNA片段 真核生物基因组中通常存在大量的重复序 列,可占整个基因组DNA的90%以上。 按复性动力学方法可将这些重复序列分为 高度重复序列,中度重复序列和低度重复 序列(单拷贝序列)三大类。
正向重复序列
> > >
130bp
170bp
6-20 bp
AluI
Alu家族的功能是多方面的,可能
参与hnRNA的加工与成熟,也与遗
传重组及染色体不稳定性有关。最
近研究表明,Alu顺序可能具有转录 调节作用。
典型的长散在核元件(LINEs)是
KpnⅠ重复序列家族,因在其序列中存 在限制酶KpnⅠ的切点而得名。