真核生物基因组
第三章 真核生物基因组

• 第一节 真核生物染色体基因组 • 第二节 染色体外的基因组- 线粒体 • 第三节 人类基因组
第一节 真核生物染色体基因组
• 一、真核生物染色体基因组的一般特征 • 二、单拷贝基因 • 三、重复序列 • 四、基因家族 • 五、端粒和端粒酶 • 六、基因移动
一、真核生物基因组的一般特征
(一)基因组庞大 :基因可达109bp (二)线状双链DNA和二倍体:染色体都是成对出现。 (三)非编码区远多于编码区:仅1.5%的序列被转录
特点:
• 种类多、分布广,在人群中世代相传。在 基因组中平均50kb就有一个重复序列,突 变率低(< 0.04%)。
• 在人群中高度多态,其多态信息含量容量 超过70%。其多态性表现为正常人群的不 同个体某一基因位点重复序列的重复次数 可不一样,同一个体的两个同源染色体上 重复次数也可以不一样,即微卫星DNA拷 贝数在人群中是可变的。
线粒体DNA
二、线粒体DNA的遗传特性
(一)线粒体DNA(mtDNA) :母性遗传的核外遗传物质 (二)与核DNA区别:
1、非孟德尔的母系遗传 2、高突变率 3、异质性和复制分离 4、阈值效应 5、半自主复制与协同作用
第三节 人类基因组
一、人类基因组概貌 二、人类基因组的多态性及在分子诊断中的应用 三、人类基因组研究
真核生物rRNA基因的加工
四、基因家族(gene family)
• (一)基因家族:一组功能相似且核苷酸 序列具有同源性的基因,在进化过程中从 一个祖先基因经重复和突变演变而来的。
• (二)假基因(pseudogene):与具正 常功能的基因序列相似,但无转录功能或 转录产物无功能的基因。
组蛋白基因家族
• 在人细胞组中卫星DNA约 占5-6%。
真核生物基因组

微卫星DNA(micro-satellite DNA)
由2~6个核苷酸长的重复序列组成,又称为简单串联重复序列 (simple tandem repeats STRs) 以(CA)n、(GT)n、(CAG)n较常见,重复次数多为15~60次,总长 度一般在400 bp以下。 存在于常染色体,除着丝粒及端粒区域外, 微卫星DNA在染色体的 其他区域均广泛均匀分布。很随机地分布在整个基因组中,而不像卫星或 小/微卫星那样串联成簇存在 微卫星DNA在基因组中的功能尚不清楚,已知其有自身特异结合蛋 白,是一种非常活跃的碱基序列, 且能直接编码蛋白质; 另外,微卫星DNA能参与遗传物质的结构改变,染色体折叠及端粒 形成,是基因重排和变异的来源, 通过改变DNA结构或与特异性蛋白质结 合而发挥其基因调控作用。 在人类基因组中,由CA重复序列构成的微卫星如5′CACACACACACA-3′大约每1万bp出现一次,占整个基因组的0.5%(总 共15Mb),而单碱基重复(即5′-AAAAAAAA-3′)占人类基因组的0.3%
Alternative splicing With a few genes, alternative splicing generates more than one mRNA from the primary transcript. Exons, or parts of exons, may be skipped.
呤(A)组成的序列替换hnRNA3′端的过程,这段序列不被翻译。
可变剪切
大部分真核基因被加工成一种类型的剪接后mRNA, 约有20%的人类基因因为可变剪接而产生两种或多种 mRNA序列 有一个人类基因已被证明,相同的原始转录物可以产 生64种不同的mRNA 外显子的相互排斥: 小鼠肌钙蛋白T基因的外显子2和3是相互排斥的,外 显子2用在平滑肌中,而外显子3用于其他所有组织中 剪接装置: 由多种细胞核内小RNA和一些蛋白组成,不同的细 胞类型中可不同
遗传学 第六章 真核生物遗传分析

1、单一序列(unique sequence)
➢ 真核生物的大多数基因在单倍体基因 组中都是单拷贝的。
➢ 单一序列所占的比例在不同生物基因 组中变化较大:
原核生物中一般只含有非重复序列;
较低等的真核生物中大部分DNA也 是单拷贝的;
动物中将近50%DNA是中度或高度 重复的;
植物和两栖类生物中单拷贝DNA序 列降低,而中度和高度重复序列增加, 如玉米的重复序列在80%以上。
(2)卫星DNA (satellite DNA)
➢ 其碱基组成不同于其他部份,可用 等密度梯度离心法将其与主体 DNA 分开,因而称为卫星DNA 或 随体DNA。
➢ 各类卫星DNA都由不同的重复序 列家族构成。
➢ 重复单位串联排列。 ➢ 卫星 DNA约占人基因组 5~6%。
卫星DNA 根据长度可将其分为3类:
➢ 基因组(genome):一个物种单倍体的染色体数 目及其所携带的全部遗传信息。
基因组DNA测序结果表明基因组中不仅包含着整 套基因的编码序列,同时还包含着大量非编码序列, 这些序列同样包含着遗传指令(genetic instruction)。 因此,基因组(应该)是整套染色体所包含的 DNA分子以及DNA分子所携带的全部遗传指令。
➢ 可用遗传学方法区分每个染色单 体。
顺序四分子分析( ordered tetrad analysis)
顺序四分子遗传分析的特殊意义在于: (1) 能从四分子不同类型出现的相对频率分析基因间的连
锁关系; (2) 能计算标记基因与着丝点之间的重组值,进行着丝粒
作图; (3) 子囊中子囊孢子严格的对称性质,表明减数分裂是一
Co = DNA concentration t1/2 = time for half reaction
真核生物基因组的特点

真核生物基因组的特点
x
一、真核生物基因组的特点
1、复杂的基因组
真核生物基因组通常非常复杂,其中含有各种各样的基因、控制序列和非编码序列。
真核生物基因组中存在的基因分布是非常分散的,而且基因的编码信息也相当复杂,所以被称为复杂的基因组。
2、高度信息密度
真核生物基因组的高度信息密度可以满足细胞机能的复杂性和
多样性。
真核生物基因组中的基因可作为特定机能的关键,其在基因组中的位置也很重要,因为基因的表达在基因组的某个特定位置受到其他一些基因的控制。
3、高基因重复率
真核生物基因组中存在一定水平的基因重复,这些重复序列的存在大大提高了基因组的复杂性和密度。
这些基因重复也可以用来检测基因定位因子及其功能。
4、特定的基因组结构
真核生物基因组的结构一般按照特定的模式进行组织,以适应生物体的特定需求。
这种结构使基因组中的基因能够更有效地执行其功能,这样就可以保证生物体的正常运行。
5、动态平衡
真核生物基因组具有非常复杂的结构,但它们之间仍然具有一定
程度的动态平衡。
这种动态平衡使得基因组能够不断地随着环境和活动变化进行改变和调节,从而保证生物体的正常运行和进化。
真核生物基因组

② 无组织特异性。
只有鸟类、鱼类及两栖类红细胞染色体不 含 H1而带有H5。
③ 富含赖氨酸的组蛋白H5。
❖ 赖氨酸(24%) ❖ 与H1无同源性; ❖ 推测H5与染色体失活有关,其磷酸化在 失
活中可能起重要作用。
④ 肽链上氨基酸分布的不对称性
---碱性氨基酸集中分布在N端的半条链上, 易与DNA的负电荷区结合. ---大部分疏水基团都分布在C端。与其他组 蛋白、非组蛋白结合。
2、染色质(体)的结构
电镜下看到的染色质结构
“Beads on a string” structure:念珠模型,染色质的基本结构由一系列核小体相互连接而成的念珠状
From DNA to Chromosome
意义:
将近200 cm长的DNA 分子容纳于直径只有 5微的细胞核中。
影响解链,影响与蛋 白质的相互作用,调 控基因表达。
(一)高度重复序列(重复次数>106)
只存在于真核生物中,占基因组的10%-60%,由6100个碱基组成,在DNA链上串联重复高达数百万次 。
高度重复顺序又按其结构特点分为三种
(1)倒位(反向)重复序列 约占人基因组的5%。反向重复 序列由两个相同顺序的互补拷贝 在同一DNA链上反向排列而成。
常见于基因的调控区和特异蛋白结合区
Histone gene family 干扰素
Yeast 中多数基因
三 重复序列
Repetitive sequences (一)高度重复序列(重复次数:>1O6)
(二)中度重复序列(重复次数:1O2-1O5)
(三)单拷贝序列(Unique Sequence)
包括大多数编码蛋白质的结构基因和基因间隔 序列。
真核生物细胞核基因组的特点

真核生物细胞核基因组的特点
真核生物细胞核基因组与原核生物基因组相比,具有以下主要特点:
1.基因组大小更大
真核生物细胞核基因组的大小通常在几百万到几十亿碱基对之间,大大超过原核生物。
这是由于真核基因组包含大量的非编码DNA序列。
2.线性分子结构
真核生物的DNA分子以线性形式存在于细胞核内,而不是环状结构。
3.含有间隔子
真核基因的编码序列常常被非编码的内含子序列所间隔,需要剪切才能形成成熟mRNA。
而原核基因一般不含内含子。
4.基因组分为多条染色体
真核基因组通常由多条线性染色体DNA分子组成,每条染色体携带成百上千个基因。
5.含有大量重复序列
真核基因组中存在大量的高度重复和中度重复的非编码DNA序列。
6.基因表达受精细调控
真核生物基因的转录和翻译过程受多种调控机制的复杂调节,如染色质重塑、转录因子等。
7.存在序列可移动性
真核基因组中存在转座子和反转录病毒等可移动的DNA序列元件。
8.基因组进化较缓慢
由于真核生物有性生殖,其基因组进化速率较原核生物慢。
总的来说,真核生物细胞核基因组不仅规模大、结构复杂,而且基因表达和进化模式也与原核生物有所不同,反映了真核生物更高级的遗传调控水平。
真核生物基因组的特点 -回复

真核生物基因组的特点 -回复
真核生物基因组的特点有以下几个方面:
1. 基因组大小:真核生物的基因组通常比原核生物和病毒的基因组要大。
真核生物基因组的大小范围广泛,从几万个碱基对到几十亿个碱基对不等。
2. 基因密度:相比于原核生物,真核生物的基因密度较低。
真核生物的基因通常具有较多的非编码区域和间隔序列。
3. 基因副本数:真核生物的基因组中存在许多基因家族,即多个亲缘关系密切的基因。
这些基因可能会经历基因重复、基因家族扩张等过程。
4. 内含子:真核生物基因组的基因通常具有内含子,即非编码序列片段,它们在基因转录后会被剪切掉。
5. 组蛋白修饰:真核生物基因组的DNA通常被染色质蛋白修饰,以调控基因的表达。
这些修饰包括DNA甲基化、组蛋白乙酰化、甲基化等。
6. 染色体结构:真核生物的基因组通常以染色体的形式存在,染色体是DNA与蛋白质组成的复杂结构,能够保护和组织基因。
总的来说,真核生物基因组相比于原核生物基因组更为复杂。
这些特点反映了真核生物对更高级的基因调控和功能的需求。
真核生物的基因组拼装和注释

真核生物的基因组拼装和注释真核生物是指所有具有真核细胞的生物,包括动物、植物、真菌、原生生物等。
它们的基因组大小和复杂度各不相同,但都是由DNA序列构成的。
对于研究者来说,我们需要对这些基因组进行拼装和注释,以便更好地理解基因功能和调控机制。
一、基因组拼装基因组拼装是指将碎片化的DNA序列或者长读长(long-read)序列拼接成完整的基因组序列。
其中长读长技术可以产生较长的读长,从而减少拼装时出现的错配率。
基因组拼装主要分为以下几个步骤:1. reads质量控制:首先需要对原始reads进行质量控制,去除低质量的reads和含有过量N或者不符合长度要求的reads。
2. 拼装算法选择:选择合适的拼装算法,如Overlap-layout-consensus(OLC)或De Bruijn graph(DBG)算法,并根据不同的基因组大小和复杂度调整相关参数。
3. 拼装结果评估:对拼装结果进行评估,如N50、L50等指标,可以衡量基因组的连续度和完整性。
4. 错误修正:在得到初步拼装结果后,需要进行错误修正,如利用pair-end reads、matex等辅助拼装程序进行错误校正,进一步提高基因组拼装的精度。
5. 基因组质量评估:进行基因组质量评估,如BUSCO检测,评估基因组的完整度和比对率等指标。
二、基因组注释基因组注释是指对基因组序列进行基因和基因功能的标注,主要是指在基因组上标识出编码的蛋白质基因、RNA基因、转录因子结合位点等功能元件。
基因组注释的主要目的是揭示基因组的结构和功能,为基因功能研究提供较好的基础信息。
基因组注释主要包括以下几个方面:1. 基因预测:从基因组序列中预测出基因,其中包括开放阅读框(ORF)预测、跨物种比对等多种方法。
对于复杂的基因,还需要进行手工修正和验证。
2. 基因命名和分类:根据基因结构和功能特点,对预测的基因进行命名和分类,如酶类、结构蛋白等类别。
同时,需要对同源基因进行比较和分类,以便更好地了解基因家族的进化和功能演化。
真核生物基因组结构

真核生物DNA 复性曲线的模 式图
复性反应分为 三P相74,图每-相16代 表不同复杂长 度的序列类型
大部分结构基因 位于非重复的 DNA序列内
第二节 断裂基因(split gene)
不连续基因(interrupted gene)
编码某一RNA的基因中有些序列并不出现在成熟 的RNA序列中,成熟RNA的序列在基因中被其他的 序列隔开。
因家族, 一般往往以基因家族的形式存在。
Alu family(Alu 家族):
•长约300bp的片段,大多数片段含有一个限制性内切 酶AluⅠ的酶切位点(AGCT); • 均匀分散在整个基因组中的非重复序列间; • 在人类基在103mol.s/L以上,复性速度极慢, 在一个基因组中只有一个拷贝或2~3个拷贝,也 称非重复序列(单一序列、单拷贝序列)。 结构基因 (蛋白质基因)大多是单拷贝序列。
人类珠蛋白基因家族---典型的基因家族
珠蛋白 血红蛋白
血红素
α2β2 不同的亚基由各自的基因编 码
血红蛋白( Hb )
发育过程中的珠蛋白的亚基组成
类α链
α2γ2
2% 97% 1%
类β链
两种亚基的编码基因分别形成两个不同的基因簇, 并存在于不同的染色体上。
每个基因簇中的基因按其在发育过程中的表达次序从 5’→3’排列在编码链上(其中包括有功能的基因和假基 因)
1)零时复性序列:
具有反向重复结构(也称回文结构),可在 同一条链内形成双链区,变性后再复性时,在链 间复性之前就已发生链内复性,因此不遵循二级 反应动力学方程。由于这种序列的复性速度非常 快,在动力学上称为零时(或瞬时)复性序列。
DNA复性后可出现发卡形结构。这种序列常 常是DNA复制酶、转录酶以及特异蛋白质的结合 部位。
简述真核生物基因组的结构特点

简述真核生物基因组的结构特点
真核生物基因组的结构特点总结归纳如下:
1真核基因组庞大,一般都远大于原核生物的基因组。
2真核基因组存在大量的重复序列。
3真核基因组的大部分为非编码序列,占整个基因组序列的90%以上,该特点是真核生物与细菌和病毒之间最主要的区别。
4真核基因组的转录产物为单顺反子。
5真核基因是断裂基因,有内含子结构。
6真核基因组存在大量的顺式作用元件,包括启动子、增强子、沉默子等。
7真核基因组中存在大量的DNA多态性。
DNA多态性是指DNA序列中发生变异而导致的个体间核苷酸序列的差异,主要包括单核苷酸多态性和串联重复序列多态性。
8真核基因组具有端粒结构。
第十三章真核基因与基因组

➢真核生物有3类启动子,分别对应于细胞内存在得
三种不同得RNA聚合酶和相关蛋白质。274页
上游启动子元件
核糖体起始因子
富含GC碱基对
具有I类启动子得基因主要编码rRNA得 基因
➢真核生物有3类启动子,分别对应于细胞内存
在得三种不同得RNA聚合酶和相关蛋白质。
起始元件
下游启动子元件
具有II类启动子得基因主要就是编码蛋白 质(mRNA)得基因和一些小RNA基因。
沉默子(silencer)就是抑制基因转录得特定 DNA序列,当其结合一些反式作用因子时对基 因得转录起阻遏作用,使基因沉默。
第二节
真核基因组得结构与功能
The Structure and Function of Eukaryote Genome
基因组:细胞或生物体得一套完整单倍 体遗传物质得总和。275页
基因得调控区(顺式作用元件)273页
位于基因转录区前后,对基因表达起调控作用得 区域,因其就是紧邻得DNA序列,又称旁侧序列。
顺式作用元件
上游启动子元件 启动子
+1
结构基因
修饰点 剪接加尾
AATAAA
翻译起始点
外显子
增强子 OCT-1
转录起始点
内
含
TATA盒
子
CAAT盒
转录终止点
GC盒
OCT-1:ATTTGCAT八聚体
Hinf家族
以319bp长度得串联重复存在于人基因组中 重复序列中含有限制性内切酶Hinf I得位点。
第一节
真核基因得结构与功能
The Structure and Function of Eukaryote Gene
基因得功能 272页
基因组的特点

基因组的特点真核生物基因组的特点:1.基因组较大。
真核生物的基因组由多条线形的染色体构成,每条染色体有一个线形的DNA分子,每个DNA分子有多个复制起点;2.不存在操纵子结构。
真核生物的同一个基因簇的基因,不会像原核生物的操纵子结构那样,转录到同一个mRNA上;3.存在大量的重复序列。
真核生物的基因组里存在大量重复序列,通过其重复程度可将其分成高度重复序列、中度重复序列、低度重复序列和单一序列;4.有断裂基因。
大多数真核生物为蛋白质编码的基因都含有“居间序列”,即不为多肽编码,其转录产物在mRNA前体的加工过程中被切除的成分;5.真核生物基因转录产物为单顺反子;6.功能相关基因构成各种基因家族。
原核生物基因组的特点:1.基因组较小,通常只有一个环形或线形的DNA分子;2.通常只有一个DNA复制起点;3.非编码区主要是调控序列;4.存在可移动的DNA序列;5.基因密度非常高,基因组中编码区大于非编码区;6.结构基因没有内含子,多为单拷贝,结构基因无重叠现象;7.重复序列很少,重复片段为转座子;8.有编码同工酶的等基因;9.基因组的大部分序列是用来编码蛋白质的,基因之间的间隔序列很短;10.功能相关的序列常串连在一起,由共同的调控元件调控,并转录成同一mRNA分子,可指导多种蛋白质的合成,这种结构称操纵子。
病毒基因组的特点:1.不同病毒基因组大小相差较大;2.不同病毒基因组可以是不同结构的核酸;3.除逆转录病毒外,通常为单倍体基因组;4.有的病毒基因组是连续的,有的病毒基因组分节段;5.有的基因有内含子;6.病毒基因组大部分为编码序列;7.基因重叠,即同一段DNA片段能够编码两种或两种以上的蛋白质分子,这种现象在其他生物细胞中仅见于线粒体和质粒DNA。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第二讲真核生物基因组真核生物的基因组比较庞大,并且不同生物种间差异很大,例如人的单倍体基因组由3.16×109 bp组成。
在人细胞的整个基因组中实际上只有很少一部份(约占2%~3%)的DNA序列用以编码蛋白质。
第一节真核生物基因组特点真核生物体细胞内的基因组分细胞核基因组与细胞质基因组,细胞核基因组是双份的(二倍体,diploid),即有两份同源的基因组;细胞质基因组可有许多拷贝。
真核细胞基因转录产物为单顺反子,一个结构基因经过转录和翻译生成一个mRNA分子和一条多肽链。
细胞核基因组存在重复序列,重复次数可达百万次以上,大多为非编码序列;因此,基因组中不编码的区域多于编码区域。
大部分基因含有内含子,因此,基因是不连续的。
真核生物基因组远远大于原核生物的基因组,具有许多复制起点,但每个复制子的长度较小。
一、细胞核基因组与细胞质基因组(一)细胞核基因组细胞核基因组的DNA与蛋白质结合形成染色体(chromosome)。
除配子细胞外,体细胞有两个同源染色体,因此基因组有两份同源的基因组。
染色体储存于细胞核内,是基因组遗传信息的载体。
(二)线粒体基因组线粒体基因组DNA(mitochondrial DNA,mtDNA)为双链环状超螺旋分子,类似于质粒DNA,分子量小,大多在1~200×106之间,如人类mtDNA仅由16569bp组成。
mtDNA的复制属于半保留复制,可以是θ型复制,或滚环复制,或D环复制,由线粒体DNA聚合酶催化完成。
线粒体基因组主要编码与生物氧化有关的一些蛋白质和酶,如:呼吸链中的细胞色素氧化酶有七个亚基,其中三个亚基由mtDNA编码,其余四个亚基由细胞核DNA编码;细胞色素还原酶有七个亚基,基中的一个亚基由mtDNA编码;ATP酶含有十个亚基,其中四个亚基由mtDNA编码。
线粒体基因组可能还包括一些抗药性基因。
此外,线粒体基因组有自己的rRNA,tRNA,核糖体等系统,因此线粒体本身的一些蛋白质基因也可以在线粒体内独立地进行表达。
近几年的研究发现,哺乳动物mtDNA的遗传密码与通用的遗传密码有以下区别:①UGA不是终止密码,而是编码色氨酸的密码;②多肽内部的甲硫氨酸由AUG和AUA 两个密码子编码,而起始甲硫氨酸由AUG、AUA、AUU和AUC四个密码子编码;③AGA、AGG不是精氨酸的密码子,而是终止密码子,因此,在线粒体密码翻译系统中有4个终止密码子(UAA、UAG、AGA、AGG)。
二、单顺反子结构真核细胞结构基因为单顺反子(monocistron),一个结构基因经过转录生成一个单顺反子mRNA分子,翻译成一条多肽链,真核生物基本上没有操纵子结构。
三、断裂基因真核细胞基因组的大部分序列属于非编码区,不编码具有生物活性的蛋白质或多肽。
编码区通常为结构基因,结构基因不仅在两侧有非编码区,而且在基因内部也有许多不编码蛋白质的间隔序列(intervening sequences),因此,真核细胞的基因大多由不连续的几个编码序列所组成,称之为断裂基因(split gene)。
(一)内含子与外显子内含子(intron)是结构基因中的非编码序列,往往与编码序列呈间隔排列。
当基因转录后,在mRNA的成熟过程中被剪切(splicing)。
外显子(exon)是结构基因中的编码序列,当基因转录后,mRNA在成熟过程中切去内含子,外显子才被拼接成完整的序列,成为成熟的mRNA作为指导蛋白质合成的模板。
(二)间隔区DNA真核生物基因之间存在编码空白区或转录的空白区,称之为间隔区DNA(spacer DNA),这些序列往往在单拷贝的结构基因之侧翼,并使结构基因彼此分开,间隔区DNA也可以存在于rDNA区。
间隔区DNA大小与基因组的大小有关,一般来说,基因组愈大,间隔区DNA所占的比例也愈高。
四、重复序列(一)高度重复序列真核生物基因组中普遍存在着重复序列,其中重复频率高,可达百万(106)以上的重复序列,称之为高度重复序列。
在人类基因组中约占20%。
由于高度重复序列中碱基组成的复杂度很低,因此其复性速率很快。
高度重复序列又按其结构特点分为三种:1.反向(倒位)重复序列这种重复序列复性速度极快,即使在极稀的DNA浓度下,也能很快复性,因此又称零时复性部分,人基因组中约占5%。
倒位重复序列由两个相同顺序的互补拷贝在同一DNA链上反向排列而成。
变性后再复性时,同一条链内的互补的拷贝可以形成链内碱基配对而形成发夹式或“+”字形结构。
倒位重复(即两个互补拷贝)之间可有若干个核苷酸的间隔,也可以没有间隔。
没有间隔的又称之为回文(palindrome)结构,回文结构约占所有倒位重复的三分之一。
2.卫星DNA(satellite DNA)重复序列的重复单位一般由2~10bp组成,且成串排列。
由于这类序列的碱基组成不同于其他部份,可用等密度梯度离心法将其与主体DNA分开,因而称为卫星DNA或随体DNA。
在人类基因组中卫星DNA约占5~6%。
3. 高度重复顺序的功能主要有:①参与复制水平的调节。
反向序列常存在于DNA 复制起点区的附近;另外,许多反向重复序列是一些蛋白质(包括酶)和DNA的结合位点。
②参与基因表达的调控。
③参与转位作用。
几乎所有转位因子的末端都包含反向重复序列,长度由几个bp到1400bp。
④与进化有关。
不同种属的高度重复序列的核苷酸序列不同,具有种属特异性,但相近种属又有相似性。
⑤与个体特征有关。
同一种属中不同个体的高度重复序列的重复次数不一样,这可以作为每个个体的特征,即DNA 指纹。
⑥与染色体减数分裂时染色体配对有关。
(二)中度重复序列中度重复序列是指在真核基因组中重复数十至数万次(<105)的重复序列。
其复性速度快于单拷贝顺序,但慢于高度重复序列。
少数在基因组中成串排列在一个区域,大多数与单拷贝基因间隔排列。
依据重复序列的长度,中度重复序列可分为两种类型。
1.短分散片段(short interspersed repeated segments,SINES)重复序列的平均长度为300bp(一般<500bp),与平均长度为1000bp左右的单拷贝序列间隔排列,拷贝数可达10万左右。
如Alu家族、Hinf家族等属于这种类型的中度重复序列。
Alu家族是哺乳动物基因组中含量最丰富的一种中度重复顺序家族,约占人类基因组的3%~6%。
Alu家族每个成员的长度约300bp,每个单位长度中有一个限制性内切酶Alu的切点(AG↓CT),Alu可将其切成两段,130bp和170bp,因而定名为Alu 序列(或Alu家族)。
Alu序列分散在基因组中,在间隔区DNA,内含子中都发现有Alu序列。
Alu序列具有种特异性,以人的Alu序列制备的探针只能用于检测人的基因组中的Alu序列,由于在大多数的含有人的DNA的克隆中都含有Alu序列,因此,可用以人的Alu序列制备的探针与克隆杂交来进行筛选。
2.长分散片段(long interspersed repeated segments,LINES)重复序列的长度大于1000bp,平均长度为3500~5000bp,如KpnⅠ家族等。
中度重复序列在基因组中所占比例在不同种属之间差异很大,在人类基因组中约为12%。
中度重复序列大多不编码蛋白质。
其功能可能类似于高度重复序列。
有些中度重复序列则是编码蛋白质或rRNA的结构基因,如HLA基因、rRNA基因、tRNA基因、组蛋白基因、免疫球蛋白基因等。
中度重复序列可存在于结构基因之间、基因簇之中,甚至存在于内含子内部等。
中度重复序列一般具有种属特异性,因此在适当的情况下,可以应用它们作为探针以区分不同种属哺乳动物细胞来源的DNA。
KpnⅠ家族 是中度重复顺序中仅次于Alu家族的第二大家族,用限制性核酸内切酶KpnⅠ消化人类及其它灵长类动物的DNA,在电泳图谱上可以看到4个不同长度的片段,分别为1.2、1.5、1.8和1.9kb,在人类基因组中,KpnⅠ家族的拷贝数约为3000~4800个,约占基因组的1%。
(2)组蛋白基因在各种生物体内重复的次数不一样,组蛋白基因没有一定的排列方式,组蛋白基因不含内含子,组蛋白基因序列都很相似,从而编码的组蛋白在结构上和功能上也极为相似,具有高的保守性。
(三)低度重复序列(单拷贝序列)低度重复序列在单倍体基因组中只出现一次或数次,因而复性速度很慢。
人基因组中,大约有60%~65%的序列属于这一类。
低度重复序列中储存了巨大的遗传信息,编码各种不同功能的蛋白质。
目前尚不清楚单拷贝基因的确切数字,在低度重复序列中只有一小部份用来编码各种蛋白质,其他部份的功能尚不清楚。
五、多基因家族与假基因(一)多基因家族多基因家族(multigene family)是指由某一祖先基因经过重复和变异所产生的一组基因。
多基因家族可分为两类:①基因家族成簇地分布在某一条染色体上,其可同时发挥作用,合成某些蛋白质(如:组蛋白基因家族就成簇地集中在第7 q 32 6);②一个基因家族的不同成员成簇地分布在不同的染色体上,这些不同成员编码一组功能上紧密相关的蛋白质(如珠蛋白基因家族)。
(二)假基因在多基因家族中,某些成员并不产生有功能的基因产物,这些基因称为假基因(pseudo gene)。
假基因与有功能的基因是同源的,原来可能也是有功能的基因,但由于缺失,倒位或点突变等,使这一基因失去活性,成为无功能的基因。
人们推测假基因的来源之一,可能是基因经过转录后生成的hnRNA通过剪接失去内含子形成mRNA,mRNA经逆转录产生cDNA,再整合到染色体DNA 中去,便有可能成为假基因,因此该假基因就没有内含子,在这个过程中,可能同时会发生缺失,倒位或点突变等变化,从而使假基因失去表达活性。
六、多态性基因组中某个基因在同种生物的不同个体中,同时和经常存在的两种或两种以上的变异型或基因型的现象,称为基因多态性(gene polymorphism)。
真核生物基因组中基因多态性常常出现在限制性核酸内切酶的酶切位点序列中,因此,用某个限制性核酸内切酶来酶解基因组的某段序列时,在同种的不同个体之间该段序列可能被酶解成长短不等的几个DNA片段,即这段序列在该种生物的群体中形成多态性,这种多态性称为限制性核酸内切酶片段长度多态性(restriction fragment length polymorphism,RFLP)。
RFLP分为两种类型:一类是由于限制性内切酶位点上发生了单个碱基突变而使这一限制性位点发生丢失或获得而产生的多态性,故称之为点多态性(point polymorphism)。
这类多态性实际上是双态的,即有(+)或无(-)。
另一类是由于DNA 分子内部发生较大的顺序变化所致。