第一章++基因结构和基因组1
第一篇 分子生物学基本原理(共57张PPT)
第二节 真核生物基因组
一、真核生物染色质DNA的高级结构 • DNA高级结构中的蛋白质
组蛋白与非组蛋白
• DNA与蛋白质的结 合与染色体的组装
二、真核生物核基因组结构和功能特点
• 基因组大,编码蛋白质多,一般编码蛋白都 超过1万个以上。在DNA复制时,有多个复制 起始点。 • 真核生物的结构基因都是单顺反子。 • 真核生物的基因组中含有大量的重复序列 (45%)。 • 真核生物的基因组中存在大量的非编码区。
⒑含有多种功能的识别区域,如复制起始区、复制终止区、 转录起动区和终止区等。
大肠杆菌染色体基因组的结构和功能
大肠杆菌染色体基因组是研究最清楚的基因组。估计
大肠杆菌基因组含有3500个基因,已被定位的有900个左
右。在这900个基因中,有260个基因已查明具有操纵子结
构,定位于75个操纵子中。在已知的基因中8%的序列具
• 真核基因为断裂基因,在它的结构基 因中含有外显子和内含子。
• 真核生物的基因组中存在着各种基因 家族。
• 真核生物基因组中也存在移动基因。
•基因组中结构基因所占区域远小于非 编码区。
三、真核生物基因组的结构
㈠结构基因
• 断裂基因(split gene):真核生物的结构基 因是不连续的编码氨基酸的序列被非编码 序列所打断,因此被称为断裂基因。
是指一组由多基因家族及单基因组成的更大基因 家族。其代表为免疫球蛋白基因超家族
㈣重复序列(repeat sequence):
在真核生物基因组存在着的大量的碱基序列重复出 现的情况。
重复序列中,除了编码RNA、RNA和组蛋白的结构基 因外,大部分是非编码序列。但对它们的功能还不十分清楚。
分子生物学-基因与基因组
杂交的双方是待定位的核酸和已知核酸序列,已知核酸序列称探针。
(1) 克隆基因定位法
用已克隆基因的cDNA探针与保留在杂种细胞内的人染色体DNA序列进行分子杂交,来确定克隆基因所在的染色体位置的方法。
核酸分子杂交技术
克隆基因定位法
HindⅢ酶切人基因组DNA
人白蛋白cDNA探针
人细胞
人-CHO杂种细胞
(二)基因作图的方法:
1、遗传图谱:
#2022
2、物理图谱:
作图的基本方法:
以特异DNA序列为界标所展示的染色体图,它能反映生物基因组中基因或标记间的实际距离,图上界标之间的距离是以物理长度即核苷酸对数如bp、kb、Mb等来表示的。这些特定的DNA序列可以是多态的,如RFLPs,但主要是非多态的如STS、STR、EST和特定的基因序列等。 自上而下作图(top-down mapping) 自下而上作图(bottom-up mapping)
单倍体基因组和单拷贝基因 除了retro-v外,所有的病毒基因组都是单倍体,每个基因在某个病毒颗粒中只出现一次,即只有1套基因。
节段性基因 如flu-v由6-7个片段构成,各段在天然状态下不连接,而且可以转录成6-7个片段相应的 mRNA。单独的片段没有感染性,感染要一起感染才发挥作用。
基因常常成簇排列,没有间隔序列或间隔序列很小。功能相关蛋白质基因在基因组的1个或几个特定部位,丛集成簇被转录成多顺反子,然后加工成各种蛋白质的mRNA模板。如腺病毒晚期基因。 不规则的结构基因 几个结构基因的编码区无间隔,编码区是连续的,翻译后切割成几个蛋白质.例如脊髓灰质炎病毒基因组. 有的mRNA(=gene)没有5′帽子,但有翻译增强子。如脊髓灰质炎病毒RNA 5′端没有帽子结构,但5′端有741个碱基可形成特殊的空间结构,称翻译增强子,核糖体通过结合翻译增强子而开始翻译。
02医学遗传学:第一章 人类基因和基因组
表观遗传学(epigenetics) • 表观遗传:基因的核苷酸序列不发生突
变,由基因的修饰导致基因的活性改变, 使基因决定的表型出现变化,且可传递 少数世代的遗传现象。
• 原因:DNA甲基化、组蛋白的乙酰化
第二节 基因的化学本质
基因的化学本质:
大部分生物:DNA(脱氧核酸) 少数病毒:RNA(核糖核酸)
侧翼序列
侧翼序列
侧翼序列(flanking sequence) 作用:调控序列、保持基因完整性必需。
侧翼序列
侧翼序列
二、基因组的组成
(一)单拷贝序列
定义:又称非重复序列;在基因组中仅有 单一拷贝或少数拷贝。
长度:800bp~1000bp之间
编码:各种蛋白质和酶——结构基因 在基因组中的比例:45%
第三节 人类基因和基因组的 结构特点
基因组(genome):一个物种的单倍体染 色体数目及所有包含的全部遗传物质 人类基因组:人体的所有遗传信息的总和; 人类基因组=核基因组(nuclear genome)
+
线粒体基因组(mitochondrial genome)
注:如无特别注明,人类基因组通常指核基因组
例如:烟草花叶病毒(TMV)
一、DNA分子组成
• 基本单位:脱氧核苷酸
腺嘌呤(A) P
5’
O 4’
碱基
1’ 2’
鸟嘌呤(G)
胞嘧啶(C)
胸腺嘧啶(T)
脱氧核糖
3’
图:脱氧核苷酸
• 单链连接方式:3’, 5’-磷酸二酯键
P
4’ 5’
O
1’
T
5’
3’
3’
2’
3’, 5’-磷酸二酯键
基因与基因组知识点资料整理总结
第一章基因与基因组1.基因的概念:基因是指合成有功能的蛋白质多肽链或RNA所必需的全部核酸序列(通常指DNA)。
2.基因的结构:①真核生物的结构基因不是连续编码的,而是由编码序列和非编码序列两部分构成,二者相互间隔排列,因此这种基因又称作割裂基因(split gene).②人类编码基因主要由外显子、内含子和侧翼序列组成.③能转录、并存在于成熟RNA中的序列称为外显子(exon)④能转录、但不存在于成熟RNA中的序列称为内含子(intron)(注:GT-AG法则:每个内含子的5’端开始的两个核苷酸都是GT,3’端末尾的两个核苷酸都是AG。
)⑤不同数目的外显子和内含子组成的各个基因大小各不相同;无内含子的基因一般较小,有较大内含子的基因一般较大。
⑥每个结构基因的第一个外显子和最后一个外显子外侧,即基因的5′端和3′端都有一段不被转录的DNA序列,对基因的转录表达及表达水平具有重要的调控作用。
包括:启动子、增强子和终止子,属顺式调控因子,称为调控序列。
(启动子 (Promoter),通常位于基因转录起点上游的100bp范围内,是RNA聚合酶的结合部位,促进转录过程,包括TATA框、Hogness框(TATA box, Hogness box)、CAAT框(CAAT box)和GC框(GC box)。
终止子 (Terminator),一段回文序列以及特定的序列,例如:5’-AATAAA-3’是RNA停止工作的信号。
增强子(Enhancer),启动子上游或下游的一段DNA序列,无明显方向性,但具有组织特异性,可增强启动子转录的效率)3.基因家族、基因簇和假基因①基因家族 (gene family):基因组中来源相同、结构相似、功能相关且常成簇存在的一组基因。
②基因簇:家族成员成簇排列在同一条染色体上,形成一个基因簇;不同成员成簇地分布在几条不同的染色体上,形成几个基因簇。
基因簇成员可能同时表达,也可能在不同发育阶段或不同部位表达。
分子生物学笔记
第一章基因的结构第一节基因和基因组一、基因(gene)是合成一种功能蛋白或RNA分子所必须的全部DNA序列.一个典型的真核基因包括①编码序列—外显子(exon)②插入外显子之间的非编码序列—内合子(intron)③5'-端和3'-端非翻译区(UTR)④调控序列(可位于上述三种序列中)绝大多数真核基因是断裂基因(split-gene),外显子不连续。
二、基因组(genome)一特定生物体的整套(单倍体)遗传物质的总和,基因组的大小用全部DNA的碱基对总数表示。
人基因组3X1 09(30亿bp),共编码约10万个基因。
每种真核生物的单倍体基因组中的全部DNA量称为C值,与进化的复杂性并不一致(C-value Paradox)。
人类基因组计划(human genome project, HGP)基因组学(genomics),结构基因组学(structural genomics)和功能基因组学(functional genomics)。
蛋白质组(proteome)和蛋白质组学(proteomics)第二节真核生物基因组一、真核生物基因组的特点:,①真核基因组DNA在细胞核内处于以核小体为基本单位的染色体结构中.②真核基因组中,编码序列只占整个基因组的很小部分(2—3%),二、真核基因组中DNA序列的分类?(一)高度重复序列(重复次数>lO5)卫星DNA(Satellite DNA)(二)中度重复序列1.中度重复序列的特点①重复单位序列相似,但不完全一样,②散在分布于基因组中.③序列的长度和拷贝数非常不均一,④中度重复序列一般具有种属特异性,可作为DNA标记.⑤中度重复序列可能是转座元件(返座子),2.中度重复序列的分类①长散在重复序列(long interspersed repeated segments.) LINES②短散在重复序列(Short interspersed repeated segments) SINES SINES:长度<500bp,拷贝数>105.如人Alu序列LINEs:长度>1000bp(可达7Kb),拷贝数104-105,如人LINEl(三)单拷贝序列(Unique Sequence)包括大多数编码蛋白质的结构基因和基因间间隔序列,三、基因家族(gene family)一组功能相似且核苷酸序列具有同源性的基因.可能由某一共同祖先基因(ancestral gene)经重复(duplication)和突变产生。
基因的结构和组合
基因的结构和组合基因是一种物质,它负责确定一个生物的遗传特征和生物体的生长和发育方式。
基因的结构和组合是生物遗传学的核心内容之一,对于理解遗传现象和进化发展具有重要意义。
在分子层面上,基因是由DNA(去氧核糖核酸)分子组成的。
DNA是由碱基对、糖和磷酸组成的双螺旋结构,其中碱基对包括腺嘌呤(A)、胸腺嘧啶(T)、鸟嘌呤(G)和胞嘧啶(C)四种碱基。
这些碱基按照一定的规则配对,并通过糖和磷酸以特定的顺序组合成链。
整个DNA分子的双螺旋结构使得它在遗传过程中能够自我复制和传递遗传信息。
在功能层面上,基因指的是有特定功能的DNA片段。
一个基因通常包括含有编码蛋白质的编码区域和参与调控基因表达的调控区域。
编码区域的序列确定了蛋白质的氨基酸序列,从而决定了蛋白质的形态和功能。
调控区域则通过结合特定的转录因子来调控基因的表达水平和时机。
基因还可以包括非编码RNA(如rRNA、tRNA、miRNA等),这些RNA分子在细胞代谢和基因调控过程中发挥重要的功能。
基因的组合是指多个基因在染色体上的排列和组织方式。
人类和其他高等生物的基因组是由两套染色体组成的核染色体组,其中一套来自母亲,一套来自父亲。
基因组的组合方式对于生物的遗传特征和物种的多样性具有重要影响。
不同基因的组合方式可以导致个体在形态、生理、行为等方面的差异。
此外,基因组的细微变异(如突变和重组)也是进化的重要驱动力之一,它们可以导致新基因的产生以及功能的改变。
基因的结构和组合是遗传学研究的基础。
通过对基因结构和组合的研究,科学家能够深入理解基因功能和表达调控的机制,揭示遗传疾病的发生机制,并为人类健康和疾病治疗提供理论基础。
此外,通过研究不同物种、群体和个体基因组的差异,科学家还能够更好地理解生物进化和物种多样性的起源和发展过程。
总之,基因的结构和组合是生物遗传学中的重要研究内容。
深入了解基因的结构和组合对于理解遗传现象、揭示生命的奥秘以及促进生物科学的发展都具有重要意义。
基因的结构和组合
基因的结构和组合基因是生物体内的一个遗传单位,带有传递和表达生物性状的遗传信息。
基因的结构和组合是指基因本身的组成和基因在基因组中的排列方式。
一、基因的结构基因是由DNA分子组成的,具有特定的结构。
一个典型的基因由以下几个部分组成:1.启动子:启动子位于基因的起始端,是一个调控基因表达的序列,可以结合到转录因子上,启动转录过程。
2.编码区:编码区也被称为外显子,是基因中直接编码蛋白质的区域,其中包含了氨基酸序列的信息。
3.内含子:内含子也被称为非编码区,是编码区之间的区域,不直接参与蛋白质的合成,但在基因调控中起到重要作用。
4.终止子:终止子位于基因的末端,是一个信号序列,用于指示转录过程的终止。
二、基因的组合1.单一基因:最简单的基因组合是一个单一基因。
单一基因可以编码一个蛋白质、翻译为一个功能性RNA分子,或者只具有调控功能。
2.多个基因:大多数生物体都有多个基因,它们以不同的方式组合在一起。
在原核生物中,基因通常以操作子的方式进行组合,形成一个连续的转录单元。
在真核生物中,基因通过间隔区域分开,每一个基因独立转录和翻译。
3.基因组:基因组是一个生物体内所有基因的集合。
大多数生物都具有线性染色体结构的基因组,其中基因以一定的顺序排列。
线性染色体可以进一步分为多个区段,每个区段包含一个或多个基因,也包含非编码区。
除了线性染色体外,一些生物还具有环状染色体或质粒的基因组结构。
基因组有不同的大小,从几个基因组成的细菌基因组到几万个基因组成的人类基因组。
基因组中的基因排列方式对基因的表达和调控起着重要作用。
在染色体上,基因的排列可以是连续的,也可以有间隔,这可能会影响到转录因子在基因间的结合和调控。
在生物进化的过程中,基因的结构和组合可以发生变化。
基因可以通过基因重排、基因复制和基因突变来改变其结构和组合,进而产生新的功能。
这种变化对于生物适应环境和进化起着重要的作用。
总结起来,基因的结构和组合决定了基因的功能和调控方式。
4-第1章 基因组-基因组结构特征
特殊结构基因
1) 重叠基因 2) 基因套基因 (gene in gene) 3) 反义基因 4) 分裂基因 (由两段非连续DNA组成的基
因)
φX174基因组中的重叠基因
病毒基因组 的大小受到 外壳蛋白包 装体积的限 制,长度有 限,不能编 码足够数量 的基因。为 了维持生存, 存在不少重 叠基因。
假基因也能转录但功能缺失随着基因组数据的积累现在已知有不少假基因仍然保持转录的活性特别是起源于重复基因的假基因和获得启动子的加工的假基因
第1章 基因组-结构特征
1) C值悖理 2) 基因组DNA的顺序组成 3) 顺序复杂性 4) 基因与基因家族 5) 真核基因组与原核基因组
C值
悖理
生物体的单倍 体基因组所含 DNA总量称为C 值。生物基因 组的大小同生 物在进化上所 处地位的高低 无关,这种现 象称为C值悖 理(C—value paradox)。
经典遗传学: 决定表型的独立的遗传单位,
可在上下代之间传递。 分子遗传学: 由一段可转录的区域和调控区域组成的
DNA序列。 引自“An Introduction to Genetic Analysis”一书,
Suzuki DT等.
经典的基因结构
分子生物学对基因的定义为:由不同的DNA片段共同组成的一个完 整的独立的表达单元,由调控区和转录区组成,有一个特定的表达 产物。表达产物可以是RNA分子,亦可为多肽分子。
原核 与真 核生 物基 因组 结构 比较
谢谢!
假基因可以衍生新的功能
假基因可产生新的功能:
1. 产生反义RNA, 抑制靶基因功能. 2. 在RNA水平与正常基因的mRNA竞争, 起调控
作用, 如软体动物Lymnaea stagnalis 的神经细 胞NO合成酶假基因产物调控NOS酶的合成. 3. 在DNA水平与正常基因竞争转录因子, 起抑制 作用, 如老鼠的Makorin1基因的转录. 4. 作为人类免疫球蛋白多样性的顺序库.
1基因与基因组学
mRNA 前体
5′--------AAUAAA ---------- GU------- 3′
含有II类启特动异子因的子基因,基因末端保
守5′的----A--A--TAAAAUAA顺AA序-及----下---游-- GGUT或----T--富- 含3′ 区,
被mR多N聚A 3腺′端苷加酸约化2特0P0个o异lyA因(A。子)聚识合别酶,在
mRNA 5′--------AAUAAA ------AAAAAAAA 3′
多聚腺苷酸化
25
真核生物基因的结构
调控序列
结构基因
调控序列
Enhancer
promoter
CAAT box TATA box UTRexon
exon
Poly(A) 加尾信号
UTR exon
5′
response
element
20
(1).启动子和上游启动子元件(II类)
➢ TATA盒(TATA Box):
位于-25~-30bp,TATAAAA/TATATAT 与TFII(RNA聚合酶复合物)结合,启动 基因转录。
-30
-25
+1
21
➢ CAAT盒(CAAT Box)
位于-70~-80bp,GG C/ T CAATCT, 与CTF结合,决定启动子转录效率。
随着遗传学的发展,人类对于基因的认识逐步深入,基因 概念也随之发展。基因概念发展经过几个时期。
(1)遗传“因子” 基因的最初概念是来自孟德尔的遗传“因子”,认为生物
性状的遗传是由遗传因子所控制的,性状本身是不能遗传 的,控制性状的遗传因子才是遗传的。 1909年,丹麦学者W.L.Johannsen提出了“基因”(gene) 一词,代替了孟德尔的遗传因子,并由此形成了“颗粒遗 传”学说,认为在杂种中等位基因不融合,各自保持其独 立性,这也是孟德尔遗传规律的核心。
分子生物学--基因与基因组课件
2、物理图ቤተ መጻሕፍቲ ባይዱ:
以特异DNA序列为界标所展示的染色体图,它能反映生物 基因组中基因或标记间的实际距离,图上界标之间的距离是以 物理长度即核苷酸对数如bp、kb、Mb等来表示的。这些特 定的DNA序列可以是多态的,如RFLPs,但主要是非多态的如 STS、STR、EST和特定的基因序列等。
作图的基本方法:
1、家系分析定位
通过分析、统计家系中有关性状的连锁 情况和重组率而进行基因定位的方法。
有用的遗传标记: 取材方便 按孟德尔方式遗传 多态性标记位点
多态性:在一个群体中,某遗传特性存在若干种类型。
家
系性
分连
析
锁 分
定析
位
外祖父法
深绿代表红绿色盲患者,浅绿代表红 绿色盲基因携带者,黄色代表正常
家常
细胞融合技术
体
鼠细胞
人细胞
细
胞
杂
交
定
位
含全套鼠染色体 , 人 1号染色体,肽酶C
3、核酸分子杂交定位
• 应用已知的核酸探针与待定位的DNA序列进行杂交 对基因进行定位的方法 •具有互补序列两条单链核酸分子在一定条件下 按碱基互补配对原则退火形成双链的过程。 • 杂交的双方是待定位的核酸和已知核酸序列,已知 核酸序列称探针。
5’、、、AGCCGACTATGTCGAAGCTT、、、、、、 GCTTGACTATAAGACA、、、3’
3‘、、、TCGGCTGATACAGCTTCTAA、、、、、、 CGAACTGATATTCTGT、、、5‘
转录调控区
贮存RNA或蛋白质结构信息区 转录终止区
原核基因的结构特点
真核基因的结构特点
(二)基因作图的方法:
1、遗传图谱:
医学分子生物学第一章 基因和基因组
gene2 UTR
gene3
3’ UTR 3’
RNA 5’
翻译 N protein
转录
翻译 CN
翻译 CN
3’ C
•在细菌中,同一转录单位包含多个基因,每 一个基因编码一条独立的多肽链。 •多顺反子结构
目录
原核细胞基因与真核细胞基因的比较
相同点 不同点
原核细胞基因 真核细胞基因
都是由能够编码蛋白质的编码区和 具有调控作用的非编码区组成。
RNA聚合酶能够识别调控序列中的结合位点, 并与其结合。 转录开始后,RNA聚合酶沿DNA分子移动,并与 DNA分子的一条链为模板合成RNA。转录完毕后, RNA链释放出来,紧接着RNA聚合酶也从DNA模板 链上脱落下来。
16
目录
原核细胞编码蛋白质基因的典型结构
DNA
5’ UTR 5’
gene1 UTR
➢ 增强子序列距离所调控基因距离近者几十个碱基对,远 的可达几千个碱基对。
➢ 通常数个增强子序列形成一簇。 ➢ 有时增强子序列也可位于内含子之中。 ➢ 不同的增强子序列结合不同的调节蛋白。
目录
3. 沉默子是负调节元件 沉默子(silencer)是抑制基因转录的特定
DNA序列,当其结合一些反式作用因子时对基 因的转录起阻遏作用,使基因沉默。
在真核细胞中,不同基因的编码序列,在各 自基因中所占的比例是不同的。
在真核细胞中,编码序列在整个基因中所占 的比例是较少的,而非编码序列所占的比例 则是较大的,从某种意义上体现了真核细胞 基因结构与功能的复杂性。
目录
原核细胞的基因结构
非编码区
编码区
非编码区
与RNA聚合酶结合位点
2020/3/26
第1章 基因与基因组
结构基因
I
P
O
Z
Y
Y: 透酶
A
Z: β-半乳糖苷酶
阻遏基因
CAP结合位点
操纵序列 启动序列
A:乙酰基转移酶
CAP : 分解(代谢)物基因激活蛋白
二、基因的结构与功能
断裂基因(真核生物):结构基因由编码序列和
非编码序列两部分组成,编码序列在DNA中是不 连续的,被非编码序列隔开
真核基因结构
真核基因结构不连续,为断裂基因(split gene)。
基因的5端称之为上游,3端称为下游
基因序列中开始RNA链合成的第一个核苷酸所
对应的碱基记为+1,此碱基上游的序列记为负
数,下游的序列记为正数。
2、调控序列:
位于结构基因两侧 不被转录 调控结构基因表达
基因的调控区(顺式作用元件)
位于基因转录区前后,对基因表达起调控作用的区 域,因其是紧邻的DNA序列,又称旁侧序列。
功能:
参与复制水平的调节
存在于DNA复制起点区的附近,是一些蛋白质(包 括酶)的结合位点。
参与基因表达的调控
可以转录到核内不均一RNA分子中,有些反向重复 序列可以形成发夹结构,有助于稳定RNA分子。
参与染色体配对
如卫星DNA成簇样分布在染色体着丝粒附近,可能 与染色体减数分裂时染色体配对有关。
Aluห้องสมุดไป่ตู้族
重复达30~50万次,每个成员的长度约300 bp。 每个单位长度中一个限制性内切酶Alu的切点 (AG↓CT),将其切成长130bp和170bp的两段。
KpnI家族
仅次于Alu家族的第二大家族, 重复序列中含有限制性内切酶KpnⅠ的位点 呈散在分布,拷贝数约为3000~4800个
第01章-基因PPT课件
3.增强子(enhancer) 是一种较短的DNA序列,能够被反式作用因子识别与结合。与增强子元件结合后能够增强邻近基因转 录。位于转录起始点上游-100~-300 bp处
4. 反应元件 一类能介导基因对细胞外的某种信号产生反应的 特异的DNA序列 ●特点 具有较短的保守序列 通常位于启动子附近、启动子内或增强子区域
第二节 结构基因中贮存的遗传信息
一、 RNA的结构信息 二、 结构基因中贮存的蛋白质序列信息
●编码区 一个特定蛋白质多肽链的序列信息,也称 为开放阅读框(open reading frame,ORF) 功能 决定蛋白质分子的一级结构
RNA 聚合酶
转录因子
启动子类型
启动子构成
含有该类启动子的基因
I
TFI
I
核心元件, 上游调控元件
rRNA
II
TFII
II
TATA盒(TATA box)、几个上游启动子元件和转录起始位点
5.poly(A)信号 II类基因除了调控转录起始的序列外,在结构 基因的3‘端下游还有加尾信号。由AATAAA序列和GT丰富区,或T丰富区组成。 作用: 终止mRNA转录和为其加上poly(A)尾
(三) 基因的基本结构特点 1.原核生物基因的基本结构 5′-启动子-结构基因-转录终止子-3 ′ ●操纵子(operon) 功能上相关联的数个结构基因串联在一起, 由一套转录调控序列控制其转录,构成的基因 表达单位.
四、基因的结构特点
● 组成 一个编码特定多肽链的DNA序列+与蛋白质编码 无关的DNA序列(调控序列)
● 结构特点
1.原核生物结构基因的特点 结构基因在DNA上是连续的 2.真核生物结构基因的特点 结构基因在DNA上是不连续的(断裂基因)
基因及基因组结构
Genome sizes in nucleotide pairs (base-pairs)
plasmids viruses bacteria fungi plants algae insects mollusks bony fish
The size of the human genome is ~ 3 X 109 bp; almost all of its complexity is in single-copy DNA.
(三)基因分类
第一类是编码蛋白质的基因,它具有转录和翻 译功能,包括编码酶和结构蛋白的结构基因以 及编码阻遏蛋白的调节基因
第二类是只有转录功能而没有翻译功能的基因, 包括tRNA基因和rRNA基因 第三类是不转录的基因,它对基因表达起调节 控制作用,包括启动基因和操纵基因
二、基因组(genome)
5’…GCTGGTGGAAAATGAGGAAATTCAAT…3’ DNA序列 Leu Val Glu Asn Glu Glu Ile Gln K蛋白 Ala Gly Gly Lys Ter A蛋白 FMetArg Lys Phe Asn C蛋白
噬菌体G4一段DNA序列内A、C、K基因三重重叠
基因读框相同,只是起始部位不同
第一节 病毒基因组的结构
(一)病毒的基本结构
外壳蛋白: 识别、侵袭特定的宿主细 胞,并保护基因组不被 核酸酶破坏; DNA(RNA):编码结构蛋白和少量 调控蛋白。 不能独立复制,必需进入宿主细胞,借助 细胞内一些酶类和细胞器才能得以复制。
(二)病毒基因组的结构特点:
1.基因组较小,大小差异较大; CAV DNA 2.3kb,编码3种蛋白质 乙肝病毒RNA 3kb,编码4种蛋白质 痘病毒DNA 300kb,编码几百种蛋白
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基因概念的更新和不断发展
重叠基因( 重叠基因(overlapping gene): ) 一个基因的核苷酸与另一个基因的核苷酸之间存 在这一定的重叠现象。 在这一定的重叠现象。 1977年,维纳(Weiner)在研究 病毒的基因结构时,首先发 年 维纳( 病毒的基因结构时, )在研究Q0病毒的基因结构时 现 了 基 因 的 重 叠 现 象 。 1978 年 , 费 尔 ( Feir ) 和 桑 戈 尔 Sangor) 在研究分析φX174噬菌体的核苷酸序列时 噬菌体的核苷酸序列时, ( Sangor ) 在研究分析 φX174 噬菌体的核苷酸序列时 , 也发现 个核苷酸组成的单链DNA所包含的 个基因中有几个基 所包含的10个基因中有几个基 由5375个核苷酸组成的单链 个核苷酸组成的单链 所包含的 因具有不同程度的重叠, 因具有不同程度的重叠, 但是这些重叠的基因具有不同的读码 框架。以后在噬菌体G4、 中都发现了重叠基因。 框架。以后在噬菌体 、MS2和SV40中都发现了重叠基因。基 和 中都发现了重叠基因 因的重叠性使有限的DNA序列包含了更多的遗传信息,是生物 序列包含了更多的遗传信息, 因的重叠性使有限的 序列包含了更多的遗传信息 对它的遗传物质经济而合理的利用,参与对基因的调控。 对它的遗传物质经济而合理的利用,参与对基因的调控。
3
1920年代及1930年代早期Alfred H Sturtevant以Hermann Muller在果蝇研究上,发现基因在染色体上的位置改变 时,尽管基因结构本身不变,其功能却会变化而造成 果蝇性状的突变。实验中,他们将一个基因挪近所谓 异染色质区(heterochromatin)时,果蝇会产生所谓杂 heterochromatin 色(variegated)的表现型,也就是一个基因在某些细 胞会表现,却在某些细胞不会表现,而造成“杂色”, 例如复眼中有些部分呈现白色,有些部分则呈现红色。 由於基因的功能似乎会因应其所在位置而改变,以致 有人甚至认为基因根本不是一个固定而具体的单位 (particulate gene),然而,在实际上却又不能完全否 定"基因"做为遗传单位的概念。
12
暮 已 赏 时 花 醒 归 微 去 力 马 酒 如 飞
13
移动基因( 移动基因(movable gene): ): 又叫转座因子( 又叫转座因子(transposable element),可以从染色体的一个位置 ),可以从染色体的一个位置 ), 转移到另一个位置。 转移到另一个位置。
14
断裂基因( 断裂基因(split gene): )
基因的编码序列在DNA分子上是不连续的, 基因的编码序列在DNA分子上是不连续的,为不编码的序列所隔 DNA分子上是不连续的 20世纪70年代中期 法国生物化学家查姆帮(Chamobon)发现 世纪70年代中期, 发现。 开。20世纪70年代中期,法国生物化学家查姆帮(Chamobon)发现。 1977年被英国的查弗里斯和荷兰的弗兰威尔在研究兔 年被英国的查弗里斯和荷兰的弗兰威尔在研究兔β 1977年被英国的查弗里斯和荷兰的弗兰威尔在研究兔β-球蛋白结 构时所证实。
5
这个“基因包含转录因子结合区”的概念,使基因变 成一个功能性而且可以彼此重叠的概念。意即,一段 DNA序列,可以因对转录因子反应的不同,可以有一 种以上的基因功能,而一个基因的转录序列,可能是 另一个基因的转录调控区。 时至今日,基因的定义已经不再是一段具有明显边界 的固定DNA序列(particulate gene),而是一个具有伸 缩性(flexible)的功能性组合,它的范围是以其(1) 空间结构与位置(2)对特定调控因子的反应(3)对 最终表现型的效果来决定。 根据以上的论述,基因的基本条件有三:1、必须要有 产出(product)2、必须要有功能 3、包含转录区及调 控区。根据这三个条件,我们如何去从漫长的DNA序 列中找出基因呢?以下是五种常用的标准。
4
在最新版的Thompson & Thompson "Genetics in Medicine"(2001),基因的 定义是"A sequence of chromosome DNA that is required for production of a functional product,be it a polypeptide or a functional RNA molecule"。因此当 代对基因的定义除了被转译的DNA序列本身之外,调控此一转译工作的 DNA序列也应包含在内。那麽基因的范畴到底何在? 假若基因是一个比较固定而具体的单位(particulate gene)则我们应该可以 找出界定基因的"区隔"(barrier or insulator)。然而学者费尽心力却遍寻不 着能够区别个别基因的结构。因此,从学者无法找到能够区隔个别基因的 barrier or insulator来看,基因可能是一个相当具有伸缩性的结构。另外一个 观察是,一个基因的功能取决於它对某些转录因子(transcriptional factor) 的反应,而非本身在染色体上的位置,这个现象是Frank Grosveld在人类βglobin locus control region首先观察到。因此基因应该是包含被转录的DNA 序列以及转录因子的结合区。这些转录因子的结合区可以延伸几百个 Kilobase。最近的研究显示人类的DACH基因,其enhancer甚至在远达1Mb的 基因沙漠(gene desert)中。
15
70年代后,基因的概念随着多学科渗透和实验手段日新月异又有突飞猛 进的发展,主要有以下几个方面: 基因具重叠性。1977年桑格(F. Sanger)领导的研究小组,根据大量研 究事实绘制了共含有5375个核苷酸 核苷酸的ΦX174噬菌体DNA碱基顺序图,第 核苷酸 一次揭示了遗传的一种经济而巧妙的编排——B和E基因核苷酸顺序分别 与A和D基因的核苷酸顺序的一部分互相重叠。当然它们各有一套读码结 构,且基因末端密码也有重叠现象(A基因终止密码子TGA和C基因起始 密码子ATG重叠2个核苷酸;D基因的终止密码子TAA与J基因起始密码子 ATG互相重叠1个核苷酸,顺序为TAATG) 内含子和外显子。人们在研究小鸡卵清蛋白基因时发现其转录形成的 mRNA只有该基因长度的1/4,其原因是基因中一些间隔序列的转录物在 RNA成熟过程中被切除了。这些间隔序列叫内含子,基因中另一些被转 录形成RNA的序列叫外显子。小鸡的卵清蛋白基因中至少含7个内含子。 因而从基因转录效果看,基因由外显子和内含子构成。
8
经典遗传学基因的概念:基因具有下列共性:(1)基因具有染 色体的重要特征(即基因位于染色体上),能自我复制,相对稳 定,在有私分裂和减数分裂时,有规律地进行分配;(2)基因 在染色体上占有一定的位置(即位点),并且是交换的最小单位, 即在重组时不能再分割的单位:(3)基因是以一个整体进行突 变的,故它是一个突变单位;(4)基因是一个功能单位,它控 制正在发育有机体的某一个或某些性状,如白花、红花等。 总之,经典遗传学认为基因是一个最小的单位,不能分割,既是 结构单位,又是功能单位。 分子遗传学关于基因的概念:分子遗传学的发展揭示了遗传密码 的秘密,使基因的概念落实到具体的物质上,即基因在DNA分子 上,一个基因相当于DNA分子上的一定区段,它携带有特定的遗 传信息。这类遗传信息或被转录为RNA,包括信使RNA、转移 RNA、核糖体RNA;或者信使RNA被翻译成多肽链。 另一方面,在精细的微生物遗传分析中查明,基因并不是不可分 割的最小单位,而是远为复杂得多的遗传和变异的单位。
假基因( 假基因(pseudogene): ):
是与功能性基因密切相关的DNA序列,但是由于缺失、 是与功能性基因密切相关的DNA序列,但是由于缺失、插入和 DNA序列 无义突变失去阅读框架而不能编码蛋白质产物。1977年 无义突变失去阅读框架而不能编码蛋白质产物。1977年,G·Jacp 在对非洲爪赡5SrRNA基因簇的研究后提出了假基因的概念。 在对非洲爪赡5SrRNA基因簇的研究后提出了假基因的概念。 5SrRNA基因簇的研究后提出了假基因的概念
9
随着现代遗传学的发展,在分子水平上,根据重组、 突变和功能将基因分成3个单位 (1)突变子:就是指 性状突变时产生突变的最小单位。一个突变子可以小 到只有一个碱基对; (2)重组子:就是指性状重组时,可交换的最小单位。 一个交换子可以只包含一个碱基对; (3)顺反子:表示一个起作用的单位,基本符合通常 所述的基因的大小或略小。它包括它包括一段DNA与 一个多肽链合成相对应,平均为500-1500个碱基对。
6
1、Open reading frames(ORF) ORF是指位于start codon与stop codon之间的DNA序列。以ORF寻 找基因较适用于原核生物或其他intron稀少的生物。当生物的exon 被隐藏在大段的intron时,ORF常常不易被找到。 2、Sequence features 分布特征 找出ORF之后,利用基因通常GC较AT多的特征,再加以验证。 另外找寻splice site(AG、GT)可能也有助于基因的辨识。不过 使用这些辨识原则的电脑软件只能预测50%的exon和20%的基因。 3、Sequence conservation 比对不同生物的碱基序列也是辨识基因的利器,理论上,在不同 生物均有的序列(conserved sequence)应该有其功能上的重要性, 本身是基因的机会较大。利用不同生物来比对基因序列,必须这 些生物间有相当的演化距离(evolutionary distance),例如最近 人类六号染色体的基因辨识是利用五种其他生物-大鼠、小鼠、河 豚、绿色斑点河豚以及斑马鱼来进行比对。当然随着所用生物的 不同,比对出来的基因数目也会有所差异。
2
生物的性状是经由遗传单位传递给下一代,这个概念 在1900年由孟德尔(Gregor Mendel)提出,1909年约 翰森(Wilhelm Johanssen)将这个遗传单位的概念冠 上“gene”的名字,汉文将之翻译成“基因”,日本人 则将之翻译成“遗传子”,更为直接。 最早的观念中,基因是前述的“遗传单位”(unit of inheritance)。这是一个比较功能性的概念,它是一个 自主单位(autonomous unit),能把性状遗传给后代。 相对地,有人认为基因是一个有形的物体(physical entity),它是染色体上面一段固定的序列。这两派看 法多年来,各执一词,不相上下。