第2章从基因到基因组

第2章从基因到基因组
第2章从基因到基因组

第二章从基因到基因组

我们可以从几个水平上解决基因和基因组的作图问题。遗传(或者连锁)图谱(Genetic map )以重组率来确定突变之间的距离,其局限性在于它依赖于影响表型的突变。由于重组率与位点的物理距离并不一致,因此不能准确的代表遗传物质。连锁图谱(Linkage map)也可以通过测定基因组DNA位点的重组率获得。这些位点有序列的改变,从而改变了被特定限制性酶切割的适应性。这种变化非常普遍,因此无论突变是否发生,任何生物都可以获得连锁图谱。连锁图谱的不足之处与遗传图谱相似,即相对距离依赖于重组。

限制性图谱(Restriction map)是用限制性内切酶将DNA切割成片段,然后测定片段之间的距离建立的。它以DNA的长度来代表距离,因此为遗传物质提供了物理图谱。限制性图谱未能确定遗传性取得独特位点,要使其与遗传图谱相联系,必须选择能影响酶切位点的突变。基因组上较大的改变能影响限制性片段的大小和数量,易于识别。点突变则很难被发现。

终极图谱(ultimate map)是确定DNA的序列,从序列中可以确定基因和它们间的距离。通过分析一个DNA序列的阅读框架,可以推测它是否编码蛋白质。这里基本的推测是自然选择阻止了编码蛋白质序列中破坏性突变的聚集。与此相反,可以假定整个编码序列实际上很可能用来产生蛋白质。

通过比较野生型DNA和其突变型等位基因,可以确定突变的实质和它确切的位点,从而定义遗传图谱(完全依赖于突变的位点)和物理图谱(取决于DNA序列组成)的关系。

相似的技术也用于确认DNA和测序,以及基因组作图,尽管存在一定程度上的不同。其原理是获得一系列重叠的DNA片段,能组成一个连续的图谱。通过片之间的重叠,使每一个片段都是与另一个片段相联系,确保没有片段丢失。这个原理也用于限制性片段排序作图以及连接片段间的序列。

遗传图谱对分析基因组和单个基因都很重要,因此我们在研究基因结构之前先简单回顾一下该原理的应用。在下一节中,讨论在连锁图谱中的应用。使我们了解个别基因间的分子组织及其关系,确定引起疾病的基因突变位置上。在第三章,我们考虑基因组的整体组成以及它的基因总数量。

2.1 基因可用限制性内切酶切割作图

分离DNA片段后,要获得其序列信息首先须在分子水平上建立核苷酸图谱。任何DNA 都可以通过在限制位点将其切开,测定这些位点间的距离,从而绘制出物理图谱。限制性内切酶(Restriction enzyme)能识别双链DNA上的特定靶序列,进行特异性切割。每一种限制性酶切酶在DNA双链上有一个特定的靶序列,通常是由4-6个碱基组成的特定序列。酶可在每一个靶序列出现的位点上切割。不同的限制性内切酶识别不同的靶序列,现在可以获得多限制性内切酶(从大范围的细菌中获得)。

一个限制图谱代表特定限制酶识别靶位点的线性序列。限制图谱中的距离直接用碱基对(简写bp)来测量,而较长的距离用kb表示,指DNA中1000个碱基对或者RNA中1000

个碱基。在染色体水平上,图谱用兆碱基对表示(1Mb=106bp)。

当一个DNA 分子用一个适当的限制酶切割时,可切成特殊的片段。这些片段可以根据其大小通过凝胶电泳分离。酶切后的DNA 加到琼脂糖或聚酰胺凝胶上,当电流通过凝胶时,每个片段以与其分子量相对应的速度沿着凝胶移动。从而产生一系列条带,每一条带与片段的大小正相关,沿凝胶递减。

例如,一个5000bp 的DNA 分子与两个限制酶A 和B 一起温浴进行酶切,然后将 DNA 上样进行电泳(图2.1)。用酶A(左)或酶B(右)酶切产生的片段大小,通过与已知大小的片段(如中间所示的对照)比较确定。结果表明酶A 将底物DNA 切成4个片段(长度为2100,1400,1000,500bp),酶B 将其切成三个片段(长度为2500,1300,1200bp)。我们能运用这些数据建立一个标明DNA 限制位点图谱吗?

图2.1 DNA 可被限制酶切成不同大小的片段,然

后用凝胶电泳进行分离。 图2.2 通过酶切双链DNA ,可以确认一种限制酶相对另一酶的切割位点。

两个酶切割的方式可以通过几种方式确定(图2.2)。双酶切技术中,DNA 同时用两种酶切割,如同用单一酶切一样。最好先用酶A 或酶B 进行单酶切,分离产生的片段再用另一种酶切割,酶切产物再一次进行电泳检测。

我们可以用上述数据建立5000bp DNA 的图谱(图2.3)。图中每一块凝胶采用图2.1中电泳分离的片段进行编号。A-2100表示2100bp ,由酶A 酶切原始的DNA 分子产生的片段。当该片段用酶B 消化时,被切成1900和200bp 两片段。因此酶B 的切割位点距离最近的酶A 切割位点200bp ,距离另一个酶A 位点为1900bp(图2.3中上图所示)。

当片段B-2500用酶A 消化时,被切成1900和600bp 两片段。因此1900bp 的片段是双切割产生的,在其一端有一个A 酶切点,另一端有一个B 酶切点。它可以从任何一个单切片段(A-2100,B-2500)中得到。因此这些单切片段必然在1900bp 共同区域内有重叠(图

2.3中第二图所示),在图谱右边增加了酶A 的一个切割位点。

限制图谱的关键是使用重叠片段。因为A-2100和B-2500在中间1900bp 的区域有重叠,我们可以将1900bp 左边200bp 的A 位点与其右边600bp 的B 位点联系起来。同样,可以继续往两端延伸图谱。左边的200bp 也是用A 酶切B-1200bp 产生的,因此下一个B 位点应该在左边1000bp 。右边的600bp 片段是用B 酶切A-1400产生的,因此下一个A 位点应该在右边800bp 处(图2.3中第三图)。

进一步可通过确定两端片段的来源来完成这个图谱。在左边,1000bp 片段来自B-1200并以A-1000的形式存在,它不是由B 酶切成的,因此A-1000处于图谱的末端。完整的5000bp 左端,1000bp 后是A 酶切点,1200bp 后是B 酶切点(这就是在图谱中没有标识B 切点的原因,尽管在分析中将这个末端当作B 切点)。在图谱的右边,800bp 双酶切片段用A 酶切产生B-1300,因此必须在右边加上500bp 。由酶A 单切产生的A-500可见,这就是结束片段。至此,完整的图谱绘制完成(图2.3下图)。

图2.3 通过限制酶消化片段A 和片段B ,然后用

凝胶电泳分析鉴别二者不同重叠片段的大小,即

可逐级绘制限制酶切图谱。

图2.4 若能够鉴别出不同带有末端标记的片段,就可以直接确认每种酶与末段的距离。图2.4所示为一组通过位点毗邻的限制酶消化以后产生的连续伸长的片段。

限制图谱的实际构建要求几种酶,因此需要解决由多种酶产生的重叠片段的复杂模式。几种其他技术可用于片段比较,包括末端标记,即用一个放射性磷酸标记DNA 分子的末端(特殊的酶能特异性地在5′或者3′端加上磷酸)。带有放射性标记的末端片段可根据其放射性标记直接进行识别(图2.4)。因此在用酶A 处理的片段中,A-1000,A-500能被迅速地置于图谱的两端。同样,片段B-1200和B-1300也能被确定为末端。

图2.1到图2.3中建立的整个5000bp区域的限制图谱,在图2.5中以更普遍的形式获得。图谱表示特定限制酶切割DNA的位点,切割位点间的距离用碱基对衡量。因此DNA 被分成一系列位于由限制酶识别位点分割的特定长度的区域。其重要特征是任何DNA序列都可以得到限制图谱,不论是否存在突变或是否了解它们的功能。

图 2.5 限制图谱就是指酶切位点被已知距离隔开的线形DNA顺序图。有了如图2.5这样的图谱,可以鉴别出经单酶切和双酶切所产生的片段。图2.6 影响限制酶位点的点突变可经凝胶电泳片段大小的变化而检出。

2.2 个体基因组如何变化?

依据孟德尔对基因组的观点,将等位基因分为野生型(Wild-type)和突变型。随后我们认识到由多个等位基因存在,每一个都产生不同的表型(有些情况下,或许很难将一个基因定义为野生型)。

多个等位基因同时存在于一个基因座称为遗传多态性(Genetic polymorphism)。任何稳定存在多等位基因的位点称为多态化。如果一个等位基因在种群中出现的频率大于1%,就可视为多态化。

突变等位基因多态性的基础是什么呢?它们产生改变蛋白质功能的各种突变,引起突变表型。如果我们比较限制图谱和这些等位基因的DNA序列,可发现它们也是多态性的,因为每一个图谱或序列都是不同的。

尽管在表型上并不明确,野生型自己也是多态性的。野生型等位基因的差异可以用不影响其功能的序列变化加以区分,当然这种变化也不会引起表型差异。一个种群可能在基因型上存在广泛的多态性。在给定位点上可能有多个不同的序列,有些能影响表型可以发

现,但另一些却无法察觉,因为他们不产生可见的效应。

因此一个座位上存在多种连续的变化,包括改变DNA序列而不改变蛋白质序列,改变蛋白质序列而不改变蛋白质功能,产生有不同活性的蛋白质以及产生没有功能的突变蛋白质。

基因组中的一些多态性可以通过比较不同基因组的限制性图谱进行检测,前提是限制酶酶切片段类型变化。当一个靶位点在一个基因组中出现而不存在于另一个基因组中时,第一个基因组中额外的切割会产生两个片段,而第二个基因组是单独的一个片段(图2.6)。

因为限制图谱与基因功能是独立的,不论序列改变是引起表型变化,这个水平上的多态性都可被发现。限制性位点多态性很可能几乎不影响到表型,很多涉及不影响蛋白质产生的序列改变(比如,它们处于基因之间)。

两个基因组限制图谱之间的差别称为限制性片段长度多态性(Restriction fragment length polymorphism,RFLP)。RFLP可以同其他标记一样作为遗传标记。我们直接检验由限制图谱获得的基因型,而不是检测其表型的特点。图2.7表示三个世代限制图谱之间的血缘关系,其限制图谱在DNA标记片段水平按孟德尔规律分离。

图 2.7 限制片段长度多态性(RFLP)可以按孟德尔方式遗传,四种等位基因在每代中独立地分离,但图中经限制消化后所有等位基因之间的组合在凝胶电泳中都存在。图2.8 可用限制酶多态性作为遗传标记,测量两个重组子表型(如眼睛的颜色)所对应的遗传学距离。图2.8中做了简化,仅将有关的等位基因列出。

重组频率也可用限制性标记和可见的表型标记来测量(图2.8),因此一个遗传图谱可以包括基因型和表型标记。

限制性标记并不限于在影响表型的基因组变化中应用,也在分子水平提供了一种检验遗传位点的有效技术。与已知表型相关突变的一个典型问题是,由于不知道相关的基因和

蛋白质,因此难以确定相关遗传位点应放在遗传图谱的哪个位置。很多破坏性的或致命性人类疾病属于这一类型。比如包囊纤维化表现孟德尔遗传,但是在该基因详细鉴定之前,这个突变功能的分子实质一直是未知的。

如果限制酶多态性在基因组中自由发生,则有些会在特定基因附近产生。我们可以确定这样的限制性标记,因为该标记与突变表型密切相关。如果比较患病者的和正常人的DNA限制图谱,可能发现一个特定的限制性位点通常出现(或者丢失)在患者DNA中,原因是限制性标记与表型间100%相关。它暗示限制性标记与突变基因距离很紧,以至于它们在重组中不能分离。

限制性标记的判定由两个重要作用:

?为发现疾病提供了诊断过程。有些遗传描述详细但是分子机制描述困难的人类疾病很难诊断,如果一个限制性片段与表型可靠地相关,那么它的存在可用来诊断该种疾病,无论是在出生以前还是出生后。

?为分离基因提供依据。如果两个位点很少或者从不重组,在遗传图谱中限制性片段应该距离基因相对很近。尽管遗传中“相对很近”用DNA碱基对表示可能是有一定距离,但它提供了一个使我们沿着DNA找到基因的起点。

RELPs在人类基因组内发生非常频繁,对遗传作图是很有用。如果等位基因序列在两条染色上,其在个别碱基对上发生频率是1/1000bp。这些影响限制性位点的碱基变化可通过RELPs检测出来(图2.9)。

一旦把RELP分配到一个连锁群,即可置于遗传图谱上,并且与其两则标记的距离可以确定。人和鼠RELP的建立,使人们构建了两个相应基因的组连锁图。人类图谱包括超过5000个相距1.6cM(1-2Mb)的标记,鼠具有超过7000个相距0.2cM(200kb)的标记。任何不清楚的位点可以通过与这些位点的连锁检测出来,从而迅速的绘于图谱上。

多态性的频率意味着每个个体有独特的限制性位点。在特殊区域发现的位点重组称为单一型(Haplotype)。单一型概念最初用于描述主要组织兼容性座位(编码在免疫系统中很重要的蛋白质区域,见第24章)的遗传组成。现在延伸到描述基因组限定区域的等位基因或限制性位点(或者任何其他遗传标记)的特殊重组。

RELPs的存在为建立不均等亲代-子代关系的技术提供了基础。如果亲本不能确定,比较可能亲本和子代适当染色体区域内RFLPs图谱,就可找到它们之间确切的关系。使用DNA限制性分析确认个体被称为DNA指纹技术(Fingerprinting)。我们将在第四章中详细介绍使用小卫星序列的差别进行人类基因组作图。

2.3 真核基因是割裂基因

真核基因被分子作图鉴定之前,我们假定它们与原核基因有相同的组织形式,认为原核基因包括一段与蛋白质线形关联的DNA。但是DNA结构与相应mRNA比较表明,在很多情况下并非如此。mRNA通常包含依照遗传密码子与蛋白质产物恰好符合的核苷酸序列,但是基因却包含位于编码区的额外序列,将代表蛋白质的序列割裂。

割裂基因DNA序列可分为两大类(图2.10),外显子(Exon)是在成熟RNA中出现的序

列。根据定义,一个基因以外显子起始和结束,与RNA的5′和3′端相对应。内含子(Intron)是插入的序列,在初始转录本加工时被切除,从而产生成熟RNA。

图 2.9 如果某限制性标记与一个表型相关,则该限制酶位点必定位于决定此表型的基因附近。图中,突变将正常人普遍存在的带转换成病人中普遍存在的带。图2-10 有内含子的基因首先转录成RNA前体,之后内含子被去除,外显子被拼接到一起。成熟的mRNA只含有外显子序列。

割裂基因的表达需要一些在非割裂基因中不存在的额外步骤。DNA产生一个RNA拷贝(一个转录本),正好代表基因组序列。但是这个RNA只是一个前体,它不能用于产生蛋白质。首先内含子必须从RNA中移走,从而产生只包含一系列外显子的信使RNA,这个过程称为RNA剪接(RNA splicing)。剪接涉及内含子从原始转录本(Transcript)中的精确删除,外显子两端连接形成一个共价分子(我们将在第22章讨论剪接的原理和调控)。

结构基因(Structural gene)是指基因组中与成熟mRNA 5′和3′端之间相对应的区域。转录从mRNA的5′端起始延伸到3′端,在经RNA剪接产生(见第22章)。基因的范围可以扩大到包括基因两端激活或终止基因表达的调节区域。

如何改变我们对基因的观点呢?内含子剪切后,外显子以其在基因上的顺序连接起来,因此基因和蛋白质的线性关联在独立的外显子和蛋白质的相应的部分仍然保留,基因中的突变顺序与蛋白质中氨基酸替换保持一致。但是基因间的距离和蛋白质内的距离不再一致,基因的长度用前体RNA的长度衡量,而不是用mRNA的长度定义。

所有外显子都出现在一个RNA分子上,并且剪接只是作为分子间的反应发生。通常没有来自不同RNA分子上的外显子发生剪接,这种机制排除了任何代表不同等位基因序列之间的剪接。因此处于一个基因上不同外显子的突变不能互补另一个外显子上的突变,故尔被认为是一个互补群的成员。

内含子突变会产生什么后果呢?由于内含子不是信使RNA的一部分,其突变不直接

影响蛋白质的结构。但通过阻止外显子的剪接,能够阻止信使RNA的产生。这种突变只作用于携带它的等位基因,因此不能与该等位基因上其他突变互补,并且是外显子互补群的一部分。

真核基因并不一定都是割裂的,有些用原核基因中同样的方式与蛋白质产物直接对应。在酵母中,大多数基因是连续基因。高等真核基因大多是割裂基因,并且内含子比外显子长,使基因比其编码区域长得多。

2.4 割裂基因的组织结构可能保守

无内含子基因,其DNA的限制图谱与mRNA的图谱是一一对应的(通过比较反转录的cDNA确定)。

当一个基因具有内含子的时,其末尾的图谱与信使RNA的末尾图谱相同,但基因图谱并非不一致,因为基因中有额外的部分,并不与信使RNA一致,非一致区域即内含子。图2.11比较了β-珠蛋白基因和mRNA的限制图谱。其中有两个内含子,每一内含子包含一些cDNA中不存在的限制性位点。但是外显子和cDNA中限制性位点的模式相同。

图2.11 比较鼠β-珠蛋白的cDNA和基因组DNA 的限制图谱可以看到,β-珠蛋白的基因内有两个内含子,外显子可直接与cDNA的序列相对应。图2.12 内含子是在基因中存在但在mRNA中不存在的序列。图中阅读框以明蓝和暗蓝相间排列的小块儿表示,需要注意的是,能导致阅读框关闭的三个终止密码都在内含子中。

比较基因和cDNA的序列,可精确的定义内含子。在弄清基因片段之前,序列水平的比较是必须的。如果含有不合适的限制性位点,短的内含子和外显子可能在限制图谱中缺失(如果内含子在长的外显子之中,可能不会被发现:而一段小于50bp的外显子则不能和cDNA探针杂交,从而在内含子中难以发现)。但是序列比较并不明显(图2.12),处于编码

区的内含子通常会打断一个读码框的整体性,但在cDNA中,通常会发现完整的读码框。

对原核基因不同结构,尚没有特定的原因解释。有些基因是连续的,因此基因序列和mRNA线性关联。大多数高等原核基因是割裂的,但是内含子在数量和大小上变化非常大。核基因的内含子一般在读码框上有终止密码子,因而无编码功能。

所有类型的基因都可能是割裂基因,包括编码蛋白质的核基因,编码rRNA的核基因,以及编码tRNA的基因。在低等真核生物中,线粒体也存在割裂基因。割裂基因在细菌和细菌噬菌体中也已发现,尽管在原核基因组中是很少见。

有些割裂基因只有一个或少数几个内含子。珠蛋白基因便是很好的例子(见第四章)。珠蛋白基因有α和β两种类型,二者具有相同的结构。哺乳类珠蛋白基因的一致性为珠蛋白家族基因结构提供了例证(图2.13)。

图2.13 有功能的珠蛋白基因都是含有三个外显子的不连续基因。图中所示的序列长度适用于哺乳动物的β-珠蛋白基因。图2.14 不同哺乳动物的二氢叶酸还原酶基因结构有相似性—外显子短内含子长,但内含子之间的长短差异很大。

在所有已知的活性珠蛋白基因中,包括哺乳、鸟类和两栖类,割裂发生在非常同源的位置(与编码区相关)。第一个内含子通常很短,第二个一般比较长,其实际长度有所变化。但多数不同珠蛋白基因间的长度变化是第二个内含子长度变化引起。在小鼠中,α-珠蛋白的第二个内含子只有150bp,基因总长度为850bp,而主要β-珠蛋白为1382bp。因此基因长度的变化比mRNAs长度变化范围要大得多(α-珠蛋白mRNA为585个碱基对,β-珠蛋白mRNA为620个碱基对)。

比较大的基因,如二氢叶酸还原酶(Dihydrofolate reductase,DHFR)。哺乳DHFR基因含有与2000bp mRNA相对应的6个外显子(图2.14),但是它们延伸成一条更长的DNA,因为内含子非常长。在三种哺乳动物中,外显子是一样的,内含子相对的位置发生了改变,但是个别外显子的长度变化很大,使基因长度变化范围为25到31kb。

珠蛋白质和DHFR代表了一种普遍的现象:与进化相关的基因其组织结构非常相似,至少有一些内含子的位置是保守的。基因长度的变化主要由内含子的长度决定。

2.5 外显子序列保守,内含子序列多变

结构基因在其基因组中是独特的吗?答案可能是模棱两可的。整个基因的长度是独特的,但其外显子通常与其它基因外显子相关。一般而言,当两个基因是相关的,它们外显子的关系比内含子的关系更紧密。在特殊情况下,两个基因的外显子可能编码同一个蛋白质,但其内含子可能不同。说明这两个基因可能起源于一个共同的祖先基因,拷贝间内含子差异积累,但因编码蛋白质功能的需要,其外显子区域是保守。

外显子可能是基因进化的基石,它们可以通过不同的方式进行组合。一个基因可能含有几个与其他基因相关的外显子,但也存在一些并不相关的外显子。一般而言,此时其内含子也不相关。这些基因可能是由同一些外显子经复制和转移产生的。

两个基因的相似性可用点阵作图进行比较(图2.15)。一个点表明该位置上基因的序列相同。如果两个序列完全相同,则点组成一条45度的直线。若存在不相似区,则直线会被打断,并且另一个相关序列的缺失或插入会使其平行或垂直地被替换。

比较小鼠β-珠蛋白基因时,直线延伸过三个外显子和一个小的内含子,但在两端和大内含子中消失。这种类型较普遍,编码区域相关密切,而其长内含子和基因两端相似性消失。

两个外显子总差异程度与蛋白质间的差异相关。在翻译区域,外显子需要编码氨基酸,在此限制下,其变异的可能性很小。但许多改变并不影响密码子的意义,如将一个密码子变成另一个密码依旧代表同一个氨基酸。在非翻译区(与mRNA5′引导区和3′结尾区相一致),变异发生会有更大自由空间。

内含子趋异的模式也包括大小的变化(由插入和缺失产生)以及碱基组成。内含子比外显子进化快。当不同种间的基因进行比较,有时其外显子同源,而内含子间变化巨大,甚至不存在任何相关序列。

外显子和内含子中突变率是相同的,但在外显子中逆向选择使突变被更有效地剔除。如此相反,内含子不受编码功能的限制,其自由积累点突变和其他变异更快。这暗示内含子没有序列特意性功能,其存在对基因是否是必要的目前尚无定论。

2.6 可利用保守的外显子分离基因

鉴定基因的主要方法大都以外显子的保守性和内含子的多变性比较为基础。一个功能在不同种内是保守的基因,其代表的蛋白质序列应该有两个性质:具有一个开放读框,并与其他种属有相关的序列。这些特点可以用来分离基因。

遗传学的研究已经证明,基因处于特定的染色体上。试想,如果我们缺少有关基因产物实质基本知识,如何鉴定在如此之大区域(>1Mb)上存在的基因呢?

我们可以从这个区域周围的一个克隆开始,沿着染色体这个区域步移(Chromosome

Walking),从文库中鉴定重复基因(如图2.16)。第一个克隆的一个小片段用来分离在染色体中延伸的克隆,这些克隆反过来又用来分离下一个系列。因为其限制图谱一端是与前一个克隆一致,另一端携有新的序列,因此在每一个循环中,都会选出一个新的克隆。如此步行百kb是有可能的,步行速率一般每个月超过100kb。染色体步行可将染色体中大的连续区域从基因文库中筛选出来。

图2.15 鼠βmaj和βmin珠蛋白基因编码区的序列很相似,但编码区的侧翼序列和大内含子序列的差异却很大。图2.16 染色体步移通常是通过基因组克隆重叠区的连续杂交进行的(每一新克隆的图谱一端带重叠区另一端带有新序列区域)。

当然,如果染色体的全部序列被确定,鉴定一个独特的基因就更加容易。可从染色体步行中获得的连续系列克隆进行测序,或者通过其他方式(比如直接比较序列)使克隆相联系。若序列已知,基因可以通过比较其RNA或蛋白质产物来确定,或者通过序列中的一个突变进性鉴定。

同时,在获得所有序列信息以前,成功鉴定一个有药物开发价值基因的有效方法,是在一定染色体区域搜寻小片段中保守基因应具有的两个性质。首先,寻找能够与其它物种杂交的片段,然后检查这些片段的读码框。

首先,使用动物标记和染色体步行获得的短片段(放射性标记的)作为探针,通过Southern杂交从不同物种中检测相关蛋白质。若发现几个物种杂交片段与探针相关(探针通常来自人类),探针就可作为探测基因外显子的候选者。这个“候选者”测序后,如果包含开放读框,就用来分离周围的基因组区域。如果看似内含子的一部分,就可用它们来鉴定整个基因,分离相应的cDNA或mRNA,最终鉴定其蛋白质,这种方法称为zoo blot。

上述方法对鉴定那些遗传上暗示存在但其实质未知的基因来说是宝贵的。一个例子是利用位于人Y 染色体上的zfy 基因作探针,与其它动物的性染色体杂交的结果(图2.17),该探针能与哺乳动物和其他种类的性染色体特异性杂交,含有开放读框,用于鉴定一个保守基因。

图2.17 示利用人Y 染色体上的zfy 基因做探针与

其它动物的性染色体杂交的结果。 图2.18 假肥大型肌营养不良(DMD)的基因定位过程如下:通过不断的染色体步移,作图,直至找

到突变后能引起疾病的区域。

当目标基因含有很多大的外显子且很长时,Zoo blot 方法特别有用。假肥大型(Duchenne)肌肉营养不良(DMD ,一种肌肉退化失调症)基因鉴定,就是其中一例(图2.18)。DMD 基因与X 染色体连锁,并影响1/3500男子出生。

连锁分析表明DMD 位点位于X 染色体Xp21条带上。患DMD 疾病的病人通常在该条带上产生DNA 重排(Rearrangement)。通过比较X-连锁DNA 探针与患者DNA 和正常人的杂交能力,可以获得重排或患者体内相关的克隆片段。

染色体步移用来建立探针两端的限制性图谱,范围可超过100kb 的区域。通过对一系列患者中获得的DNA 分析,确定该区域有一很大缺失,并在两个方向上延伸。最值得一提的是,缺失切除了一个对基因功能很重要的片段,并且该基因或至少基因的一部分包含在这个区域内。

基因在染色体上的大致区域确定后,我们需要鉴定它的内含子和外显子。采用zoo blot 方法确定了与小鼠X 染色体和其他哺乳动物DNA 杂交的片段(图2.19),详细检查片段内

是否存在开放读框和典型的内含子-外显子边界序列。将符合这些标准的片段作为探针,进一步在肌肉mRNA 构建的 cDNA 文库中检测同源序列。

图2.19 通过Zoo-Blotting ,cDNA 杂交,基因组杂

交,蛋白质分析,DMD 基因得以定性。 图2.20 一个特殊的外显子捕获载体。若待捕获的某基因组片段含有一个外显子,那么此外显子

必定能在细胞质mRNA 中表现出来,但前提是该

基因组片段含且仅含有一个内含子。

杂交筛选鉴定了一个与基因cDNA 相关、非同寻常的大mRNA ,约14kb 。与基因组杂交表明,这个mRNA 含 60个以上得外显子,处于一条大于2000kb 的DNA 上,是目前已知DNA 中鉴定为最长的基因,其长度是其他已知基因的10倍。这个基因编码一个大约500kD 的蛋白质,称为营养不良蛋白质(Dystrophin),是肌肉的成分之一,但其含量甚微。所有DMD 患者在这个位点上都有缺失或无效,并且影响营养不良蛋白质功能。

另一种在遗传片段上迅速找到外显子的方法是外显子捕获(Exon trapping)技术(图

2.20)。该技术从一个携带强启动子,在两个外显子间仅有一个内含子的载体开始。用这种载体转染细胞时,其转录产生大量含有两个外显子序列的RNA 。内含子上有一个限制性克隆位点,用来插入一段感兴趣区域的片段。如果这个片段不包括外显子,那么剪接模式不会改变,并且RNA 仅包含亲本载体一样的序列。当插入片段具有由两部分内含子包围的外显子时,其两端的剪接点就会被识别,将外显子序列插入到载体外显子之间的RNA 中。所获得的RNA 可通过逆转录成cDNA ,使用PCR 扩增载体两个外显子之间的序列进行检测。因此若能扩增出来自目标片段的序列,则表明外显子被捕获。由于动物细胞中内含子通常很大而外显子很小,基因组DNA 可能含有这种所需要的结构,即一个外显子两端被部分内含子包围是有可能的。

2.7 基因大小差别迥异

割裂基因的存在可能是基因比其编码的蛋白质大得多的一个证据。基因大小增加时,其内含子可能会变得很大,而外显子却保持很小。一般而言,编码蛋白的外显子常常很(图2.21)。大多数外显子编码区少于100个氨基酸(在脊椎动物中通常小于50个),总体分布与基因通过缓慢增加编码蛋白质小结构域单位进行进化(见后)的观点一致。在不同物种中,除了脊椎动物中明显的大外显子缺失外,外显子大小没有显著差别(在真菌和两栖类编码大于300个氨基酸的外显子,大都代表非割裂基因,即由一个外显子组成的基因)。在基因5’和3’非编码区也发现一些大的外显子(图中没有包括)。

图2.21 编码蛋白的外显子常常很短。图 2.22 脊椎动物基因中内含子大小差别十分明

显。

内含子一般比外显子长(图2.22),其长度分布从与外显子相似(<200bp)到10kb以上,在极端情况下,长度可以达50-60kb。

不同真核生物,如酵母、昆虫和哺乳动物中,基因的总体组织形式也不尽相同(图2.23)。在酿酒酵母中,大部分基因(>96%)是非割裂基因,而包含外显子的部分通常很紧凑。实际上,酿酒酵母基因中通常少于4个外显子。

与此相反,在昆虫和哺乳动物中,只有一小部分基因是非割裂编码序列(哺乳动物中<6%)。昆虫基因含较少的外显子,通常少于10个。哺乳动物基因被割裂成更多的片段,有些含十几个外显子,大约50%的基因有超过10个内含子。

真核生物基因总体大小产别迥异,特别是酵母和高等真核生物存在显著差别(图2.24)。

酵母基因平均1.4kb长,只有少部分基因大于5kb。相反,果蝇和哺乳动物中大多数基因长度在5kb到100kb之间,只有少部分基因小于2kb。

图2.23 酵母大多数基因为非割裂基因,但果蝇和哺乳动物的基因绝大多数是割裂的(非断裂基因只有一个外显子,图中最左边的红色柱形图)。图2.24 酵母基因常常很小,但果蝇和哺乳动物基因大小散乱分布,差别很大。

大多数连续基因到割裂基因的转变发生在低等真核生物中。在真菌(除酵母以外),大多数基因割裂的,但其外显子数目较少(<6)且很短(<5kb)。长基因的转变发生在高等真核生物中,特别是昆虫基因长度变得相当大。或者在基因变大的同时,基因组复杂性或物种复杂性的关系随之丢失。

特长基因是含长内含子造成的,并非需要编码长产物的结果。在高等真核生物中,基因大小和mRNA大小间没有关联,并且基因大小和外显子数目间也不存在密切关系。因此,基因的大小主要决定于其内含子的长度。在哺乳动物、昆虫以及鸟类中,基因的平均大小是其mRNA的五倍。

2.8 有些DNA序列编码多种蛋白质

大多数由一条DNA序列组成的基因,仅有编码一种蛋白质的功能(尽管基因在两端有非编码区,并且在编码区内有内含子)。但是,有些情况下,一条序列编码不止一种蛋白质。重叠基因(Overlapping gene),指一个基因是另一个的一部分,发生在一些相对简单情况下。基因的一半(或另一半)独立地编码一种蛋白质,代表由整个基因编码蛋白质的一半(或者是另一半)。最终结果如同在对蛋白质产生特定切割,使其形成一半长度以及全长的形式(图2.25)。

当两个不同源的蛋白质需要同样一段DNA序列时,两个基因以一种更罕见的方式重叠。当同一DNA序列以一种以上读码框翻译时,就是如此。在细胞基因中,一段DNA序列通常只用三种可能方式之一阅读其读码框,但在一些病毒或线粒体基因中,也存在基因两种不同读码框之间的重叠(图2.26)。重叠间的距离通常很短,因此大多数代表蛋白质的序列保留了其独特的编码功能。

图2.25 由于读码位点的不同,两种蛋白可以由一个基因编码。图2.26 两个基因也可能因阅读框的不同而表达出同种蛋白。

有些基因中,基因的选择性表达方式(Alternative pattern)可改变其外显子连接途径,使一个基因可能产生许多mRNA产物,它们之间有不同外显子。外显子或被保留或被剪切掉(或者被当作突变排除掉),二者其一被保留但不是全部。结果产生一部分相同而另一部分不同的蛋白质。图 2.27给出了选择性剪接(Alternative splicing)导致一个外显子在mRNA出现而在另一些中mRNA缺失的例子(由选择性剪接产生的其他类型的组合将在22章中讨论)。两种剪接方式。第一种方式除去两个内含,3个外显子连接在一起。第二种剪接中,外显子2未被识别,因此一个大的内含子被剪切掉。这个大内含子包括内含子1、外显子2和内含子2。实际上,在这剪接中外显子2被认为是内含子的一部分。这两种剪接途径产生了两端相同的两种蛋白质,但一种蛋白质在中间部分有额外的序列。因此这个DNA序列编码不止一种蛋白质。

有时两种剪接途径同时进行,每一种方式剪切一部分RNA;有时两种方式替换,在不同情况下采取不同的剪接方式,一个细胞类型中有一种剪接方式,而另一种细胞类型中采取另一剪接方式。

在某些情况下,选择性剪接并不影响蛋白质的序列。比如,只改变5′和3′非编码区,但会产生相同的蛋白质。在另一些情况下,也会发生一个外显子被另一个外显子代替现象(图2.28)。在这个例子中,两种mRNA翻译的蛋白质包含大段重叠序列,但其选择性剪接

区域是不同的。大鼠肌钙蛋白(Troponin) T基因的3′端包括5个外显子,但只有四个用于mRNA的构建。虽然三个外显子——WXZ表达模式一致,但上边模式中α外显子被剪接到XZ之间,而下边模式中β外显子被剪接到XZ之间。因此α型和β型肌钙蛋白T在序列WZ之间的氨基酸序列不同,取决于α和β外显子的替换模式。两者中的任何一个都可以形成独立的mRNA,但是二者不能同时用于一个mRNA中。

图2.27 选择性拼接是利用同一个RNA前体经不

图2.28 选择性拼接产生α型和β型肌钙蛋白。同的外显子组合而产生不同的mRNA。

因此选择性(或者不同的)剪接能从一个DNA序列中产生有重叠的蛋白质。高等真核基因组占据空间很大,其基因大而分散,从一个序列中可以产生多个产物正是其关键所在。很难具体说有多少基因具有选择性表达模式,估计数目大概在小百分比范围。

2.9 割裂基因是如何进化而来的?

现在割裂基因的原始形式是怎样的呢? 目前有两种模型,“内含子占先(Introns early)”模型支持内含子总是基因的整体部分。认为基因起始于割裂的结构,没有内含子的基因是在进化过程中丢失的。“内含子滞后(Introns late)”模型认为原始蛋白质编码单位由非割裂的DNA序列组成,内含子是随后插入进去的。

检验这些模型的方法是明确真核和原核基因的区别,是否等同于真核基因中内含子的获得或者原核基因中内含子的丢失。

内含子占先模型表明,基因的镶嵌结构是基因重组从而产生新蛋白质的一种原始方法。试想,早期细胞有许多不同的蛋白质编码区域,其进化的一个方面很可能是不同多肽链单位重新组合和并列,从而产生新的蛋白质。

如果蛋白质编码单位必须是连续的密码子序列,重新创造这种序列将需要精确的DNA 重组,从而使两个蛋白质编码单位并列,以同样的读码框头尾相接。并且,如果这种重组没有成功,却失去了原始的蛋白质编码单位,细胞必然受到破坏。

但是如果DNA重组能将两个蛋白质编码单元置于一个转录单位中,剪接模式将在RNA水平上获得突破,从而将两种蛋白质放在一条多肽链中。而且如果重组并不成功,原始的蛋白质编码单位仍能被应用。这种方法必然使细胞尝试限制RNA删除,而不至于在此过程中引起DNA稳定性破坏。

如果现在的蛋白质通过组合本来就分离的原始蛋白质来进化,单元增长很可能在随后的一段时间内发生,每次增加一个外显子。放置在一起的基因,可以从它们的结构中判断其不同功能吗?换言之,我们能够将当前蛋白质与个别外显子等同起来吗?

某些情况下,基因结构与蛋白质之间有明显的关系。一个很好的例子是免疫球蛋白,它是由每一个外显子与已知的蛋白功能区域相对应的基因编码的(图2.29)。免疫球蛋白是两条轻链和两条重链组成的四聚体,它们一起产生了具有几个不同区域的蛋白质。轻链和重链的结构不同,并且有几种类型的重链。每一类型的链都是由一系列的外显子表达的,外显子与蛋白质的结构域相一致。

图2.29 免疫球蛋白的重链和轻链基因的结构与其编码蛋白的结构域直接对应,每个蛋白的结构域对应一

个外显子。图中1-5为外显子。

有很多基因的外显子能够被确认有特定的功能。在分泌蛋白质中,第一个外显子编码多肽的N端结构域,能够识别跨膜分泌中涉及的信号序列,如胰岛素基因。

有时基因进化涉及外显子的复制,从而在蛋白质中产生整体复制的序列。例如,鸡胶原蛋白质的54bp外显子被多次复制,产生一系列54bp或其整数倍的外显子。

只有少部分相关基因间相同的序列可能代表外显子,这些外显子可在基因间转移或重新集结(Recruit)。例如人类膜低浓度脂蛋白(Plasma low density liproptein,LDL)受体和其他蛋白质的关系(图 2.30)。LDL受体基因中有一系列的外显子,它们与表皮生长因子(Epidermal growth factor,EGF)前体基因外显子相关。在蛋白质的N端,一系列外显子编

码与血液中C9补体(Complement factor)相关的序列。因此LDL受体基因是由广泛的功能单元重组而获得,这些单元也在其它蛋白质中使用。

图2.30 低密度脂蛋白(LDL)受体基因由18个外显子构成,其中一部分外显子参与编码表皮生长因子(EGF)的前体,还有一部分参与编码了C9血液补体。图中三角表示内含子的位置。注意在基因水平只有一部分外显子与表皮生长因子EGF前体中的待加工氨基酸顺序的位置完全相同。图2.31 珠蛋白基因的结构与其蛋白的结构域相对应,但是豆血红蛋白在其与结构域对应的区域却多了一个外显子。

在已知基因中,外显子和蛋白质的关系有时是不稳定的。有些情况下具有明确的1:1关系,但在其他情况下则未发现固定的模式。一种可能是内含子移除是与两端相邻的外显子是融合的。这就意味着这些内含子必须精确地移开,不改变编码区的完整性。另一种方式是某些内含子由插入连续的区域产生,但是携带的内含子还具有被剪切掉的能力。

外显子一般都很小(见图2.20),能够形成稳定折叠结构的最小多肽大约是20-40个氨基酸残基。很有可能蛋白质原本就是由这样小的结构单元组合而成。每个单元不需要与当前功能相关,或许几个单元一起产生一种功能。一般而言,基因中外显子的数量随着蛋白质长度的增加而增加,这与蛋白质通过连续增加适当的单元获得多种功能的观点一致。

这个观点能够说明蛋白质结构的另一个特点:代表外显子-内含子边界的位点通常位于蛋白质的表面。随着编码单元被加入到蛋白质中,连接物,至少是最新加入的单元,很可能位于蛋白质表面。

保守进化的一个有趣例子是珠蛋白(见图2.13),每个基因有三个外显子。两个内含子位于与编码区相邻的稳定位点上。中间的外显子代表珠蛋白链的血红素-结合域,α-和β-珠蛋白具有相似的结构。

解释这种结构的另一种观点可由与珠蛋白相关的其他两种蛋白质提供。肌球蛋白(Myoglobin)是动物中结合氧的蛋白质单体,它的氨基酸序列揭示了珠蛋白亚基的一个普遍

(但是古老)的起源。豆血红蛋白(Leghemoglobin)是豆科植物中氧-结合蛋白质,同肌球蛋白一样也是单体。它们与其他血红素结合蛋白具有共同的起源。珠蛋白、肌球蛋白和豆血红蛋白一起组成了珠蛋白超家族(Super family)——从同一个远古祖先遗传下来的基因家族。

肌球蛋白由人类基因组中单个基因编码,其结构与珠蛋白基因是一致的。三外显子结构说明了肌球蛋白和珠蛋白功能分离的进化。

豆血红蛋白包括三个内含子,第一个和最后一个位于与珠蛋白基因两个内含子位置同源的编码序列边缘位点。这种明显的相似性说明它可能是血红素结合蛋白以分裂基因出现的远古祖先(图2.31)。

豆血红蛋白中央的内含子使两个外显子分离,这两个外显子一起编码与珠蛋白中间外显子编码的对应序列。珠蛋白中央外显子可能来自于祖先基因的两个中间外显子融合吗?或者单个的中间基因就是祖先基因的形式呢?在这种情况下,一个内含子必须在植物进化开始就插入到基因内。

同源基因有不同的结构,这为它们的进化提供了线索,例如胰岛素基因(图2.32)。哺乳动物和鸟类,除啮齿动物外都只有一条胰岛素基因。比较不同物种相关基因组织结构的原理是,共同的特征可能暗示着两个物种进化分离的基因结构。在鸡中,一个胰岛素基因有两个内含子;小鼠中两个胰岛素基因,其中一个基因与鸡胰岛素有相同的结构。相同的结构暗示胰岛素祖先基因有两个内含子。但是,小鼠的第二个胰岛素基因只有一个内含子,必定由啮齿动物相关基因复制进化而来,复制中伴随着其拷贝中一个内含子被精确剔除。某些基因的组织形式说明了种属间差异巨大。在这些情况下,进化中必然有内含子的大量剔除和插入。

图2.32 小鼠(rat)胰岛素基因有Ⅰ、Ⅱ两种,Ⅱ型基因是Ⅰ型基因丢掉一个内含子而形成的。图2.33 各种生物之间肌动蛋白基因结构差别很大。图2中紫色小块儿代表内含子位点,最上方的数字表示被内含子阻断的密码子位置。

基因组学复习题

基因组学复习题 Prepared on 22 November 2020

第1章 1)什么是C-值悖理什么是N-值悖理 C-值悖理:生物基因组的大小同生物进化所处地位的高低无关的现象。 N-值悖理:基因数目与进化程度或生物复杂性的不对应性,称之为N值悖理 2)什么是序列复杂性 基因组中不同序列的DNA总长,用bp 表示。 3)RNA分子有哪些种类 mRNA tRNA rRNA scRNA snRNA snoRNA 小分子干扰RNA 4)不编码蛋白质的RNA包括哪些类型 tRNA rRNA scRNA snRNA snoRNA 小分子干扰RNA 5)什么是假基因假基因是如何形成的 来源于功能基因但已失去活性的DNA序列,有沉默的假基因,也有可转录的假基因。 产生假基因的原因有很多,如编码序列出现终止密码子突变,或者插入和缺失某些核苷酸使mRNA移码,造成翻译中途停止或者异常延伸,合成无活性的蛋白质。 6)假基因能否表达为什么 能,假基因相对于原来的基因已经失去功能但是可能产生新的功能。 最初人们认为, 假基因是不能转录的基因, 随着基因组数据的积累, 现在已知有不少假基因仍然保持转录的活性, 特别是起源于重复基因的假基因和获得启动子加工的假基因,但假基因的转录产物已失去原有的功能, 如产生残缺蛋白质。 7)如何划分基因家族什么是超基因家族 基因家族:将来自共同的祖先,因基因加倍或变异产生了许多在DNA序列组成上基本一致而略有不同的成员划分为一个基因家族。 超基因家族:起源于共同祖先,由相似DNA序列组成的许多基因亚家族或相似的基因成员构成的群体,它们具有相似的功能。 8)低等生物与高等生物基因组组成有何差别为什么会产生这些差别 低等生物:1)结构紧凑,一般不存在内含子(古细菌除外); 2)大小在5 Mb以下; 3)缺少重复序列; 4)很少非编码序列。

第九章基因工程和基因组学

第九章基因工程和基因组学 本章习题 1.什么是遗传工程?它在理论上和实践上有什么意义? 答:遗传工程是将分子遗传学的理论与技术相结合,用来改造、创建动物和植物新品种、工业化生产生物产品、诊断和治疗人类遗传疾病的一个新领域。 广义的遗传工程包括细胞工程、染色体工程、基因工程、细胞器工程等。狭义的遗传工程即是通常讲的基因工程。本章只涉及狭义的遗传工程,即基因工程。 理论意义:遗传工程(基因工程)中的DNA重组主要是创造自然界中没有的DNA分子的新组合,这种重组不同于精典遗传学中经过遗传交换产生的重组。 实践意义:遗传工程(基因工程)技术的建立,使所有实验生物学领域产生巨大的变革。在工厂化生产药品、疫苗和食品;诊断和治疗遗传疾病;培养转基因动植物等方面都有非常重大的意义,即基因工程技术已广泛用于工业、农业、畜牧业、医学、法学等领域,为人类创造了巨大的财富。(详见第10题)。 2.简述基因工程的施工步骤。 答:基因工程的施工由以下这些步骤: ⑴.从细胞和组织中分离DNA; ⑵.利用能识别特异DNA序列的限制性核酸内切酶酶切DNA分子,制备DNA 片段; ⑶.将酶切的DNA片段与载体DNA(载体能在宿主细胞内自我复制连接),构建重组DNA分子; ⑷.将重组DNA分子导入宿主细胞,在细胞内复制,产生多个完全相同的拷贝,即克隆; ⑸.重组DNA随宿主细胞分裂而分配到子细胞,使子代群体细胞均具有重组DNA分子的拷贝; ⑹.从宿主细胞中回收、纯化和分析克隆的重组DNA分子; ⑺.使克隆的DNA进一步转录成mRNA、翻译成蛋白质,分离、鉴定基因产物。

3.说明在DNA克隆中,以下材料起什么作用。 (1)载体;(2)限制性核酸内切酶;(3)连接酶;(4)宿主细胞;(5)氯化钠 答:⑴. 载体:经限制性酶酶切后形成的DNA片段或基因,不能直接进入宿主细胞进行克隆。一个DNA片段只有与适合的载体DNA连接构成重组DNA后,在载体DNA的运载下,才可以高效地进入宿主细胞,并在其中复制、扩增、克隆出多个拷贝。可作为DNA载体的有质粒、噬菌体、病毒、细菌和酵母人工染色体等。 ⑵. 限制性核酸内切酶:限制性核酸内切酶是基因工程的基石。在细菌中这些酶的功能是降解外来DNA分子,以限制或阻止病毒侵染。这种酶能识别双链DNA分子中一段特异的核苷酸序列,在这一序列内将双链DNA分子切断。 ⑶. 连接酶:将外源DNA与载体相连接的一类酶。 ⑷. 宿主细胞:能使重组DNA进行复制的寄主细胞。 ⑸. 氯化钠:主要用于DNA提取。在pH为8左右的DNA溶液中,DNA分子是带负电荷的,加入一定浓度的氯化钠,使钠离子中和DNA分子上的负电荷,减少DNA分子之间的同性电荷相斥力,易于互相聚合而形成DNA钠盐沉淀。另外,氯化钠也是细菌培养基的成分之一。 4.有一个带有氨苄青霉素和四环素抗性的质粒,在其四环素抗性基因内有一个该质粒惟一的EcoRI酶切点,今欲用EcoRI位点克隆果蝇DNA,构建一个基因库,连接的产物转化大肠杆菌菌株DH5 ,试问:⑴. 在培养基中加入哪一种抗生素用于选择阳性克隆?⑵. 对哪一种抗生素有抗性的质粒携带外源果蝇DNA片段?⑶. 如果有的克隆可抗两种抗生素,如何解释? 答:⑴.在培养基中加入四环素结合影印法可用于选择阳性克隆。 ⑵.对氨苄青霉素有抗性的质粒携带外源果蝇DNA片段。 ⑶.这种克隆是没有受到EcoRI酶解的原始质粒或这些克隆都是自连形成的非重组体。 5.在构建一个真核生物核DNA库时,需要考虑哪些因素? 答:核基因库是将某一生物的全部基因组DNA酶切后与载体连接构建而成的。通常方法是,尽量提取大分子量的核DNA,用限制性酶酶切后,分离选择具有一定长度(大于15kb)的DNA片断,与适宜的载体连接构成重组DNA分子,

SNP单核苷酸多态性检测技术

1定义: 单核苷酸多态性(single nucleotide polymorphism,SNP),主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。它是人类可遗传的变异中最常见的一种。占所有已知多态性的90%以上。SNP在人类基因组中广泛存在,平均每500~1000个碱基对中就有1个,估计其总数可达300万个甚至更多。SNP所表现的多态性只涉及到单个碱基的变异,这种变异可由单个碱基的转换(transition)或颠换(transversion)所引起,也可由碱基的插入或缺失所致。但通常所说的SNP并不包括后两种情况。单核苷酸多态性(SNP)是指在基因组上单个核苷酸的变异,包括置换、颠换、缺失和插入。所谓转换是指同型碱基之间的转换,如嘌呤与嘌呤( G2A) 、嘧啶与嘧啶( T2C) 间的替换;所谓颠换是指发生在嘌呤与嘧啶(A2T、A2C、C2G、G2T) 之间的替换。从理论上来看每一个SNP 位点都可以有4 种不同的变异形式,但实际上发生的只有两种,即转换和颠换,二者之比为2:1。SNP 在CG序列上出现最为频繁,而且多是C转换为T ,原因是CG中的C 常为甲基化的,自发地脱氨后即成为胸腺嘧啶。一般而言,SNP 是指变异频率大于1 %的单核苷酸变异。在人类基因组中大概每1000 个碱基就有一个SNP ,人类基因组上的SNP 总量大概是3 ×106个。依据排列组合原理,SNP 一共可以有6种替换情况,即A/ G、A/ T、A/ C、C/ G、C/ T 和G/ T ,但事实上,转换的发生频率占多数,而且是C2T 转换为主,其原因是Cp G的C 是甲基化的,容易自发脱氨基形成胸腺嘧啶T , Cp G 也因此变为突变热点。理论

ACE基因多态性

实验4 颊粘膜上皮细胞基因组DNA抽提及ACE基因多态性检测 [实验目的] 掌握从微量来源的组织细胞中抽提基因组DNA,掌握PCR技术原理,了解基因多态性分析的方法。 [实验原理] 用碱裂解法抽提基因组DNA。以DNA为模板,用血管紧张素转化酶(angiotensin converting enzyme, ACE)基因特异的引物进行PCR扩增,根据PCR扩增片段的大小进行多态性分析。ACE基因第16内含子存在一种长度为287bp片段的插入/缺失(I/D)多态性,人类存在II、ID、DD三种基因型,其频率在人种间有差异。I/D多态性与循环ACE水平有明确的关系,DD型ACE水平最高,ID次之,II最低。ACE基因I/D 多态性与左室肥大(left ventricular hypertrophy, LVH)的关系是:LVH者DD型频率明显增高。本实验引物序列位于287bp片段的两侧,扩增片段包括插入/缺失的片段,故II型扩增片段长度为490bp,DD型扩增片段长度为190bp,ID型扩增片段为2个,分别为190bp和490bp。 图2. ACE基因的PCR扩增电泳图

[操作] 1. 基因组DNA抽提 (1) 10 ml溶液I漱口20秒, 收集漱口水; (2) 3000g室温离心5分钟,弃上清; (3) 250 ul溶液II重悬沉淀;3000 g离心1分钟,弃上清; (4) 重悬沉淀于250 ul溶液Ш,振荡10秒; (5) 转移至0.5 ml离心管, 99℃加热5分钟; (6) 用50 ul溶液IV中和并振荡5秒; 3000 g离心1分钟去除细胞碎片,上清转移至0.5 ml离心管,保留上清,5 ul用于PCR. 2. PCR反应 (1) 取消毒的0.5 ml微量离心管,加入下列成分: 10×PCR Buffer 2.5μl dNTP(2.5 mM each) 2μl DNA模板5μl 引物混合物(10μM each) 2μl ddH2O 13μl Taq DNA polymerase 0.5μl 总体系25ul 混匀,加石蜡油2滴。 (2)进行PCR扩增,扩增程序为:94℃变性30sec,55℃复性30sec,72℃延伸40sec,共反应35个循环。

基因工程和基因组学

第九章基因工程和基因组学 (一) 名词解释: 基因工程 1.标记基因:指与目标性状紧密连锁、同该性状共同分离且易于识别的可遗传的等位基因变异。 2.cDNA库:是以mRNA为模板,经反转录酶合成互补DNA构建的基因库。 3.克隆(无性繁殖系)选择学说:一个无性繁殖系是指从一个祖先通过无性繁殖方式产生的后代, 是具有相同遗传性状的群体。经过选择培养,可以获得无性系变异体,但其遗传性状不一定有差异,在适当的培养条件下可产生逆转。 4.基因组:一个物种的单倍体细胞中所含有的遗传物质的总和称为该物种的基因组。 5.遗传多态现象:同一群体中存在着两种以上变异的现象。通常不同变异型间易于区别,不存在中 间类型,而且遗传方式清楚。例如人的ABO血型就是遗传多态,这个血型系统由同一基因座上的3个等位基因决定,各型间区分明确,在同一地区有一定的频率分布。 6.基因芯片:所谓基因芯片,是指利用大规模集成电路的手段,控制固相合成成千上万个寡核苷酸 探针,并把它们有规律地排列在指甲大小的硅片上,然后将要研究的材料,如DNA或cDNA用荧 光标记后在芯片上与探针杂交,再通过激光共聚焦显微镜对芯片进行扫描,并配合计算机系统对每一个探针上的荧光信号作出比较和检测,从而迅速得出所需的信息。 7.BAC文库(bacterial artificial chromosome,细菌人工染色体文库):BAC是人工染色体的一 种,是以细菌F因子(细菌的性质粒)为基础组建的细菌克隆体系。 8.Ti质粒:在根瘤土壤杆菌细胞中存在的一种染色体外自主复制的环形双链DNA分子,称为Ti质 粒,它控制根瘤的形成,Ti是英文tumor-inducing(肿瘤的诱发)的略语。可作为基因工程的 载体。 9.穿梭载体(shuttle vector):指既能在真核细胞中繁殖,又能在原核细胞中繁殖的载体。它既 含有原核细胞的复制原点,又含有真核生物的复制原点,而且又具备可利用的酶切位点和合适的筛选指标。 (二) 是非题: 1.限制性内切酶EcoRI对一定核甘酸顺序的切割位点是G↓AATTC CTTAA↑G。(+) 2.CTTGAA可以是限制性内切酶的的识别序列。(-) 3.限制与修饰现象是宿主的一种保护体系,它是通过对外源DNA的修饰和对自身DNA的限制实现的。 (-) 4.限制性图谱与限制性片段长度多态性(RFLP)图谱的最显著的区别在于前者是一个物理图谱而后 者是一个连锁图。(+) 5.已知某一内切核酸酶在一环状DNA上有3个切点,因此,用此酶切割该环状DNA,可以得到3个 片段。(+) 6.迄今所发现的限制性内切核酸酶既能作用于双链DNA,又能作用于单链DNA。(-) 7.能够在不同的宿主细胞中复制的质粒叫穿梭质粒。(+) 8.只有完整的复制子才能进行独立复制,一个失去了复制起点的复制子不能进行独立复制。(+)

基因组学复习题

第1章1)什么是C-值悖理什么是N-值悖理 C-值悖理:生物基因组的大小同生物进化所处地位的高低无关的现象。 N-值悖理:基因数目与进化程度或生物复杂性的不对应性,称之为N值悖理 2)什么是序列复杂性? 基因组中不同序列的DNA总长,用bp 表示。 3)RNA分子有哪些种类 mRNA tRNA rRNA scRNA snRNA snoRNA 小分子干扰RNA 4)不编码蛋白质的RNA包括哪些类型 tRNA rRNA scRNA snRNA snoRNA 小分子干扰RNA 5)什么是假基因假基因是如何形成的 来源于功能基因但已失去活性的DNA序列,有沉默的假基因,也有可转录的假基因。 产生假基因的原因有很多,如编码序列出现终止密码子突变,或者插入和缺失某些核苷酸使mRNA移码,造成翻译中途停止或者异常延伸,合成无活性的蛋白质。 6)假基因能否表达?为什么 能,假基因相对于原来的基因已经失去功能但是可能产生新的功能。 最初人们认为, 假基因是不能转录的基因, 随着基因组数据的积累, 现在已知有不少假基因仍然保持转录的活性, 特别是起源于重复基因的假基因和获得启动子加工的假基因,但假基因的转录产物已失去原有的功能, 如产生残缺蛋白质。 7)如何划分基因家族?什么是超基因家族 基因家族:将来自共同的祖先,因基因加倍或变异产生了许多在DNA序列组成上基本一致而略有不同的成员划分为一个基因家族。 超基因家族:起源于共同祖先,由相似DNA序列组成的许多基因亚家族或相似的基因成员构成的群体,它们具有相似的功能。 8)低等生物与高等生物基因组组成有何差别为什么会产生这些差别 低等生物:1)结构紧凑,一般不存在内含子(古细菌除外); 2)大小在5 Mb以下; 3)缺少重复序列;

第二章基因组结构与功能练习题(附答案)

第二章基因与基因组结构与功能 (一)选择题 A型题 1.原核生物染色体基因组是 A.线性双链DNA分子 B.环状双链DNA分子 C.线性单链DNA分子 D.线性单链RNA分子 E.环状单链DNA分子 2.真核生物染色体基因组是 A.线性双链DNA分子 B.环状双链DNA分子 C.线性单链DNA分子 D.线性单链RNA分子 E.环状单链DNA分子 3.有关原核生物结构基因的转录,叙述正确的是 A.产物多为多顺反子RNA B.产物多为单顺反子RNA C.不连续转录 D.对称转录 E.逆转录 4.原核生物的基因组主要存在于 A.质粒 B.线粒体 C.类核 D.核糖体 E.高尔基体 5.下列有关原核生物的说法正确的是 A.原核生物基因组DNA虽然与蛋白结合,但不形成真正的染色体结构B.结构基因中存在大量的内含子 C.结构基因在基因组中所占比例较小 D.原核生物有真正的细胞核 E.基因组中有大量的重复序列 6.下列有关原核生物的说法不正确的是 A.原核生物的结构基因与调控序列以操纵子的形式存在 B.在操纵子中,功能上关联的结构基因串联在一起 C.在一个操纵子内,几个结构基因共用一个启动子 D.操纵元件也是结构基因 E.基因组中只存在一个复制起点 7.真核生物染色质中的非组蛋白是 A.碱性蛋白质 B.序列特异性DNA结合蛋白 C.识别特异DNA序列的信息存在于蛋白上

D.不能控制基因转录及表达 E.不参与DNA分子的折叠和组装 8.真核生物染色质的基本结构单位是 A.α-螺旋 B.核小体 C.质粒 D.?-片层 E.结构域 9.关于真核生物结构基因的转录,正确的说法是A.产物多为多顺反子RNA B.产物多为单顺反子RNA C.不连续转录 D.对称转录 E.新生链延伸方向为3'→5' 10.外显子的特点通常是 A.不编码蛋白质 B.编码蛋白质 C.只被转录但不翻译 D.不被转录也不被翻译 E.调节基因表达 11.下列有关卫星DNA说法错误的是 A.是一种高度重复序列 B.重复单位一般为2~10 bp C.重复频率可达106 D.能作为遗传标记 E.在人细胞基因组中占5%~6%以上 12.下列有关真核生物结构基因的说法不正确的是A.结构基因大都为断裂基因 B.结构基因的转录是不连续的 C.含有大量的重复序列 D.结构基因在基因组中所占比例较小 E.产物多为单顺反子RNA 13.染色体中遗传物质的主要化学成分是 A.组蛋白 B.非组蛋白 C.DNA D.RNA E.mRNA 14.真核生物染色质中的组蛋白是 A.酸性蛋白质 B.碱性蛋白质 C.一种转录因子 D.带负电荷 E.不带电荷

第2章从基因到基因组

第二章从基因到基因组 我们可以从几个水平上解决基因和基因组的作图问题。遗传(或者连锁)图谱(Genetic map )以重组率来确定突变之间的距离,其局限性在于它依赖于影响表型的突变。由于重组率与位点的物理距离并不一致,因此不能准确的代表遗传物质。连锁图谱(Linkage map)也可以通过测定基因组DNA位点的重组率获得。这些位点有序列的改变,从而改变了被特定限制性酶切割的适应性。这种变化非常普遍,因此无论突变是否发生,任何生物都可以获得连锁图谱。连锁图谱的不足之处与遗传图谱相似,即相对距离依赖于重组。 限制性图谱(Restriction map)是用限制性内切酶将DNA切割成片段,然后测定片段之间的距离建立的。它以DNA的长度来代表距离,因此为遗传物质提供了物理图谱。限制性图谱未能确定遗传性取得独特位点,要使其与遗传图谱相联系,必须选择能影响酶切位点的突变。基因组上较大的改变能影响限制性片段的大小和数量,易于识别。点突变则很难被发现。 终极图谱(ultimate map)是确定DNA的序列,从序列中可以确定基因和它们间的距离。通过分析一个DNA序列的阅读框架,可以推测它是否编码蛋白质。这里基本的推测是自然选择阻止了编码蛋白质序列中破坏性突变的聚集。与此相反,可以假定整个编码序列实际上很可能用来产生蛋白质。 通过比较野生型DNA和其突变型等位基因,可以确定突变的实质和它确切的位点,从而定义遗传图谱(完全依赖于突变的位点)和物理图谱(取决于DNA序列组成)的关系。 相似的技术也用于确认DNA和测序,以及基因组作图,尽管存在一定程度上的不同。其原理是获得一系列重叠的DNA片段,能组成一个连续的图谱。通过片之间的重叠,使每一个片段都是与另一个片段相联系,确保没有片段丢失。这个原理也用于限制性片段排序作图以及连接片段间的序列。 遗传图谱对分析基因组和单个基因都很重要,因此我们在研究基因结构之前先简单回顾一下该原理的应用。在下一节中,讨论在连锁图谱中的应用。使我们了解个别基因间的分子组织及其关系,确定引起疾病的基因突变位置上。在第三章,我们考虑基因组的整体组成以及它的基因总数量。 2.1 基因可用限制性内切酶切割作图 分离DNA片段后,要获得其序列信息首先须在分子水平上建立核苷酸图谱。任何DNA 都可以通过在限制位点将其切开,测定这些位点间的距离,从而绘制出物理图谱。限制性内切酶(Restriction enzyme)能识别双链DNA上的特定靶序列,进行特异性切割。每一种限制性酶切酶在DNA双链上有一个特定的靶序列,通常是由4-6个碱基组成的特定序列。酶可在每一个靶序列出现的位点上切割。不同的限制性内切酶识别不同的靶序列,现在可以获得多限制性内切酶(从大范围的细菌中获得)。 一个限制图谱代表特定限制酶识别靶位点的线性序列。限制图谱中的距离直接用碱基对(简写bp)来测量,而较长的距离用kb表示,指DNA中1000个碱基对或者RNA中1000

第二章 人类基因

第二章人类基因 一、教学大纲要求 1.掌握基因、断裂基因、基因组、密码子与反密码子等概念,基因的化学本质,DNA 分子结构及其特征,基因的分类,基因组组成,基因复制,基因表达,RNA编辑及其意义,人类基因组计划,结构基因组学及其研究内容,后基因组计划及其研究内容; 2.熟悉基因概念的演变,断裂基因的结构特点,遗传密码的通用性与兼并性,基因表达的控制; 3.了解人类基因组计划已取得的成就。 二、习题 (一)A型选择题 1.常染色质是指间期细胞核中 A.螺旋化程度高,具有转录活性的染色质B.螺旋化程度低,具有转录活性的染色质C.螺旋化程度低,没有转录活性的染色质D.旋化程度高,没有转录活性的染色质E.螺旋化程度低,很少有转录活性的染色质 2.一个正常男性核型中,具有随体的染色体是 A.端着丝粒染色体B.中央着丝粒染色体 C.亚中着丝粒染色体D.近端着丝粒染色体(除Y染色体)E.Y染色体 3.基因表达时,遗传信息的基本流动方向是 A.RNA→DNA→蛋白质B.hnRNA→mRNA→蛋白质 C.DNA→mRNA→蛋白质D.DNA→tRNA→蛋白质 E.DNA→rRNA→蛋白质 4.断裂基因转录的过程是 A.基因→hnRNA→剪接、加尾→mRNA B.基因→hnRNA→剪接、戴帽→mRNA C.基因→hnRNA→戴帽、加尾→mRNA D.基因→hnRNA→剪接、戴帽、加尾→mRNA E.基因→Mrna 5.遗传密码表中的遗传密码是以以下何种分子的5′→3′方向的碱基三联体表示 A.DNA B.RNA C.tRNA D.rRNA E.mRNA 6.在人类基因组计划中我国承担了哪一个染色体的序列分析工作 A.3号短臂B.4号短臂C.5号短臂D.6号短臂E.7号短臂7.人类基因组计划物理图研究所用的位标是 A.STR B.RFLP C.SNP D.STS E.EST 8.真核生物基因表达调控的精髓为 A.瞬时调控B.发育调控C.分化调控D.生长调控E.分裂调控9.RNA聚合酶Ⅱ主要合成哪一种RNA A.tRNA B.mRNA前体C.rRNA D.snRNA E.mRNA 10.遗传密码中的4种碱基一般是指 A.AUCG B.ATUC C.AUTG D.ATCG E.ACUG

第十一章 基因工程和基因组学

第十一章基因工程和基因组学[关闭窗口] 本章习题 1.解释下列名词:基因工程、限制性内切酶、限制、粘性末端、重组DNA分子、运载工具、质粒、核基因库、染色体基因库、cDNA库、人工合成基因、植物基因转化、DNA芯片技术、分子标记辅助选择、基因组学、蛋白质组学、生物信息学。 2.什么是遗传工程?它在理论上和实践上有什么意义? 3.简述基因工程的施工步骤。 4.说明在DNA克隆中,以下材料起什么作用。 (1)载体;(2)限制性核酸内切酶;(3)连接酶;(4)宿主细胞;(5)氯化钠 5.有一个带有氨苄青霉素和四环素抗性的质粒,在其四环素抗性基因内有一个该质粒惟一的EcoRI酶切点,今欲用EcoRI 位点克隆果蝇DNA,构建一个基因库,连接的产物转化大肠杆菌菌株DH5 ,试问:⑴. 在培养基中加入哪一种抗生素用于选择阳性克隆?⑵. 对哪一种抗生素有抗性的质粒携带外源果蝇DNA片段?⑶. 如果有的克隆可抗两种抗生素,如何解释? 6.在构建一个真核生物核DNA库时,需要考虑哪些因素? 7.根据下列凝胶电泳分析的结果,构建一个限制性酶图谱,并表明酶切位点及片段的碱基数,片段总长度为1300bp。电泳分析结果如下: 8.在下列6种限制性酶图谱中,有一种排列方式与凝胶电泳的带型是一致的。3种酶分别是:E:EcoRI、N:NcoI、A:AatII。

试回答: ⑴.根据电泳中DNA带型,选择正确的图谱并说明原因。 ⑵.在将这块凝胶转移后进行Southern杂交分析,带星点的是与pep基因杂交的信号带,说明pep在图谱中的位置。 9.简述将除草剂基因转移到植物基因组的过程。 10.简述基因组遗传图谱与物理图谱的异同。 11.简述基因工程在工、农、医三方面的成就及发展前景。 参考答案[关闭窗口] 第十一章基因工程和基因组学[关闭窗口] 参考答案 1.解释下列名词:基因工程、限制性内切酶、限制、粘性末端、重组DNA分子、运载工具、质粒、核基因库、染色体基因库、cDNA库、人工合成基因、植物基因转化、DNA芯片技术、分子标记辅助选择、基因组学、蛋白质组学、生物信 息学。 答:基因工程:在分子水平上,采取工程建设方式,按照预先设计的蓝图,借助于实验室技术将某种生物的基因或基因组转移到另一种生物中去,使外源基因正确表达,定向获得新遗传性状的一门技术。 限制性内切酶:一种水解DNA的磷酸二脂酶,遗传工程中重要工具。 限制:降解外源DNA,防御异源遗传信息进入的手段。 粘性末端:指遗传工程中,酶解时所产生的带有互补碱基配对顺序、可以自动接合成为环状DNA的单链尾巴。 重组DNA分子:基因工程中用限制性内切酶切割"目的"基因和载体DNA分子后,使两者都产生粘性末端,再把两者 连接起来形成DNA分子。 运载工具:将“目的”基因导入受体细胞的运载工具。 质粒:细菌细胞内独立于细菌染色体而自然存在的、能自我复制、易分离和导入的环状双链DNA分子。质粒具有重组 表型检测标记,检测是否携带外源DNA片段。 核基因库:将某生物全部基因组DNA酶切后与载体连接构建而成的基因库。理想的核基因库应能包括全部基因组序列。 染色体基因库:将基因组的一部分如一条染色体构建而成的基因库,可选择特异基因以及分析染色体结构和组织。 cDNA库:以mRNA为模板,经反转录酶合成互补DNA构建而成的基因库。 人工合成基因:根据已知的基因或氨基酸序列,将化学合成寡核苷酸的方法与酶促合成DNA的方法相结合合成的基因。

基因组总结终极版

1、什么是基因组学?基因组学有哪些特点? 答:基因组学即基因组生物学,是研究生命遗传物质和其生物学规律的学问。基因组学的研究对象是基因组结构特征、变演规律和生物学意义。 特点:(1)Genome sciences are sequence-based (2)Genome sciences are data-guided (not so hypothesis-driven) (3)Genome sciences is a systematic approach 2、什么是模式生物? 答:生物学家通过对选定的生物物种进行科学研究,用于揭示某种具有普遍规律的生命现象,这种被选定的生物物种为模式生物。在人类基因组计划中,包括对五种生物基因组的研究:大肠杆菌、酵母、线虫、果蝇和小鼠,称之为人类的五种“模式生物”。 3、人类基因组计划是哪一年完成的?在科学上有什么意义? 答:2000年完成了人类基因组“工作框架图”。2001年公布了人类基因组图谱及初步分析结果。 意义:人类基因组计划与曼哈顿原子弹计划和阿波罗计划并称为三大科学计划。对生命科学的研究和生物产业的发展具有非常重要的意义,它为人类社会带来的巨大影响是不可估量的。 首先,获得人类全部基因序列将有助于人类认识许多遗传疾病以及癌症等疾病的致病机理,为分子诊断、基因治疗等新方法提供理论依据。 第二,破译生命密码的人类基因组计划有助于人们对基因的表达调控有更深入的了解。 4、基因组学的发展方向是什么? 答:近年来比较基因组学和动态基因组学的不断发展,使得基因组学的应用越来越广泛,向其他学科、领域逐渐渗透的趋势日趋明显,涵盖了现代农业、生态环境、结构、进化、药物、法医、营养、人类健康等各个方面。随着各种技术水平的进步,基因组学的发展前景必将更加广阔。 5、三大公共DNA数据库是什么? 答:GenBank,DDBJ,EMBL 6、什么是一级数据库和二级数据库? 答:一级数据库的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释,其内容由提交者提供、控制。如GenBank,SNP,GEO。 二级数据库是在一级数据库的基础上衍生而来,是对生物学知识和信息的进一步整理,其内容由第三方(NCBI)整理、控制。如Refseq,TPA,UniGene。 7、什么是NCBI的Refseq?什么是UniGene?UniGene与Refseq的区别与联系? 答:Refseq数据库提供非冗余,高质量,经检验校正的序列信息,并为每个序列提供一个accession number UniGene数据库基于MegaBlast自动将序列聚类,剔除冗余部分,形成gene clusters,每一个gene cluster提供单一基因的信息,包括基因表达的组织类型和图谱定位信息,已知的基因序列和尚未了解的ESTs。有助于发现新基因及选择图谱绘制试剂。 联系:均为NCBI建立的二级数据库 区别:Refseq提供染色体、基因组、蛋白质、RNA等的序列 UniGene提供的是基因的序列和ESTs信息 8、GEO是什么类型的数据库,主要包含什么类型数据? 答:GEO是基因表达序列数据库 数据类型:expression profiling;

基因组学复习题

第1章 1)什么是C-值悖理?什么是N-值悖理? C-值悖理:生物基因组的大小同生物进化所处地位的高低无关的现象。 N-值悖理:基因数目与进化程度或生物复杂性的不对应性,称之为N值悖理 2)什么是序列复杂性? 基因组中不同序列的DNA总长,用bp 表示。 3)RNA分子有哪些种类? mRNA tRNA rRNA scRNA snRNA snoRNA 小分子干扰RNA 4)不编码蛋白质的RNA包括哪些类型? tRNA rRNA scRNA snRNA snoRNA 小分子干扰RNA 5)什么是假基因?假基因是如何形成的? 来源于功能基因但已失去活性的DNA序列,有沉默的假基因,也有可转录的假基因。 产生假基因的原因有很多,如编码序列出现终止密码子突变,或者插入和缺失某些核苷酸使mRNA移码,造成翻译中途停止或者异常延伸,合成无活性的蛋白质。 6)假基因能否表达? 为什么? 能,假基因相对于原来的基因已经失去功能但是可能产生新的功能。 最初人们认为, 假基因是不能转录的基因, 随着基因组数据的积累, 现在已知有不少假基因仍然保持转录的活性, 特别是起源于重复基因的假基因和获得启动子加工的假基因,但假基因的转录产物已失去原有的功能, 如产生残缺蛋白质。 7)如何划分基因家族? 什么是超基因家族? 基因家族:将来自共同的祖先,因基因加倍或变异产生了许多在DNA序列组成上基本一致而略有不同的成员划分为一个基因家族。 超基因家族:起源于共同祖先,由相似DNA序列组成的许多基因亚家族或相似的基因成员构成的群体,它们具有相似的功能。 8)低等生物与高等生物基因组组成有何差别?为什么会产生这些差别? 低等生物:1)结构紧凑,一般不存在内含子(古细菌除外); 2)大小在5 Mb以下; 3)缺少重复序列; 4)很少非编码序列。 高等生物:1)结构松弛,含有大量重复序列;

第二章基因和染色体的关系

第二章基因和染色体的关系 第三节伴性遗传 教材内容分析: 《伴性遗传》这一节,是新课标教材必修二第二章第三节内容,总结伴性遗传的特点和规律。学生在学习伴性遗传之前,以学习过减数分裂和性别决定的知识,已经掌握基因分离规律和自由组合规律。在已有的知识基础之上,通过红绿色盲的调查活动及结合课堂的探究活动,对伴性遗传现象进行分析和总结。 一、教学目标 1.知识与技能:概述伴性遗传的特点。运用资料分析的方法,总结人类红绿色盲症的遗传规律。举例说明伴性遗传在实践中的应用。 2.过程与方法:学会运用资料分析的方法。通过遗传习题的训练,使学生掌握伴性遗传的特点,应用规律解决实际问题,熟悉解答遗传问题的技能、技巧。 3.情感态度价值观:通过学习和理解伴性遗传的传递规律培养学生辩证唯物主义的思想。 二、教学重点、难点 1. 教学重点:XY型性别决定方式。人类红绿色盲的婚配方式及伴性遗传的规律。 2.教学难点:人类红绿色盲的婚配方式和伴性遗传规律 三、课时安排: 1课时。 四、教学方法:讲授、谈话和复习。 五、学生活动:指导学生,阅读教材,回答相关问题。 六、教学过程: (一)、引课: 教师:今天我们要讲的内容是伴性遗传,我们在体检中都需检查到的一项指标——色盲。就像这幅图,它是检查红绿色盲的,如看不到图片的同学也可以到前面来看,请大家一起告诉我看到了什么? 学生:辨认、识图,说出图上是什么。(学生均能辨认出来)

老师:很好,那现在我想问问同学们,为什么体检时要检查红绿色盲,这种病在日常生活中有什么影响? 学生:红绿灯分不清……. 老师:同学们说的很好,红绿色盲患者对红色、绿色分不清,因此,患者不适合当司机,交通信号是红灯和绿灯,无法判断是停车还是通行。世界上还有一些极个别的全色盲,在这种病人的眼里世界上任何物体只有明和暗的区别,根本看不到其它任何颜色,病人看彩电就象看黑白电视一样。调查发现,红绿色盲病患者男性多于女性。 学生:女生高兴,男生惊讶。 老师:现在大家看到的这幅图是抗维生素D佝偻病患儿,这种病将近周岁时下肢开始负重,才发现症状,开始发病常以"O"形腿或"X"型腿为最早症状。常常不被家长注意。较重病例有进行性骨畸形和多发性骨折,并有伴有骨骼疼痛,尤以下肢明显,甚至不能行走。调查发现,这种病患者女性多于男性。 学生:男生高兴,女生惊讶。 教师:为什么这两种病的遗传总是和性别相关联,但表现又不相同?我们就通过这节课来共同学习遗传病与性别的关系。 (二)新课 老师:现在同学们翻到课本P33,给大家两分钟的时间阅读人类红绿色盲症,并说出什么叫伴性遗传。 【板书】:(一)伴性遗传 1、伴性遗传的概念: 2、红绿色盲遗传 老师:现在请一位同学来回答之前的问题。 学生:伴性遗传是指,性染色体上的基因,它的遗传方式与性别相联系。 老师:很好,这位同学说出了什么叫做伴性遗传,那么伴性遗传有什么特点呢?我们来看一下下面这个系谱。这个系谱是一个典型的红绿色盲系谱。

最新基因组学试题

2017基因组学试题 1.什么是基因组(5分)?什么是转录组(5分),简述基因组和转录组的关系和异同 之处(15分)? 基因组(Genome):在生物学中,一个生物体的基因组是指包含在该生物的DNA(部分病毒是RNA)中的全部遗传信息,这种遗传信息以核苷酸序列形式存储。基因组包括基因和非编码DNA。因此,基因组应该指单倍体细胞中包括编码序列和非编码序列在内的全部DNA分子。说的更确切些,核基因组是单倍体细胞核内的全部DNA分子;线粒体基因组则是一个线粒体所包含的全部DNA分子;叶绿体基因组则是一个叶绿体所包含的全部DNA分子。 转录组(transcriptome):广义上指某一生理条件下,细胞内所有转录产物的集合,包括信使RNA、核糖体RNA、转运RNA及非编码RNA;狭义上指所有细胞中转录出的所有信使RNA的集合。 转录组和基因组之间的关系:转录组是通过基因组序列在转录因子的调控下转录形成,但并不是所有的基因都能够转录形成RNA,且基因组中序列的转录并不同步,不同组织差异和不同发育阶段基因组的转录情况不同。 基因组和转录组的不同之处:基因组是生物体(细胞或病毒)中所有DNA的总和,包括所有的基因和基因间区域,包括染色体之外的遗传物质,如线粒体、叶绿体、质粒等。基因组在物种内恒定,生物体或细胞内恒定,没有时空变化,但是存在一定的特例,例如盲鳗的性细胞和体细胞DNA量存在差异,部分昆虫的性细胞和体细胞染色体数目存在差异,动物的雌雄个体之间存在差异。 2.原核生物基因组相比,真核生物基因组的复杂性表现在哪些方面(15分)? 原核生物基因组小,结构简单,只有一个环状DNA,一个复制起始点,有操纵子结构,结构基因无重叠现象,基因组中任何一个DNA不会用于编码两种蛋白质,基因是连续的,无内含子,转录后不剪接,重复序列少,蛋白质基因一般为单拷贝基因,但编码rRNA

基因多态性及其生物学作用和医学意义.doc

基因多态性及其生物学作用和医学意义 一、基因多态性: 多态性(polymorphism)是指处于随机婚配的群体中,同一基因位点可存在2种以上的基因型。在人群中,个体间基因的核苷酸序列存在着差异性称为基因(DNA)的多态性(gene polymorphism)。这种多态性可以分为两类,即DNA位点多态性(site polymorphism)和长度多态性(longth polymorphism)。 1.位点多态性:是由于等位基因之间在特定的位点上DNA序列存在差异,也就是基因组中散在的碱基的不同,包括点突变(转换和颠换),单个碱基的置换、缺失和插入。突变是基因多态性的一种特殊形式,单个碱基的置换又称为单核苷酸多态性(single nucleotide polymorphism, SNP), SNP通常是一种二等位基因(biallelic)或二态的变异。据估计,单碱基变异的频率在1/1000-2/1000。SNP在基因组中数量巨大,分布频密,检测易于自动化和批量化,被认为是新一代的遗传标记。 2. 长度多态性:一类为可变数目***重复序列(variable number of tandem repeats, VNTRS),它是由于相同的重复顺序重复次数不同所致,它决定了小卫星DNA(minisatellite)长度的多态性。小卫星是由15-65 bp的基本单位***而成,总长通常不超过20bp,重复次数在人群中是高度变异的。另一类长度多态性是由于基因的某一片段的缺失或插入所致,如微卫星DNA(microsatellite),它们是由重复序列***构成,基本序列只有1-8bp,如(TA)n及(CGG)n 等,通常重复10-60次。长度多态性是按照孟德尔方式遗传的,它们在基因定位、DNA指纹分析,遗传病的分析和诊断中广泛地应用。 造成基因多态性的原因:1复等位基因(multiple allele)位于一对同源染色体上对应位置的一对基因称为等位基因(allele)。由于群体中的突变,同一座位的基因系列称为复等位基因。某些复合体基因的每一座位都存在为数众多的复等位基因,这是某些复合体(HLA)高度多态性的最主要原因。2共显性(condominance)一对等位基因同为显性,称为共显性,某些复合体中如HLA每一对等位基因匀为共显性。共显性大大增加了人群中某些基因表型的多样化。基因的多态性显示了遗传背景的多样性和复杂性。它可能是人类在进化过程中抵御不良环境因素的一种适应性表现,对维持种群的生存与延续具有重要的生物学意义。 二、基因多态性的生物学作用: 1.遗传密码的改变:如果基因多态性的碱基的取代、缺失、插入引编码序列的核苷酸顺序改变,在转录和翻译合成蛋白质的过程中,有的对多肽链中氨基酸的排列顺序产生影响,有的不产生影响。可分为:错义突变(missense mutation)指DNA分子中碱基对的取代,使得mRNA的某一密码子发生变化,由他所编码的氨基酸就变成另一种不同的氨基酸,使得多肽链中氨基酸的顺序也相应地发生改变。无义突变(nonsense mutation)指由于碱基取代使原来可翻译某种氨基酸的密码子变成了终止密码子。例如UAU(氨酸)颠换成UAA(终止密码子)使多肽链的合成到此终止,形成一条不完整的多肽链,使蛋白质的生物活性和功能改变。转换也可引起无义突变。同义突变(same sense mutation)指碱基的取代并不都是引起错义突变和翻译终止,也就是虽然碱基被取代了,但蛋白质水平上没有引起变化,氨基酸没有被取代。移码突变(frame-shifting mutation)指在编码序列中单个碱基、数个碱基的缺失或插入,

DNA多态性分析结果

Input Data File: C:\...\COX5F7R(CCZZ742bp).txt Number of sequences: 12 Number of sequences used: 12 Selected region: 1-742 Number of sites: 742 Total number of sites (excluding sites with gaps / missing data): 742 Sites with alignment gaps or missing data: 0 Invariable (monomorphic) sites: 598 Variable (polymorphic) sites: 144 (Total number of mutations: 145) Singleton variable sites: 0 Parsimony informative sites: 144 Singleton variable sites (two variants): 0 Parsimony informative sites (two variants): 143 Site positions: 6 9 10 27 42 43 45 46 51 54 66 69 78 81 93 99 117 123 126 138 141 144 147 150 177 186 193 195 207 210 211 216 219 222 238 249 252 255 258 264 268 270 276 279 288 303 312 315 318 324 333 342 345 348 351 354 360 369 376 384 391 405 406 407 408 409 412 424 432 433 434 435 445 446 447 456 468 483 495 496 507 510 528 531 537 539 540 543 544 545 546 552 556 561 564 565 567 570 583 591 594 595 600 601 609 612 613 615 621 623 625 627 628 630 633 645 654 655 657 666 669 672 675 682 689 690 691 693 696 702 709 710 711 714 720 726 729 730 732 735 738 740 741 Singleton variable sites (three variants): 0 Parsimony informative sites (three variants): 1 Site positions: 204 Variable sites (four variants): 0

相关文档
最新文档