《基因组学》课程总结
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
《基因组学》这门课程主要包含基因组和基因组研究两大部分。
基因组部分主要介绍基因组的基础知识,基因组研究重点介绍基因组研究的方法和进展,重点介绍结构基因组、功能基因组和比较基因组的内容。
1 基因组
基因组指一种生物所拥有的整套遗传物质,它包含该生物的全部遗传信息。
绝大多数生物都以脱氧核糖核酸(DNA)为遗传物质,仅有一些病毒以核糖核酸(RNA)为遗传物质。
DNA是由4种脱氧核苷酸残基按一定顺序彼此用3′,5′-磷酸二酯键相连构成的长链。
大多数DNA是由两条多聚脱氧核苷酸链以极性相反,反向平行的方式,由氢键连接而成的双螺旋结构。
也有的DNA为单链,如大肠杆菌噬菌体φX174等。
有的DNA为环形,有的DNA 为线形。
RNA一般是单链线形分子,构成RNA的核苷中的核糖为2′位非脱氧的OH基,其碱基中没有胸腺嘧啶,只有尿嘧啶。
生物进化从低等到高等,从简单到复杂,遗传信息量不断增加,因而基因组也相应不断增大。
然而在高等生物进化阶段上述规律不成立,这表明高等生物基因组中存在大量的无用序列。
原核生物基因组通常为一个环状DNA分子,原核生物基因组很小,因而其组织结构十分经济有效,很少含有无用的多余序列。
真核生物基因组由多个DNA分子组成,每个皆为双链线形分子。
真核生物的每个DNA分子皆与蛋白质结合,构成染色体,染色体上有着丝粒结构,可以进行有丝分裂。
真核生物基因组通常比较大,含有内含子序列,有大量重复序列,其表达调控机制较复杂。
真核生物的一个基因在基因组上通常由编码序列外显子和非编码序列内含子组成。
DNA转录为RNA后,内含子序列必须切除。
外显子通常都较短,内含子的长度可以从很短到非常长。
内含子的插入和缺失可造成基因的进化。
随着物种进化程度的提高,不仅间断基因的比例增加,而且每个间断基因所包含的外显子(或内含子)数目也增加。
真核生物基因组中存在基因家族与基因簇。
我们把来源相同、结构相似、功能相关的一组基因称为基因家族。
基因家族的多个成员成串排列,但各基因独立转录表达,不形成多顺反子的mRNA。
基因家族和基因簇是通过一系列的重复、易位和突变事件,从一个远古祖先基因进化而来的。
真核生物基因组中存在串联重复基因(基因冗余),即一组功能相关的基因串联排列,构成一个重复单位,并在基因组中以多拷贝存在。
重复单位可进一步串联在一起构成一个大的基因簇。
真核生物基因组中的重复序列包含串联重复序列和散布重复序列。
串联重复序列如卫星DNA小卫星DNA和微卫星DNA。
散布重复序列如反转录专座元件和转座元件。
反转录专座元件分为LTR型反转录专座元件和非LTR型反转录专座元件。
真核生物的核基因组一般与组蛋白结合组装成染色体。
染色体的着丝粒DNA序列保证染色在有丝分裂时被平均分配到2个子细胞中去,端粒DNA序列保证染色体的独立性和遗传稳定性。
2 基因组研究
基因在生命过程中不是孤立地发挥作用的。
如果只是独立地对单个基因进行研究,即使将一个细胞中所有基因的功能都了解清楚,也还是不能阐明生命的复杂现象的。
只有对基因组进行研究,才能完整地理解生命的本质。
高等生物基因组中,基因只占很小的比重,而大量的是非编码序列和重复序列。
虽然目前认为这些序列中大多数是没有功能的,但这种认识可能是不正确的,也许它们其实存在功能。
只有对基因组进行研究,才能最终了解它们的生物学意义。
基因组研究的目的是从全局上阐明一种生物中所有遗传信息的组织和功能。
基因组研究的内容包括所有水平上遗传信息的加工及基因和基因产物之间的相互作用,以及基因组的比
较和进化。
基因组研究主要分为结构基因组学,功能基因组学和比较基因组学。
基因组学是以基因组为研究对象的高效的遗传学。
与传统的遗传学比较,具有全局性、高效性、综合性和先进性的特点。
2.1.结构基因组学
结构基因组学的主要研究内容包括:基因组作图、序列分析和基因组分析。
2.1.1 基因组作图
基因组作图的目的在于确定界标和基因在构成基因组的每条染色体上的位置,以及同条染色体上各个界标或基因之间的相对距离。
作图只能分层次进行,如遗传连锁图、物理图和序列图,按分辨率由低到高逐级作图,而后组装排列出来成整体。
遗传连锁图是用遗传模式来描述DNA标记(基因和其他确定的DNA序列)在染色体上的相对位置。
物理图标明一些如限制性内切核酸酶切点,单一序列、基因等在DNA分子或染色体上所处位置的图,图距以物理长度为单位,即核苷酸对的数目为单位。
2.1.2 基因组测序与序列的注释
对某个物种基因组核酸序列的测定,最终要确定该物种全基因组核酸的序列,分为全基因组测序和cDNA测序。
DNA测序分为链终止测序法和化学降解测序法。
链终止测序法由Sanger等提出,以双脱氧核苷三磷酸(ddNTP)链末端终止法测序为基础,以四色荧光标记的ddNTP为终止剂,被测单链DNA序列上任一核苷酸的位置通过其互补链的酶促合成在该位置的终止来检测。
全基因组测序的策略主要有基于物理图测序、全基因组随机测序和基于物理图测序与全基因组随机测序相结合三种方法。
基于物理图测序是指在基因组物理图的基础上,从重叠中选出一套彼此重叠最少的有序排列的BAC(或Y AC)克隆,然后对每个克隆进行随机测序,建立各克隆的亚克隆序列重叠群,即得到各克隆的序列。
将各克隆序列串在一起,即得到全基因组序列。
全基因组随机测序是指先用物理方法将基因组DNA打断成小的片段,构建出必要容量的亚克隆文库;然后随机地测定亚克隆的序列,使所测序列的总长度达到基因组长度的6-8倍;最后通过计算机分析将各个序列片段组装成完整的基因组序列。
将基于物理图测序的准确性与全基因组随机测序的快速性相结合就可以很好的完成全基因组测序工作。
在得到基因组序列后,接下来的任务就是借助于计算机对序列进行分析,根据各种基因组成分的特征,搞清楚基因组序列中各个区段的含义,并将这些信息标注到序列上。
这就是基因组注释。
这里最重要的当然是对基因的识别,不仅要识别那一段序列为基因,而且还要识别它属于哪一类基因,可能具有什么功能。
通常用ORF搜索方法来进行基因识别。
但是在真核生物中由于内含子的存在使得识别效率较低,为此科学家通过检查密码的偏向、检查外显子-内含子边界以及检查上游控制序列等对ORF搜索方法进行改进。
此外还可用同源搜索来确定基因。
2.1.3 cDNA测序
在高等生物中,编码序列只占基因组的很小一部分,而这部分又是基因组中最重要的。
因此,cDNA测序既可以节省开支,又可获得基因组的主要信息。
从cDNA序列有助于准确地判断外显子和内含子,从而能够更准确地了解基因组中的基因数量和种类,有利于基因组的注释。
高等生物中还存在选择性剪接的现象,使得一个基因可以编码多种mRNA和蛋白质。
这只能通过cDNA测序才能了解到。
cDNA测序通常选用随机cDNA文库测序、正规化cDNA文库测序和差异表达cDNA文库测序3种策略来进行。
2.2 功能基因组学
2.2.1 功能基因组学简介及相关概念
结构基因组学可以揭示基因组中基因的数量和分布,并预测基因的种类和功能,但这仅仅是预测而已,并不能肯定其确切功能,而且有许多基因的功能还无法预测。
结构基因组学
无法了解基因的确切功能、表达调控以及相互作用。
功能基因组学是利用结构基因组所提供的信息和产物,发展和应用新的实验手段,通过在基因组或系统水平上全面分析基因的功能,使得生物学研究从对单一基因或蛋白质的研究转向多个基因或蛋白质同时进行系统的研究。
2.2.2 功能基因组的研究方法
功能基因组学研究方法主要包括建立大规模突变体库及高效筛选和分析基因表达谱。
建立突变体库主要利用T-DAN/转座子插入建立大规模随机插入突变体库和利用EMS/辐射诱变建立大规模碱基转换或InDel突变体库。
前者利用基因仪器筛选,后者利用基因组诱导局部损伤定点筛检。
基因机械筛选目前有三种方法即PCR检测、分子杂交检测和侧邻DNA 测序。
分析基因表达谱通常为转录组分析、蛋白组分析和代谢组分析三类。
转录组分析主要有基因表达序列分析(SAGE)、微阵列/DNA芯片和深度测序三种方法。
SAGE技术是以转录子(cDNA)上特定区域9~11 bp的寡核苷酸序列作为标签来特异性地确定mRNA转录物,然后通过连接酶将多个标签随机串联形成大量的多联体并克隆到载体中,对每个克隆进行测序。
应用SAGE软件分析,可确定表达的基因种类,并可根据标签出现的频率确定基因的表达丰度。
微阵列/DNA芯片即利用类似于大规模集成电路的技术手段,借助光刻技术及化学固相合成法,将DNA探针阵列分布于玻璃或硅片上,与液相中待测组分进行杂交,通过检测荧光或其他标记物而分析反应结果。
转录子深度测序主要是指对基因组转录的mRNA进行测序,依据RNA测序读数的多少来反映基因表达的水平。
2.3. 比较基因组学
2.3.1 比较基因组学简介及相关概念
比较基因组学是研究比较不同物种基因组的异同,目的在于寻找物种间共有的,也就是在进化上保守的基因或DNA序列。
这种称为种间同源体的基因往往具有重要的生物学功能。
也可以从这些模式生物中寻找可能具有的新基因,以及为预测新的基因功能提供依据。
通过玉米和高粱,小麦、大麦和黑麦,小麦和水稻,玉米和小麦,栗与水稻等的比较基因组研究表明,尽管这些作物亲缘相近、基因组大小、染色体数目各不相同,但比较作图的结果却显示出它们的基因组存在高度的保守性,揭示了这些不同作物的染色体或染色体片段上的同线性或共线性。
2.3.2 比较基因组学的研究方法
比较基因组学的研究方法主要有系统发育谱法和基因邻居法。
系统发育谱法是在基因组全序列已完成测序的一系列基因组中分析某一蛋白质存在与否的图样。
如果两个蛋白质在所研究的若干基因组中有相同的系统发育谱,便推断这两个蛋白质具有功能联系。
基因邻居法的原理是:原核生物中如果两个基因在一个共同的操纵子内,且在不同的其他基因组也出现相邻现象,就可以推断它们编码的蛋白质之间具有功能联系。
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.。