第17讲-基因组与比较基因组学
基因组学中的比较基因组学方法
基因组学中的比较基因组学方法基因组学是研究生物体的基因组结构、功能、组成及其相互作用的一门科学,其研究对象广泛,涉及到生命科学、医学、生态学等多个领域。
而比较基因组学则是基因组学中的一个分支,它通过比较各物种的基因组序列,揭示各种生物之间的基因演化及其遗传规律,并且研究各种基因的功能、表达、调控等问题。
在这篇文章中,我们将探讨基因组学中的比较基因组学方法。
一、基因组序列比较基因组序列比较是比较基因组学的基础,其主要作用是把不同物种的基因组序列进行比较,找出相同的序列,并且对相同的序列进行分析,从而揭示物种种类关系,共同祖先及其遗传变化等问题。
此外,基因组序列比较还可以为基因组结构和功能阐明提供重要的信息。
基因组序列比较具有以下几个特点:首先,基因组序列比较的算法不断更新,现代的比对算法比以前的更高效和准确,如MAFFT,MUSCLE等。
同时,基于多序列比对的算法也越来越成熟,如PhyML,RAxML等。
其次,基因组序列比较也需要考虑不同物种之间的基因数目和基因的排列顺序的变化,比如基因重复、基因家族和基因结构的演变等问题。
这些问题可以通过整个基因组序列的比较和基因组控制区的分析得到解决。
最后,基因组序列比较还需要考虑序列保守性和易变性的问题,这也是基因组序列比较的难点之一。
在快速进化的物种中,内含子和基因区之间的序列变异率可能非常大,这也需要采用相应的算法和策略来解决。
二、基于基因家族的比较基因组学方法基因家族是指在不同物种中存在多个拥有同样结构或功能的基因,如酪蛋白基因家族和S100基因家族等。
在基因组中,基因家族在不同物种中的数量和序列有所不同,这反映了基因家族的演化过程,因此可以通过研究基因家族的变化来推测基因的演化和基因家族的起源。
基因家族比较的方法有:1. 基因簇的比较:基因簇是指在染色体上连续排列的基因序列,通常由一系列同源基因组成。
基因簇的比较可以揭示同源基因的演化,还可以发现基因家族的新增和丢失等信息。
植物基因组学及比较基因组学研究
植物基因组学及比较基因组学研究植物基因组学是研究植物基因组结构、功能及其进化的学科领域。
通过对植物基因组的研究,我们可以深入了解植物的遗传机制、进化历程以及适应环境的能力。
而比较基因组学则是将不同物种的基因组进行比较和分析,以揭示它们之间的相似性和差异性,推断基因功能、鉴定重要基因,并探究物种进化的规律。
一、植物基因组学研究的重要意义植物基因组学的研究对于揭示植物的生长发育过程、逆境应答机制以及生殖系统演化具有重要意义。
通过对不同植物基因组的测序和分析,可以鉴定出植物特有的基因家族,比如光合作用相关基因家族和抗病性基因家族等,并进一步验证其功能,从而为植物育种和改良提供基础。
二、植物基因组研究方法1. 基因组测序技术:高通量测序技术的发展,使得植物基因组测序成为可能。
通过测序技术,我们可以对植物基因组进行全面的扫描,并提取出其中的基因序列,用于后续的功能研究。
2. 基因组组装与注释:基因组组装是将测得的基因组片段进行拼接和排序,以得到完整的基因组序列。
而基因组注释则是对基因组序列进行功能预测和基因的鉴定。
3. 比较基因组学:通过将不同物种的基因组进行比较,我们可以发现基因组之间的共性和差异性。
这些共性和差异性对于研究物种进化和功能基因的推断具有重要价值。
三、比较基因组学在植物研究中的应用1. 蛋白质功能鉴定:通过比较基因组学的方法,可以找到不同物种间的相似蛋白质序列,从而预测其功能。
这为进一步的实验研究提供了重要线索。
2. 基因家族的演化:比较基因组学可以揭示不同物种间基因家族的起源和演化过程。
通过比较基因组中的保守基因,可以推断其在进化过程中可能的功能和适应方式。
3. 物种进化研究:比较基因组学可以通过比较物种间的基因组序列,揭示它们的进化关系和进化速率。
这些研究有助于我们理解物种的起源和演化历程。
四、植物基因组学及比较基因组学的研究进展随着基因测序技术的不断发展,植物基因组学及比较基因组学的研究也取得了许多突破。
分子生物学 基因组与比较基因组学
枝原体 Mycoplasma genitalium 580,070 bp,预计有500个基因
(5)细胞器基因组 线粒体基因组
在不同类型的生物(多细胞动物、高等植物、原生动 物、藻类、真菌)中变化很大
多细胞动物:细小、致密 高等植物:复杂、不均一 原生动物、藻类、真菌:或偏向于动物型, 或偏向于植物型,但又有其各自的独特之处
生物的复杂程度与基因组大小的关系
生物种类 真细菌
革兰氏阴性菌 革兰氏阳性菌 蓝细菌 枝原体
古细菌
原生生物 眼虫(裸藻) 纤毛虫 变形虫
真菌
各类生物中基因组大小的变化范围
基因组大小范围(kb) 650 ~ 13,200 650 ~ 7,800 1,600 ~ 11,600 3,100 ~ 13,200 650 ~ 1,800
物理图
以已知DNA序列片段(序列标签位点, STS)为路 标, 以碱基对(bp)为基本测量单位的基因组图.
STS只是基因组中单拷贝的短DNA序列.
建立物理图,需要得到5套该基因组的DNA片 段.(建立相互重叠的相连DNA片段群)
比较准确
序列图
序列图是指整个人类基因组的核苷酸序 列图,也是最详尽的物理图。
结构基因组学研究的主要目标 人类基因组计划(the Human Genome Project)之前,只测定过 一些病毒(X174、、T4等)的基因组全序列
Phage X174: 5375 nt
基因组全序列的测定
1995 嗜血流感菌(Haemophilus influenzae) 1,830 kb
又称染色体外DNA(extrachromosomal DNA)
(2)大小
基因组大小(genome size)一般以单倍体基因 组的核酸量来衡量,单位有pg(10-12 g)、 Dalton(道尔顿)、bp 或 kb 、Mb等
基因组学与比较基因组学
《分子生物学精要》基因组与比较基因组学教学目的掌握基因组学与比较基因组学的相关知识,了解人类基因组计划。
学习指导本章首先介绍了基因组学的概念和分类,分为功能基因组学和结构基因组学。
后介绍了比较基因组学的相关研究。
最后介绍了人类基因组计划的内容。
重点掌握基因组学与比较基因组学的概念,人类基因组计划的过程进展,基因测序的主要方法。
基本概念基因组(genome)指导一个生物物种的结构和功能的所有遗传信息的总和,包括全部的基因和调控元件等核酸分子。
基因组学(genomics)从整体水平上来研究一个物种的基因组的结构、功能及调控的一门科学。
基因组学可分为结构基因组学和功能基因组学两大部分。
结构基因组学(structural genomics)通过基因作图、核苷酸序列分析确定基因组成、基因定位的科学。
功能基因组学(functional genomics)利用结构基因组学所提供的生物信息和材料,全基因组或全系统地理解某种生物的遗传体系,即阐明DNA序列的功能。
基因打靶(gene targeting),这种技术是通过基因工程的方法将一个结构已知但功能未知的基因去除,或用其他序列相近的基因取代(又称基因敲入),然后从整体观察实验动物,从而推测相应基因的功能。
比较基因组学(Comparative Genomics)是基于基因组图谱和测序基础上,对已知的基因和基因组结构进行比较,来了解基因的功能、表达机理和物种进化的学科。
人类基因组计划(human genome project ,HGP)于20世纪80年代提出的,由国际合作组织包括有美、英、日、中、德、法等国参加进行了人体基因作图,测定人体23对染色体由3×109核苷酸组成的全部DNA序列,于2000年完成了人类基因组“工作框架图”。
2001年公布了人类基因组图谱及初步分析结果。
其研究内容还包括创建计算机分析管理系统,检验相关的伦理、法律及社会问题,进而通过转录物组学和蛋白质组学等相关技术对基因表达谱、基因突变进行分析,可获得与疾病相关基因的信息。
比较基因组学
生物其中一个特征是进化,比较基因组学同样以进化理论作为理论基石,同时其研究结果又前所未有地丰富 和发展了进化理论。当在两种以上的基因组间进行序列比较时,实质上就得到了序列在系统发生树中的进化关系。 基因组信息的增多使得在基因组水平上研究分子进化、基因功能成为可能。通过对多种生物基因组数据及其垂直 进化、水平演化过程进行研究,就可以对与生命至关重要的基因的结构及其调控作用有所了解。
方法及思路
模式生物基因组研究揭示了人类疾病基因的功能,利用基因顺序上的同源性克隆人类疾病基因,利用模式生 物实验系统上的优越性,在人类基因组研究中的应用比较作图分析复杂性状,加深对基因组结构的认识。
“一个物种的不同器官之间的差异要比与另一物种的同一器官之间的差异大的多。” 相似性 (similarity) 同源性 (homology) 直系同源 (orthology) 旁系同源 (paralogy) 直系同源与旁系同源 直系同源的序列因物种形成(speciation)而被区分开(separated):若一个基因原先存在于某个物种, 而该物种分化为了两个物种,那么新物种中的基因是直系同源的; 旁系同源的序列因基因复制(gene duplication)而被区分开(separated):若生物体中的某个基因被复 制了,那么两个副本序列就是旁系同源的。
种内比较
同种群体内基因组存在大量的变异和多态性,正是这种基因组序列的差异构成了不同个体与群体对疾病的易感 性和对药物与环境因子不同反应的遗传学基础。
单核苷酸多态性
单核苷酸多态性(single-nucleotide polymorphism,SNP)是指在基因组水平上由于单个核苷酸位置上存 在转换或颠换等变异所引起的DNA序列多态性。根据SNP在基因中的位置,可分为基因编码区SNP(coding-region SNP,cSNP)、基因周边SNP(perigenic SNP,pSNP)以及基因间SNP(intergenic SNP,iSNP)等3类。2005年2月 17日公布的第一份人类基因多态性图谱是依据基因“连锁不平衡原理”,利用基因芯片在71个欧洲裔美国人(白 色人种)、非洲裔美国人(黑色人种)和汉族华裔美国人(黄色人种)中鉴别出了158万个单一核苷酸变异的DNA位点, 这个图谱将有助于预测某些疾病发生的可能性以及施以最佳治疗方案,在实现基于基因的个体化医疗目标的征途 上走出了重要的一步。
基因组与比较基因组学
❖ Sanger 的双脱氧链终止法
基本必须的预 备工作。酵母人 工染色体技术( YAC)为创制基 因组物理图提供 了极大的方便。 ARS序列(Ori ),CEN序列, TEL序列。
❖YAC的主要缺点:
1)存在高比例的嵌合体,即一个YAC克隆 含有两个本来不相连的独立片段; 2)部分克隆子不稳定,在转代培养中可能 会发生缺失或重排; 3)难与酵母染色体区分开,因为YAC与酵 母染色体具有相似的结构。 4)操作时容易发生染色体机械切割。
❖ Maxam-Gilbert化学修饰法: 1)基本原理:用化学试剂处理具有末端放射性标记的 DNA片段,造成碱基的特异性切割并产生一组具有不同长 度的DNA链降解产物,经凝胶电泳分离和放射自显影后, 可直接读出待测DNA片段的核苷酸序列。 2)基本步骤:(1)同位素标记DNA片段的5’端;(2) 在特殊位置上通过化学反应随机打断DNA链G,A(some G),T(some C),C;(3)形成大小不一的DNA链;(4 )电泳分离DNA链;(5)根据同位素标记自显影后读出 序列。 3)优点:不存在因DNA序列或结构引起DNA合成问题, 能测定用酶学方法不能正常测序的DNA序列。 4)缺点:需使用剧毒化学试剂。
11 基因组与比较基因组学
11.1 高通量DNA序列分析技术 11.2 人类基因组计划 11.3 其他基因组 11.4 比较基因组学及相关研究
❖20世纪人类科技发展史上的三大创举: 1940年代第一颗原子弹爆炸; 1960年代人类首次登上月球; 1990年代提出并1)使用荧光标记的dNTP;2)毛细管电泳;3)激光检 测读序。 PCR用于制备测序反应:1)测序反应实质就是DNA扩增 ,因而可以用PCR进行测序反应。 2)与典型PCR反应的不同:(1)只用一个引物;(2) 需用测序级的DNA聚合酶;(3)DNA模板量高,一般 0.5-1.0mg;(3)循环次数多,一般35-40个循环;(4 )产物需纯化干燥。 实际工作中如要进行DNA测序,需要准备什么? 1)克隆你的目的基因或其片段; 2)鉴定你所得到的含目的基因或片段的重组质粒; 3)将含重组质粒的细菌或质粒送测序公司; 4)等结果。
基因组与比较基因组学中文PPT文档共31页
11、用道德的示范来造就一个人,显然比用法律来约束他更有价值。—— 希腊
12、法律是无私的,对谁都一视同仁。在每件事上,她都不徇私情。—— 托马斯
13、公正的法律限制不了好的自由,因为好人不会去做法律不允许的事 情。——弗劳德法律都是相互依存的。——伯克
拉
60、生活的道路一旦选定,就要勇敢地 走到底 ,决不 回头。 ——左
56、书不仅是生活,而且是现在、过 去和未 来文化 生活的 源泉。 ——库 法耶夫 57、生命不可能有两次,但许多人连一 次也不 善于度 过。— —吕凯 特 58、问渠哪得清如许,为有源头活水来 。—— 朱熹 59、我的努力求学没有得到别的好处, 只不过 是愈来 愈发觉 自己的 无知。 ——笛 卡儿
基因组与比较基因组学
随着这个计划的完成,DNA分子中储藏的有关人类生存和繁衍 的全部遗传信息将被破译,它将不仅帮助我们理解人类如何作为健 康人发挥正常生理功能,还将最终揭开基因在癌症、早老性痴呆症、 精神分裂症等严重危害人类健康的疾病中的作用。
事实上,对人类自身更深入的了解是人类活动最重要的组成部 分,因为任何自然科学研究,都没有比人类尽快找出解决自身所面 临的人口膨胀、粮食短缺、环境污染、疾病危害、能源资源匮乏、 生态平衡破坏、生物物种消亡等一系列难题更为重要、更为迫切。
从三维空间的角度来研究真核基因的表达调控规律。
能DN在A含技有术环的(己建酰立4亚为)胺人的类研培提养供究基了上大空生量长新间的遗结传标构记。对基因调节的作用。有些基因的表达调控序列 这2 D几N类A的载鸟体与枪的法运被序用列,调分使析Y节A技C术克基隆的因DN从A大片直段可线先分距解成离相应上克隆看的小,片段似,便乎于测相序。距甚远,但若从整个染色 至能于在一 含些有复铜体杂离的子的疾的病培空,养如基间高上血生结压长、构冠心上病、看糖尿则病、恰癌等恰,则处可能于涉及最多个佳基因的的突调变。节位置,因此,有必要从
“框架序列”的大小和组织,了解各种不同序列在形成染色体结 所以,建立转录图,或从mRNA逆转录而来的cDNA图,是分离、定位和克隆基因的关键。
首先根据染色体上已知基因和标记的位置来确定部分DNA片段的相对位置,再逐步缩小各片段之间的缺口。
构、DNA复制、基因转录及表达调控中的影响与作用。 有些基因的表达调控序列与被调节基因从直线距离上看,似乎相距甚远,但若从整个染色体的空间结构上看则恰恰处于最佳的调节位置,因此,有必要
能 只在能含在有 加铜 入(离 腺子 苷1的 酸)培 的养 培确基养上 基定生 上长 生人长 类基因组中约5万个编码基因的序列及其在基因组中 的物理位置,研究基因的产物及其功能。 把多态性的疾病基因位点(该位点至少包括“正常”及“致病” 两个等位基因)与上述遗传标记进行分析比较时,如果在家系中证实该基因与某个标记
基因组和比较基因组学
2020/4/23
2000.6. 完成并公布人类基因组工作框 架图( 90%)。
2020/4/23
二000年六月二十六日克林顿宣布 人类基因组草图绘制完成
2020/4/23
美国国家人类基因组研究所所长弗朗西斯·柯林 斯在介绍情况。
2020/4/23
人类基因组草图基本信息
人类基因组 人类蛋白质
一、人类基因组计划的启动
1986年,诺贝尔奖获得者R.Dulbecco(杜尔贝 科)提出人类基因组计划——测出人类全套基因组 的 DNA 碱基序列( 3 × 109 bp )。
2020/4/23
1975年,获诺贝尔生理医学奖
2020/4/23
2020/4/23
美国政府决定于 1990年正式启动HGP,预计 用 15 年时间,投入 30 亿美元,完成 HGP。
(4)研究空间结构对基因调节的作用。有些基因的 表达调控序列与被调节基因从直线距离上看,似乎 相距甚远,但若从整个染色体的空间结构上看则恰 恰处于最佳的调节位置,因此,有必要从三维空间 的角度来研究真核基因的表达调控规律。
2020/4/23
(5)发现与DNA复制、重组等有关的序列。DNA的 忠实复制保障了遗传的稳定性,正常的重组提供 了变异与进化的分子基础。局部DNA的推迟复制 、异常重组等现象则导致疾病或者胚胎不能正常 发育,因此,了解与人类DNA正常复制和重组有 关的序列及其变化,将对研究人类基因组的遗传 与进化提供重要的结构上的依据。
2020/4/23
(6)研究DNA突变、重排和染色体断裂等,了解疾病的 分子机制,包括遗传性疾病、易感性疾病、放射性疾 病甚至感染性疾病引发的分子病理学改变及其进程, 为这些疾病的诊断、预防和治疗提供理论依据。
基因组与比较基因组
人类基因组计划
2003年4月14日,国际人类基因组宣布:人 类基因组序列图--“完成图”提前绘制成功。
人类基因组包括24条染色体,约30亿对核苷 酸,编码5万~6万个基因,人类基因组中携 带了有关人类个体生长发育、生老病死的全 部遗传信息。
通过流感嗜血杆菌能量代谢类群 的ORF分析,了解到它缺乏三竣 酸循环(TCA)中必需的3个酶, 即柠檬酸合成酶基因、异柠檬酸
脱氢酶基因和顺乌头酸酶基因。 由此推断流感嗜血杆菌TCA缺失, 不能合成谷氨酸,因为谷氨酸的 供体是TCA的中间产生物α-酮 戊二酸。
3 功能基因组学研究
功能基因组学→在基因组水平上阐明DNA 序列的功能。许多基因和基因组的功能元 件只有整个DNA序列已知才能得以发现。 可用序列分析和比较的方式来判断不同基 因的功能,也可通过各种定点破坏结构基 因(gene knock-out)或在基因组内定位表达 目的基因(geneknock-in)的方法来研究新基 因的功能。
1、原核生物基因组:原核生物DNA 分布在整个细胞之中,有时相对集 中在类核体上。类核体上的DNA是 一条共价、闭合双链分子,类核体 通常也称为染色体。
原核生物中一般只有一条染色体。 原核细胞都是单倍的。 这条染色体 的DNA就是原核细胞的基因组。
2、真核生物基因组
一个物种的单倍体的各条染色体中的全 部DNA为该物种的基因组(genome)。例 如,人有23对染色体,配子--单倍体 是23条染色体,这23条染色体中的全部 DNA就是人体基因组。
比较基因组学(comparative genomics)的 威力--根据对一种生物相关基因的认 识来理解、诠释和克隆分离另一种生物 的基因。
比较基因组学
比较基因组学比较基因组学摘要:比较基因组学是在基因组图谱和测序的基础上, 利用某个基因组研究获得的信息推测其他原核生物、真核生物类群中的基因数目、位置、功能、表达机制和物种进化的学科。
该学科在后基因组时代是一门重要的工具学科。
通过不同物种间的基因组序列比较, 可以发现生物体中蕴涵的大量生物学信息,其发展及所取得的成果与序列的积累相同步, 尤其是人类全基因组序列的分析与比较使比较基因组学成为整个生物学领域最新、最重要、进展最快和影响最大的学科之一。
关键词:比较基因组学;同源性;单核苷酸多态性;拷贝数多态性世界范围内的多物种基因组计划和各类测序工作已经形成了海量的序列数据资源,它们正在使基因组研究发生革命性变化,信息和新技术的迅速发展也表明:分子遗传革新将是今后几十年的发展方向。
尤其是从整体上而不是仅仅从某个或少数几个基因入手来研究生物体基因组的机能,己经在短短几年迅速发展壮大起来,比较基因组学已成为解读海量基因组序列数据及其相关生物学含义的强有力工具。
通过物种之间的一比较能够了解基因组的进化,从而加速对人类基因结构和功能的了解。
为阐明基因表达机制提供重要线索。
达到从根本上了解认识生命的起源,物种及个体差异的原因,疾病产生的机制以及长寿、衰老等困扰着人类的最基本的生命现象,最终解析生命奥秘。
比较基因组学是通过对不同物种的基因组数据进行比较分析,揭示彼此的相似性和差异性,以了解不同物种进化上的差异,综合这些信息能进一步帮助我们了解物种形成的机制、基因或基因组上非编码区的功能。
1、种间比较基因组学比较基因组学的基础是相关生物的相似性,序列间有显著的相似性即意味着序列之间有同源关系。
同源是指被比较的物种是由共同的祖先经过自然选择进化而来。
同源又可分为两种:直系同源和旁系同源直系同源的序列因物种形成而被区分开,若一个基因原先存在于某个物种,而该物种分化为了两个物种,那么新物种中的基因是直系同源的;旁系同源的序列因基因繁殖而被区分开,若生物体中的某个基因被复制了,那么两个副本序列就是旁系同源的。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 酿酒酵母是最小的真核基因组,裂殖酵母 其次,其密度是1/2.3kb, • 简单多细胞生物线虫的基因密度为1/30kb。 酿酒酵母只有4%的编码基因有内含子,而 裂殖酵母则有40%编码基因有内含子。
8. 3. 3 功能基因组学研究
• 整个基因组序列的获得为生物学带来了一 种称为功能基因组学的新方法,即在基因 组水平上阐明DNA序列的功能。
• SNP与RFLP和STRP标记的主要不同之处在于,它不再以DNA 片段的长度变化作为检测手段,而直接以序列变异作为标 记。
• “遗传图”的建立为人类疾病相关基因的分离克隆 奠定了基础。拥有5000多个遗传学位点,相当于 把整个人类基因组划分为5000多个小区,并分别 设臵了“标牌”。如果在家系中证实该基因与某 个标记不连锁(重组率为50%),表明该基因不在 这一标记附近。 • 如果发现该基因与某个标记有一定程度的“连锁” (重组率小于50%但大于0),表明它可能位于这 个标记附近。 • 如果该基因与某标记间不发生重组(重组率等于 0),我们就推测该标记与所研究的疾病基因可能 非常接近。
8. 2 CLONE-BYCLONE法与鸟枪法序 列分析技术的比较
8. 2. 1 基因组DNA大片段的构建 • 酵母人工染色体技术(yeast artificial chromosome,YAC)为创制基因组物理图提供了极 大的方便。除了ARS序列之外,还应加入CEN序列, 以提高有丝分裂时的稳定性,降低拷贝数。
8.3.2通过基因组数据进行比较基因组学研究 • 尿殖道支原体带有已知最小的基因组,可 依此确定能自我复制的细胞必需的一套最 少的核心基因。
在一个操纵子中既有参与蛋白质合成的基因gatC, 也有参与DNA重组的基因recA和recJ,参与细胞 运动的基因pilU,参与核苷酸生物合成的基因cmk 和参与脂肪酸生物合成的基因pgsA1.
8. 2. 3鸟枪法基因组序列分析技术及其改良
• 受序列分析技术限制,一次测序的长度不能超过1kb,目 前往往采用所谓的全基因组鸟枪法测序技术,随机挑选插 入基因组DNA的质粒做测序反应,然后用计碱基数,即缺口(gap),与已测定的总碱基数相关。随 着已测定碱基数的增加,缺口的总碱基数目会按照泊松公 式的一个推论(P=e-m)迅速减小。 • 其中P为基因组中某个碱基未被测定的概率,m为所测定的 碱基数与基因组大小相比的倍数。m越大P值越小。
8. 3比较基因组学(Comparative genomics) 及功能基因组学研究
基因组的序列可被分为三类
(一)通过比较确知其生理功能的; (二)在数据库中有相匹配的蛋白质序列, 但并不知道其功能的; (三)在现有数据库中找不到任何相匹配的 蛋白质序列的新基因。
8. 3. 1 通过基因组数据进行全局性分析 • 低等真核生物如酵母、线虫以及高等植物 拟南芥,不但基因组比较小,基因密度比 较高,百万碱基对中含有200个或更多的基 因,基因组90%以上由常染色质组成。
• 占人类基因组约45%的重复序列来源于转座子复制 机制。 • 序列分析表明,四类转座子产生了这些重复序列, 其中前三类转座子以RNA为中间产物进行转座,最 后一类则直接以DNA的形式转座。 • LINEs(long interspersed elements)可能是人 类基因组中最古老的重复序列,一般长5-6 kb, 含有RNA聚合酶II启动子序列和两个可读框. • SINEs(short interspersed elements)是非自 主转座子,长约100~400 bp,其3’末端与LINEs有 同源性,因此能依靠LINEs进行转座。
8. 1. 3 物理图(Physical Map)
• 人类基因组的物理图是指以已知核苷酸序 列的DNA片段(序列标签位点,sequencetagged site,STS)为“路标”,以碱基 对(bp,kb,mb)作为基本测量单位(图 距)的基因组图。 • 物理图的主要内容是建立相互重叠连接的 “相连DNA片段群”(contigs)。
• 人类和各种模式生物的全长cDNA克隆对基 因的发现及功能分析都极为有用,因此, 获得全长cDNA的技术和发现稀有转录物的 技术都将被放在高度优先的地位。
(6)研究DNA突变、重排和染色体断裂等,了解疾病的分子机制,为疾 病诊断、预防和治疗提供理论依据。 (7)确定人类基因组中转座子、逆转座子和病毒残余序列,研究其周围 序列的性质。 (8)研究人类个体之间的多态性(SNP)情况,用于基因诊断、个体识 别、亲子鉴定、组织配型、发育进化等许多医疗、司法和人类学的研 究。
8. 1. 4 转录图(Expression Profiling)
• 人类的基因转录图(cDNA图),或者基因 的cDNA片段图,即表达序列标签图(EST, expressed sequence tag)是人类基因组 图的雏型。 • 在成年个体的每一特定组织中,一般只有 10%~20%的结构基因(约1~2万个不同类型 的mRNA)表达。
8. 1. 2 遗传图(Genetic Map)
• 又称连锁图(Linkage Map),是指基因或DNA标志在染色 体上的相对位臵与遗传距离,通常以基因或DNA片段在染 色体交换过程中的分离频率厘摩(cM)来表示。cM值越大, 两者之间距离越远。
• 产生配子的减数分裂过程中,亲代同“号”的父源或母源 染色体既能相互配对也可能发生片段互换,而父母源染色 体等位基因互换导致子代出现DNA“重组”的频率与这两个 位点之间的距离呈正相关,所以,用两个位点之间的交换 或重组频率来表示其“遗传学距离”。
• 又用细菌的F质粒及其调控基因构建细菌染色体克 隆载体,称为BAC(Bacterial artificial chromosome),其克隆能力在125~150 kb左右。 主要包括oriS,repE(控制F质粒复制)和parA、 parB(控制拷贝数)等。
8. 2.2CLONE-BY-CLONE法基 因组序列分析技术
• 由于不能对人类进行“选择性”婚配,而且人类子代个体 数量有限、世代寿命较长,呈共显多态性的蛋白质数量不 多,等位基因的数量不多。 • DNA技术的建立为人类提供了大量新的遗传标记。
• 第一代DNA遗传标记是RFLP(Restriction Fragment Length Polymorphism,限制性片酸的变化,也能引起限制性内切酶切点的丢失 或产生,导致酶切片段长度的变化。
• 从整体上看,不同人类个体的基因是相同的,因此,我们 说“人类只有一个基因组”,人生来是平等的。当然,不 同的人可能拥有不同的等位基因,这一点决定了人与人之 间个体上的差异。
8. 1. 1 人类基因组计划的科学意义
(1)确定人类基因组中约3-4万个编码基因的序列及其在基因组中的物 理位臵,研究基因的产物及其功能。 (2)了解转录和剪接调控元件的结构与位臵,从整个基因组结构的宏观 水平上理解基因转录与转录后调节。 (3)从整体上了解染色体结构,了解各种不同序列在形成染色体结构、 DNA复制、基因转录及表达调控中的影响与作用。 (4)研究空间结构对基因调节的作用。 (5)发现与DNA复制、重组等有关的序列。
• 通过对尿殖道支原体与流感嗜血杆菌这两个亲缘 关系较远的生物基因组的比较, 选取其共同的基 因(共240个),再加上一些其他基因,最后组成 一套含256个基因的最小基因组。 • 单细胞真核生物酿酒酵母基因组为12,068kb,比 单细胞的原核生物和古细菌大一个数量级。 • 酿酒酵母基因组共有5887个ORF,比原核生物和古 细菌要多得多。酿酒酵母的基因密度为1个基因 /2kb,小于原核生物流感嗜血杆菌和尿殖道支原 体等。
8. 1. 5 人类基因组的序列图 (Human Genome Sequence)
• 人类基因组的核苷酸序列图是分子水平上最高层次、最详 尽的物理图。测定总长约1米、由30亿个核苷酸组成的全 序列是人类基因组计划的最终目标(图10-10)。 • 不同种族、不同个体的基因差异(基因组的多样性)以及 “正常”与“疾病”基因的差异,只是同一位点上等位基 因的差异,所以,人类基因组全序列来自一个“代表性人 类个体”,不属于任何供体。 • 研究发现,人类基因组与其它动物基因组在染色体水平上 有“共线”(即同源)现象。
• 人类基因的平均长度为27kb左右,含有8.8个长约 145bp的外显子,内含子的长度却达到3365bp左右, 3’非翻译区(UTR)的平均长度为770bp,5’非翻译 区的平均长度为300bp,开放读码框的平均长度只 有1340 bp,编码447个氨基酸。 • 原始生物中单拷贝基因较多,流感嗜血杆菌中单 拷贝基因占88.8%, • 酵母中占71.4%, • 果蝇中占72.5%, • 线虫中占55.2%, • 拟南芥中只占约35.0%。
第八章 基因组与比较基因组学
(初步了解)
8. 1 人类基因组计划
• 到目前为止,已经完成了酵母、线虫、果蝇、拟南芥、人类、小鼠和 水稻等7个真核生物基因组以及大肠杆菌等上百个原核生物基因组。
• 基因组学这一名词是美国人T.H.Roderick在1986年7月造 出来的,与一个新的杂志——Genomics一道问世,它着眼 于研究并解析生物体整个基因组的所有遗传信息。 • 基因组是生物体内遗传信息的集合,是某个特定物种细胞 内全部DNA分子的总和。人类基因组包括23对染色体,单 倍体细胞中约有30亿对核苷酸,编码了5-6万个基因,人 类基因组中携带了有关人类个体生长发育、生老病死的全 部遗传信息。
第三代DNA遗传标记,可能也是最好的遗传标记,是分散于 基因组中的单个碱基的差异,即单核苷酸的多态性 (SNP),包括单个碱基的缺失、插入和替换: • SNP中大多数为转换,即由一种嘧啶碱基替换另一种嘧啶 碱基,或由一种嘌呤碱基替换另一种嘌呤碱基,颠换与转 换之比为1:2。 • SNP有可能在密度上达到人类基因组“多态”位点数目的 极限。估计人类基因组中可能有300万个SNP位点!
• 鸟枪法测序的缺点: 随着所测基因组总量 增大,所需测序的片段大量增加,各个片 段重叠成一个连续体的概率是2n2-2n