基因组学与比较基因组学
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
《分子生物学精要》
基因组与比较基因组学
教学目的
掌握基因组学与比较基因组学的相关知识,了解人类基因组计划。
学习指导
本章首先介绍了基因组学的概念和分类,分为功能基因组学和结构基因组学。
后介绍了比较基因组学的相关研究。
最后介绍了人类基因组计划的内容。
重点掌握基因组学与比较基因组学的概念,人类基因组计划的过程进展,基因测序的主要方法。
基本概念
基因组(genome)指导一个生物物种的结构和功能的所有遗传信息的总和,包括全部的基因和调控元件等核酸分子。
基因组学(genomics)从整体水平上来研究一个物种的基因组的结构、功能及调控的一门科学。
基因组学可分为结构基因组学和功能基因组学两大部分。
结构基因组学(structural genomics)通过基因作图、核苷酸序列分析确定基因组成、基因定位的科学。
功能基因组学(functional genomics)利用结构基因组学所提供的生物信息和材料,全基因组或全系统地理解某种生物的遗传体系,即阐明DNA序列的功能。
基因打靶(gene targeting),这种技术是通过基因工程的方法将一个结构已知但功能未知的基因去除,或用其他序列相近的基因取代(又称基因敲入),然后从整体观察实验动物,从而推测相应基因的功能。
比较基因组学(Comparative Genomics)是基于基因组图谱和测序基础上,对已知的基因和基因组结构进行比较,来了解基因的功能、表达机理和物种进化的学科。
人类基因组计划(human genome project ,HGP)于20世纪80年代提出的,由国际合作组织包括有美、英、日、中、德、法等国参加进行了人体基因作图,测定人体23对染色体由3×109核苷酸组成的全部DNA序列,于2000年完成了人类基因组“工作框架图”。
2001年公布了人类基因组图谱及初步分析结果。
其研究内容还包括创建计算机分析管理系统,检验相关的伦理、法律及社会问题,进而通过转录物组学和蛋白质组学等相关技术对基因表达谱、基因突变进行分析,可获得与疾病相关基因的信息。
本章主要内容
第一节基因组与基因组学
由于分子生物学和分子遗传学理论及技术的发展,到20世纪末,科学家已有能力开始研究单个生物的全部遗传信息。
这促使他们的研究工作从研究一个物种的单个基因或一群基因转向研究一个物种的所有基因即基因组,由此形成了基因组学。
一、基因组
1.基因组的概念
Winkler在1920年首次提出基因组(genome)一词,意为gene与chromosome的组合。
目前在不同的学科中,对基因组含义的表述有所不同,概括为如下:①从细胞遗传学的角度来看,基因组是指一个生物物种单倍体的所有染色体数目的总和;②从经典遗传学的角度来看,基因组是一个生物物种的所有基因的总和;③从分子遗传学的角度来看,基因组是一个生物物种所有的不同核酸分子的总和;④从现代生物学的角度来看,基因组是指导一个生物物种的结构和功能的所有遗传信息的总和,包括全部的基因和调控元件等核酸分子。
2.基因组的大小和组成
不同生物基因组大小及复杂程度不同,具有物种差异性。
一般来说,从原核生物到真核生物,其基因组大小和DNA含量是随着生物进化复杂程度的增加而逐步上升的。
随着生物结构和功能复杂程度的增加,需要的基因数目和基因产物种类越多,因而基因组也越大。
但不同生物的基因组间有一定的相关性,表现为基因特性的相似、结构及组成的雷同、遗传信息的传递方式及遗传密码的趋同性等。
动物基因组的主要成分是核基因组,它与细胞质分开。
组成核基因组和线粒体基因组的序列形式与原核生物显著地不同,在不同物种中也有一些差异,有些序列是单拷贝的,而另一些序列是多拷贝的;另外还有大量的不编码蛋白质的DNA序列。
二、基因组学
基因组学(genomics)最初是由美国科学家Thomas Roderick于1986年提出的,当时其内容是指基因组作图(mapping)和测序(sequencing)。
但后来随着人类基因组计划的进展,其含义得到了不断的发展和更新。
于是,科学家们将它定义为研究生物基因组的结构和功能的科学,即从整体水平上来研究一个物种的基因组的结构、功能及调控的一门科学。
基因组学可分为结构基因组学(structural genomics)和功能基因组学(functional genomics)两大部分。
1.结构基因组学
结构基因组学是基因组学的一个重要组成部分和研究领域,它是一门通过基因作图、核苷酸序列分析确定基因组成、基因定位的科学。
遗传信息在染色体上,但染色体不能直接用来测序,必须将基因组这一巨大的研究对象进行分解,使之成为较易操作的小的结构区域,这个过程就是基因作图。
根据使用的标志和手段不同,作图有三种类型,即构建生物体基因组高分辨率的遗传图谱、物理图谱、转录图谱。
基因组测序是结构基因组学最基本的研究工作。
因为,只有完成了物种基因组的测序,即测定物种基因组的DNA序列后,才有可能在碱基水平上破译生物的遗传之谜。
自1990年开始实施人类基因组计划以来,在它的影响下,迄今已完成了100多个物种的基因组DNA序列的测定,其中包括流感嗜血杆菌、大肠杆菌、酵母、秀丽线虫等多个病原微生物和模式生物以及人类基因组的测序。
2.功能基因组学
功能基因组学是建筑在结构基因组学基础上的基因组分析的第二阶段。
其主要内容是:利用结构基因组学所提供的生物信息和材料,全基因组或全系统地理解某种生物的遗传体系,即阐明DNA序列的功能。
功能基因组学的研究必须结合计算机科学和统计学,采用高产出和大规模的实验技术。
基因功能的研究方法:
(1)基因转导技术:导入细胞,观察功能。
该方法用的最多,技术最成熟。
(2)基因敲除技术(gene knockout)
又称基因打靶(gene targeting),这种技术是通过基因工程的方法将一个结构已知但功能未知的基因去除,或用其他序列相近的基因取代(又称基因敲入),然后从整体观察实验动物,从而推测相应基因的功能。
这种人为地把实验动物某一种有功能的基因完全缺失的技术称为基因敲除技术。
近年来应用计算机生物信息技术,分析研究已测序完DNA序列的生物基因组后,发现了未知功能的许多基因,这促进了基因定位和基因表达调控的研究。
但目前功能基因组学的研究,还只局限于RNA水平。
今后随着蛋白质分析技术的发展,例如,高效和超高灵敏度的双向凝胶电泳、色谱仪的出现,人们有可能在蛋白质水平上,分析基因组中基因间的相互作用,进而进一步地丰富和发展功能基因组学。
3.开展基因组学研究的意义
对于开展大规模基因组结构和功能的分析研究,即基因组DNA测序和DNA序列的功能分析的意义,在10多年前,还有不少人持怀疑的态度。
但现在情况有了根本的转变,基因组学的发展必将给生物学和人类社会带来巨大的冲击,引起深刻的变化,这是确定无疑的了。
其具体的理论和实际意义在于:
(1)通过物种的基因组测序,可以获得其他手段所无法获得的蕴藏在DNA分子中的遗传信息,使人们能够从整个基因组结构的宏观水平上了解基因的功能以及它们相互之间在表达调控机制上的联系,加深对生命本质的认识,揭开生命之谜。
(2)从整体上了解染色体和基因的空间结构,以及它们对DNA复制、基因转录和表达调控的影响和作用。
(3)通过基因组测序,可以比较不同物种之间在DNA序列和基因结构上的差异,使人们能够在基因组的整体水平上认识生物的起源和进化。
(4)研究突变、重排和染色体断裂等方面的DNA病理改变,了解人类各种疾病的分子机理,为诊断、预防和治疗这些疾病提供理论依据。
(5)研究家畜和各种农作物经济性状的基因结构以及基因在染色体上的位置,为开展分子育种工作提供理论依据。
4.基因组学与遗传学的关系
基因组学是现代遗传学的重要组成部分,它是经典遗传学在分子以及基因组整体水平上的延伸和发展。
基因组学与经典遗传学的相同之处是研究基因,不同之处是在研究策略上,前者是某一次研究单个基因或少量基因的结构和功能;而后者是从“个别”转向“整体”,即从物种的整个基因组入手来研究基因的结构和功能。
第二节比较基因组学
一比较基因组学
伴随着基因组的研究,相关信息出现了爆炸性增长,迫切需要对大量基因组数据进行处理。
比较基因组学作为一门重要的学科应运而生。
比较基因组学(Comparative Genomics)是基于基因组图谱和测序基础上,对已知的基因和基因组结构进行比较,来了解基因的功能、表达机理和物种进化的学科。
列。
而基因组范围之内的序列比对,可以了解不同物在核苷酸组成、同线性关系和基因顺序方面的异同,进而得到基因分析预测与定位、生物系统发生进化关系等方面的信息。
1. 全基因组的比较研究
比较基因组学的基础是相关生物基因组的相似性。
两种具有较近共同祖先的生物,它们之间具有种属差别的基因组是由祖先基因组进化而来,两种生物在进化的阶段上越接近,它们的基因组相关性就越高。
如果生物之间存在很近的亲缘关系,那么它们的基因组就会表现出同线性(synteny),即基因序列的部分或全部保守。
这样就
可以利用模基因组之间编码顺序上和结构上的同源性,通过已知基因组的作图信息定位另外基因组中的基因,从而揭示基因潜在的功能、阐明物种进化关系及基因组的内在结构。
2. 系统发生的进化关系分析
生物最本质的特征是进化,比较基因组学同样以进化理论作为理论基石,同时其研究结果又前所未有地丰富和发展了进化理论。
当在两种以上的基因组间进行序列比较时,实质上就得到了序列在系统发生树中的进化关系。
基因组信息的增多使得在基因组水平上研究分子进化、基因功能成为可能。
通过对多种生物基因组数据及其垂直进化、水平演化过程进行研究,就可以对与生命至关重要的基因的结构及其调控作用有所了解。
但由于生物基因组中约有1.5%~14.5%的基因与“横向迁移现象”有关,即基因可以在同时存在的种群间迁移,这样就会导致与进化无关的序列差异。
因此在系统发生分析中需要建立较完整的生物进化模型,以避免基因转移和欠缺合适的多物种共有保守序列的影响。
三种内比较基因组学研究
同种群体内基因组存在大量的变异和多态性,正是这种基因组序列的差异构成了不同个体与群体对疾病的易感性和对药物与环境因子不同反应的遗传学基础。
1. 单核苷酸多态性
单核苷酸多态性(single-nucleotide polymorphism,SNP)是指在基因组水平上由于单个核苷酸位置上存在转换或颠换等变异所引起的DNA序列多态性。
根据SNP 在基因中的位置,可分为基因编码区SNP(coding-region SNP,cSNP)、基因周边SNP(perigenic SNP,pSNP)以及基因间SNP(intergenic SNP,iSNP)等3 类。
2005年2月17日公布的第一份人类基因多态性图谱是依据基因“连锁不平衡原理”,利用基因芯片在71个欧洲裔美国人(白色人种)、非洲裔美国人(黑色人种)和汉族华裔美国人(黄色人种)中鉴别出了158 万个单一核苷酸变异的DNA 位点,这个图谱将有助于预测某些疾病发生的可能性以及施以最佳治疗方案,在实现基于基因的个体化医疗目标的征途上走出了重要的一步。
2. 拷贝数多态性
在全基因组测序和基因芯片技术发明前,受限于基因组内高通量DNA拷贝数检测手段,人们对全基因组范围内的拷贝数多态性(copy number polymorphism,CNP)数量和分布知之甚少。
2004年,全球内数个“人类基因组计划”研究基地意外地发现,表型正常的人群中,不同的个体间在某些基因的拷贝数上存在差异,一些人丢失了大量的基因拷贝,而另一些人则拥有额外、延长的基因拷贝,研究人员称这种现象为“基因拷贝数多态性”。
正是由于CNP 才造成了不同个体间在疾病、食欲和药效等方面的差异。
研究表明,平均2个个体间存在11个CNP的差异,CNP 的平均长度为465 kb,其中半数以上的CNP 在多个个体中重复出现,并经常定位于其他类型的染色体重排附近。
第三节人类基因组计划
二十世纪的三大科技计划:曼哈顿计划(造原子弹)、阿波岁计划(登月球)、人类基因组计划。
而人类基因组计划(human genome project , HGP)是为了了解人类自身,操纵生命。
是绘制生命科学的“元素”表,其意义比以上两个计划更为深远。
一、人类基因组计划的诞生和启动
对人类基因组的研究在70年代已具有一定的雏形,在80年代在许多国家已形成一定规模。
1984年在Utah州的Alta,White R and Mendelsonhn M受美国能源部(DOE)的委托主持召开了一个小型专业会议讨论测定人类整个基因组的DNA序列的意义和前景(Cook Deegan RM,1989)
1985年5月在加州Santa Cruz由美国DOE的Sinsheimer RL主持的会议上提出了测定人类基因组全序列的动议,形成了美国能源部的“人类基因组计划”草案。
1986年3月,在新墨西哥州的Santa Fe讨论了这一计划的可行性,随后DOE宣布实施这一计划。
1986年,诺贝尔奖得主杜尔贝科(R. Dulbecco)在《科学》(Science)周刊撰文回顾肿瘤研究的进展,指出要么依旧采用“零敲碎打”的策略,要么从整体上研究和分析人类基因组。
1986年遗传学家McKusick V提出从整个基因组的层次研究遗传的科学称为“基因组学”
1987年初,美国能源部和国立卫生研究院为HGP下拨了启动经费约550万美元(全年1.66亿美元)1988年,美国成立了“国家人类基因组研究中心”由Watson J出任第一任主任
1990年10月1日,经美国国会批准美国HGP正式启动,总体计划在15年内投入至少30亿美元进行人类全基因组的分析。
1987年,意大利共和国国家研究委员会开始HGP研究,其特点是技术多样(YAC,杂种细胞,cDNA等)、区域集中(基本上限于Xq24-qter区域)
1989年2月英国开始HGP,特点是:帝国癌症研究基金会与国家医学研究委员会(ICRP-MRC)共同负责全国协调与资金调控,剑桥附近的Sanger中心注重首先在线虫基因组上积累经验,改进大规模DNA测序技术;同时建立了YAC库的筛选与克隆、特异细胞系、DNA探针、基因组DNA、cDNA文库、比较生物基因组DNA序列、信息分析等的“英国人类基因组资源中心”。
可谓“资源集中、全国协调”。
1990年6月法兰西共和国的HGP启动。
科学研究部委托国家医学科学院制定HGP,主要特点是注重整体基因组、cDNA和自动化。
建立了人类多态性研究中心(CEPH),在全基因组YAC重叠群、微卫星标记(遗传图)的构建以及驰名世界的用作基因组研究的经典材料CEPH家系(80个3代多个体家系)方面产生了巨大影响。
1990年,美国能源部(DOE)与国立卫生研究院(NIH)共同启动HGP,原定投入30亿美元,用15年时间完成该计划。
英、日、法、德等国相继加入。
1995年德意志联邦共和国开始HGP,来势迅猛,先后成立了资源中心和基因扫描定位中心,并开始对21号染色体的大规模测序工作。
1990年6月欧共体通过了“欧洲人类基因组研究计划”,主要资助23个实验室重点用于“资源中心”的建立和运转。
还有丹麦王国、俄罗斯联邦、日本、韩国、澳大利亚等。
1994年,我国HGP在吴旻、强伯勤、陈竺、杨焕明的倡导下启动,最初由国家自然科学基金会和863高科技计划的支持下,先后启动了“中华民族基因组中若干位点基因结构的研究”和“重大疾病相关基因的定位、克隆、结构和功能研究”,
1998年在国家科技部的领导和牵线下,1998年在上海成立了南方基因中心,
1998年5月11日,世界上最大的测序仪生产商美国PE Biosystems公司,以其刚研制成功的300台最新毛细管自动测序仪(ABI 3700)和3亿美元资金,成立了Celera Genomics公司,宣称要在3年内,以所谓的“人类全基因组霰弹法测序策略”完成人类基因组测序,并声称要专利200~400个重要基因,并将所有序列信息保密3个月。
Celera公司已有雇员300多人,购买了号称“全球第三”的超大型计算机,号称拥有了超过全球所有序列组装解读力量总和的实力。
就在六国共同宣布工作框架图构建完成的同一天,Celera公司宣称已组装出了完整的人类遗传密码。
Celera公司此举,是对公益性的HGP的竞争与挑战
1999年在北京成立了北方人类基因组中心,1998年,组建了中科院遗传所。
1999年7月在国际人类基因组注册,得到完成人类3号染色体短臂上一个约30Mb区域的测序任务,该区域约占人类整个基因组的1%。
人类基因组计划(Human genome project)由美国于1987年启动,我国于1999年9月积极参加到这项研究计划中的,承担其中1%的任务,即人类3号染色体上约3000万个碱基对的测序任务。
我国因此成为参加这项研究计划的唯一的发展中国家。
2000年6月26日人类基因组工作草图完成。
由于人类基因测序和基因专利可能会带来巨大的商业价值,各国政府和一些企业都在积极地投入该项研究,如1997年AMGE公司转让了一个与中枢神经疾病有关的基因而获利3.92亿美元。
二人类基因组计划的目的
为什么选择人类的基因组进行研究?因为人类是在“进化”历程上最高级的生物,对它的研究有助于认识自身、掌握生老病死规律、疾病的诊断和治疗、了解生命的起源。
测出人类基因组DNA的30亿个碱基对的序列,发现所有人类基因,找出它们在染色体上的位置,破译人类全部遗传信息。
在人类基因组计划中,还包括对五种生物基因组的研究:大肠杆菌、酵母、线虫、果蝇和小鼠,称之为人类的五种“模式生物”。
HGP的目的是解码生命、了解生命的起源、了解生命体生长发育的规律、认识种属之间和个体之间存在差异的起因、认识疾病产生的机制以及长寿与衰老等生命现象、为疾病的诊治提供科学依据。
二人类基因组计划的内容
HGP的主要任务是人类的DNA测序,包括四张谱图,此外还有测序技术、人类基因组序列变异、功能基因组技术、比较基因组学、社会、法律、伦理研究、生物信息学和计算生物学、教育培训等目的。
1、遗传图谱(genetic map)
又称连锁图谱(linkage map),它是以具有遗传多态性(在一个遗传位点上具有一个以上的等位基因,在群体中的出现频率皆高于1%)的遗传标记为“路标”,以遗传学距离(在减数分裂事件中两个位点之间进行交换、重组的百分率,1%的重组率称为1cM)为图距的基因组图。
遗传图谱的建立为基因识别和完成基因定位创造了条件。
意义:6000多个遗传标记已经能够把人的基因组分成6000多个区域,使得连锁分析法可以找到某一致病的或表现型的基因与某一标记邻近(紧密连锁)的证据,这样可把这一基因定位于这一已知区域,再对基因进行分离和研究。
对于疾病而言,找基因和分析基因是个关键。
第1代标记
经典的遗传标记,例如ABO血型位点标记,HLA位点标记。
70年中后期,限制性片段长度多态性(RFLP),位点数目大与105,用限制性内切酶特异性切割DNA链,由于DNA的一个“点”上的变异所造成的能切与不能切两种状况,可产生不同长度的片段(等位片段),可用凝胶电泳显示多态性,从片段多态性的信息与疾病表型间的关系进行连锁分析,找到致病基因。
如Huntington症。
但每次酶切2-3个片段,信息量有限。
第2代标记
1985年,小卫星中心(minisatellite core)、可变串联重复VNTR(variable number of tandem repeats)可提供不同长度的片段,其重复单位长度为6至12个核苷酸,1989年微卫星标记(microsatellite marker)系统被发现和建立,重复单位长度为2~6个核苷酸,又称简短串联重复(STR)。
第3代标记
1996年MIT的Lander ES又提出了SNP(single nucleotide polymorphysm)的遗传标记系统。
对每一核苷酸突变率为10-9,双等位型标记,在人类基因组中可达到300万个,平均约每1250个碱基对就会有一个。
3~4个相邻的标记构成的单倍型(haplotype)就可有8~16种。
2、物理图谱(physical map)
物理图谱是指有关构成基因组的全部基因的排列和间距的信息,它是通过对构成基因组的DNA分子进行测定而绘制的。
绘制物理图谱的目的是把有关基因的遗传信息及其在每条染色体上的相对位置线性而系统地排列出来。
DNA物理图谱是指DNA链的限制性酶切片段的排列顺序,即酶切片段在DNA链上的定位。
因限制性内切酶在DNA链上的切口是以特异序列为基础的,核苷酸序列不同的DNA,经酶切后就会产生不同长度的DNA片段,由此而构成独特的酶切图谱。
因此,DNA物理图谱是DNA分子结构的特征之一。
DNA是很大的分子,由限制酶产生的用于测序反应的DNA片段只是其中的极小部分,这些片段在DNA链中所处的位置关系是应该首先解决的问题,故DNA物理图谱是顺序测定的基础,也可理解为指导DNA 测序的蓝图。
广义地说,DNA测序从物理图谱制作开始,它是测序工作的第一步。
制作DNA物理图谱的方法有多种,这里选择一种常用的简便方法──标记片段的部分酶解法,来说明图谱制作原理。
用部分酶解法测定DNA物理图谱包括二个基本步骤:
(1)完全降解
选择合适的限制性内切酶将待测DNA链(已经标记放射性同位素)完全降解,降解产物经凝胶电泳分离后进行自显影,获得的图谱即为组成该DNA链的酶切片段的数目和大小。
(2)部分降解
以末端标记使待测DNA的一条链带上示踪同位素,然后用上述相同酶部分降解该DNA链,即通过控制反应条件使DNA链上该酶的切口随机断裂,而避免所有切口断裂的完全降解发生。
部分酶解产物同样进行电泳分离及自显影。
比较上述二步的自显影图谱,根据片段大小及彼此间的差异即可排出酶切片段在DNA链上的位置。
下面是测定某组蛋白基因DNA物理图谱的详细说明。
完整的物理图谱应包括人类基因组的不同载体DNA克隆片段重叠群图,大片段限制性内切酶切点图,。