基因组与比较基因组

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
从整体上看,不同人类个体的基因是相同的, “人类只有一个基因组” 。
不同的人可能拥有不同的等位基因,这一点 决定了人们个体上的差异。
与人类登月计划相比,HGP的资金 投入少,但它对人类生活的影响都 可能更深远。随着这个计划的完成, DNA分子中储藏约有关人类生存和 繁衍的全部遗传信息将被破译,它 将帮助我们理解人类如何作为健康 人发挥正常生理功能,还将最终揭 示严重危害人类健康疾病的机理。
人类基因组与其他动物基因组在染色体 水平上有“共线”(即同源)现象。人类第 21号染色体HSA21位点与小鼠第16号染 色体MMUl6,MMUl7和MMUl0连锁图 的比较,两者之间存在着广泛的同源性。
人类基因组计划所提供的人类核酸序列 图,蕴藏了决定我们生、老、病、死的 所有遗传信息,将成为人类认识自我、 改造自我-使人类健康长寿的知识源泉, 为21世纪现代生物学和医学奠定了基础。
DNA的鸟枪法序列分析技术
1 基因组DNA大片段文库的构建
构建基因文库是测序前必须的预备工作。 用细菌的F质粒及其调控基因构建了细菌 染色体克隆载体-BAC(bacterial chromosome),其克隆能力在125- 150kb 左右。以BAC为基础的克隆载体转化效 率高,而且以环状结构存在于细菌体内, 易于分辨和分离纯化。
通过流感嗜血杆菌能量代谢类群 的ORF分析,了解到它缺乏三竣 酸循环(TCA)中必需的3个酶, 即柠檬酸合成酶基因、异柠檬酸
脱氢酶基因和顺乌头酸酶基因。 由此推断流感嗜血杆菌TCA缺失, 不能合成谷氨酸,因为谷氨酸的 供体是TCA的中间产生物α-酮 戊二酸。
3 功能基因组学研究
功能基因组学→在基因组水平上阐明DNA 序列的功能。许多基因和基因组的功能元 件只有整个DNA序列已知才能得以发现。 可用序列分析和比较的方式来判断不同基 因的功能,也可通过各种定点破坏结构基 因(gene knock-out)或在基因组内定位表达 目的基因(geneknock-in)的方法来研究新基 因的功能。
物理图
思考题:1、在长为30亿对bp的人类基因 组测序过程中怎样入手?2、测序是几百 到几千对bp一段一段进行的,没有一定 的标记是否会产生混乱?
物理图可以从带有标签的一段一段的 DNA连接成为大段的DNA,最终可以完 成整个序列图。
人类基因组的物理图是指以已知核苷酸 序列的DNA片段(序列标签位点, sequence-tagged site, STS)为“路标”, 以碱基对(bp,kb,Mb)作为基本测量单 位(图距)的基因组图。
通过遗传图分析,可以了解各个基 因或DNA片段之间的相对距离。
连锁分析是通过分析同一遗传位点在不 同个体中等位基因的不同(多态性)来研究 同一染色体上两个位点之间的相互关系。
在产生配子的减ຫໍສະໝຸດ Baidu分裂过程中,亲代同 “号”的父源或母源染色体既能相互配 对也可能发生片段互换。
父母源染色体等位基因互换导致子代出 现DNA“重组”的频率与这两个位点之间 的距离呈正相关。用两个位点之间的交 换或重组频率来表示其“遗传学距离”, 即交换频率越高遗传学距离越远。
如果每一千个碱基(估计400bp有一 个SNP位点)中有一个多态性,那 么,人类基因组中就会拥有300万个 SNP位点!
由于遗传中的选择压力,也由于基 因组中蛋白质编码的序列仅占10% 以下,绝大多数SNP位于非编码区。
SNP不再以DNA片段的长度变化作 为检测手段,而直接以序列变异作 为标记。
2 鸟枪法基因组序列分析技术
DNA序列分析技术一次测序反应 的长度不能超过lkb,不能直接 用BAC等大片段作为序列分析的 模板,采用全基因组鸟枪法测序 技术-随机挑选插入基因组DNA 的质粒做测序反应,然后用计算 机程序进行序列拼接。
比较基因组学及功能基因组学研

与数据库中已知序列比较,基因组的序 列可分为3类: 1、确知其生理功能的; 2、 有相匹配的蛋白质序列,但并不知道其 功能的; 3、找不到任何相匹配的蛋白质 序列的新基因。
全长cDNA克隆对基因的发现及功能分析有 用。
蛋白质组学是功能基因组学的一 个重要的方面,蛋白质组学是研 究某一生物体的器官或组织在某 一时期全部蛋白质。双向电泳是 基本的研究手段。
除了编码蛋白质结构的DNA序列外, 还有大量的DNA序列行使了其他功能, 如控制基因表达、RNA剪接、染色质 结构域形成、染色体结构的维持、重 组和复制等,要重视非蛋白质编码序 列的研究,包括相关文库的生产、比 较测序和计算机分析等。应支持开发 新的实验和计算方法来研究蛋白质表 达、蛋白质-配基反应及蛋白质修饰的 整体空间和时间模式,不断为功能基 因组学提供新的实验模式。
2、对分散于基因组中的单个碱基的 差异进行标记。这种差异包括单个 碱基的缺失和插入,但更常见的是 单个核苷酸的替换,只p单核甘酸的 多态性(single enucleotide polymorphism,SNP)。
由于该标记中的所有“遗传多态性” 都来自单个核苷酸的差异,SNP有 可能在密度上达到人类基因组“多 态”位点数目的极限。
比较基因组学(comparative genomics)的 威力--根据对一种生物相关基因的认 识来理解、诠释和克隆分离另一种生物 的基因。
1 通过基因组数据进行全局性分 析
到2001年为止已经基本完成DNA 序列分析的各种真核生物基因组 数据的比较发现,低等真核生物 如酵母、线虫以及高等植物拟南 芥,基因组比较小,基因密度比 较高,百万碱基对中含有200个 或更多的基因。
转录图
生物的性状,包括疾病,都是由功 能蛋白质决定的,而所有已知蛋白 质都是由RNA聚合酶Ⅱ指导的带有 多聚腺苷酸“尾巴”的mRNA按照 遗传密码三联子的规律产生的。
分离纯化mRNA(或cDNA),抓住了 基因组的主要成分(可转录部分)。
人类的基因转录图(cDNA图),即表 达序列标签图(EST,expressed sequence tag)是人类基因组图的雏型。
交换频率不会大于50%,因 为当重组率等于50%(即遗传 学距离等于50cM)时,即发生 随机交换,则两个位点之间 完全不连锁。
DNA遗传标记
1、RFLP( restriction fragment length polymorphism,限制性片段长度多态性)。
DNA序列上的微小变化,可能引起限制 性内切酶切点的丢失或产生,导致酶切 片段长度的变化。
人类基因组的序列图
人类基因组的核苷酸序列图(human genome sequence)是分子水平上最高层次 的、最详尽的物理图。测定总长约lm、 由30亿个核苷酸组成的全序列。
人类所拥有的基因位点都是相同的,不 同种族、不同个体的基因差异(人类基因 组的多样性)以及“正常”与“疾病”基 因的差异,只是同一位点上的等位基因 的差异。
人类基因组研究还发现,人类基因 的平均长度为27kb左右,含有8·8个 长约145bp的外显子,内含子的长度 大大超过外显子,达到3365bp左右。 人类基因的3'非翻译区(UTR)的平均 长度为770bp,其5'非翻译区的平均 长度为300bp,开放读码框的平均长 度只有1340bp,编码447个氨基酸。
50kb片段比较
(a)人β-T细胞受体位点只有一个基因(编码 胰蛋白酶原)和52个重复序列,功能基因的 序列占总序列不到3%。
(b)在酵母第Ⅳ号染色体中有26个编码基因, 2个tRNA基因,5个重复序列,功能基因序 列占总序列的66·4%,重复序列占 13·5%(在所有16条酵母染色体中,重复序 列只有3·4%,有239个内含子)。该序列不 带内含子。
1、原核生物基因组:原核生物DNA 分布在整个细胞之中,有时相对集 中在类核体上。类核体上的DNA是 一条共价、闭合双链分子,类核体 通常也称为染色体。
原核生物中一般只有一条染色体。 原核细胞都是单倍的。 这条染色体 的DNA就是原核细胞的基因组。
2、真核生物基因组
一个物种的单倍体的各条染色体中的全 部DNA为该物种的基因组(genome)。例 如,人有23对染色体,配子--单倍体 是23条染色体,这23条染色体中的全部 DNA就是人体基因组。
收集各种细胞或组织的基因表达谱进行 两两或多重比较,能较全面地了解哪些 基因是特异性表达的。在某一细胞或组 织中特异性表达的基因可能与该组织或 细胞类型的生理功能有关。
获得各类组织或细胞的基因表达谱, 从而给出人体200余种基本组织或不 同细胞组成的人体基因图(bodymap)。
转录图(基因表达谱)研究所提供 的信息,使人们有可能系统地全面 地从mRNA水平了解特定细胞、组 织或器官的基因表达模式并解释其 生理属性,深入认识细胞生长、发 育、分化、衰老和疾病发生的机制。
(c) 在大肠杆菌基因组中可能有43个 基因(占全序列的85·9%)。许多基因 之间没有空间。原核生物→基因中 没有内含子、基因组中没有重复序 列。在整个大肠杆菌4639kb序列中 共发现4397个编码基因。大肠杆菌 K-12基因组和基因及其编码的蛋白 质已经研究得比较清楚。参阅(表 10-5)。
STS是基因组中任何单拷贝的长度在 100~500bp之间的DNA序列,与核酸内 切酶识别序列相关联。
得到5套以上包含相关染色体或整个基因 组的DNA片段是建立STS物理图的先决 条件。然后,可以通过拼接而得STS物 理图。
两个STS标签在基因组上靠得近,它们 就会一直同时出现在DNA大片段上;两 个STS标签在基因组上相距较远,它们 同时出现在一个DNA大片段上的几率就 会小得多。
真核生物基因组的主要成分被核膜所包 裹,与细胞质分开。
人类基因组计划
2003年4月14日,国际人类基因组宣布:人 类基因组序列图--“完成图”提前绘制成功。
人类基因组包括24条染色体,约30亿对核苷 酸,编码5万~6万个基因,人类基因组中携 带了有关人类个体生长发育、生老病死的全 部遗传信息。
2 通过基因组数据进行比较基因 组学研究
尿殖道支原体是最小的基因组( 0·58Mb ), 可依此确定能自我复制的细胞必需的一套最少 的核心基因。流感嗜血杆菌的基因组为 1.83Mb。流感嗜血杆菌基因大小平均900bp, 尿殖道文原体的基因为1040bp。流感嗜血杆 菌中平均1042bp有1个基因,尿殖道支原体中 平均1235bp有1个基因。二者的差别在于基因 数量上,流感嗜血杆菌有1743个ORF,尿殖 道支原体有470个ORF。
物理图的主要内容是建立相互重叠连接 的"相连DNA片段群“
只要有一定数量的STS标签,所有DNA 大片段在该染色体或基因组中的位置都 能被确定。
遗传图
遗传图(连锁图)→DNA标志在染 色体上的相对位置(遗传距离), 遗传距离以DNA片段在染色体交换 过程中的分离频率厘摩(cM)来表示。 cM值越大,两者之间距离越远。
整个人类基因组中,有1%-5%的序 列编码了蛋白质,最多可能有(5~7) 万个蛋白质编码基因。
得到了一段cDNA或一个EST,就能 被用于筛选全长的转录本,并将该 基因准确地定位于基因组上。
大规模生产EST的程序: 分离特定组织在 某一发展阶段的总mRNA,合成cDNA并 进行序列分析。
cDNA序列具有转录本的特异性,代表了 不同基因的信息。可以将DNA序列和 cDNA序列进行比对,找出对应于cDNA 的基因。
第八章 基因组与比较基因组学
1. 人类基因组计划 2. DNA的鸟枪法序列分析技术 3. 比较基因组学和功能基因组学的
研究
什么是基因组
基因组学这一名词是美国人 T·H·Rodehck在1986年7月造出来的,与 一个新的杂志- genomics一道问世。 基因组学完全改变只能研究单个基因的 状况,它着眼于研究并解析生物体整个 基因组的所有遗传信息。基因组是生物 体内遗传信息的集合,是某个特定物种 细胞内全部DNA分子的总和(细胞内细 胞器的DNA属于该细胞器的基因组)。
相关文档
最新文档