基因组测序与分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基因识别目前常采用的有二种方法:
➢ 从基因组序列中识别转录表达的DNA片段 ➢ 从cDNA文库中挑取并克隆。
7. 模式生物的基因组测序
酵母 老鼠
大肠杆菌
线虫 果蝇
水稻基因组测序
水稻是全球半数以上人口的主食, 对解决全球粮食问题具有重要意义。
2002年我国科学家完成了水稻基因 组定序和初步分析。出人意料的是, 水稻的基因竟比人类基因还要多得 多。人类基因大约有3万多个,水 稻有4万多个基因。
水稻基因组可说是继人类基因组之 后,完成定序的最大基因组,也是 至今已知最大的植物基因组。
8.人类基因组计划对医学事业的影响
➢ 促进对致病基因的克隆 ➢ 疾病的预测与诊断
➢ 如果掌握了与某种疾病相关的基因及突变,则 可以对该疾病进行预测、诊断。
➢ 基因疗法的发展与应用
➢ 通过生物学、医学等技术对疾病相关基因进行 抑制或调控,即可达到治疗某一疾病的效果。
Shotgun法序列拼接
Low Base Quality
Single Stranded
Region
Sequence Gap
Consensus
Mis-Assembly (Inverted)
拼接错误:Repeat的存在
实例:流感嗜血杆菌基因组的测序及顺序组装
超声波打断纯化的基因组DNA ↓
琼脂糖电泳收集1.6∼2.0Kb的区段、纯化 ↓
序列片段组装过程三个步骤: ➢ 首先进行序列片段的两两比较,确定可能的片段
之间的覆盖(或者重叠); ➢ 确定所有片段统一的覆盖模式,即确定各个序列
片段的相对位置; ➢ 最后确定片段组装结果,即确定目标序列。
GeneBank 下载104018 个BAC末端 顺序
随机测序与序列组装方法 指导测序与序列组装方法 相结合进行序列组装
B 国际人类基因组测序策略
构建BAC克隆 ↓
限制性酶处理获得指纹 ↓
根据指纹重叠方法组建BAC克隆重叠群 ↓
根据STS标记,将BAC克隆重叠群标定在物理图上 ↓
每个BAC克隆内部采用鸟枪法测序,组装 ↓
解决办法:利用其它宿主菌 与载体重新构建文库
运用计算机软件进行序列拼接
Francis Collins VS. J.Craig Venter
6. 基因识别
基因识别(gene identification)是HGP 的重要内容之一,其目的是识别全部人 类的基因。
基因识别包括:
➢ 识别基因组编码区 ➢ 识别基因结构
4.单核苷酸多态性
人类99.9%的基因密码是相 同的,而差异不到0.1%, 不同人群仅有140万个核苷酸 差异。这些差异是由“单一 核苷酸多样性”(SNP)产 生的,它构成了不同个体的 遗传基础,个体的多样性被 认为是产生遗传疾病的原因。 在整个基因组序列中,人与 人之间的变异仅为万分之一, 从而说明人类不同“种属” 之间并没有本质上的区别。
构建到质粒载体中 ↓
随机挑选19687个克隆,进行28643次测序,得到可读 顺序为11 631 485 bp ↓
组装成140个覆盖全基因组范围的独立的顺序重叠群, ↓
各重叠群间仍有间隙
顺序间隙
↓
测序时遗漏的测序
物理间隙
↓
载体或宿主菌 选用不当而被丢失 的序列
解决办法:通过相邻已知 顺序作为探针筛选已有 的基因组文库
5.Shotgun测序及分析
DNA的提取和纯化 载体预备:和DNA片断结合,从而能够在细菌中
扩增。 DNA片段的制备:将DNA用超声波切成能够测序
的小片断 转化培养:小片断和载体结合,植入细菌中进行
扩增。 提质粒:从细菌中提取出繁殖好的质粒 电泳检测:检测质量的好坏 测序:上测序仪测序
基因组 ——一个物种中所有基因的整体组成
2. 人类基因组测序策略
A. Celera Genomics 人类基源自文库组 的测序策略
采集5个自愿者的DNA样品
构建3种不同插入子大小的基 因组文库2Kb, 10Kb和50Kb
PFP发表的公开 数据主要为BAC 克隆的顺序,共
4443.3Mb
完成约2700万次 插入子末端测序, 总长14800Mb
将BAC插入顺序与BAC克隆指纹极重叠群对比,将已阅读的 顺序锚定到物理图上
两种策略的比较
鸟枪法策略
指导测序策略
不需背景信息
时间短 需要大型计算机 得到的是草图(Draft)
构建克隆群 (遗传、物理图谱) 需要几年的时间
得到精细图谱
3.人类基因组研究的惊人发现
• 19号染色体是含基因最丰富的染色 体,而13号染色体含基因量最少 •目前已经发现和定位了26000多个 功能基因,其中尚有42%的基因尚 不知道功能 •人类基因组中存在“热点”和大片 “荒漠”。在染色体上有基因成簇密 集分布的区域,也有大片的区域只有 “无用DNA” ——不包含或含有极少 基因的成分。基因组上大约有1/4 的区域没有基因的片段。 • 35.3%的基因包含重复的序列。 这说明那些原来被认为是“垃圾”的 DNA也起重要作用,应该被进一步 研究。
DNA整体
切成 小段
小段和载体结合 结合后进行测序
还没有完!拼接!!!
因为整个基因组太长(上M),而每次只能测 得一个500的小片断(read)
问题:如何根据read恢复原始顺序? 类比:10本圣经,都从随机点起始剪成500
个字母左右的小纸条,问:给你这么一堆 小纸条,你能读出圣经来吗? 但是都会拼错!
第一节 基因组计划
1、人类基因组计划简介
人类基因组计划准备用15年时间, 投入30亿美元,完成人类全部24条 染色体的3×109脱氧核苷酸对(bp) 的序列测定,主要任务包括作图 (遗传图谱、物理图谱的建立及转 录图谱的绘制)、测序和基因识别。 其中还包括模式生物(如大肠杆菌、 酵母、线虫、小鼠等)基因组的作 图和测序,以及信息系统的建立。 作图和测序是基本的任务,在此基 础上解读和破译生物体生老病死以 及和疾病相关的遗传信息
基因变异与疾病
第二节 DNA片段组装
大规模基因组测序 得到待测序列的一系列序列片段 这些序列片段覆盖待测序列 序列片段之间也存在着相互覆盖或者重叠。
目标序列 序列碎片
1. 片段组装的4个主要问题
(1)碱基标识错误
(2)不知道片段的方向
(3)存在重复区域
(4)缺少覆盖(gap)
2、序列片段组装过程
➢ 从基因组序列中识别转录表达的DNA片段 ➢ 从cDNA文库中挑取并克隆。
7. 模式生物的基因组测序
酵母 老鼠
大肠杆菌
线虫 果蝇
水稻基因组测序
水稻是全球半数以上人口的主食, 对解决全球粮食问题具有重要意义。
2002年我国科学家完成了水稻基因 组定序和初步分析。出人意料的是, 水稻的基因竟比人类基因还要多得 多。人类基因大约有3万多个,水 稻有4万多个基因。
水稻基因组可说是继人类基因组之 后,完成定序的最大基因组,也是 至今已知最大的植物基因组。
8.人类基因组计划对医学事业的影响
➢ 促进对致病基因的克隆 ➢ 疾病的预测与诊断
➢ 如果掌握了与某种疾病相关的基因及突变,则 可以对该疾病进行预测、诊断。
➢ 基因疗法的发展与应用
➢ 通过生物学、医学等技术对疾病相关基因进行 抑制或调控,即可达到治疗某一疾病的效果。
Shotgun法序列拼接
Low Base Quality
Single Stranded
Region
Sequence Gap
Consensus
Mis-Assembly (Inverted)
拼接错误:Repeat的存在
实例:流感嗜血杆菌基因组的测序及顺序组装
超声波打断纯化的基因组DNA ↓
琼脂糖电泳收集1.6∼2.0Kb的区段、纯化 ↓
序列片段组装过程三个步骤: ➢ 首先进行序列片段的两两比较,确定可能的片段
之间的覆盖(或者重叠); ➢ 确定所有片段统一的覆盖模式,即确定各个序列
片段的相对位置; ➢ 最后确定片段组装结果,即确定目标序列。
GeneBank 下载104018 个BAC末端 顺序
随机测序与序列组装方法 指导测序与序列组装方法 相结合进行序列组装
B 国际人类基因组测序策略
构建BAC克隆 ↓
限制性酶处理获得指纹 ↓
根据指纹重叠方法组建BAC克隆重叠群 ↓
根据STS标记,将BAC克隆重叠群标定在物理图上 ↓
每个BAC克隆内部采用鸟枪法测序,组装 ↓
解决办法:利用其它宿主菌 与载体重新构建文库
运用计算机软件进行序列拼接
Francis Collins VS. J.Craig Venter
6. 基因识别
基因识别(gene identification)是HGP 的重要内容之一,其目的是识别全部人 类的基因。
基因识别包括:
➢ 识别基因组编码区 ➢ 识别基因结构
4.单核苷酸多态性
人类99.9%的基因密码是相 同的,而差异不到0.1%, 不同人群仅有140万个核苷酸 差异。这些差异是由“单一 核苷酸多样性”(SNP)产 生的,它构成了不同个体的 遗传基础,个体的多样性被 认为是产生遗传疾病的原因。 在整个基因组序列中,人与 人之间的变异仅为万分之一, 从而说明人类不同“种属” 之间并没有本质上的区别。
构建到质粒载体中 ↓
随机挑选19687个克隆,进行28643次测序,得到可读 顺序为11 631 485 bp ↓
组装成140个覆盖全基因组范围的独立的顺序重叠群, ↓
各重叠群间仍有间隙
顺序间隙
↓
测序时遗漏的测序
物理间隙
↓
载体或宿主菌 选用不当而被丢失 的序列
解决办法:通过相邻已知 顺序作为探针筛选已有 的基因组文库
5.Shotgun测序及分析
DNA的提取和纯化 载体预备:和DNA片断结合,从而能够在细菌中
扩增。 DNA片段的制备:将DNA用超声波切成能够测序
的小片断 转化培养:小片断和载体结合,植入细菌中进行
扩增。 提质粒:从细菌中提取出繁殖好的质粒 电泳检测:检测质量的好坏 测序:上测序仪测序
基因组 ——一个物种中所有基因的整体组成
2. 人类基因组测序策略
A. Celera Genomics 人类基源自文库组 的测序策略
采集5个自愿者的DNA样品
构建3种不同插入子大小的基 因组文库2Kb, 10Kb和50Kb
PFP发表的公开 数据主要为BAC 克隆的顺序,共
4443.3Mb
完成约2700万次 插入子末端测序, 总长14800Mb
将BAC插入顺序与BAC克隆指纹极重叠群对比,将已阅读的 顺序锚定到物理图上
两种策略的比较
鸟枪法策略
指导测序策略
不需背景信息
时间短 需要大型计算机 得到的是草图(Draft)
构建克隆群 (遗传、物理图谱) 需要几年的时间
得到精细图谱
3.人类基因组研究的惊人发现
• 19号染色体是含基因最丰富的染色 体,而13号染色体含基因量最少 •目前已经发现和定位了26000多个 功能基因,其中尚有42%的基因尚 不知道功能 •人类基因组中存在“热点”和大片 “荒漠”。在染色体上有基因成簇密 集分布的区域,也有大片的区域只有 “无用DNA” ——不包含或含有极少 基因的成分。基因组上大约有1/4 的区域没有基因的片段。 • 35.3%的基因包含重复的序列。 这说明那些原来被认为是“垃圾”的 DNA也起重要作用,应该被进一步 研究。
DNA整体
切成 小段
小段和载体结合 结合后进行测序
还没有完!拼接!!!
因为整个基因组太长(上M),而每次只能测 得一个500的小片断(read)
问题:如何根据read恢复原始顺序? 类比:10本圣经,都从随机点起始剪成500
个字母左右的小纸条,问:给你这么一堆 小纸条,你能读出圣经来吗? 但是都会拼错!
第一节 基因组计划
1、人类基因组计划简介
人类基因组计划准备用15年时间, 投入30亿美元,完成人类全部24条 染色体的3×109脱氧核苷酸对(bp) 的序列测定,主要任务包括作图 (遗传图谱、物理图谱的建立及转 录图谱的绘制)、测序和基因识别。 其中还包括模式生物(如大肠杆菌、 酵母、线虫、小鼠等)基因组的作 图和测序,以及信息系统的建立。 作图和测序是基本的任务,在此基 础上解读和破译生物体生老病死以 及和疾病相关的遗传信息
基因变异与疾病
第二节 DNA片段组装
大规模基因组测序 得到待测序列的一系列序列片段 这些序列片段覆盖待测序列 序列片段之间也存在着相互覆盖或者重叠。
目标序列 序列碎片
1. 片段组装的4个主要问题
(1)碱基标识错误
(2)不知道片段的方向
(3)存在重复区域
(4)缺少覆盖(gap)
2、序列片段组装过程