基因组测序与分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
序列片段组装过程三个步骤: ➢ 首先进行序列片段的两两比较,确定可能的片段
之间的覆盖(或者重叠); ➢ 确定所有片段统一的覆盖模式,即确定各个序列
片段的相对位置; ➢ 最后确定片段组装结果,即确定目标序列。
基因变异与疾病
第二节 DNA片段组装
大规模基因组测序 得到待测序列的一系列序列片段 这些序列片段覆盖待测序列 序列片段之间也存在着相互覆盖或者重叠。
目标序列 序列碎片
ห้องสมุดไป่ตู้
1. 片段组装的4个主要问题
(1)碱基标识错误
(2)不知道片段的方向
(3)存在重复区域
(4)缺少覆盖(gap)
2、序列片段组装过程
Shotgun法序列拼接
Low Base Quality
Single Stranded
Region
Sequence Gap
Consensus
Mis-Assembly (Inverted)
拼接错误:Repeat的存在
实例:流感嗜血杆菌基因组的测序及顺序组装
超声波打断纯化的基因组DNA ↓
琼脂糖电泳收集1.6∼2.0Kb的区段、纯化 ↓
DNA整体
切成 小段
小段和载体结合 结合后进行测序
还没有完!拼接!!!
因为整个基因组太长(上M),而每次只能测 得一个500的小片断(read)
问题:如何根据read恢复原始顺序? 类比:10本圣经,都从随机点起始剪成500
个字母左右的小纸条,问:给你这么一堆 小纸条,你能读出圣经来吗? 但是都会拼错!
基因识别目前常采用的有二种方法:
➢ 从基因组序列中识别转录表达的DNA片段 ➢ 从cDNA文库中挑取并克隆。
7. 模式生物的基因组测序
酵母 老鼠
大肠杆菌
线虫 果蝇
水稻基因组测序
水稻是全球半数以上人口的主食, 对解决全球粮食问题具有重要意义。
2002年我国科学家完成了水稻基因 组定序和初步分析。出人意料的是, 水稻的基因竟比人类基因还要多得 多。人类基因大约有3万多个,水 稻有4万多个基因。
解决办法:利用其它宿主菌 与载体重新构建文库
运用计算机软件进行序列拼接
Francis Collins VS. J.Craig Venter
6. 基因识别
基因识别(gene identification)是HGP 的重要内容之一,其目的是识别全部人 类的基因。
基因识别包括:
➢ 识别基因组编码区 ➢ 识别基因结构
第一节 基因组计划
1、人类基因组计划简介
人类基因组计划准备用15年时间, 投入30亿美元,完成人类全部24条 染色体的3×109脱氧核苷酸对(bp) 的序列测定,主要任务包括作图 (遗传图谱、物理图谱的建立及转 录图谱的绘制)、测序和基因识别。 其中还包括模式生物(如大肠杆菌、 酵母、线虫、小鼠等)基因组的作 图和测序,以及信息系统的建立。 作图和测序是基本的任务,在此基 础上解读和破译生物体生老病死以 及和疾病相关的遗传信息
水稻基因组可说是继人类基因组之 后,完成定序的最大基因组,也是 至今已知最大的植物基因组。
8.人类基因组计划对医学事业的影响
➢ 促进对致病基因的克隆 ➢ 疾病的预测与诊断
➢ 如果掌握了与某种疾病相关的基因及突变,则 可以对该疾病进行预测、诊断。
➢ 基因疗法的发展与应用
➢ 通过生物学、医学等技术对疾病相关基因进行 抑制或调控,即可达到治疗某一疾病的效果。
4.单核苷酸多态性
人类99.9%的基因密码是相 同的,而差异不到0.1%, 不同人群仅有140万个核苷酸 差异。这些差异是由“单一 核苷酸多样性”(SNP)产 生的,它构成了不同个体的 遗传基础,个体的多样性被 认为是产生遗传疾病的原因。 在整个基因组序列中,人与 人之间的变异仅为万分之一, 从而说明人类不同“种属” 之间并没有本质上的区别。
5.Shotgun测序及分析
DNA的提取和纯化 载体预备:和DNA片断结合,从而能够在细菌中
扩增。 DNA片段的制备:将DNA用超声波切成能够测序
的小片断 转化培养:小片断和载体结合,植入细菌中进行
扩增。 提质粒:从细菌中提取出繁殖好的质粒 电泳检测:检测质量的好坏 测序:上测序仪测序
构建到质粒载体中 ↓
随机挑选19687个克隆,进行28643次测序,得到可读 顺序为11 631 485 bp ↓
组装成140个覆盖全基因组范围的独立的顺序重叠群, ↓
各重叠群间仍有间隙
顺序间隙
↓
测序时遗漏的测序
物理间隙
↓
载体或宿主菌 选用不当而被丢失 的序列
解决办法:通过相邻已知 顺序作为探针筛选已有 的基因组文库
GeneBank 下载104018 个BAC末端 顺序
随机测序与序列组装方法 指导测序与序列组装方法 相结合进行序列组装
B 国际人类基因组测序策略
构建BAC克隆 ↓
限制性酶处理获得指纹 ↓
根据指纹重叠方法组建BAC克隆重叠群 ↓
根据STS标记,将BAC克隆重叠群标定在物理图上 ↓
每个BAC克隆内部采用鸟枪法测序,组装 ↓
将BAC插入顺序与BAC克隆指纹极重叠群对比,将已阅读的 顺序锚定到物理图上
两种策略的比较
鸟枪法策略
指导测序策略
不需背景信息
时间短 需要大型计算机 得到的是草图(Draft)
构建克隆群 (遗传、物理图谱) 需要几年的时间
得到精细图谱
3.人类基因组研究的惊人发现
• 19号染色体是含基因最丰富的染色 体,而13号染色体含基因量最少 •目前已经发现和定位了26000多个 功能基因,其中尚有42%的基因尚 不知道功能 •人类基因组中存在“热点”和大片 “荒漠”。在染色体上有基因成簇密 集分布的区域,也有大片的区域只有 “无用DNA” ——不包含或含有极少 基因的成分。基因组上大约有1/4 的区域没有基因的片段。 • 35.3%的基因包含重复的序列。 这说明那些原来被认为是“垃圾”的 DNA也起重要作用,应该被进一步 研究。
基因组 ——一个物种中所有基因的整体组成
2. 人类基因组测序策略
A. Celera Genomics 人类基因组 的测序策略
采集5个自愿者的DNA样品
构建3种不同插入子大小的基 因组文库2Kb, 10Kb和50Kb
PFP发表的公开 数据主要为BAC 克隆的顺序,共
4443.3Mb
完成约2700万次 插入子末端测序, 总长14800Mb
之间的覆盖(或者重叠); ➢ 确定所有片段统一的覆盖模式,即确定各个序列
片段的相对位置; ➢ 最后确定片段组装结果,即确定目标序列。
基因变异与疾病
第二节 DNA片段组装
大规模基因组测序 得到待测序列的一系列序列片段 这些序列片段覆盖待测序列 序列片段之间也存在着相互覆盖或者重叠。
目标序列 序列碎片
ห้องสมุดไป่ตู้
1. 片段组装的4个主要问题
(1)碱基标识错误
(2)不知道片段的方向
(3)存在重复区域
(4)缺少覆盖(gap)
2、序列片段组装过程
Shotgun法序列拼接
Low Base Quality
Single Stranded
Region
Sequence Gap
Consensus
Mis-Assembly (Inverted)
拼接错误:Repeat的存在
实例:流感嗜血杆菌基因组的测序及顺序组装
超声波打断纯化的基因组DNA ↓
琼脂糖电泳收集1.6∼2.0Kb的区段、纯化 ↓
DNA整体
切成 小段
小段和载体结合 结合后进行测序
还没有完!拼接!!!
因为整个基因组太长(上M),而每次只能测 得一个500的小片断(read)
问题:如何根据read恢复原始顺序? 类比:10本圣经,都从随机点起始剪成500
个字母左右的小纸条,问:给你这么一堆 小纸条,你能读出圣经来吗? 但是都会拼错!
基因识别目前常采用的有二种方法:
➢ 从基因组序列中识别转录表达的DNA片段 ➢ 从cDNA文库中挑取并克隆。
7. 模式生物的基因组测序
酵母 老鼠
大肠杆菌
线虫 果蝇
水稻基因组测序
水稻是全球半数以上人口的主食, 对解决全球粮食问题具有重要意义。
2002年我国科学家完成了水稻基因 组定序和初步分析。出人意料的是, 水稻的基因竟比人类基因还要多得 多。人类基因大约有3万多个,水 稻有4万多个基因。
解决办法:利用其它宿主菌 与载体重新构建文库
运用计算机软件进行序列拼接
Francis Collins VS. J.Craig Venter
6. 基因识别
基因识别(gene identification)是HGP 的重要内容之一,其目的是识别全部人 类的基因。
基因识别包括:
➢ 识别基因组编码区 ➢ 识别基因结构
第一节 基因组计划
1、人类基因组计划简介
人类基因组计划准备用15年时间, 投入30亿美元,完成人类全部24条 染色体的3×109脱氧核苷酸对(bp) 的序列测定,主要任务包括作图 (遗传图谱、物理图谱的建立及转 录图谱的绘制)、测序和基因识别。 其中还包括模式生物(如大肠杆菌、 酵母、线虫、小鼠等)基因组的作 图和测序,以及信息系统的建立。 作图和测序是基本的任务,在此基 础上解读和破译生物体生老病死以 及和疾病相关的遗传信息
水稻基因组可说是继人类基因组之 后,完成定序的最大基因组,也是 至今已知最大的植物基因组。
8.人类基因组计划对医学事业的影响
➢ 促进对致病基因的克隆 ➢ 疾病的预测与诊断
➢ 如果掌握了与某种疾病相关的基因及突变,则 可以对该疾病进行预测、诊断。
➢ 基因疗法的发展与应用
➢ 通过生物学、医学等技术对疾病相关基因进行 抑制或调控,即可达到治疗某一疾病的效果。
4.单核苷酸多态性
人类99.9%的基因密码是相 同的,而差异不到0.1%, 不同人群仅有140万个核苷酸 差异。这些差异是由“单一 核苷酸多样性”(SNP)产 生的,它构成了不同个体的 遗传基础,个体的多样性被 认为是产生遗传疾病的原因。 在整个基因组序列中,人与 人之间的变异仅为万分之一, 从而说明人类不同“种属” 之间并没有本质上的区别。
5.Shotgun测序及分析
DNA的提取和纯化 载体预备:和DNA片断结合,从而能够在细菌中
扩增。 DNA片段的制备:将DNA用超声波切成能够测序
的小片断 转化培养:小片断和载体结合,植入细菌中进行
扩增。 提质粒:从细菌中提取出繁殖好的质粒 电泳检测:检测质量的好坏 测序:上测序仪测序
构建到质粒载体中 ↓
随机挑选19687个克隆,进行28643次测序,得到可读 顺序为11 631 485 bp ↓
组装成140个覆盖全基因组范围的独立的顺序重叠群, ↓
各重叠群间仍有间隙
顺序间隙
↓
测序时遗漏的测序
物理间隙
↓
载体或宿主菌 选用不当而被丢失 的序列
解决办法:通过相邻已知 顺序作为探针筛选已有 的基因组文库
GeneBank 下载104018 个BAC末端 顺序
随机测序与序列组装方法 指导测序与序列组装方法 相结合进行序列组装
B 国际人类基因组测序策略
构建BAC克隆 ↓
限制性酶处理获得指纹 ↓
根据指纹重叠方法组建BAC克隆重叠群 ↓
根据STS标记,将BAC克隆重叠群标定在物理图上 ↓
每个BAC克隆内部采用鸟枪法测序,组装 ↓
将BAC插入顺序与BAC克隆指纹极重叠群对比,将已阅读的 顺序锚定到物理图上
两种策略的比较
鸟枪法策略
指导测序策略
不需背景信息
时间短 需要大型计算机 得到的是草图(Draft)
构建克隆群 (遗传、物理图谱) 需要几年的时间
得到精细图谱
3.人类基因组研究的惊人发现
• 19号染色体是含基因最丰富的染色 体,而13号染色体含基因量最少 •目前已经发现和定位了26000多个 功能基因,其中尚有42%的基因尚 不知道功能 •人类基因组中存在“热点”和大片 “荒漠”。在染色体上有基因成簇密 集分布的区域,也有大片的区域只有 “无用DNA” ——不包含或含有极少 基因的成分。基因组上大约有1/4 的区域没有基因的片段。 • 35.3%的基因包含重复的序列。 这说明那些原来被认为是“垃圾”的 DNA也起重要作用,应该被进一步 研究。
基因组 ——一个物种中所有基因的整体组成
2. 人类基因组测序策略
A. Celera Genomics 人类基因组 的测序策略
采集5个自愿者的DNA样品
构建3种不同插入子大小的基 因组文库2Kb, 10Kb和50Kb
PFP发表的公开 数据主要为BAC 克隆的顺序,共
4443.3Mb
完成约2700万次 插入子末端测序, 总长14800Mb