基因组测序的原理与方法15
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基因组DNA
完整的基 ………ATGCCGTAGGCCTAGCTCGGA… 因组序列…
全基因组霰弹法 (Whole Genome Shot-gun)
两种大规模基因组测序策略的比较
项 目 遗传背景 速度
策 全基因组霰弹法 不需要
快
略
逐步克隆法 需要(需构建精确 的物理图谱) 慢
低 高(以全基因组为 单位进行拼接) 适用范围 工作框架图 代表测序物种 果蝇、水稻
随机基因组序列
STS的来源 表达基因序列,如EST 遗传标记序列,如微卫星标记
有关STS的信息可在基因组数据库GDB中找到 http://gdbwww. gdb. org
物 理 图 谱 构 建 的 步 骤
确定各STS序列 及其在基因组中 的位置 大插入片段基因 组文库的构建 (BAC文库) 以特定STS为标 记筛 选并定位克 隆
• 基因组作为信息载体 (碱基对、重复序列的整 体守恒与局部不平衡的关系) • 基因组作为遗传物质的整合体 (基因作为功能和 结构单位与遗传学机制的关系) • 基因组作为生物化学分子的整合体 (基因产物作 为功能分子与分子、细胞机制的关系) • 物种进化的整合体 (物种在地理与大气环境中的 自然选择)
“双脱氧末端终止”的含 义
PCR(聚合酶链式反应)原理
反应所需物质:DNA模板、引物、DNA聚合 酶、dNTP、缓冲液 每个循环包括:变性(90℃)、退火(54 ℃)、延伸(72 ℃)
Sanger 双脱氧末端终止法测序原理
DNA自动测序仪的发展
自动荧光垂直板凝胶电泳测序仪 代表:ABI公司377型垂直板自动测序仪 96个泳道 读长高达700-800 bp 日分析能力达300个样品
Whole Genome Shotgun
工作草稿(框架图)与完成图
Chromosome
“Working Draft” (90%; 4X)
Gap1 Gap2
Finished Genome (99.99%; 8X)
人类基因组计划研究的主要成果和进展表现在这“四张图”
• 遗传图谱 又称为连锁图谱(linkage map), 指基因或DNA标志在染色体上的相对 位置与遗传距离 • 物理图谱 以定位的DNA标记序列如STS作为路 标,以DNA实际长度即bp、kb、Mb为 图距的基因组图谱。 • 转录图谱 利用EST(expressed sequence tags 表达序列标签)作为标记所构建的分 子遗传图谱 • 序列图谱
大规模基因组测序的 原理与方法
教师:李海燕
“基因组”----生命科学的“元素周期表 ”
元素周期表
元素周期表的发现奠定了二 十世纪物理、化学研究和发展的 基础
人体解剖图奠定了现
代医学发展的基础
“基因组序列图”将奠定二十一世纪生 命科学研究和生物产业发展的基础!
基因组学的基础理论研究
基因组学是要揭示下述四种整合体系的相互关系:
世界大型基因组研究中心
美国:1) National Human Genome Research Institution in NIH 2) Genome Center at White Head/MIT 3) Washington University Genome Center 4) Joint Genome Institution at DOE
(Whole Genome Shot-gun)
逐步克隆法(Clone by Clone)
完整的基 因组序列
基因组DNA
BAC文库
根据物理图谱正 确定位的BAC 或contig
测序并进 行全基因 组序列组 装
霰弹法克隆
用于霰弹法测 序的候选克隆
用于霰弹法测 序的亚克隆
测序并组 装
………ATGCCGTAGGCCTAGC TAGGCCTAGCTCGGA……
5) Genome Center at Baylor Medical Collage
英国:Sanger Center 日本:RIKEN 中国:华大基因研究中心(北京、杭州) 国家人类基因组中心(北京、上海)
大规模基因组测序的几个支撑技术
Sanger双脱氧末端终止法 PCR 技术 DNA 自动测序仪的发展 生物信息学分析软硬件设施
电 泳 , 看 谁 跑 得 快
自动荧光毛细管凝胶电泳测序仪 代表:安玛西亚公司 MegaBACE1000
荧光检测探头
96个电泳
读长高达500-600 bp
短片段先检测到 长片段后检测到
日分析能力达1000个样品
大规模基因组测序的两种策略
• 逐步克隆法
(Clone by Clone)
• 全基因组霰弹法
基因组与生命之谜
• • • • • • • • •
基因组的产生与进化。 基因组DNA组分的变化、GC百分比、嘌呤:嘧啶守恒。 遗传密码的发生、发展和进化。 内含子(尤其是大于100,000 核苷酸的大内含子)剪 出后的运输和降解。 最小内含子的生物学意义。 动物基因组与植物基因组在基因分布上的共性和个性。 物种衍变过程中基因组水平的变化。 基因组大小变化与遗传、分子、细胞机制的关系。 “JUNK DNA”的发生、分类、进化与功能。
第二板
第八板
“STS-PCR反应池”方案(Pooling Protocol) 28 VS 768
大大减少筛选的工作量,降低成本,所得筛选结果准确可靠
1 2 3 4 5 6 7 8 9 10 11 12
超级池(8个96孔板, 共768个克隆)
行池(12个克隆
板池(96个克隆)
列池(8个克隆)
sheet of superpools, plate pools, row pools, column pools
一 BAC Screening
前48个样品为引物OGG1.51对superpool(sp)的筛选结果 后48个样品为引物OGG1.52对superpool(sp)的筛选结果
引物OGG1.52对应sp#27,34,45的 plate,row,column pools的筛选结果
BAC clone 确定 (+为阳性克隆)
在含有氯霉 素的固体培 养基中培养
插有外源DNA片段的
BAC克隆的筛选
每一个菌落为带有相同 外源DNA片段的单克隆
Contig
“STS-PCR 反应池”方 案筛选种子 克隆
特定的 STS标记
ຫໍສະໝຸດ Baidu
相互间具有重 叠片段的BAC克隆 根据STS信息组装 成重叠群 ,并定 位于基因组上
BAC Pooling Protocol 1,152 (plates) X 384 (wells/plate) X 1 (BAC/well) = 442,368 BAC 48X8 (板) X 384 ( 孔/板 ) X 1 ( BAC/孔 ) = 147,456 BAC
费用 计算机性能
高 低(以BAC为单位 进行拼接) 精细图 人、线虫
BAC by BAC
… the sequencing of the human genome is likely to be the only large sequencing project carried to completion by the methods described in this issue.
能在宿主细胞中进行独立的复制 具有多克隆位点,可插入外源DNA片 段
有合适的筛选标记,如抗药性
大小合适,易于分离纯化
BAC文库的构建
NotI、SacI
脉冲场凝胶电泳 得200Kb左右的大 片段DNA 每一个菌落为带有 相同外源DNA片段 的单克隆
纯化后与 载体连接
电转化,将连 接产物导入大 肠杆菌感受态 细胞
Each BAC clone contain ~ 150 Kbp human insert
147,456 BAC clones 对全基因组的覆盖率: 147,456 BAC clones X 150 Kbp The genome DNA 3,000,000 Kbp
= 7.3728
48 superpools
基因组学是一个大学科
• “界门纲目科属种”,地球上现存物种近亿,所有生生灭灭的
•
• • •
•
•
生物,无一例外,都有个基因组。 基因组作为信息载体,它所储存的信息是最基本的生物学信息 之一;既是生命本质研究的出发点之一,又是生物信息的归宿。 基因组学研究包括对基因产物(转录子组和蛋白质组)的系统 生物学研究。 基因多态性的规模化研究就是基因组多态性的研究。 基因组学的研究必然要上升到细胞机制、分子机制和系统生物 学的水平。 基因组的起源与进化和物种的起源与进化一样是一个新的科学 领域。 基因组信息正在以天文数字计算,规模化地积累,它的深入研 究必将形成一个崭新的学科。
大规模基因组测序渐入佳境
• 三十亿三年内完成:
– 继酵母、线虫、果蝇、拟南芥后,是人、斑马 鱼、水稻和小鼠的基因组。 • 三百亿计划已在执行: – 大鼠、猪、黑猩猩、狒狒、鸡、牛、小麦、玉 米、大麦、大豆、棉花、各种人畜寄生虫和几 百种人、动物和植物的病原微生物。 • 三千亿势在必行。 – 将涉及家畜、家禽、树木、海洋生物、实验模 式生物等所有代表物种。
基因组数据库(GDB)中至少含有24568 个STS 路标信息
含有STS的克隆 在基因组中排序
关 于 文 库
文库的概念 含有某种生物体全部基因的随机片段的
重组DNA克隆群体 宿主:能容纳外源DNA片段 的生物体,常用的有大肠 杆菌、酵母等
载体:能携带外源DNA进入宿主 细胞的工具,常用的载体有质 粒载体、噬菌体载体、细菌人 工染色体等 作为载体的基本要求
基因组学是一门大科学
• 基因组的信息是用来发现和解释具有普遍意义的生命现
• • • • •
象和它们的变化、内在规律和相互关系。 基因组的信息含量高。基因组学的研究又在于基因组间 的比较。 基因组学的复杂性必然导致多学科的引进和介入(各生 物学科、医学、药学、计算机科学、化学、数学、物理 学、电子工程学、考古学等)。 基因组学研究的手段和技术已经走在生命科学研究的最 前沿。 基因组信息来自于高效率和规模化所产生的实验数据。 人类基因组计划证明了基因组研究的迫切性和可行性。
通过基因组测序得到的,以A、T、G、 C为标记单位的基因组DNA序列
逐步克隆法(Clone by Clone)
物理图谱的构建
大片段克隆的筛选 霰弹法测序与“工作框架图”的构建 序列的全组装与“完成图”构建
物理图谱的制作
物理图谱的制作——序列标签位点(STS)作图
物理图谱是以特异的DNA序列为标志所展示的染色体图。 标志之间的距离或图距以物理距离如碱基对(base pair;bp, Kb , Mb)表示。最精细的物理图是核苷酸顺序图,最粗略的物 理图是染色体组型图。 STS图谱是最基本和最为有用的染色体物理图谱之一,STS (Sequence Tagged Site)本身是随机地从人类基因组上选择 出来的长度在200~300bp左右的特异性短序列(每个STS在基 因组中是唯一的,STS图谱就是以STS为路标(平均每100Kb一 个),将DNA克隆片段有序地定位到基因组上。
每 组 8 个
共 个
每8个96孔板组成1个superpool,384个96孔板组成48个superpools
48
plate pools,row pools,column pools的构成
Column pools
Row pools 1 2 3 4 5 6 7 8 9 10 11 12
Plate pools 第一板
基因组学与计算机科学的接轨
• “海量”(>1010)基因组信息的收集、管理和分
析 • 科学文献、组织与发育的三维解剖图像、生物分 子的分类和相关性等的高速检索 (>1014) • 多维生物分子结构的运算和预测 (>1022) • 生物分子之间的相互作用 (信号传导、神经传导、 大脑功能模拟、细胞机制模拟等) (>1030) • 计算生物学和系统生物学研究的未来 (>1050)
大规模和高速度的重要性
• 测定一个哺乳动物基因组
– 30亿碱基对相当于6千万测序道(每道500 核 苷酸) – 相当于300台毛细管电泳仪全负荷运行一年 • 测定一个细菌基因组 – 5百万碱基对相当于十万测序道 – 相当于180台机器/天 • 知识经济的特点 – 知识产权为出发点 – 知识产权的占有者对后来者的制约