基因组测序的原理与方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
✓Pacific Biosciences
✓RSSystem
✓Polonator G.007
✓Complete Genomics ✓无锡艾吉因生物信息技术有限公司
✓AG-100
✓深圳华因康基因科技有限公司
✓Pstar-1
✓中科院北京基因组所/半导体所
✓BIGIS-1
9
✓BIGIS-4
大规模基因组测序的几个支撑技术
STS图谱是最基本和最为有用的染色体物理图谱之一,STS (Sequence Tagged Site)本身是随机地从人类基因组上选 择出来的长度在200~300bp左右的特异性短序列(每个STS 在基因组中是唯一的,STS图谱就是以STS为路标(平均每 100Kb一个),将DNA克隆片段有序地定位到基因组上。
stSG50796 WI-21858 WI-20982
SGC-34652
EST325005
Bda37h09
sts-N34454
stSG-22642
stSG224IB63262
SGC-100057 SGC-11218
SGC-77734 SGC-12613
SGC-79997 D3S4170 WI-13469 SGC-104744 WI-7400
SGC-106678 WI-D3030S6412s5tSGS3G1C5-7816097 SGC-104738 sts-T03421stSG81116
D3S3D5235SSG36C3-011976WI-6W11SI-62G0C5S-38G4C07-747D835S83S70G6C-102094WI-13611NRU18W-1I-32s1921
✓Life Technologies (ABi)
✓5500 SOLiD™ System ✓5500xL SOLiD™ System ✓Ion Torrent PGM™
✓DanaherMotion
➢第三代(即将面市)
✓Helicos Biosciences
✓Helicos Genetic Analysis System
随机基因组序列
STS的来源
表达基因序列,如EST 遗传标记序列,如微卫星标记
有关STS的信息可在基因组数据库GDB中找到 http://gdbwww. gdb. org
物理图谱构建的步骤
确定各STS序列及其 在基因组中的位置
基因组数据库(GDB)中至少含有 24568 个STS路标信息
大插入片段基因组文 库的构建(BAC文库)
测序并进行 全基因组序 列组装
霰弹法克隆
用于霰弹法测序 的亚克隆
基因组DNA
测序并组装 ………ATGCCGTAGGCCTAGC
TAGGCCTAGCTCGGA……
完整的基因
组序列
………ATGCCGTAGGCCTAGCTCGGA…
…
全基因组霰弹法 (Whole Genome Shot-gun)
两种大规模基因组测序策略的比较
Gap1
Gap2
BAC by BAC
The sequence of the human genome C. Venter et al.
Science 16 Feb. 291: 1304 – 1351, 2001
人类基因组计划研究的主要成果和进展表现在这“四张图”上
• 遗传图谱
又称为连锁图谱(linkage map),指 基因或DNA标志在染色体上的相对位 置与遗传距离
基因组学的基础理论研究
基因组学是要揭示下述四种整合体系的相互关系:
• 基因组作为信息载体 (碱基对、重复序列的整 体守恒与局部不平衡的关系)
• 基因组作为遗传物质的整合体 (基因作为功能和 结构单位与遗传学机制的关系)
• 基因组作为生物化学分子的整合体 (基因产物作 为功能分子与分子、细胞机制的关系)
• 物种进化的整合体 (物种在地理与大气环境中的 自然选择)
基因组学是一个大学科
• “界门纲目科属种”,地球上现存物种近亿,所有生生灭
灭的生物,无一例外,都有个基因组。
• 基因组作为信息载体,它所储存的信息是最基本的生物
学信息之一;既是生命本质研究的出发点之一,又是生 物信息的归宿。
• 基因组学研究包括对基因产物(转录子组和蛋白质组)
DM1-2b11s CHLC.GATA44a05D3S1s3t0s4-TS5G81C5-802964 WID-133S431591
3pter 605m01
229 e21
Beijing CenteMrapped on 3p by sequence fr1o1m4ko0th9er ce2n0t4ecr 23
出后的运输和降解。
• 最小内含子的生物学意义。 • 动物基因组与植物基因组在基因分布上的共性和个性。 • 物种衍变过程中基因组水平的变化。 • 基因组大小变化与遗传、分子、细胞机制的关系。 • “JUNK DNA”的发生、分类、进化与功能。
测序设备的
垄断和高速度换代
Less Than 5 yrs
ABI3730xl ABI3130xl
大 规 模基因组 测 序 的 两种策略
• 逐步克隆法
(Clone by Clone)
• 全基因组霰弹法
(Whole Genome Shot-gun)
逐步克隆法(Clone by Clone)
基因组DNA
完整的基因 组序列
BAC文库
根据物理图谱 正确定位的 BAC 或contig
用于霰弹法测 序的候选克隆
Maynard V. Olson , The maps: Clone by clone by clone , Nature 409, 816 - 818 (2001)
工作草稿(框架图)与完成图
Chrபைடு நூலகம்mosome
“Working Draft”
(90%; 4X)
Finished Genome (99.99%; 8X)
的系统生物学研究。
• 基因多态性的规模化研究就是基因组多态性的研究。 • 基因组学的研究必然要上升到细胞机制、分子机制和系
统生物学的水平。
• 基因组的起源与进化和物种的起源与进化一样是一个新
的科学领域。
• 基因组信息正在以天文数字计算,规模化地积累,它的
深入研究必将形成一个崭新的学科。
基因组学是一门大科学
…GCTTCTTCCTCATTTTCTCTTGCCGCCACCATGCCGCCACCA
TCATTTTCTCTTGCCGCCACCATGCTTCTTCCTCATTTTCTCT CCACCATGCCGCCACCACGCCACCATGCTTCTTCCTCATCTC
GCTTTCTTGCCGCCACCATGCCGCCACCGCTTCTTCCtTCTCT…
600o17 322f09
South centerMapped on 3p by fingerprint fro2m65o1th0er center
166f03
North centerMapped not on 3p by fish
1120h22
大规模基因组测序的 原理与方法
胡松年 husn@big.ac.cn
“基因组”----生命科学的“元素周期表 ”
元素周期表
元素周期表的发现奠定了二
十世纪物理、化学研究和发展的 基础
人体解剖图奠定了现 “基因组序列图”将奠定二十一世纪生
代医学发展的基础
命科学研究和生物产业发展的基础!
生命的奥秘蕴藏于 “四字天书”之 中
作为载体的基本要求
▪ 能在宿主细胞中进行独立的复制
▪ 具有多克隆位点,可插入外源 DNA片段
▪ 有合适的筛选标记,如抗药性 ▪ 大小合适,易于分离纯化 ▪ 拷贝数多
BAC文库的构建
NotI、SacI
脉冲场凝胶电 泳得200Kb左 右的大片段 DNA
每一个菌落为带有相同 外源DNA片段的单克隆
纯化后与载体 连接
❖ Sanger双脱氧末端终止法 ❖ PCR 技术 ❖ DNA 自动测序仪的发展 ❖ 生物信息学分析软硬件设施
“双脱氧末端终止”的含 义
PCR(聚合酶链式反应)原理
反应所需物质:DNA模板、引物、DNA聚合 酶、dNTP、缓冲液
每个循环包括:变性(90℃)、退火(54 ℃)、延伸(72 ℃)
Sanger 双脱氧末端终止法测序原理
项目
遗传背景
速度 费用 计算机性能
适用范围 代表测序物种
策略
全基因组霰弹法
逐步克隆法
不需要 快
需要(需构建精确的 物理图谱)
慢
低
高
高(以全基因组为单 位进行拼接)
工作框架图
低(以BAC为单位进 行拼接)
精细图
果蝇、水稻
人、线虫
BAC by BAC Whole Genome Shotgun
… the sequencing of the human genome is likely to be the only large sequencing project carried to completion by the methods described in this issue.
• 物理图谱
以定位的DNA标记序列如STS作为路标, 以DNA实际长度即bp、kb、Mb为图距 的基因组图谱。
• 转录图谱
利用EST(expressed sequence tags 表达序 列标签)作为标记所构建的分子遗传图 谱
• 序列图谱
通过基因组测序得到的,以A、T、G、C 为标记单位的基因组DNA序列
以特定STS为标记筛 选并定位克隆
含有STS的克隆在基 因组中排序
关于文库
文库的概念 含有某种生物体全部基因的随机片段的重组DNA克隆群体
宿主:能容纳外源DNA片段的生物
体,常用的有大肠杆菌、酵母等
载体:能携带外源DNA进入宿主细
胞的工具,常用的载体有质粒载体、 噬菌体载体、细菌人工染色体等
Regional mapping
Regional mapping
Regional mapping
Minimal tiling path selected for sequencing.
Beijing Map
SGC-82788 sts-N30615 A004QW43I-1S0G8C5-815279 stSG3W14I-38499
ABI3730
5500xl SOLiD
ABI3700xl
ABI3700
5500 SOLiD
SOLiD3
ABI3130
SOLiD2
ABI377
ABI373
Mb4500
SOLiD
HiSeq1000/2000 GA-IIx
Mb4000
GA-II
Mb1000
GA-I
1990
1995
2000
2005
2010
2015
最前沿。
• 基因组信息来自于高效率和规模化所产生的实验数据。 • 人类基因组计划证明了基因组研究的迫切性和可行性。
基因组与生命之谜
• 基因组的产生与进化。 • 基因组DNA组分的变化、GC百分比、嘌呤:嘧啶守恒。 • 遗传密码的发生、发展和进化。 • 内含子(尤其是大于100,000 核苷酸的大内含子)剪
Year
2020
8
测序设备发展现状
➢第一代(稳定需求)
➢第二代(高速发展) ✓Roche
✓ABi
✓3130xL ✓3730xL ✓3500xL
✓Genome Sequencer FLX System ✓GS Junior System
✓Illumina
✓Genome Analyzer IIx ✓MiSeq ✓HiSeq 1000 ✓HiSeq 2000
• 基因组的信息是用来发现和解释具有普遍意义的生命
现象和它们的变化、内在规律、和相互关系。
• 基因组的信息含量高。基因组学的研究又在于基因组
间的比较。
• 基因组学的复杂性必然导致多学科的引进和介入(各
生物学科、医学、药学、计算机科学、化学、数学、 物理学、电子工程学、考古学等)。
• 基因组学研究的手段和技术已经走在生命科学研究的
逐步克隆法(Clone by Clone)
物理图谱的构建 大片段克隆的筛选 霰弹法测序与“工作框架图”的构建 序列的全组装与“完成图”构建
物理图谱的制作
物理图谱的制作——序列标签位点(STS)作
图
物理图谱是以特异的DNA序列为标志所展示的染色体图。 标志之间的距离或图距以物理距离如碱基对(base pair;bp, Kb , Mb)表示。最精细的物理图是核苷酸顺序图,最粗略的物 理图是染色体组型图。
插有外源DNA片段的BAC载体
电转化,将连接 产物导入大肠杆 菌感受态细胞
在含有氯霉素 的固体培养基
中培养
BAC克隆的筛选
每一个菌落为带有相同 外源DNA片段的单克隆
Contig
“STS-PCR反 应池”方案筛
选种子克隆
特定的STS标 记
相互间具有重叠片段的 BAC克隆根据STS信息组装 成contig,并定位于基因组上
✓RSSystem
✓Polonator G.007
✓Complete Genomics ✓无锡艾吉因生物信息技术有限公司
✓AG-100
✓深圳华因康基因科技有限公司
✓Pstar-1
✓中科院北京基因组所/半导体所
✓BIGIS-1
9
✓BIGIS-4
大规模基因组测序的几个支撑技术
STS图谱是最基本和最为有用的染色体物理图谱之一,STS (Sequence Tagged Site)本身是随机地从人类基因组上选 择出来的长度在200~300bp左右的特异性短序列(每个STS 在基因组中是唯一的,STS图谱就是以STS为路标(平均每 100Kb一个),将DNA克隆片段有序地定位到基因组上。
stSG50796 WI-21858 WI-20982
SGC-34652
EST325005
Bda37h09
sts-N34454
stSG-22642
stSG224IB63262
SGC-100057 SGC-11218
SGC-77734 SGC-12613
SGC-79997 D3S4170 WI-13469 SGC-104744 WI-7400
SGC-106678 WI-D3030S6412s5tSGS3G1C5-7816097 SGC-104738 sts-T03421stSG81116
D3S3D5235SSG36C3-011976WI-6W11SI-62G0C5S-38G4C07-747D835S83S70G6C-102094WI-13611NRU18W-1I-32s1921
✓Life Technologies (ABi)
✓5500 SOLiD™ System ✓5500xL SOLiD™ System ✓Ion Torrent PGM™
✓DanaherMotion
➢第三代(即将面市)
✓Helicos Biosciences
✓Helicos Genetic Analysis System
随机基因组序列
STS的来源
表达基因序列,如EST 遗传标记序列,如微卫星标记
有关STS的信息可在基因组数据库GDB中找到 http://gdbwww. gdb. org
物理图谱构建的步骤
确定各STS序列及其 在基因组中的位置
基因组数据库(GDB)中至少含有 24568 个STS路标信息
大插入片段基因组文 库的构建(BAC文库)
测序并进行 全基因组序 列组装
霰弹法克隆
用于霰弹法测序 的亚克隆
基因组DNA
测序并组装 ………ATGCCGTAGGCCTAGC
TAGGCCTAGCTCGGA……
完整的基因
组序列
………ATGCCGTAGGCCTAGCTCGGA…
…
全基因组霰弹法 (Whole Genome Shot-gun)
两种大规模基因组测序策略的比较
Gap1
Gap2
BAC by BAC
The sequence of the human genome C. Venter et al.
Science 16 Feb. 291: 1304 – 1351, 2001
人类基因组计划研究的主要成果和进展表现在这“四张图”上
• 遗传图谱
又称为连锁图谱(linkage map),指 基因或DNA标志在染色体上的相对位 置与遗传距离
基因组学的基础理论研究
基因组学是要揭示下述四种整合体系的相互关系:
• 基因组作为信息载体 (碱基对、重复序列的整 体守恒与局部不平衡的关系)
• 基因组作为遗传物质的整合体 (基因作为功能和 结构单位与遗传学机制的关系)
• 基因组作为生物化学分子的整合体 (基因产物作 为功能分子与分子、细胞机制的关系)
• 物种进化的整合体 (物种在地理与大气环境中的 自然选择)
基因组学是一个大学科
• “界门纲目科属种”,地球上现存物种近亿,所有生生灭
灭的生物,无一例外,都有个基因组。
• 基因组作为信息载体,它所储存的信息是最基本的生物
学信息之一;既是生命本质研究的出发点之一,又是生 物信息的归宿。
• 基因组学研究包括对基因产物(转录子组和蛋白质组)
DM1-2b11s CHLC.GATA44a05D3S1s3t0s4-TS5G81C5-802964 WID-133S431591
3pter 605m01
229 e21
Beijing CenteMrapped on 3p by sequence fr1o1m4ko0th9er ce2n0t4ecr 23
出后的运输和降解。
• 最小内含子的生物学意义。 • 动物基因组与植物基因组在基因分布上的共性和个性。 • 物种衍变过程中基因组水平的变化。 • 基因组大小变化与遗传、分子、细胞机制的关系。 • “JUNK DNA”的发生、分类、进化与功能。
测序设备的
垄断和高速度换代
Less Than 5 yrs
ABI3730xl ABI3130xl
大 规 模基因组 测 序 的 两种策略
• 逐步克隆法
(Clone by Clone)
• 全基因组霰弹法
(Whole Genome Shot-gun)
逐步克隆法(Clone by Clone)
基因组DNA
完整的基因 组序列
BAC文库
根据物理图谱 正确定位的 BAC 或contig
用于霰弹法测 序的候选克隆
Maynard V. Olson , The maps: Clone by clone by clone , Nature 409, 816 - 818 (2001)
工作草稿(框架图)与完成图
Chrபைடு நூலகம்mosome
“Working Draft”
(90%; 4X)
Finished Genome (99.99%; 8X)
的系统生物学研究。
• 基因多态性的规模化研究就是基因组多态性的研究。 • 基因组学的研究必然要上升到细胞机制、分子机制和系
统生物学的水平。
• 基因组的起源与进化和物种的起源与进化一样是一个新
的科学领域。
• 基因组信息正在以天文数字计算,规模化地积累,它的
深入研究必将形成一个崭新的学科。
基因组学是一门大科学
…GCTTCTTCCTCATTTTCTCTTGCCGCCACCATGCCGCCACCA
TCATTTTCTCTTGCCGCCACCATGCTTCTTCCTCATTTTCTCT CCACCATGCCGCCACCACGCCACCATGCTTCTTCCTCATCTC
GCTTTCTTGCCGCCACCATGCCGCCACCGCTTCTTCCtTCTCT…
600o17 322f09
South centerMapped on 3p by fingerprint fro2m65o1th0er center
166f03
North centerMapped not on 3p by fish
1120h22
大规模基因组测序的 原理与方法
胡松年 husn@big.ac.cn
“基因组”----生命科学的“元素周期表 ”
元素周期表
元素周期表的发现奠定了二
十世纪物理、化学研究和发展的 基础
人体解剖图奠定了现 “基因组序列图”将奠定二十一世纪生
代医学发展的基础
命科学研究和生物产业发展的基础!
生命的奥秘蕴藏于 “四字天书”之 中
作为载体的基本要求
▪ 能在宿主细胞中进行独立的复制
▪ 具有多克隆位点,可插入外源 DNA片段
▪ 有合适的筛选标记,如抗药性 ▪ 大小合适,易于分离纯化 ▪ 拷贝数多
BAC文库的构建
NotI、SacI
脉冲场凝胶电 泳得200Kb左 右的大片段 DNA
每一个菌落为带有相同 外源DNA片段的单克隆
纯化后与载体 连接
❖ Sanger双脱氧末端终止法 ❖ PCR 技术 ❖ DNA 自动测序仪的发展 ❖ 生物信息学分析软硬件设施
“双脱氧末端终止”的含 义
PCR(聚合酶链式反应)原理
反应所需物质:DNA模板、引物、DNA聚合 酶、dNTP、缓冲液
每个循环包括:变性(90℃)、退火(54 ℃)、延伸(72 ℃)
Sanger 双脱氧末端终止法测序原理
项目
遗传背景
速度 费用 计算机性能
适用范围 代表测序物种
策略
全基因组霰弹法
逐步克隆法
不需要 快
需要(需构建精确的 物理图谱)
慢
低
高
高(以全基因组为单 位进行拼接)
工作框架图
低(以BAC为单位进 行拼接)
精细图
果蝇、水稻
人、线虫
BAC by BAC Whole Genome Shotgun
… the sequencing of the human genome is likely to be the only large sequencing project carried to completion by the methods described in this issue.
• 物理图谱
以定位的DNA标记序列如STS作为路标, 以DNA实际长度即bp、kb、Mb为图距 的基因组图谱。
• 转录图谱
利用EST(expressed sequence tags 表达序 列标签)作为标记所构建的分子遗传图 谱
• 序列图谱
通过基因组测序得到的,以A、T、G、C 为标记单位的基因组DNA序列
以特定STS为标记筛 选并定位克隆
含有STS的克隆在基 因组中排序
关于文库
文库的概念 含有某种生物体全部基因的随机片段的重组DNA克隆群体
宿主:能容纳外源DNA片段的生物
体,常用的有大肠杆菌、酵母等
载体:能携带外源DNA进入宿主细
胞的工具,常用的载体有质粒载体、 噬菌体载体、细菌人工染色体等
Regional mapping
Regional mapping
Regional mapping
Minimal tiling path selected for sequencing.
Beijing Map
SGC-82788 sts-N30615 A004QW43I-1S0G8C5-815279 stSG3W14I-38499
ABI3730
5500xl SOLiD
ABI3700xl
ABI3700
5500 SOLiD
SOLiD3
ABI3130
SOLiD2
ABI377
ABI373
Mb4500
SOLiD
HiSeq1000/2000 GA-IIx
Mb4000
GA-II
Mb1000
GA-I
1990
1995
2000
2005
2010
2015
最前沿。
• 基因组信息来自于高效率和规模化所产生的实验数据。 • 人类基因组计划证明了基因组研究的迫切性和可行性。
基因组与生命之谜
• 基因组的产生与进化。 • 基因组DNA组分的变化、GC百分比、嘌呤:嘧啶守恒。 • 遗传密码的发生、发展和进化。 • 内含子(尤其是大于100,000 核苷酸的大内含子)剪
Year
2020
8
测序设备发展现状
➢第一代(稳定需求)
➢第二代(高速发展) ✓Roche
✓ABi
✓3130xL ✓3730xL ✓3500xL
✓Genome Sequencer FLX System ✓GS Junior System
✓Illumina
✓Genome Analyzer IIx ✓MiSeq ✓HiSeq 1000 ✓HiSeq 2000
• 基因组的信息是用来发现和解释具有普遍意义的生命
现象和它们的变化、内在规律、和相互关系。
• 基因组的信息含量高。基因组学的研究又在于基因组
间的比较。
• 基因组学的复杂性必然导致多学科的引进和介入(各
生物学科、医学、药学、计算机科学、化学、数学、 物理学、电子工程学、考古学等)。
• 基因组学研究的手段和技术已经走在生命科学研究的
逐步克隆法(Clone by Clone)
物理图谱的构建 大片段克隆的筛选 霰弹法测序与“工作框架图”的构建 序列的全组装与“完成图”构建
物理图谱的制作
物理图谱的制作——序列标签位点(STS)作
图
物理图谱是以特异的DNA序列为标志所展示的染色体图。 标志之间的距离或图距以物理距离如碱基对(base pair;bp, Kb , Mb)表示。最精细的物理图是核苷酸顺序图,最粗略的物 理图是染色体组型图。
插有外源DNA片段的BAC载体
电转化,将连接 产物导入大肠杆 菌感受态细胞
在含有氯霉素 的固体培养基
中培养
BAC克隆的筛选
每一个菌落为带有相同 外源DNA片段的单克隆
Contig
“STS-PCR反 应池”方案筛
选种子克隆
特定的STS标 记
相互间具有重叠片段的 BAC克隆根据STS信息组装 成contig,并定位于基因组上