基因组学概论
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
16
基因组测序浪潮
小鼠基因组(2002),大鼠基因组(2004)
< 大鼠、小鼠.物种进化过 程中的基因复制事件 Nature 428, 493-519. 2004
黑猩猩基因组(2005),恒河猴(2007)
人、黑猩猩、恒河猴分化时间> Science 316, 222-234. 2007
< 人和黑猩猩各染色体差异 Nature 428, 493-519. 2004
Introns per 0.04 gene (average)
Amount of the genome that is taken up by genome-wide repeats
3.4%
Fruit fly Human
76
11
3
9
12%
44%
10
基因区与重复序列
大豆的20条染色体上基 因区、重复序列区分布 图
22
什么是基因组; 基因组学发展简史; 基因组测序及组装技术发展; 功能基因组学、后基因组学研究;
23
基因组测序及组装技术发展
目前主流的测序组装技术,基于Solexa、454、 Sanger测序。
24
Sanger测序:使用荧光标记的双脱氧 核苷三磷酸随机中止测序,电泳并检 测荧光;
393 000 75 000
868 000 516 000 315 000
37 000 443 000 112 000
8000 83 000 240 000 294 000
195 000 75 000 2000 22 000
Feature
Yeast
Gene density 479 (average number per Mb)
1944年美国细菌学家艾弗里首次证明DNA是遗传信息的载 体;
1953年美国生物学家沃森、英国生物物理学家克里克建立 了DNA的双螺旋结构模型,并提出了DNA的复制机制。
14
基因组学发展简史
1971年,美国病毒学家特明、美国病毒学家巴尔的摩发现 了“逆转录酶”,揭示了生物遗传中存在着由RNA形成DNA 的过程,发展和完善了“中心法则”。
肺炎链球菌基因组(J. Exp. Med. 79:137-158. 1944) :2.16M基因组大小;
M13噬菌体基因组: 6.407 K基因组大小; 人的线粒体基因组:16.569K个碱基组成的环状
DNA分子; 水稻叶绿体
7
基因组的大小
真核生物基因组大小(C值悖论) 黄瓜基因组(~367M); 林烟草基因组(~2.4G) 基因组大小的估算方法(流式细胞法、K-mer分析法)
Subtype
Alu MIR MIR3
LINE-1 LINE-2 LINE-3
ERV class I ERV(K) class II ERV(L) class III MaLR
hAT Tc-1 PiggyBac Unclassified
# copies in the human genome
1 558 000 1 090 000
19
基因组测序浪潮
< 土豆基因组(2011) Nature 475, 189-197. 2011 844M基因组大小 39,031个蛋白编码基因 TE等重复序列含量62.2%
植物 拟南芥(2000) 毛果杨(2006) 葡萄(2007) 番木瓜(2008) 玉米(2009) 大豆(2010) 苹果(2010) 水稻(2002, 2005) 黄瓜(2009) 土豆(2011)...
4
遗传图谱
连锁与互换定律
根据重组频率计算基因遗传距离
5
物理图谱
表示某些基因与遗传标记之间在基因组上 的直线相对位置和距离的图谱。
Restriction mapping, which locates the relative positions on a DNA molecule of the recognition sequences for restriction endonucleases;
20
在ENSEMBL.org公开的70种动物基因组
http://asia.ensembl.org/info/about/species.html
21
基因组测序浪潮
基因组、基因集数据库:
动物(除昆虫外):http://ensembl.org/ 是基因组和基因集的数据库。 NCBI:http://www.ncbi.nlm.nih.gov/ 动植物基因组数据发布、微生物基因组。 JGI:http://genome.jgi-psf.org/ PlantGDB:http://www.plantgdb.org/ 植物基因组比较重要的两个网站。 UCSC: http://genome.ucsc.edu/ 动物基因组共线性比对数据库。 其它...
基因组学概论
基因组的类型与特点; 基因组学发展简史; 基因组测序及组装技术发展; 功能基因组学、后基因组学研究;
2
基因组的类型与特点
人的核基因组:由3.2G个碱基组 成,共22对常染色体+1对性染色 体;最短的染色体50M,最长的 染色体260M;
3
遗传图谱
某一物种的染色体图谱(即连锁图谱),显示所知的基因和/或遗传标记的相 对位置
Sanger测序使用自动荧光垂直板凝胶 电泳测序仪。代表:ABI公司377型垂 直板自动测序仪。读长高达700-800 bp
454测序是Roche公司开发,读长300500bp。一个lane得到~700M数据。
Sanger测序
25
Phrap组装(OLC) Celera Newbler
基于重叠序列的组装
Fluorescent in situ hybridization (FISH), in which marker locations are mapped by hybridizing a probe containing the marker to intact chromosomes;
Sequence tagged site (STS) mapping,
The first genetic maps, constructed in the early decades of the 20th century for organisms such as the fruit fly, used genes as markers.
Mapped features that are not genes are called DNA markers. As with gene markers, a DNA marker must have at least two alleles to be useful. There are three types of DNA sequence feature that satisfy this requirement: restriction fragment length polymorphisms (RFLPs), simple sequence length polymorphisms (SSLPs), and single nucleotide polymorphisms (SNPs).
Science 291, 1289-1292 (2001) 12
什么是基因组; 基因组学发展简史; 基因组测序及组装技术发展; 功能基因组学、后基因组学研究;
13
基因组学发展简史
1866年孟德尔发表论文“植物杂交试验”,提出了遗传学 的分离定律、自由组合定律和遗传因子学说。
1915年美国生物学家摩尔根创立了现代遗传学的基因学说 。
Nature 463, 178-183
11
表达基因图谱
人的不同组织中各种基因表达情况 ,及表达的基因在基因组上的定位
1208组UniGene比对到人11号染色 体
The Human Transcriptome Map: Clustering of Highly Expressed Genes in Chromosomal Domains
in which the positions of short
sequences are mapped by PCR and/or
hybridization analysis of genome
fragments.
Oliver SG et al., Nature, 357, 38-46
6
基因组的类型
8
基因区与基因间区; 外显子与内含子; 启动子与终止子;
散在重复序列; 串联重复序列; 大片段复制与全基因
组复制;
基因组序列的构成
Rowen et al. (1996)
9
基因区与重复序列
Leabharlann Baidu
Type of repeat SINEs LINEs LTR elements
DNA transposons
27
Solexa测序原理
然后,四种荧光标记的染料应用 边合成边测序( Sequencing By Synthesis )的原理,在每个循 环过程里,荧光标记的核苷和聚 合酶被加入到单分子阵列中。每 个单链 DNA 分子通过互补碱基 的配对被延伸;
碱基加到引物后端时所释放出的 焦磷酸盐来提供检测信号,针对 每种碱基的特定波长的激光激发 结合上的核苷酸荧光标记,这个 标记会释放出荧光。荧光信号被 CCD 检测;
17
^ 熊猫与、狗、人共线性序列长度。 Nature 463, 311-317. 2010
基因组测序浪潮
哺乳类: 小鼠、大鼠、黑猩猩 狗基因组(2003,2005) 恒河猴(2007) 猫(2007) 鸭嘴兽(2008) 马、牛(2009) 熊猫(2010) 负鼠、CHO细胞系、长毛象
2000年6月,Francis Collins和Craig Venter联合声明已完成草图; Marshall E. Rival genome sequencers celebrate a milestone together. Science. (2000);288:2294-2295
2001年人类基因组正式发表; Initial sequencing and analysis of the human genome. Nature. (2001);409:860-921 Venter JC, Adams MD, Myers EW. et al. The sequence of the human genome. Science. (2001);291:1304-1351
、大猩猩 裸鼹鼠(2011)
• 熊猫基因组,第一个完全基于第二代Solexa短reads测序组装的基因组。
18
家蚕(2004)
基因组测序浪潮
昆虫类: 果蝇(2000) 蚊子(2002) 家蚕(2004) 蜜蜂(2006) 拟谷盗(2008) 人体虱、埃及伊蚊 金小蜂(2010) 豌豆蚜(2010) 蚂蚁(2010) 蝴蝶(2011) 捻翅虫(2012)
1983年美国生物化学家穆利斯发明利用“聚合酶链反应法 ”(PCR)。
1990年“人类基因组计划”正式启动。 2000年中、美、日、德、法、英6国科学家联合宣布成功
绘制出人类基因组草图。
15
人类基因组计划
构建了300 000个BAC克隆; 第一条染色体在1999年12月完成测序并发表;
Dunham I, Shimizu N, Roe BA. et al. The DNA sequence of human chromosome 22. Nature. (1999);402:489-495
鱼类: 青鳉(2007) 河豚(2002) 三刺鱼、斑马鱼
、鳕鱼、红鳍东 方鲀 罗非鱼(2010)
鸟类、爬行类: 家鸡(2004) 火鸡、绿蜥蜴 斑马雀(2010)
< 家蚕与果蝇5879对直系同源基 因的长度、CDS长度比例分布图 Science 306, 1937-1940 (2004)
主要针对Sanger、454测序数据的组装。
26
Solexa测序原理
首先将 DNA 从细胞中提取 ,打断成约100-200bp 大小 ,将接头连接到片段上,经 PCR 扩增后制成 Library ;
随后将已加入接头的 DNA 片段绑定在 flow cell(含 有接头的芯片)上,经反应 ,将不同片段扩增;
基因组测序浪潮
小鼠基因组(2002),大鼠基因组(2004)
< 大鼠、小鼠.物种进化过 程中的基因复制事件 Nature 428, 493-519. 2004
黑猩猩基因组(2005),恒河猴(2007)
人、黑猩猩、恒河猴分化时间> Science 316, 222-234. 2007
< 人和黑猩猩各染色体差异 Nature 428, 493-519. 2004
Introns per 0.04 gene (average)
Amount of the genome that is taken up by genome-wide repeats
3.4%
Fruit fly Human
76
11
3
9
12%
44%
10
基因区与重复序列
大豆的20条染色体上基 因区、重复序列区分布 图
22
什么是基因组; 基因组学发展简史; 基因组测序及组装技术发展; 功能基因组学、后基因组学研究;
23
基因组测序及组装技术发展
目前主流的测序组装技术,基于Solexa、454、 Sanger测序。
24
Sanger测序:使用荧光标记的双脱氧 核苷三磷酸随机中止测序,电泳并检 测荧光;
393 000 75 000
868 000 516 000 315 000
37 000 443 000 112 000
8000 83 000 240 000 294 000
195 000 75 000 2000 22 000
Feature
Yeast
Gene density 479 (average number per Mb)
1944年美国细菌学家艾弗里首次证明DNA是遗传信息的载 体;
1953年美国生物学家沃森、英国生物物理学家克里克建立 了DNA的双螺旋结构模型,并提出了DNA的复制机制。
14
基因组学发展简史
1971年,美国病毒学家特明、美国病毒学家巴尔的摩发现 了“逆转录酶”,揭示了生物遗传中存在着由RNA形成DNA 的过程,发展和完善了“中心法则”。
肺炎链球菌基因组(J. Exp. Med. 79:137-158. 1944) :2.16M基因组大小;
M13噬菌体基因组: 6.407 K基因组大小; 人的线粒体基因组:16.569K个碱基组成的环状
DNA分子; 水稻叶绿体
7
基因组的大小
真核生物基因组大小(C值悖论) 黄瓜基因组(~367M); 林烟草基因组(~2.4G) 基因组大小的估算方法(流式细胞法、K-mer分析法)
Subtype
Alu MIR MIR3
LINE-1 LINE-2 LINE-3
ERV class I ERV(K) class II ERV(L) class III MaLR
hAT Tc-1 PiggyBac Unclassified
# copies in the human genome
1 558 000 1 090 000
19
基因组测序浪潮
< 土豆基因组(2011) Nature 475, 189-197. 2011 844M基因组大小 39,031个蛋白编码基因 TE等重复序列含量62.2%
植物 拟南芥(2000) 毛果杨(2006) 葡萄(2007) 番木瓜(2008) 玉米(2009) 大豆(2010) 苹果(2010) 水稻(2002, 2005) 黄瓜(2009) 土豆(2011)...
4
遗传图谱
连锁与互换定律
根据重组频率计算基因遗传距离
5
物理图谱
表示某些基因与遗传标记之间在基因组上 的直线相对位置和距离的图谱。
Restriction mapping, which locates the relative positions on a DNA molecule of the recognition sequences for restriction endonucleases;
20
在ENSEMBL.org公开的70种动物基因组
http://asia.ensembl.org/info/about/species.html
21
基因组测序浪潮
基因组、基因集数据库:
动物(除昆虫外):http://ensembl.org/ 是基因组和基因集的数据库。 NCBI:http://www.ncbi.nlm.nih.gov/ 动植物基因组数据发布、微生物基因组。 JGI:http://genome.jgi-psf.org/ PlantGDB:http://www.plantgdb.org/ 植物基因组比较重要的两个网站。 UCSC: http://genome.ucsc.edu/ 动物基因组共线性比对数据库。 其它...
基因组学概论
基因组的类型与特点; 基因组学发展简史; 基因组测序及组装技术发展; 功能基因组学、后基因组学研究;
2
基因组的类型与特点
人的核基因组:由3.2G个碱基组 成,共22对常染色体+1对性染色 体;最短的染色体50M,最长的 染色体260M;
3
遗传图谱
某一物种的染色体图谱(即连锁图谱),显示所知的基因和/或遗传标记的相 对位置
Sanger测序使用自动荧光垂直板凝胶 电泳测序仪。代表:ABI公司377型垂 直板自动测序仪。读长高达700-800 bp
454测序是Roche公司开发,读长300500bp。一个lane得到~700M数据。
Sanger测序
25
Phrap组装(OLC) Celera Newbler
基于重叠序列的组装
Fluorescent in situ hybridization (FISH), in which marker locations are mapped by hybridizing a probe containing the marker to intact chromosomes;
Sequence tagged site (STS) mapping,
The first genetic maps, constructed in the early decades of the 20th century for organisms such as the fruit fly, used genes as markers.
Mapped features that are not genes are called DNA markers. As with gene markers, a DNA marker must have at least two alleles to be useful. There are three types of DNA sequence feature that satisfy this requirement: restriction fragment length polymorphisms (RFLPs), simple sequence length polymorphisms (SSLPs), and single nucleotide polymorphisms (SNPs).
Science 291, 1289-1292 (2001) 12
什么是基因组; 基因组学发展简史; 基因组测序及组装技术发展; 功能基因组学、后基因组学研究;
13
基因组学发展简史
1866年孟德尔发表论文“植物杂交试验”,提出了遗传学 的分离定律、自由组合定律和遗传因子学说。
1915年美国生物学家摩尔根创立了现代遗传学的基因学说 。
Nature 463, 178-183
11
表达基因图谱
人的不同组织中各种基因表达情况 ,及表达的基因在基因组上的定位
1208组UniGene比对到人11号染色 体
The Human Transcriptome Map: Clustering of Highly Expressed Genes in Chromosomal Domains
in which the positions of short
sequences are mapped by PCR and/or
hybridization analysis of genome
fragments.
Oliver SG et al., Nature, 357, 38-46
6
基因组的类型
8
基因区与基因间区; 外显子与内含子; 启动子与终止子;
散在重复序列; 串联重复序列; 大片段复制与全基因
组复制;
基因组序列的构成
Rowen et al. (1996)
9
基因区与重复序列
Leabharlann Baidu
Type of repeat SINEs LINEs LTR elements
DNA transposons
27
Solexa测序原理
然后,四种荧光标记的染料应用 边合成边测序( Sequencing By Synthesis )的原理,在每个循 环过程里,荧光标记的核苷和聚 合酶被加入到单分子阵列中。每 个单链 DNA 分子通过互补碱基 的配对被延伸;
碱基加到引物后端时所释放出的 焦磷酸盐来提供检测信号,针对 每种碱基的特定波长的激光激发 结合上的核苷酸荧光标记,这个 标记会释放出荧光。荧光信号被 CCD 检测;
17
^ 熊猫与、狗、人共线性序列长度。 Nature 463, 311-317. 2010
基因组测序浪潮
哺乳类: 小鼠、大鼠、黑猩猩 狗基因组(2003,2005) 恒河猴(2007) 猫(2007) 鸭嘴兽(2008) 马、牛(2009) 熊猫(2010) 负鼠、CHO细胞系、长毛象
2000年6月,Francis Collins和Craig Venter联合声明已完成草图; Marshall E. Rival genome sequencers celebrate a milestone together. Science. (2000);288:2294-2295
2001年人类基因组正式发表; Initial sequencing and analysis of the human genome. Nature. (2001);409:860-921 Venter JC, Adams MD, Myers EW. et al. The sequence of the human genome. Science. (2001);291:1304-1351
、大猩猩 裸鼹鼠(2011)
• 熊猫基因组,第一个完全基于第二代Solexa短reads测序组装的基因组。
18
家蚕(2004)
基因组测序浪潮
昆虫类: 果蝇(2000) 蚊子(2002) 家蚕(2004) 蜜蜂(2006) 拟谷盗(2008) 人体虱、埃及伊蚊 金小蜂(2010) 豌豆蚜(2010) 蚂蚁(2010) 蝴蝶(2011) 捻翅虫(2012)
1983年美国生物化学家穆利斯发明利用“聚合酶链反应法 ”(PCR)。
1990年“人类基因组计划”正式启动。 2000年中、美、日、德、法、英6国科学家联合宣布成功
绘制出人类基因组草图。
15
人类基因组计划
构建了300 000个BAC克隆; 第一条染色体在1999年12月完成测序并发表;
Dunham I, Shimizu N, Roe BA. et al. The DNA sequence of human chromosome 22. Nature. (1999);402:489-495
鱼类: 青鳉(2007) 河豚(2002) 三刺鱼、斑马鱼
、鳕鱼、红鳍东 方鲀 罗非鱼(2010)
鸟类、爬行类: 家鸡(2004) 火鸡、绿蜥蜴 斑马雀(2010)
< 家蚕与果蝇5879对直系同源基 因的长度、CDS长度比例分布图 Science 306, 1937-1940 (2004)
主要针对Sanger、454测序数据的组装。
26
Solexa测序原理
首先将 DNA 从细胞中提取 ,打断成约100-200bp 大小 ,将接头连接到片段上,经 PCR 扩增后制成 Library ;
随后将已加入接头的 DNA 片段绑定在 flow cell(含 有接头的芯片)上,经反应 ,将不同片段扩增;