第1章 生物信息学绪论最新版本ppt课件
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
--- Gilbert (Nature, 1991)
Bioinformatics (v3) : Foreword
生物学正在经历重大转变:
基因组信息的全面发掘,包括序列测序、大 分子结构预测、功能注释以及调控网络的阐 明,促使了“系统生物学”概念的出现。
生物信息学
其中数学、统计学、计算机科学具有重要地 位(中心地位:Central role)。
1990s后, DNA sequencing, microarray, 2D-PAGE, protein interactions, protein structure determination, molecular evolution…… high-throughput technique 如HGP(Human genome project),1990~2001年, 10年时间实现了“工作草图”,2003年实现了“完成 图”,3×109个碱基对,并对30,000个基因进行了注释。 越来越多的其他模式生物也完成了全基因组测序工作。
信息技术的应用
由于长期进化,生物信息及其传递方式 是如此的复杂,以至我们需要借助专门 储存和分析它们的技术和工具——涉及 数学、统计学和计算机科学。
什么是生物信息学?
生物信息学就是利用信息技术对生 物信息进行获取、储存、查询和分析, 以解释这些信息数据所蕴涵的生物学 意义的学科。
参考定义: Bioinformatics is
Microarrays (5)
Microarray分析:图像分析(去噪音和信号数据化)、 标准化(重复实验的可比性)、Ratio分析(两色荧光 的比值)、基因聚类分析(寻找同类基因)。
Microarrays (6)
研究内容:对象(生物信息)
目前主要包括: macromolecular sequences; (最初) macromolecular structures; expression profiles; (EST; microarrays; 2D-PAGE) biochemical pathways; evolution history.
the science that uses the instruments of informatics to analyze biological data in order to formulate hypotheses about life. ---- Introduction to Bioinformatics. 2007.
第一章 绪论
生物信息学的定义 生物信息学的产生 生物信息学的应用 生物信息学的教育和学习
什么是生物信息学?
生物信息学就是利用信息技术对生 物信息进行获取、储存、查询和分析, 以解释这些信息数据所蕴涵的生物学 意义的学科。
姊妹学科—— 计算生物学(Computational biology)
the application of computational techniques to the management and analysis of biological information. ---- Bioinformatics. 2009.
the science of how information is generated, transmitted, received, and interpreted in biological systems.
Bioinformatics—— For biology, informatics is much more than just a method: biology is rooted in, and is firmly based on, the laws of informatics.
生命的信息内涵 什么是信息?
---- Bioinformatics, an introduction. 2009.
研究内容:方法(信息技术)
上游
有针对 性的计 算机技 术开发。
成 果
中游
利用这些技 术建立相关 数据库、工 具、算法、Байду номын сангаас软件等。
方
成
法
果
下游
利用这些 工具有效 管理和处 理生物学
数据。
方 法
上游:1.数据库管理技术。 2.数据仓库、数据挖掘与数据库中的知 识发现技术。 3.分布式计算(网格计算、云计算等) 4.图像处理和可视化技术。
the branch of science that deals with the computer-based analysis of large biological data sets. Bioinformatics incorporates the development of databases to store and search data, and of statistical tools and algorithms to analyze and determine relationships between biological data sets, such as macromolecular sequences, structures, expression profiles and biochemical pathways. ---- Instant Notes in Bioinformatics. 2002
中游:1.数据库的构建。 2.算法建立。 3.统计模型建立。 4.工具软件开发。
下游:1.建立特定方向或自己的专用数据库。 2.数据库检索的技术。 3.数据分析:序列分析、进化分析等。
研究内容:对象(生物信息)
目前主要包括: macromolecular sequences; (最初) macromolecular structures; expression profiles; (EST; microarrays; 2D-PAGE) biochemical pathways; evolution history.
Microarrays (3)
Each point contains a huge number (107108) of identical DNA molecules.
Each kind of these molecules ideally* should identify one gene or one exon in the genome.
How many characters are in the “Heaven Book”?
3×109
10,000 books 1 book 100 pages 1 page 3,000 characters
CCGGTCTCCCCGCCCGCGCGCGAAGTAAAGGCCCAGCGCAGCCCGCGCTCCTGCCCTGGG GCCTCGTCTTTCTCCAGGAAAACGTGGACCGCTCTCCGCCGACAGTCTCTTCCACAGACCCC TGTCGCCTTCGCCCCCCGGTCTCTTCCGGTTCTGTCTTTTCGCTGGCTCGATACGAACAAGGA AGTCGCCCCCAGCGAGCCCCGGCTCCCCCAGGCAGAGGCGGCCCCGGGGGCGGAGTCAAC GGCGGAGGCACGCCCTCTGTGAAAGGGCGGGGCATGCAAATTCGAAATGAAAGCCCGGGAA CGCCGAAGAAGCACGGGTGTAAGATTTCCCTTTTCAAAGGCGGGAGAATAAGAAATCAGCCC GAGAGTGTAAGGGCGTCAATAGCGCTGTGGACGAGACAGAGGGAATGGGGCAAGGAGCGAG GCTGGGGCTCTCACCGCGACTTGAATGTGGATGAGAGTGGGACGGTGACGGCGGGCGCGAA GGCGAGCGCATCGCTTCTCGGCCTTTTGGCTAAGATCAAGTGTAGTATCTGTTCTTATCAGTT TAATATCTGATACGTCCTCTATCCGAGGACAATATATTAAATGGATTGATCAATCCGCTTCAGC CTCCCGAGTAGCTGGGACTACAGACGGTGCCATCACGCCCAGCTCATTGTTGATTCCCGCCC CCTTGGTAGAGACGGGATTCCGCTATATTGCCTGGGCTGGTGTCGAACTCATAGAACAAAGG ATCCTCCCTCCTGGGCCTGGGCGTGGGCTCGCAAAACGCTGGGATTCCCGGATTACAGGCG GGCGCACCACACCAGGAGCAAACACTTCCGGTTTTAAAAATTCAGTTTGTGATTGGCTGTCAT TCAGTATTATGCTAATTAAGCATGCCCGGTTTTAAACCTCTTAAAACAACTTTTAAAATTACCTT TCCACCTAAAACGTTAAAATTTGTCAAGTGATAATATTCGACAAGCTGTTATTGCCAAACTATTT TCCTATTTGTTTCCTAATGGCATCGGAACTAGCGAAAGTTTCTCGCCATCAGTTAAAAGTTTGC GGCAGATGTAGACCTAGCAGAGGTGTGCGAGGAGGCCGTTAAGACTATACTTTCAGGGATCA TTTCTATAGTGTGTTACTAGAGAAGTTTCTCTGAACGTGTAGAGCACCGAAAACCACGAGGAA GAGAGGTAGCGTTTTCATCGGGTTACCTAAGTGCAGTGTCCCCCCTGGCGCGCAATTGGGAA CCCCACACGCGGTGTAGAAATATATTTTAAGGGCGCG
Log22=1 bit
信息是在多种可能状态下的一种选择。
--生物信息的产生源于自然选择。 ATCGC=?bits
当一种选择引起另一种选择时,我们理解为 信息传递了。包括复制传递和转化传递。
中心法则:
--生物学研究的就是生物信息的产生和传递方式。
什么是生物信息学?
生物信息学就是利用信息技术对生 物信息进行获取、储存、查询和分析, 以解释这些信息数据所蕴涵的生物学 意义的学科。
DNA molecules (clones) are attached at fixed locations (5,000 spots/cm2, diameter 0.1 mm).
Oligonucleotide GeneChip (oligos, ~25nt) (up to 1,000,000 spots/cm2, diameter 0.01 mm).
•Two major technologies ----
Spotted DNA microarrays
Oligonucleotide GeneChips (the US company Affymetrix Inc.)
Microarrays (2)
Typically on a glass slide.
Microarrays (1)
——本质是生物信息的集成性平行分析:利用核酸分子杂交、 蛋白质分子亲和原理,通过荧光标记可视化,借助计算机分 析处理,可迅速获取大量生物信息,效率是传统手段的成百 上千倍。
•There are several names for this technology – biochips, microchips, DNA microarrays, DNA arrays, DNA chips, gene chips, others. Sometimes a distinction is made between these names but in fact they are all synonyms (同义词)as there are no standard definitions for which type of microarray technology should be called by which name——EBI.
第一章 绪论
生物信息学的定义 生物信息学的产生 生物信息学的应用 生物信息学的教育和学习
生物信息学的产生 之 孕育
1950s 末,计算机应用于生物学研究中。
主要是利用数学模型、统计学方法和计算机处理宏观生物 学数据。如 Numerical Taxonomy,Mathematical Ecology (1970s 逐渐成熟)。
研究内容的本质性联系
Biochemistry—— For biology, chemistry is much more than just a method: biology is rooted in, and is firmly based on, the laws of chemistry.
随后(1980s),计算机开始应用于分子生物学 研究。
其中包括建立分子生物学数据库(如Genbank)以及蛋白 质结构的计算机辅助分析与预测等。
——在上述研究中,人们已经逐步建立了理论基 础和一批方法、模型、软件和数据库。
生物信息学的产生 之 促成(1)
生物信息的全面发掘——巨大数据量的产生。
* Oligonucleotide GeneChips: 20 kinds for one gene
Microarrays (4)
One popular micorarray applications allows to compare gene expression levels in two different samples, e.g., the same cell type in a healthy and a diseased state.
从碳到硅 — —
“生物信息学”的新纪 元
Bioinformatics
生物学研究模式的转变
基于全部基因都将知晓并以电子技术可操 作的方式驻留在数据库中,新的生物学研究 模式的出发点应该是理论的。科学家将从理 论推测出发,再返回到实验中去,追踪或验 证这些理论假设。……生物学家不仅必须成 为计算机学者,而且也要改变他们研究生命 现象的途径。
Bioinformatics (v3) : Foreword
生物学正在经历重大转变:
基因组信息的全面发掘,包括序列测序、大 分子结构预测、功能注释以及调控网络的阐 明,促使了“系统生物学”概念的出现。
生物信息学
其中数学、统计学、计算机科学具有重要地 位(中心地位:Central role)。
1990s后, DNA sequencing, microarray, 2D-PAGE, protein interactions, protein structure determination, molecular evolution…… high-throughput technique 如HGP(Human genome project),1990~2001年, 10年时间实现了“工作草图”,2003年实现了“完成 图”,3×109个碱基对,并对30,000个基因进行了注释。 越来越多的其他模式生物也完成了全基因组测序工作。
信息技术的应用
由于长期进化,生物信息及其传递方式 是如此的复杂,以至我们需要借助专门 储存和分析它们的技术和工具——涉及 数学、统计学和计算机科学。
什么是生物信息学?
生物信息学就是利用信息技术对生 物信息进行获取、储存、查询和分析, 以解释这些信息数据所蕴涵的生物学 意义的学科。
参考定义: Bioinformatics is
Microarrays (5)
Microarray分析:图像分析(去噪音和信号数据化)、 标准化(重复实验的可比性)、Ratio分析(两色荧光 的比值)、基因聚类分析(寻找同类基因)。
Microarrays (6)
研究内容:对象(生物信息)
目前主要包括: macromolecular sequences; (最初) macromolecular structures; expression profiles; (EST; microarrays; 2D-PAGE) biochemical pathways; evolution history.
the science that uses the instruments of informatics to analyze biological data in order to formulate hypotheses about life. ---- Introduction to Bioinformatics. 2007.
第一章 绪论
生物信息学的定义 生物信息学的产生 生物信息学的应用 生物信息学的教育和学习
什么是生物信息学?
生物信息学就是利用信息技术对生 物信息进行获取、储存、查询和分析, 以解释这些信息数据所蕴涵的生物学 意义的学科。
姊妹学科—— 计算生物学(Computational biology)
the application of computational techniques to the management and analysis of biological information. ---- Bioinformatics. 2009.
the science of how information is generated, transmitted, received, and interpreted in biological systems.
Bioinformatics—— For biology, informatics is much more than just a method: biology is rooted in, and is firmly based on, the laws of informatics.
生命的信息内涵 什么是信息?
---- Bioinformatics, an introduction. 2009.
研究内容:方法(信息技术)
上游
有针对 性的计 算机技 术开发。
成 果
中游
利用这些技 术建立相关 数据库、工 具、算法、Байду номын сангаас软件等。
方
成
法
果
下游
利用这些 工具有效 管理和处 理生物学
数据。
方 法
上游:1.数据库管理技术。 2.数据仓库、数据挖掘与数据库中的知 识发现技术。 3.分布式计算(网格计算、云计算等) 4.图像处理和可视化技术。
the branch of science that deals with the computer-based analysis of large biological data sets. Bioinformatics incorporates the development of databases to store and search data, and of statistical tools and algorithms to analyze and determine relationships between biological data sets, such as macromolecular sequences, structures, expression profiles and biochemical pathways. ---- Instant Notes in Bioinformatics. 2002
中游:1.数据库的构建。 2.算法建立。 3.统计模型建立。 4.工具软件开发。
下游:1.建立特定方向或自己的专用数据库。 2.数据库检索的技术。 3.数据分析:序列分析、进化分析等。
研究内容:对象(生物信息)
目前主要包括: macromolecular sequences; (最初) macromolecular structures; expression profiles; (EST; microarrays; 2D-PAGE) biochemical pathways; evolution history.
Microarrays (3)
Each point contains a huge number (107108) of identical DNA molecules.
Each kind of these molecules ideally* should identify one gene or one exon in the genome.
How many characters are in the “Heaven Book”?
3×109
10,000 books 1 book 100 pages 1 page 3,000 characters
CCGGTCTCCCCGCCCGCGCGCGAAGTAAAGGCCCAGCGCAGCCCGCGCTCCTGCCCTGGG GCCTCGTCTTTCTCCAGGAAAACGTGGACCGCTCTCCGCCGACAGTCTCTTCCACAGACCCC TGTCGCCTTCGCCCCCCGGTCTCTTCCGGTTCTGTCTTTTCGCTGGCTCGATACGAACAAGGA AGTCGCCCCCAGCGAGCCCCGGCTCCCCCAGGCAGAGGCGGCCCCGGGGGCGGAGTCAAC GGCGGAGGCACGCCCTCTGTGAAAGGGCGGGGCATGCAAATTCGAAATGAAAGCCCGGGAA CGCCGAAGAAGCACGGGTGTAAGATTTCCCTTTTCAAAGGCGGGAGAATAAGAAATCAGCCC GAGAGTGTAAGGGCGTCAATAGCGCTGTGGACGAGACAGAGGGAATGGGGCAAGGAGCGAG GCTGGGGCTCTCACCGCGACTTGAATGTGGATGAGAGTGGGACGGTGACGGCGGGCGCGAA GGCGAGCGCATCGCTTCTCGGCCTTTTGGCTAAGATCAAGTGTAGTATCTGTTCTTATCAGTT TAATATCTGATACGTCCTCTATCCGAGGACAATATATTAAATGGATTGATCAATCCGCTTCAGC CTCCCGAGTAGCTGGGACTACAGACGGTGCCATCACGCCCAGCTCATTGTTGATTCCCGCCC CCTTGGTAGAGACGGGATTCCGCTATATTGCCTGGGCTGGTGTCGAACTCATAGAACAAAGG ATCCTCCCTCCTGGGCCTGGGCGTGGGCTCGCAAAACGCTGGGATTCCCGGATTACAGGCG GGCGCACCACACCAGGAGCAAACACTTCCGGTTTTAAAAATTCAGTTTGTGATTGGCTGTCAT TCAGTATTATGCTAATTAAGCATGCCCGGTTTTAAACCTCTTAAAACAACTTTTAAAATTACCTT TCCACCTAAAACGTTAAAATTTGTCAAGTGATAATATTCGACAAGCTGTTATTGCCAAACTATTT TCCTATTTGTTTCCTAATGGCATCGGAACTAGCGAAAGTTTCTCGCCATCAGTTAAAAGTTTGC GGCAGATGTAGACCTAGCAGAGGTGTGCGAGGAGGCCGTTAAGACTATACTTTCAGGGATCA TTTCTATAGTGTGTTACTAGAGAAGTTTCTCTGAACGTGTAGAGCACCGAAAACCACGAGGAA GAGAGGTAGCGTTTTCATCGGGTTACCTAAGTGCAGTGTCCCCCCTGGCGCGCAATTGGGAA CCCCACACGCGGTGTAGAAATATATTTTAAGGGCGCG
Log22=1 bit
信息是在多种可能状态下的一种选择。
--生物信息的产生源于自然选择。 ATCGC=?bits
当一种选择引起另一种选择时,我们理解为 信息传递了。包括复制传递和转化传递。
中心法则:
--生物学研究的就是生物信息的产生和传递方式。
什么是生物信息学?
生物信息学就是利用信息技术对生 物信息进行获取、储存、查询和分析, 以解释这些信息数据所蕴涵的生物学 意义的学科。
DNA molecules (clones) are attached at fixed locations (5,000 spots/cm2, diameter 0.1 mm).
Oligonucleotide GeneChip (oligos, ~25nt) (up to 1,000,000 spots/cm2, diameter 0.01 mm).
•Two major technologies ----
Spotted DNA microarrays
Oligonucleotide GeneChips (the US company Affymetrix Inc.)
Microarrays (2)
Typically on a glass slide.
Microarrays (1)
——本质是生物信息的集成性平行分析:利用核酸分子杂交、 蛋白质分子亲和原理,通过荧光标记可视化,借助计算机分 析处理,可迅速获取大量生物信息,效率是传统手段的成百 上千倍。
•There are several names for this technology – biochips, microchips, DNA microarrays, DNA arrays, DNA chips, gene chips, others. Sometimes a distinction is made between these names but in fact they are all synonyms (同义词)as there are no standard definitions for which type of microarray technology should be called by which name——EBI.
第一章 绪论
生物信息学的定义 生物信息学的产生 生物信息学的应用 生物信息学的教育和学习
生物信息学的产生 之 孕育
1950s 末,计算机应用于生物学研究中。
主要是利用数学模型、统计学方法和计算机处理宏观生物 学数据。如 Numerical Taxonomy,Mathematical Ecology (1970s 逐渐成熟)。
研究内容的本质性联系
Biochemistry—— For biology, chemistry is much more than just a method: biology is rooted in, and is firmly based on, the laws of chemistry.
随后(1980s),计算机开始应用于分子生物学 研究。
其中包括建立分子生物学数据库(如Genbank)以及蛋白 质结构的计算机辅助分析与预测等。
——在上述研究中,人们已经逐步建立了理论基 础和一批方法、模型、软件和数据库。
生物信息学的产生 之 促成(1)
生物信息的全面发掘——巨大数据量的产生。
* Oligonucleotide GeneChips: 20 kinds for one gene
Microarrays (4)
One popular micorarray applications allows to compare gene expression levels in two different samples, e.g., the same cell type in a healthy and a diseased state.
从碳到硅 — —
“生物信息学”的新纪 元
Bioinformatics
生物学研究模式的转变
基于全部基因都将知晓并以电子技术可操 作的方式驻留在数据库中,新的生物学研究 模式的出发点应该是理论的。科学家将从理 论推测出发,再返回到实验中去,追踪或验 证这些理论假设。……生物学家不仅必须成 为计算机学者,而且也要改变他们研究生命 现象的途径。