生物信息学 第一章 生物信息学概述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3、东南大学生物信息学网络学习平台 (http://www.lmbe.seu.edu.cn/chenyuan/xsun/courses_on_net.htm)
4、美国国立生物技术信息中心
( http://www.ncbi.nlm.nih.gov)
期刊
《生物信息学》、《Bioinformatics》、《BMC Bioinformatics 》
生物信息学涉及的生物分子数据库
DNA序列数据 最基本
生 物 分 子 生物分子结构数据 蛋白质序列数据 直观展示 生命体系 千姿百态 的变化
信
息 生物分子功能数据 复杂剖析
生物分子数据与计算机计算
生物分子数据 + 计算机计算
特征: 生物分子信息数据量大 生物分子信息复杂 生物分子信息之间存在着密切的联系
参考书籍
1、《生物信息学教程》蔡禄. 化学工业出版社, 2007 2、《生物信息学》(第二版)张阳德主编. 科学出版社, 2009 3、《生物信息学》陶士珩主编. 科学出版社, 2007 4、《生物信息学应用技术》王禄山, 高培基.化学工业出版社, 2007
5、《生物信息学与功能基因组学》(美)乔纳森•佩夫斯纳 著; 孙
Sanger, UK
大规模测序基本策略
逐个克隆法:小片段针对
图谱的!! 全基因组鸟枪法:大片段 测序 - 组装(美国 Celera 公 司)
Contig : 重 叠 群 , 基 因 组
测序中将许多序列片段经 过比对找到重叠区 , 从而连 接成的长片段。
A
B C
D
E
FG H I
J
K
L
CONTIG
1981 Smith-Waterman算法出现
1981 Doolittle提出序列模式的概念 1983 Wilbur和Lipman提出序列数据库的搜索算法
1985 快速的蛋白质序列相似性搜索程序FASTP/FASTN发布
1988 Pearson和Lipman发表著名的序列比较算法FASTA
20世纪80年代以后,出现一批生物信息服务机构和生物信息数
生物信息学
Bioinformatics
生物科学与技术学院
初步计划讲授内容
第一章 概论(2) 第二章 生物学基础(略) 第三章 生物信息数据库及其信息检索(4-6) 第四章 序列比对与算法(6) 第五章 核酸序列分析(6) 第六章 蛋白质结构预测和分子设计(4-6) 第七章 基因组信息学(4) 第八章 蛋白质组信息学(4) 第九章 生物信息学前沿(自学)
生物分子
一级结构 二级结构 三级结构
一级结构
二级结构 三级结构
四级结构
DNA
基因的DNA序列
对 应 遗 传
前体RNA mRNA
关
系
密
码
蛋白质序列
多肽链
三个重要的信息
(1)遗传信息的载体——DNA
DNA通过自我复制,在生物体的繁衍过程中传递遗传信息; 基因通过转录和翻译,使遗传信息在生物个体中得以表达,并使后代表现出 与亲代相似的生物性状。 转录 复制 翻译 RNA
75
110 40 13687Kr
U. Wash (Hood LAB) 14,15 Total
人类基因组计划给生物信息学提出挑战
• 随着实验数据和可利用信息急剧增加,信息的管理和分析成
为HGP的一项重要的工作
利用数学模型 和人工智能技术
研究基因组数据 之间的关系
分析现有的 基因组数据
认识生命的本质
发现生物学 规律,
白质甚至种属之间的系统发生关系,推测它们共同的祖先蛋白质。
总结:生物分子至少携带着三种信息
– 遗传信息 – 与功能相关的结构信息 – 进化信息
第一部 遗传密码
第二部 遗传密码
蛋白质结构
决定功能
DNA 核酸序列
蛋白质 氨基酸序列
蛋白质 结构
蛋白质 功能
最基本的 生物信息
生命体系千姿
百态的变化
维持生命活
1962 Zucherkandl和Pauling提出分子进化理论
1967 Dayhoff研制出蛋白质序列图集,后演变为著名的蛋白质信息源PIR
20世纪70年代,核酸测序技术成熟,开始了少量的基因组测
序工作,标志着生物信息学的真正开端
20世纪70年代到80年代初期,出现了一系列著名的序列比较方
之荣 译. 化学工业出版社, 2006
网上资源
1、华中农业大学国家精品课程生物信息学网站
(http://nhjy.hzau.edu.cn/kech/swxxx/index.htm) 2、西南交通大学生物信息学精品课程网站
(http://jpkc.swjtu.edu.cn/C54/Course/Index.htm)
解读生物 遗传密码
(3)后基因组时代(21世纪后至今)
21世纪后,发展重点逐渐转移到功能基因组学研究领域,主要标
志技术是进行高通量基因组分析(megabace、3700、454测序技 术)、蛋白质组分析和各种数据的比较整合等,出现了转录组、蛋 白质组和代谢组等各种组学概念。
megabace 3700
biology
mathematics
physics
Natural sciences
Social sciences
sciences
arts
religions
Human civilization
Non-human world
Universe (宇宙=空间+时间)
生物信息学主要研究两种信息载体
•1、DNA分子 •2、蛋白质分子
Leabharlann Baidu
GAP
基因组比较
高通量测序技术 核苷酸序列 注释、解析 蛋白质序列 预测 蛋白质结构 验证
蛋白质功能关系
基于生物信息学的新药设计
生物信息学的主要研究内容
(1)生物分子数据的收集与管理
EMBL
基因组 数据库 GenBank DDBJ SWISS-PROT 蛋白质 序列 数据库
EMBL欧洲分子生物学实验室,于1974年由欧洲14个国家加 上亚洲的以色列共同发起建立,包括一个位于德国 Heidelberg的核心实验室,三个位于德国Hamburg,法国 Grenoble及英国Hinxton的研究分部。 GenBank是美国国家生物技术信息中心建立的DNA序列数据 库,从公共资源中获取序列数据,主要是科研人员直接提供 或来源于大规模基因组测序计划。 DDBJ日本DNA数据库,于1984年建立,是世界三大DNA 数 据库之一,与NCBI的GenBank,EBI的EMBL数据库共同组 成国际DNA数据库。 SWISS-PROT是经过注释的蛋白质序列数据库,由欧洲生 物信息学研究所(EBI)维护。 PIR全称The Protein Information Resource,是一个集成了 关于蛋白质功能预测数据的公共资源的数据库,其目的是支 持基因组/蛋白质组研 究。PIR与MIPS(the Munich Information Center for Protein Sequences)、JIPID(the Japan International Protein Information Database)合作, 共同构成了PIR-国际蛋白质序列数据库(PSD):一个主要 的已预测的蛋白质数据库,包括250000个蛋白。
生物信息学概述
什么是生物信息学:
生物信息学(Bioinformatics):
• 是研究生物信息的采集,处理,存储,传播,分析和解释等
各方面的学科。 • 是随着生命科学和计算机科学的迅猛发展而快速突起的一门 学科。 • 是生命科学、生物统计学、现代数学、信息科学和计算机科 学的结合学科,可揭示大量而复杂的生物数据所蕴藏的生物 学奥秘。
20世纪90年代后,HGP促进生物信息学的迅速发展,标志工作
是人类基因组测序,基因寻找和识别等。
1986 “基因组学”概念产生,研究基因组的作图、测序和分析 1990国际人类基因组计划启动
1993成立Sanger中心,专门从事基因组研究
1995第一个细菌基因组测序完成 1996酶母基因组测序完成
1998第一个多细胞生物——线虫基因组测序
DNA
蛋白 质
(2)蛋白质的结构决定其功能
蛋白质功能取决于蛋白质的空间结构 蛋白质结构决定于蛋白质的序列(这是目前基本公认的假设),蛋白质 结构的信息隐含在蛋白质序列之中。
(3) DNA分子和蛋白质分子都含有进化信息
• 通过比较相似的蛋白质的核苷酸序列,如肌红蛋白和血红蛋白,可以发现
由于基因复制而产生的分子进化证据。 • 通过比较来自于不同种属的同源蛋白质,即直系同源蛋白质,可以分析蛋
法和生物信息分析方法
1970 Needleman-Wunsch提出序列比对算法 1970 Gibbs和McIntyre发表矩阵打点作图法 1972 Gatlin将信息论引入序列分析,证实自然的生物分子序列是高度非随机的
1977 出现将DNA序列翻译成蛋白质序列的算法。
1975 Pipas和McMahon首先提出运用计算机技术预测RNA二级结构 1978 Gingeras等研制出核酸序列中限制性酶切位点的识别软件
12
13 14 15 16
MPIMG
GBF Stanford (Davis) Keio
17,21,X
21, reg of 9 8 2,6,8,22,21
6.9
6 23 30 2671 2671Mb
40
12
40
50 137
0.3
0.3 0.29 0.23 0.17 32.64Mr
11 27 4663Kr 2950Kr
1999果蝇基因组测序完成 2000人类基因组测序基本完成
Saccharomyces cerevisiae 酿酒酵母(1996-1997)
2001人类基因组初步分析结果公布
Caenorhabditis elegans 秀丽线虫(1998)
冲击
我国对人类基因组计划的贡献
6/1-8/31/99 No 1 2 3 4 5 6 7 8 9 10 11 Center Sanger Centre WIBR Wash U JGI Baylor Riken IMB Genoscope U. Wash (Olson) Beijing GTC (Smith) 3p 10 30 50 12.5 5 12.5 >100 150 0.5 0.45 Region 1,6,9,10,13,20,22,X (Clones from Wash U) 2,3,4,7,11,15,18,Y 5,16,19 1,2,3,X 21,18,11q 8,21,X Most of 14 900 250 230 160 50 85 Size(Mb) 850 Actual K 1300 837 865 687 462 136 180 100 Projected Kr Proj Accum. Genbank Kr 4/1-11/30/99 Mr. 4/99-3/00 941 296 559 461 261 195 32 118 4200 2900 2300 2100 660 520 180 300 >12 8 7.9 6.4 3.1 2.1 1.5 1.4
特征: 信息存储量大 计算性能高速、有效 信息交流方便
生物信息学的发展历史
生物科学和 技术的 发展 人类基因组 计划的 推动
生物信息学 基本思想的产生 二十世纪 50年代
生物信息学 的迅速发展 二十世纪 80-90年代
(1)前基因组时代(20世纪90年代前)
20世纪50年代,生物信息学开始孕育 20世纪60年代,生物分子信息在概念上将计算生物学和计算 机科学联系起来,是生物信息学形成雏形的阶段
• 生物信息学的学习人员: 1)学习生物信息学是为了发展生物信息学 —— 计算机科学家 2)学习生物信息学是为了应用生物信息学 —— 生物学家 我们属于……
Bioinformatics in the Universe
biostatistics
bioinformatics
Computational biology
动的机器
生物分子数据及其关系
• 第一部遗传密码已被破译,但对密码的转录过程还不清楚,对大
多数DNA非编码区域的功能还知之甚少
• 对于第二部密码,目前则只能用统计学的方法进行分析 • 无论是第一部遗传密码,还是第二部遗传密码,都隐藏在大量的 生物分子数据之中。
生物分子数据是宝藏,
生物信息数据库是金矿,等待我们去挖掘和利用。
• 生物信息学?--新兴的交叉学科
Mathematical sciences Computer sciences
Life sciences
生物学背景?★★★ 分子生物学/基因工程 数学?★ 统计学,模型,算法 计算机科学背景?
★
Linux/Perl/PHP/JAVA/C++/Visual Basic
据库
1982 GenBank数据库(Release3)公开 1986 日本核酸序列数据库DDBJ诞生 1986 出现蛋白质数据库SWISS-PROT 1988 美国国家生物技术信息中心NCBI创立 1988 成立欧洲分子生物学网络(EMBnet),专门发布各种生物数据库
(2)基因组时代(20世纪90年代后至21世纪初)
4、美国国立生物技术信息中心
( http://www.ncbi.nlm.nih.gov)
期刊
《生物信息学》、《Bioinformatics》、《BMC Bioinformatics 》
生物信息学涉及的生物分子数据库
DNA序列数据 最基本
生 物 分 子 生物分子结构数据 蛋白质序列数据 直观展示 生命体系 千姿百态 的变化
信
息 生物分子功能数据 复杂剖析
生物分子数据与计算机计算
生物分子数据 + 计算机计算
特征: 生物分子信息数据量大 生物分子信息复杂 生物分子信息之间存在着密切的联系
参考书籍
1、《生物信息学教程》蔡禄. 化学工业出版社, 2007 2、《生物信息学》(第二版)张阳德主编. 科学出版社, 2009 3、《生物信息学》陶士珩主编. 科学出版社, 2007 4、《生物信息学应用技术》王禄山, 高培基.化学工业出版社, 2007
5、《生物信息学与功能基因组学》(美)乔纳森•佩夫斯纳 著; 孙
Sanger, UK
大规模测序基本策略
逐个克隆法:小片段针对
图谱的!! 全基因组鸟枪法:大片段 测序 - 组装(美国 Celera 公 司)
Contig : 重 叠 群 , 基 因 组
测序中将许多序列片段经 过比对找到重叠区 , 从而连 接成的长片段。
A
B C
D
E
FG H I
J
K
L
CONTIG
1981 Smith-Waterman算法出现
1981 Doolittle提出序列模式的概念 1983 Wilbur和Lipman提出序列数据库的搜索算法
1985 快速的蛋白质序列相似性搜索程序FASTP/FASTN发布
1988 Pearson和Lipman发表著名的序列比较算法FASTA
20世纪80年代以后,出现一批生物信息服务机构和生物信息数
生物信息学
Bioinformatics
生物科学与技术学院
初步计划讲授内容
第一章 概论(2) 第二章 生物学基础(略) 第三章 生物信息数据库及其信息检索(4-6) 第四章 序列比对与算法(6) 第五章 核酸序列分析(6) 第六章 蛋白质结构预测和分子设计(4-6) 第七章 基因组信息学(4) 第八章 蛋白质组信息学(4) 第九章 生物信息学前沿(自学)
生物分子
一级结构 二级结构 三级结构
一级结构
二级结构 三级结构
四级结构
DNA
基因的DNA序列
对 应 遗 传
前体RNA mRNA
关
系
密
码
蛋白质序列
多肽链
三个重要的信息
(1)遗传信息的载体——DNA
DNA通过自我复制,在生物体的繁衍过程中传递遗传信息; 基因通过转录和翻译,使遗传信息在生物个体中得以表达,并使后代表现出 与亲代相似的生物性状。 转录 复制 翻译 RNA
75
110 40 13687Kr
U. Wash (Hood LAB) 14,15 Total
人类基因组计划给生物信息学提出挑战
• 随着实验数据和可利用信息急剧增加,信息的管理和分析成
为HGP的一项重要的工作
利用数学模型 和人工智能技术
研究基因组数据 之间的关系
分析现有的 基因组数据
认识生命的本质
发现生物学 规律,
白质甚至种属之间的系统发生关系,推测它们共同的祖先蛋白质。
总结:生物分子至少携带着三种信息
– 遗传信息 – 与功能相关的结构信息 – 进化信息
第一部 遗传密码
第二部 遗传密码
蛋白质结构
决定功能
DNA 核酸序列
蛋白质 氨基酸序列
蛋白质 结构
蛋白质 功能
最基本的 生物信息
生命体系千姿
百态的变化
维持生命活
1962 Zucherkandl和Pauling提出分子进化理论
1967 Dayhoff研制出蛋白质序列图集,后演变为著名的蛋白质信息源PIR
20世纪70年代,核酸测序技术成熟,开始了少量的基因组测
序工作,标志着生物信息学的真正开端
20世纪70年代到80年代初期,出现了一系列著名的序列比较方
之荣 译. 化学工业出版社, 2006
网上资源
1、华中农业大学国家精品课程生物信息学网站
(http://nhjy.hzau.edu.cn/kech/swxxx/index.htm) 2、西南交通大学生物信息学精品课程网站
(http://jpkc.swjtu.edu.cn/C54/Course/Index.htm)
解读生物 遗传密码
(3)后基因组时代(21世纪后至今)
21世纪后,发展重点逐渐转移到功能基因组学研究领域,主要标
志技术是进行高通量基因组分析(megabace、3700、454测序技 术)、蛋白质组分析和各种数据的比较整合等,出现了转录组、蛋 白质组和代谢组等各种组学概念。
megabace 3700
biology
mathematics
physics
Natural sciences
Social sciences
sciences
arts
religions
Human civilization
Non-human world
Universe (宇宙=空间+时间)
生物信息学主要研究两种信息载体
•1、DNA分子 •2、蛋白质分子
Leabharlann Baidu
GAP
基因组比较
高通量测序技术 核苷酸序列 注释、解析 蛋白质序列 预测 蛋白质结构 验证
蛋白质功能关系
基于生物信息学的新药设计
生物信息学的主要研究内容
(1)生物分子数据的收集与管理
EMBL
基因组 数据库 GenBank DDBJ SWISS-PROT 蛋白质 序列 数据库
EMBL欧洲分子生物学实验室,于1974年由欧洲14个国家加 上亚洲的以色列共同发起建立,包括一个位于德国 Heidelberg的核心实验室,三个位于德国Hamburg,法国 Grenoble及英国Hinxton的研究分部。 GenBank是美国国家生物技术信息中心建立的DNA序列数据 库,从公共资源中获取序列数据,主要是科研人员直接提供 或来源于大规模基因组测序计划。 DDBJ日本DNA数据库,于1984年建立,是世界三大DNA 数 据库之一,与NCBI的GenBank,EBI的EMBL数据库共同组 成国际DNA数据库。 SWISS-PROT是经过注释的蛋白质序列数据库,由欧洲生 物信息学研究所(EBI)维护。 PIR全称The Protein Information Resource,是一个集成了 关于蛋白质功能预测数据的公共资源的数据库,其目的是支 持基因组/蛋白质组研 究。PIR与MIPS(the Munich Information Center for Protein Sequences)、JIPID(the Japan International Protein Information Database)合作, 共同构成了PIR-国际蛋白质序列数据库(PSD):一个主要 的已预测的蛋白质数据库,包括250000个蛋白。
生物信息学概述
什么是生物信息学:
生物信息学(Bioinformatics):
• 是研究生物信息的采集,处理,存储,传播,分析和解释等
各方面的学科。 • 是随着生命科学和计算机科学的迅猛发展而快速突起的一门 学科。 • 是生命科学、生物统计学、现代数学、信息科学和计算机科 学的结合学科,可揭示大量而复杂的生物数据所蕴藏的生物 学奥秘。
20世纪90年代后,HGP促进生物信息学的迅速发展,标志工作
是人类基因组测序,基因寻找和识别等。
1986 “基因组学”概念产生,研究基因组的作图、测序和分析 1990国际人类基因组计划启动
1993成立Sanger中心,专门从事基因组研究
1995第一个细菌基因组测序完成 1996酶母基因组测序完成
1998第一个多细胞生物——线虫基因组测序
DNA
蛋白 质
(2)蛋白质的结构决定其功能
蛋白质功能取决于蛋白质的空间结构 蛋白质结构决定于蛋白质的序列(这是目前基本公认的假设),蛋白质 结构的信息隐含在蛋白质序列之中。
(3) DNA分子和蛋白质分子都含有进化信息
• 通过比较相似的蛋白质的核苷酸序列,如肌红蛋白和血红蛋白,可以发现
由于基因复制而产生的分子进化证据。 • 通过比较来自于不同种属的同源蛋白质,即直系同源蛋白质,可以分析蛋
法和生物信息分析方法
1970 Needleman-Wunsch提出序列比对算法 1970 Gibbs和McIntyre发表矩阵打点作图法 1972 Gatlin将信息论引入序列分析,证实自然的生物分子序列是高度非随机的
1977 出现将DNA序列翻译成蛋白质序列的算法。
1975 Pipas和McMahon首先提出运用计算机技术预测RNA二级结构 1978 Gingeras等研制出核酸序列中限制性酶切位点的识别软件
12
13 14 15 16
MPIMG
GBF Stanford (Davis) Keio
17,21,X
21, reg of 9 8 2,6,8,22,21
6.9
6 23 30 2671 2671Mb
40
12
40
50 137
0.3
0.3 0.29 0.23 0.17 32.64Mr
11 27 4663Kr 2950Kr
1999果蝇基因组测序完成 2000人类基因组测序基本完成
Saccharomyces cerevisiae 酿酒酵母(1996-1997)
2001人类基因组初步分析结果公布
Caenorhabditis elegans 秀丽线虫(1998)
冲击
我国对人类基因组计划的贡献
6/1-8/31/99 No 1 2 3 4 5 6 7 8 9 10 11 Center Sanger Centre WIBR Wash U JGI Baylor Riken IMB Genoscope U. Wash (Olson) Beijing GTC (Smith) 3p 10 30 50 12.5 5 12.5 >100 150 0.5 0.45 Region 1,6,9,10,13,20,22,X (Clones from Wash U) 2,3,4,7,11,15,18,Y 5,16,19 1,2,3,X 21,18,11q 8,21,X Most of 14 900 250 230 160 50 85 Size(Mb) 850 Actual K 1300 837 865 687 462 136 180 100 Projected Kr Proj Accum. Genbank Kr 4/1-11/30/99 Mr. 4/99-3/00 941 296 559 461 261 195 32 118 4200 2900 2300 2100 660 520 180 300 >12 8 7.9 6.4 3.1 2.1 1.5 1.4
特征: 信息存储量大 计算性能高速、有效 信息交流方便
生物信息学的发展历史
生物科学和 技术的 发展 人类基因组 计划的 推动
生物信息学 基本思想的产生 二十世纪 50年代
生物信息学 的迅速发展 二十世纪 80-90年代
(1)前基因组时代(20世纪90年代前)
20世纪50年代,生物信息学开始孕育 20世纪60年代,生物分子信息在概念上将计算生物学和计算 机科学联系起来,是生物信息学形成雏形的阶段
• 生物信息学的学习人员: 1)学习生物信息学是为了发展生物信息学 —— 计算机科学家 2)学习生物信息学是为了应用生物信息学 —— 生物学家 我们属于……
Bioinformatics in the Universe
biostatistics
bioinformatics
Computational biology
动的机器
生物分子数据及其关系
• 第一部遗传密码已被破译,但对密码的转录过程还不清楚,对大
多数DNA非编码区域的功能还知之甚少
• 对于第二部密码,目前则只能用统计学的方法进行分析 • 无论是第一部遗传密码,还是第二部遗传密码,都隐藏在大量的 生物分子数据之中。
生物分子数据是宝藏,
生物信息数据库是金矿,等待我们去挖掘和利用。
• 生物信息学?--新兴的交叉学科
Mathematical sciences Computer sciences
Life sciences
生物学背景?★★★ 分子生物学/基因工程 数学?★ 统计学,模型,算法 计算机科学背景?
★
Linux/Perl/PHP/JAVA/C++/Visual Basic
据库
1982 GenBank数据库(Release3)公开 1986 日本核酸序列数据库DDBJ诞生 1986 出现蛋白质数据库SWISS-PROT 1988 美国国家生物技术信息中心NCBI创立 1988 成立欧洲分子生物学网络(EMBnet),专门发布各种生物数据库
(2)基因组时代(20世纪90年代后至21世纪初)