第1章 生物信息学的概念及其发展
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
http://www.ddbj.nig.ac.jp/ http://www.embl.org/ http://www.ncbi.nlm.nih.gov/
(3)高速发展期(90年代-至今) 以基因组测序与分析为代表。基因组计 划,特别是人类基因组计划的实施,分子数 据以亿计;基因组水平上的分析使生物信息 学的优势得以充分表现,基因组信息学成为 生物信息学中发展最快的学科前沿。
稳定性好: Over 25 years in industry and academia. 开放性好:Supporting possible tasks in future. Internet上的操作系统:The software that powers the Web was invented in Unix, and many if not most web servers runs on Unix servers. 科学软件的载体:Many good-quality, interesting and important scientific software are written for Unix. 共享的乐园:Many programs can be downloaded and installed on Unix systems for free. ——几乎所有的大型数据库都运行于Unix之上(或至少有基 于Unix的版本),如Genbank和EMBL。
(2)形成期(80年代) 以分子数据库和BLAST等相似性搜索程序 为代表。1982年三大分子数据库的国际合作 使数据共享成为可能,同时为了有效管理与 日俱增的数据,以BLAST、FASTA等为代表工 具软件和相应的新算法大量被提出,极大地 改善了人类管理和利用分子数据的能力。在 这一阶段,生物信息学作为一个新兴学科已 经形成,并确立了自身学科的特征和地位;
You are probably accustomed to working with personal computers; you may be familiar with windows interfaces, word processors, and even some data-analysis packages.
However, if you want to use computers as a serious component in your research, you need to work on computer systems that run under Unix or some Unixlike operating systems.
ຫໍສະໝຸດ Baidu 序列->分子进化
1. 寻找Ortholog (直系同源物)或者Paralog (旁系)同源物。 2. 构建进化树,分析蛋白质的超家族及亚家 族分类。 3. 分子进化树的构建方法:邻接法 (Neighbor-Joining), 最大简约法(Maximum Pasimony),最大似然性法(Maximum Likelihood),以及贝叶斯类算法(MCMC)。 4. 构建进化树的前提:可靠的多序列比对。
生物信息学定义(2)
Bioinformatics is the field of science in which biology, computer science, and information technology merge into a single discipline. The ultimate goal of the field is to enable the discovery of new biological insights as well as to create a global perspective from which unifying principles in biology can be discerned.
3、生物信息学的发展历程
1952年,Sanger根据胰岛素蛋白质的测序结果,推断蛋 白质是排列完美的分子。-最早的信息论观点。 1955年,Sanger与合作者分别对牛、猪和羊的胰岛素蛋 白质进行了测序并做了序列上的比较。-最早的序列比对。 1962年,鲍林提出分子进化的理论,推测在人中可能存 在50,000~100,000个不同的基因/蛋白质。-分子进化理论 的奠定。 1965年,Margaret Dayhoff构建蛋白质序列图谱 1970年,Needleman-Wunsch算法:全局优化比对。 1981年,Smith-Waterman算法开发:局部优化比对。 1990年,快速序列相似性搜索工具BLAST的开发
1. 开发新的算法及统计学的方法来揭示大规 模数据之间的联系。 2. 分析和解释各种类型的生物学数据,包括 核酸、氨基酸序列、蛋白质功能结构域以及蛋 白质三级结构等。 3. 开发、设计一系列相关的工具,能够方便 有效的获取、管理以及使用各种类型的数据和 信息。
(1)生物信息学数据库
1)数据库建设 2)数据库整合和数据挖掘
Biology in the 21st century is being transformed from a purely lab-based science to an information science as well.
广义生物信息学观点
Biology may be viewed as the study of transmission of information: from mother cell to daughter cell, from one cell or tissue type to another, from one generation to the next, and from one species to another. This informational viewpoint is termed bioinformatics 生物学研究可以被看成是研究信息的传递:从DNA经转录翻译 到蛋白质,从细胞质中到细胞核内,从母细胞到子细胞,从一 个细胞或一个组织到另一个细胞或另一个组织,从一代到下一 代,从一个物种到另一个物种的进化演变。这种信息论的观点 即可称为生物信息学(Eisenberg et al., 2006)。
核酸数据库数据的增长
第一部 遗传密码
第二部
遗传密码?
DNA 核酸序列
蛋白质 氨基酸序列
蛋白质 结构
蛋白质 功能
最基本的
生物信息
生命体系千姿 百态的变化
维持生命活 动的机器
获取序列及检索公共数据库
1. Entrez的开发,D.Lipman等人。 2. 提供关键字的搜索的方法。 3. “硬搜索”:包含关键字的,完全匹配的结果。 4. “软搜索”:与查询内容相关的信息。 5. 查询内容:基因/蛋白质的名称、标识符, 文献、蛋白质结构,等等。
http://www.ncbi.nlm.nih.gov/sites/gquery
序列比对工具的开发
1. 1970年,Gibbs AJ 和 McIntyre GA,点阵法进 行氨基酸和核酸的序列比较:当相同的字母在两条 序列中同时出现时,在交叉处置点。 2. 1970年,Needleman-Wunsch,全局优化的序列 比对算法:允许匹配、错配和缺失。动态规划的算 法:任务可分割,分成更小的子问题进行解决。 3. 1981年,Smith-Waterman,局部优化的序列比 对算法。 4. FASTA & BLAST的开发,启发式优化算法。 5. 多序列比对:CLustalW/X, POA, MUSCLE.
懂一些计算机软件及硬件的常识。
不必。除非你想专门研究《生物信息学》。 学会使用web上的工具软件; 学会创建并维护一个web站点; 具备使用计算机操作系统的技巧; 具备一点编写简单脚本程序(如PERL)的 基本知识;
学习生物信息学需要具备一定的Linux操作系 统与PERL语言知识; MS-Windows(DOS): Home and office PCs; Unix: Workstation and servers; MacOS: Apple Macintosh
生物信息学发展过程中的里程碑
80年代:DNA序列数据库
1. 1974年,George I.Bell等人收集DNA序列, 构建GenBank数据库。1982~1992开发第一 个版本。 2. 1980年,EMBL数据库成立。 3. 1984年,日本DDBJ数据库成立。 4. 核酸序列数据的去冗余:Refseq数据库, 对于相同的序列只列一条目录。
1)序列比对 2)基因序列注释
1)比较基因组学; 2)基因和蛋白质的表达分析; 3)生物芯片大规模功能表达谱的分析 4)蛋白质结构的预测; 5)蛋白质与蛋白质相互作用; 6)生物系统模拟;
1.预测调控网络 2.网络普遍性分析 3.建立模型分析
8)计算进化生物学; 9)生物多样性研究; 10)合成生物学
基因进化:物种形成 vs. 基因复制
speciation gene duplication
ancestral gene
orthologs
paralogs
国内情况
北京大学、清华大学、浙江大学及中科院 生物物理所、上海生命科学研究院、遗传 与发育生物学研究所。 公司:华大基因。
三、生物信息学的研究内容
生物学、信息技术以及生物信息学相关大事记
二、生物信息学定义
定义一:生物信息学是一门收集、分析遗传数据 以及分发给研究机构的新学科(Bioinformatics is a new subject of genetic data collection, analysis and dissemination to the research community)。(林华安,Dr. Hwa A. Lim,1987) 定义二:生物信息学是在大分子方面的概念型的 生物学,并且使用了信息学的技术,这包括了从 应用数学、计算机科学以及统计学等学科衍生而 来各种方法,并以此在大尺度上来理解和组织与 生物大分子相关的信息。 (Luscombe,2001)
Ortholog vs. Paralog
直系同源物: 两个基因通过物种形成的事 件而产生,或,源于不同物种的最近的共 同祖先的两个基因,或者两个物种中的同 一基因,一般具有相同的功能。 旁系同源物:两个基因在同一物种中,通 过至少一次基因复制或分歧的事件而产生。 同源性研究:哪种同源物? Experimentally very hard to answer.
一、生物学信息学的发展历史
二战后,生物学及计算机技术发展迅猛,将信息 技术(IT)应用于生物学研究就成为必然; 特别是随着组学时代的到来,海量的生物学数据 必须通过生物信息学的手段进行收集、分析和整 理,生物信息学技术就成了生物学研究的必需;
(1)萌芽期(60-70年代) 以Dayhoff的替换矩阵和Needleman-Wunsch 算法为代表,这是生物信息学的一个最基本的 内容和思路:序列比较。
任课教师:李继刚 办 公 室:逸夫楼1107
陈铭主编《生物信息学》,科学出版社, 2012 Lesk, A.M., Introduction to Bioinformatics, Oxford University Press, 2005 其他资源(包括网络资源)
考核方式:作业+期末测验 要求:课堂听讲,课下实践。 教学辅助:互联网资源
Linux is a free, open source version of Unix.
Linux can turn an ordinary PC into a powerful workstation. Command-line: 需要硬件资源低,更高效。