生物信息学考点整理教案资料
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
生物信息学考点整理
生物信息学考点整理
目录
生物分子数据的收集和管理(1)
数据库搜索及序列比较(2)
基因组序列分析(3)(4)
基因表达数据的分析与处理(7)
蛋白质结构预测(5)(6)(8)
PART1
生物信息学:是生命科学、计算机科学、现代信息科学、数学、物理学以及化学等多个学科交叉形成的一门新学科,是利用信息技术和数学方法对生命科学研究中的生物信息进行收集、加工、存储、检索、分析和解释的科学。
生物信息学的发展历程:
一、萌芽期(20世纪50-70年代)
1、50年代:生物信息学开始孕育
1953 Watson和Crick提出了DNA双螺旋结构。1955 F. Sanger发表了胰岛素的蛋白质序列。1956 美国田纳西州首次召开了“生物学中的理论研讨会”。
2、60年代:生物分子信息在概念上将计算生物学和计算机科学联系起来
1962 L. Pauling提出来分子进化理论。1967 Dayhoff构建了蛋白质序列数据库。
3、70年代:生物信息学的真正开端(序列比对算法)
1970 Needleman和Wunsch提出了著名的序列比对算法。1971 美国纽约Brookhaven国家实验室创建了蛋白质结构数据库(Protein data bank, PDB)。
1974 欧洲分子生物学实验室(European molecular biology laboratory, EMBL)建立
1977 Maxam和Gilbert发表了化学降解法,Sanger和Coulson发表双脱氧终止DNA测序法。1978 Gingeras等人研制了核酸序列中酶切位点识别程序。
二、形成期(80年代)生物信息服务机构和数据库
1982 建立GenBank数据库。1984 日本国立遗传学研究所NIG(National institute of genetics)开始信息服务。1986 创立SwissProt蛋白序列数据库;美国能源部正式提出实施测定人类基因组全序列的计划。1987 NIG发行日本DNA数据库DDBJ(DNA Data Bank of Japan);1988 Person和Lipman发表了著名的序列比较算法FASTA; 美国国家生物技术信息中心NCBI(National Center for Biotechnology Information)诞生;成立欧洲分子生物学网络(EMBNet),EMBL核酸序列数据库诞生。1989 林华安首先采用“bioinformatics”一词。
三、高速发展期(90年代至今)HGP促进生物信息学的迅速发展
1990 人类基因组计划(Human Genome Project, HGP)正式启动。Altschul发表Blast(The Basic Local Alignment Search Tool )算法。1991 Venter在《科学》杂志上描述表达序列标签(Expressed Sequence Tag, EST)的建立和使用。1992 Venter在美国马里兰州成立基因组研究所(the institute of genome research, TIGR)。1994 欧洲生物信息学研究所(European Bioinformatics Institute, EBI)成立。1995 《科学》杂志刊登全基因组鸟枪法(Whole genome shotgun, WGS)完成的流感嗜血杆菌全基因组测序的论文。标志着基因组时代的真正开始。
PART2
1、序列比对与比对搜索基本概念
在越来越多的基因组测序完成以后,寻找物种内和物种间蛋白质的相关性对于理解生命来说变得越来越重要。目前,序列比对(sequence alignment)已经成为生物信息处理的基本工具。
任何一条由字母组合形成的DNA或蛋白质序列都会与其他类似构成的序列有相似性。
有方法可以对这样的相似性进行量化评价,然而要把“偶然性”的相似与真实进化和(或)功能关系意义上的相似区分开来,还需要考虑更多的因素。
2、比对序列的选择:核酸序列还是蛋白质序列
氨基酸序列
氨基酸序列比对通常具有更丰富的信息,例如,许多氨基酸具有相似的理化性质,在进行氨基酸序列比对时可以用一打分系统来描述这些相关的氨基酸之间的重要相关性。
核苷酸序列
确定给定DNA序列和DNA数据库中一致性
搜索多态性
分析所克隆的cDNA片段的一致性等
3、同源性、相似性和一致性
同源性(homology):
(1)如果两个序列有一个共同的进化祖先,那么它们是同源的。同源性是一种论断,不存在同源性的程度问题,两条序列之间要么是同源的,要么是不同源
的。(简单地说,同源序列是指从某一共同祖先经趋异进化而形成的不同序列)
(2)两条蛋白质序列即使没有统计上显著的一致性(identity),它们也可能是同源的。
(3)同源蛋白在三维结构上常具有显著的相似性(similarity)。
(4)两蛋白质之间三维结构的趋异比氨基酸序列一致性的趋异要慢
直系同源(orthology):
不同物种内的同源序列,它们来自于物种形成时的共同祖先基因。
旁系同源(paralogy):
是指同一基因组(或同一物种的基因组)中,由于始祖基因的加倍而横向/水平方向(horizontal)产生的几个同源基因
即:旁系同源是基因复制的结果,两份拷贝在一个物种的历史上是平行演化的。这样的基因就被称为旁系同源基因。
直系同源与旁系同源的共性:
它们是同源的,都源于各自的始祖基因。
直系同源与旁系同源的区别:
在进化起源上,直系同源是强调在不同基因组中的垂直传递,旁系同源则是在同一基因组中的横向加倍;