生物信息
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(1)生物信息学(Bioinformatics)是生命科学、计算机科学、现代信息科学、数学、物理学以及化学等多个学科交叉结合形成的一门新学科,是利用信息技术和数学方法对生命科学研究中的生物信息进行存储、检索和分析的科学。
(2)生物信息学主要包括三个组成部分:建立可以存放和管理大量生物数据集的数据库;开发确定大数据集中各成员关系的算法和统计方法;使用这些工具来分析和解释不同类型的生物数据,包括DNA、RNA和蛋白质序列、蛋白质结构、基因表达及生化途径等。
(3)生物信息学要解决的核心问题
*研究序列、结构、功能以及表现型的关系
*研究基因、基因组、蛋白质、代谢途径的特征及进化
*基于知识和理论的预测、建模、设计
(4)核酸和蛋白质序列通常保存为FASTA、NBRF/PIR (National Biomedical Research Foundation/Protein Information Resource)、GDE和Raw等格式。
(5)核酸和蛋白质序列比对(sequence alignment)结果常保存为MSF、Phylip或ALN格式。
(6)FASTA格式
FASTA格式的序列由两部分组成,
第一行由大于号“>”或分号“;”(习惯为大于号)打头的任意文字说明,用于序列标记,给出描述、注释等信息,无长度限制;
第二行开始为序列本身,只允许使用核苷酸或氨基酸的编码符号。
FASTA格式的文件扩展名为“.fasta”
(7)NBRF/PIR格式
NBRF/PIR格式的由三部分组成,
第一行以大于号“>”开头,后跟一个双字母标记,表示序列类型;然后再跟一个分号,分号后面通常是序列在数据库中的编码(ID)
第二行为序列的文字说明,可长可短、也可以是空白
剩余行为序列本身,序列以星号“*”表示结束。
NBRF/PIR格式的文件扩展名为“.pir”或“.seq”
(8)GDE格式
GDE格式与FASTA格式基本相同,只是首行为“%”而不是“>”
NBRF/PIR格式的文件扩展名为“.gde”
(9)Raw格式
Raw格式相当于去除了空白和数字的文本格式,只接受表示序列本身的字母符号
(10)数据库的类型
一级数据库(Primary databases)数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释;如Genbank、EMBL和DDBJ)
二级数据库(Secondary databases)(对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标立而建的;如GDB、SCOP)
按照数据库中存储的生物数据类型可将数据库分为以下几种类型:
*核酸序列数据库例如:GenBank、EMBL、DDBJ
*蛋白质序列数据库例如:SWISS-PROT、TrEMBL、PIR
*生物大分子结构数据库例如:PDB
*基因组数据库例如:Ensembl、MGD、SGD
*功能数据库例如:KEGG、DIP、ASDB
(11)国际上权威的核酸序列数据库:欧洲分子生物学实验室的EMBL, 美国生物技术信息中心的GenBank,日本遗传研究所的DDBJ
(12)GenBank是一级数据库(Primary database)。
(13)GenBank的网址:/genbank/
(14)目前使用NCBI的Entrez检索系统查询GenBank中的数据
(15)向GenBank提交数据
BankIt :用于一条或者少数条提交的基于WWW的提交工具软件。
Sequin:提交软件程序,用于一条或者很多条的提交,长序列,完整基因组,alignments,人群/种系/突变研究的提交。
(16)RefSeq数据库:参考序列数据库RefSeq(The Reference Sequences)是NCBI建立的一个经过人工注释和审核的全面、整合的、非冗余的序列数据库。
(17)核酸序列数据库GenBank:包含了所有已知的核酸序列,以及与它们相关的文献著作和生物学注释。它是由美国国立生物技术信息中心(NCBI)建立和维护的。GenBank数据以指数形式增长,核酸碱基数目大概每14个月就翻一个倍。
(18)RefSeq数据库的特点
*非冗余,RefSeq数据库经过人工审核不存在冗余序列
*明确地将核酸序列和蛋白质序列关联起来
*维持更新,可以反映最新的生物学知识
*数据经过校验,质量相对可靠
(19)蛋白质序列数据库
UniProt是目前国际上比较权威的蛋白质序列数据库,其中的蛋白质序列是经过注释的。
它由整合Swiss-Prot、TrEMBL 和PIR-PSD 三大数据库的数据而成。他的数据主要来自于基因组测序项目完成后,后续获得的蛋白质序列。它包含了大量来自文献的蛋白质的生物功能的信息。
(20)UniProt有三个明显的特点:
*注释:UniProt数据库中包含大量的序列注释信息
*最小冗余:尽量将相关的数据归并,降低数据库的冗余程度。
*与其它数据库的连接:对于每一个登录项,有许多指向其它数据库相关数据的指针,这便于用户迅速得到相关的信息
(21)生物大分子结构数据库
PDB(Protein Data Bank)PDB中含有通过实验(X射线晶体衍射,核磁共振NMR)测定的生物大分子的三维结构(蛋白质核酸糖类其它复合物)
(22)细菌16S、ITS序列
*原核生物核糖体含有5S rRNA、16S rRNA和23S rRNA 3种rRNA.其中5S含有120个核苷酸,16S含有1540个核苷酸,而23S含有2900个核苷酸。
*核糖体RNA基因序列具有保守性又具有高变异性,是生物进化的计时器,已经被广泛用在细菌分类鉴定中。
*5S rRNA曾被用于环境中微生物的鉴定,但因其携带信息量小,在微生物分析鉴定中而未被广泛采用。*随后16S rRNA成为细菌种属分类和鉴定的新方法,适合于属内种间的鉴别,在分类学中被誉为“金标准”。*但16S rRNA的进化速度慢,基因序列相对保守,在对相近种或同一种内的不同菌株之间鉴别时存在一定的局限性,需要进一步的生理生化试验或其他方法作为补充。
*23S rRNA相对较大,其变异性高于16S rRNA,近些年除了仅有的少数菌种的核苷酸序列被报道,目前尚未完全建立其基因库,而且不同细菌种属中该片段的变异性不同,因此在细菌的分类和鉴定中未能得到广泛应用。
*16S~23S rRNA间隔区序列(ITS)位于16S rRNA基因与23S rRNA基因之间高度可变的序列
*16S~23S rRNA间隔区序列(ITS) 具有一定的保守性,且进化速度是16S rRNA的10多倍,它弥补了16S rRNA 保守性强,分化程度不够的缺点。