生物信息

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(1)生物信息学(Bioinformatics)是生命科学、计算机科学、现代信息科学、数学、物理学以及化学等多个学科交叉结合形成的一门新学科,是利用信息技术和数学方法对生命科学研究中的生物信息进行存储、检索和分析的科学。

(2)生物信息学主要包括三个组成部分:建立可以存放和管理大量生物数据集的数据库;开发确定大数据集中各成员关系的算法和统计方法;使用这些工具来分析和解释不同类型的生物数据,包括DNA、RNA和蛋白质序列、蛋白质结构、基因表达及生化途径等。

(3)生物信息学要解决的核心问题

*研究序列、结构、功能以及表现型的关系

*研究基因、基因组、蛋白质、代谢途径的特征及进化

*基于知识和理论的预测、建模、设计

(4)核酸和蛋白质序列通常保存为FASTA、NBRF/PIR (National Biomedical Research Foundation/Protein Information Resource)、GDE和Raw等格式。

(5)核酸和蛋白质序列比对(sequence alignment)结果常保存为MSF、Phylip或ALN格式。

(6)FASTA格式

FASTA格式的序列由两部分组成,

第一行由大于号“>”或分号“;”(习惯为大于号)打头的任意文字说明,用于序列标记,给出描述、注释等信息,无长度限制;

第二行开始为序列本身,只允许使用核苷酸或氨基酸的编码符号。

FASTA格式的文件扩展名为“.fasta”

(7)NBRF/PIR格式

NBRF/PIR格式的由三部分组成,

第一行以大于号“>”开头,后跟一个双字母标记,表示序列类型;然后再跟一个分号,分号后面通常是序列在数据库中的编码(ID)

第二行为序列的文字说明,可长可短、也可以是空白

剩余行为序列本身,序列以星号“*”表示结束。

NBRF/PIR格式的文件扩展名为“.pir”或“.seq”

(8)GDE格式

GDE格式与FASTA格式基本相同,只是首行为“%”而不是“>”

NBRF/PIR格式的文件扩展名为“.gde”

(9)Raw格式

Raw格式相当于去除了空白和数字的文本格式,只接受表示序列本身的字母符号

(10)数据库的类型

一级数据库(Primary databases)数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释;如Genbank、EMBL和DDBJ)

二级数据库(Secondary databases)(对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标立而建的;如GDB、SCOP)

按照数据库中存储的生物数据类型可将数据库分为以下几种类型:

*核酸序列数据库例如:GenBank、EMBL、DDBJ

*蛋白质序列数据库例如:SWISS-PROT、TrEMBL、PIR

*生物大分子结构数据库例如:PDB

*基因组数据库例如:Ensembl、MGD、SGD

*功能数据库例如:KEGG、DIP、ASDB

(11)国际上权威的核酸序列数据库:欧洲分子生物学实验室的EMBL, 美国生物技术信息中心的GenBank,日本遗传研究所的DDBJ

(12)GenBank是一级数据库(Primary database)。

(13)GenBank的网址:/genbank/

(14)目前使用NCBI的Entrez检索系统查询GenBank中的数据

(15)向GenBank提交数据

BankIt :用于一条或者少数条提交的基于WWW的提交工具软件。

Sequin:提交软件程序,用于一条或者很多条的提交,长序列,完整基因组,alignments,人群/种系/突变研究的提交。

(16)RefSeq数据库:参考序列数据库RefSeq(The Reference Sequences)是NCBI建立的一个经过人工注释和审核的全面、整合的、非冗余的序列数据库。

(17)核酸序列数据库GenBank:包含了所有已知的核酸序列,以及与它们相关的文献著作和生物学注释。它是由美国国立生物技术信息中心(NCBI)建立和维护的。GenBank数据以指数形式增长,核酸碱基数目大概每14个月就翻一个倍。

(18)RefSeq数据库的特点

*非冗余,RefSeq数据库经过人工审核不存在冗余序列

*明确地将核酸序列和蛋白质序列关联起来

*维持更新,可以反映最新的生物学知识

*数据经过校验,质量相对可靠

(19)蛋白质序列数据库

UniProt是目前国际上比较权威的蛋白质序列数据库,其中的蛋白质序列是经过注释的。

它由整合Swiss-Prot、TrEMBL 和PIR-PSD 三大数据库的数据而成。他的数据主要来自于基因组测序项目完成后,后续获得的蛋白质序列。它包含了大量来自文献的蛋白质的生物功能的信息。

(20)UniProt有三个明显的特点:

*注释:UniProt数据库中包含大量的序列注释信息

*最小冗余:尽量将相关的数据归并,降低数据库的冗余程度。

*与其它数据库的连接:对于每一个登录项,有许多指向其它数据库相关数据的指针,这便于用户迅速得到相关的信息

(21)生物大分子结构数据库

PDB(Protein Data Bank)PDB中含有通过实验(X射线晶体衍射,核磁共振NMR)测定的生物大分子的三维结构(蛋白质核酸糖类其它复合物)

(22)细菌16S、ITS序列

*原核生物核糖体含有5S rRNA、16S rRNA和23S rRNA 3种rRNA.其中5S含有120个核苷酸,16S含有1540个核苷酸,而23S含有2900个核苷酸。

*核糖体RNA基因序列具有保守性又具有高变异性,是生物进化的计时器,已经被广泛用在细菌分类鉴定中。

*5S rRNA曾被用于环境中微生物的鉴定,但因其携带信息量小,在微生物分析鉴定中而未被广泛采用。*随后16S rRNA成为细菌种属分类和鉴定的新方法,适合于属内种间的鉴别,在分类学中被誉为“金标准”。*但16S rRNA的进化速度慢,基因序列相对保守,在对相近种或同一种内的不同菌株之间鉴别时存在一定的局限性,需要进一步的生理生化试验或其他方法作为补充。

*23S rRNA相对较大,其变异性高于16S rRNA,近些年除了仅有的少数菌种的核苷酸序列被报道,目前尚未完全建立其基因库,而且不同细菌种属中该片段的变异性不同,因此在细菌的分类和鉴定中未能得到广泛应用。

*16S~23S rRNA间隔区序列(ITS)位于16S rRNA基因与23S rRNA基因之间高度可变的序列

*16S~23S rRNA间隔区序列(ITS) 具有一定的保守性,且进化速度是16S rRNA的10多倍,它弥补了16S rRNA 保守性强,分化程度不够的缺点。

相关文档
最新文档