生物信息学第4章蛋白质序列数据库

合集下载

生物信息研究中常用蛋白质数据库的总结

生物信息研究中常用蛋白质数据库的总结

生物信息研究中常用蛋白质数据库简述内蒙古工业大学理学院呼和浩特孙利霞2010.1.5摘要:在后基因组时代生物信息学的研究当中,离不开各种生物信息学数据库。

尤其在蛋白质从序列到功能的研究当中,目前各种行之有效的方法都是基于各种层次和结构的蛋白质数据库。

随着计算机技术及网络技术的发展,目前的蛋白质数据库不论是所包含数据量还是功能都日新月异,新的数据库层出不穷。

一个新手面对如此浩瀚的数据量往往无从下手。

本文粗浅地为目前蛋白质数据库的使用勾画出一个轮廓,作为自己蛋白质研究入门的一个引导。

关键词:蛋白质;数据库0 引言随着科技的发展,个人的知识往往赶不上快速膨胀的信息量,人们为了解决这个问题,便创建了形形色色的数据库。

蛋白质数据库是指:在蛋白质研究领域根据实际需要,对蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释,构建出具有特殊生物学意义和专门用途的数据库。

蛋白质数据库总体上可分为两大类:蛋白质序列数据库和蛋白质结构数据库,蛋白质序列数据库来自序列测定,结构数据库来自X-衍射和核磁共振结构测定(详见图1)。

这些数据库是分子生物信息学的基本数据资源。

上世纪90年代,我国从事蛋白质研究的学者使用的蛋白质数据库储存介质还是国外实验室发布的激光光盘[1]。

信息的传播储存甚为不便。

随着蛋白质研究的发展飞快,同时伴随着计算机和因特网发展,蛋白质数据库的储存传播方式也发生的巨大的变化。

进入21世纪后,我们所用的各种蛋白质数据库都发展成为存储在网络服务器上,基于“服务器—客户机”的访问查询方式。

伴随着计算机及物理测试技术的发展数据库的容量和功能成数量级膨胀。

但是面对如此浩瀚的数据,新手往往感到无从下手,在需要时找不到自己需要的合适数据库。

本文从目前蛋白质数据库建立的的逻辑层次出发,系统地简绍了常用蛋白质数据的概况,它们的查询方法以及它们相互之间的联系。

同时尽量不涉及数据库建设和维护方面的计算机和网络这些数据库底层的技术,为蛋白质研究的入门者及对蛋白质感兴趣的人员的一个引导。

生物信息学 第四章 双序列比对

生物信息学 第四章 双序列比对

中可以利用计算机程序实现上述序列比对的基本算法。然而,序列比对不仅需要考虑子序列 之间的匹配,而且需要对整个序列进行比较。也就是说,必须考虑两个序列中所有残基的匹 配。这就意味着,不可能使所有残基都能严格匹配。在这种情况下,比对过程中确定空位的 过程变得十分复杂。最简单的办法使通过不加限制地插入空位的办法获得相同残基的最大匹 配数。我们知道,空位的引入,意味着两个序列之间残基的插入或删除。如果对引入空位不 加限制,所得比对结果即使分值较高,也缺乏生物学依据。因此,必须有一种机制,对空位 的引入加以限制。常用的方法就是空位罚分,即每插入一空位就在总分值中罚去一定分值, 即加上一负分值,包括起始空位罚分和延伸空位罚分。所谓起始空位,是指序列比对时,在 一个序列中插入一个空位,使两个序列之间有更好的匹配;所谓延伸空位,是指在引入一个 或几个空位后,继续引入下一个连续的空位,使两个序列之间有更好的匹配。延伸空位罚分 值可以与起始空位罚分值相同,也可以比起始空位罚分值小。因此,序列比对最终结果的分 数值是两个序列之间匹配残基的总分值与空位罚分的总和。 上述序列比对过程中,只考虑了残基的同一性,即两个序列之间完全相同的匹配残基 数目。可以把这种只考虑残基同一性的矩阵理解为一个分数值为 1 和 0 的分数矩阵(见表 6.1),即相同残基的分数值为 1,不同残基的分数值为 0。这种矩阵通常称为稀疏矩阵,因 为矩阵大多数单元的值为 0。显然,这种单一的相似性分数矩阵具有很大局限性。改进分数 矩阵的表征性能,找出那些潜在的具有生物学意义的最佳匹配,提高数据库搜索的灵敏度, 而又不至于降低信噪比,是序列比对算法的核心。 相似性分数矩阵就是为解决上述问题而产生的。相似性分数矩阵的构建,是基于远距离 进化过程中观察到的残基替换率,并用不同的分数值表征不同残基之间相似性程度。恰当选 择相似性分数矩阵,可以提高序列比对的敏感度,特别是两个序列之间完全相同的残基数比 较少的情况下。必须说明,相似性分数矩阵有其固有的噪声,因为它们在对两个具有一定相 似性的不同残基赋予某个相似性分值时的同时,也引进了比对过程的噪声。这就意味着随着 微弱信号的增强,随机匹配的可能性也会增大。本书不准备深入讨论有关相似性分数矩阵的 问题,而只对两个常用的相似性分数矩阵作简单介绍,即突变数据矩阵和残基片段替换矩阵。 4.7.1 突变数据矩阵 突变数据矩阵(Mutation Data Matrix,简称 MD,Dayhoff 等,1978)是基于单点可接 受突变的概念,即 Point Accepted Mutation,简称 PAM。1 个 PAM 的进化距离表示在 100 个 残基中发生一个可以接受的残基突变的概率。对应于一个更大进化距离间隔的突变概率矩 阵,可以通过对原始矩阵进行一定的数学处理获得。例如,PAM250 相似性分数矩阵相当于 在两个序列之间具有 20%的残基匹配。 在序列比对中,通常希望使用能够反映一个氨基酸发生改变的概率与两个氨基酸随机

生物信息学-蛋白质分析

生物信息学-蛋白质分析

有关注释内容的文献、蛋白质名称词典和其他有助于文献
挖掘的人文语言处理技术开发的信息、数据库校正、蛋白 质名称标记和功能注释标准体系(ontology)。使用
iProLINK可以获得描述蛋白质记录的文本文献资源,在
UniProtKB记录(生物词典)中加入蛋白质或基因命名的 图谱,获得用于开发文本挖掘算法的注释数据集、挖掘蛋
分类分布、分级和功能域结构,以及家族
成员,包括功能、结构、传导通路、功能
注释标准体系(ontology)和家族分类。
利用这些信息可以获得蛋白质的准确功能 或预测的功能和该蛋白质所属家族成员共 有的其他特征。
• 4. iProLINK-蛋白质文献、信息和知识整合数据库 iProLINK(/iprolink/)提供
Pfam
• 蛋白质一般是由一个或多个功能区域组成,这些 功能区域通常称作域(domain)。在不同的蛋白 质中不同的域以不同的组合出现,导致在自然界 发现多种多样组成成分的蛋白质。识别出现在蛋
白质中的域可以了解蛋白质的功能。
• Pfam数据库(/)是一个
PIR信息库资源
PIR主要数据库:
• • • • 1. UniProt-通用蛋白质资源库 2. iProClass-蛋白质知识整合数据库 3. PIRSF-蛋白质家族分类系统 4. iProLINK-蛋白质文献、信息和知识整合 数据库
• 1.UniProt-通用蛋白质资源库 UniProt (/)是存储和链接其他 蛋白质数据库的资源库,并且是蛋白质序列和具 有综合功能注释目录的中心资源库。使用 UniprotKB可以检索准确、可靠的蛋白综合信息。 使用UniRef可以减少冗余,加速序列相似性搜索。 使用UniParc可以检索存档序列和它们来源的数 据库。

生物信息学数据库

生物信息学数据库
BLAST:美国NCBI(国家生物技术信息中 心)支持。 FASTA:是英国EBI(生物信息研究所)负 责维护。
BLAST:碱基局部对准检索工具
Basic Locul Alignment Search Tool
可进行核苷酸序列、蛋白质序列方面的 同源性分析,能在8秒内在整个DNA数据库 中进行序列比较。
diabetes
顺序号中第1位数字表示所涉及 基因的遗传类型: 1:常染色体显性(1994.5.15前创建) 2:常染色体隐性(1994.5.15前创建) 3:X连锁基因座或表现型 4:Y连锁基因座或表现型 5:线粒体基因座或表现型 6:常染色体基因座或表现型 (1994.5.15后创建的条目)
比较结果页面
彩色积 分图
序 列 相 似 存贮号 描 述
描述
积分
检索 范围
E值 统计
链接
相似率为100%
序列对准 描述
三、基因组数据库
1、Genome:可获得800多种生物体的基 因组数据,部分已完成测序。
2、人类基因组资源: human genome resources
整合了多种相关的分子生物学数据库和 公共分析软件,为科研人员提供了自动化 的实验数据获得、加工和整理途径,为基 因区域的预测和基因功能预测提供了一系 列便捷的方法。
序列数据库 结构数据库 生物信息学数据库的种类 图谱数据库 突变数据库 文献数据库
专业杂志 生物信息学数据库的查找方法 专门数据库目录的网站
著名的生物信息学中心
参见教材p227--p242
NCBI数据库组织
一、NCBI中的生物信息数据库
1)、PubMed: 生物医学文献数据库 2)、Nucleotide:核酸序列数据库 3)、Protein sequence database:

生物信息学 第4章 蛋白质序列数据库

生物信息学 第4章 蛋白质序列数据库



ftp:///sequin/
EMBL数据库

EMBL建立于1980年,EMBL核苷序列数据库(http:// /embl/)是欧洲主要的核苷序列收集单位,欧洲生物 信息中心EBI(即EMBL在德国海德堡的站点)维护这个数据库

EMBL: European Molecular Biology Laboratory EBI: European Bioinformatics Institute
核苷数据来自基因组测序中心、世界各地的科学家、欧洲专利局、以 及与合作伙伴DDBJ (Japan)和GenBank (USA)交换的数据。

EMBL数据库
DDBJ数据库

日本DNA数据库(DDBJ: www.ddbj.nig.ac.jp )是在亚洲唯一 的核酸序列数据库,是搜集研究者公认的测定核酸序列的数据 库,并且发放给数据提交者国际认证的核酸序列编号。 由于DDBJ每天将搜集的数据与EMBL-Bank/EBI和 GenBank/NCBI进行交换,使得三个核酸数据库几乎在任何时 候都享有相同数据。
/nuccore/221078348?report=fasta

Genbank格式
Genbank格式
Genbank格式
Genbank格式
电子提交序列到Genbank

两种主要的电子提交途径
1、互联网交互方式的提交 2、软件提交,Sequin


DDBJ主要收集来自日本研究者获得的序列数据,但也收集数据 和发放编号给任何其他国家的研究者。
DDBJ数据库
INSDC

1998年,GenBank、EMBL和DDBJ共同成立了国际 核酸序列数据库协会 (International Nucleotide Sequence Database Collaboration,INSDC) 三大核酸数据库之间每天将新测定或更新的数据进 行交换共享,保证数据信息的完整与同步,每两个 月更新一次版本。 /

生物信息学教学资料:生物信息学常用数据库

生物信息学教学资料:生物信息学常用数据库
生物信息学方法与实践
Bioinformatics Method and Practice
1
生物信息学常用数据库
• 一级数据库
–数据库中的数据直接来源于实验获得的原始数 据,只经过简单的归类整理和注释。
• 二级数据库
–对原始生物分子数据进行整理、分类的结果, 是在一级数据库、实验数据和理论分析的基础 上针对特定的应用目标而建立的。
human
Arabidopsis
Thermotoga maritima
Thermoplasma acidophilum
mouse
Caenorhabitis elegans
rat
Borrelia burgorferi
Plasmodium falciparum
Borrelia burgorferi
Aquifex aeolicus
– FlyBase (Drosophila genome database) – BDGP (Berkeley Drosphila genome project)
Danio rerio (Zebrafish)
– ZFIN (Zebrafish Information Network at University of Oregon, USA) – WashU-Zebrafish Genome Resources (Zebrafish EST database at Washington University, USA)
ftpncbinlmnihgovbloacidsequencednasequencetblastxblastxblastntblastnblastpnucleotidedatabaseproteindatabasenucleotidedatabasenucleotidedatabaseproteindatabasetranslatedtranslatedtransstpproteinprotein比较氨基酸序列与蛋白质数据库使用取代矩阵寻找较远的关系进行seg过滤blastnnucleotidenucleotide比较核酸序列与核酸数寻找较高分值的匹配对较远的关系不太适blastxnucleotideprotein比较核酸序列理论上的六个读码框的所有转换结果和蛋白质数据库用于新的dna序列和ests的分析可转译搜索序列tblastnproteinnucleotide比较蛋白质序列和核酸序列数据库动态转换为六个读码框的结果用于寻找数据库中没有标注的编码区可转译数据库序列tblastxnucleotidenucleotide比较核酸序列和核酸序列数据库经过两次动态转换为六个读码框的结果转译搜索序列与数据库序列32wwwniuwkcom牛牛文档分以blastx为例6

PIR蛋白质序列数据库-PPT课件

PIR蛋白质序列数据库-PPT课件

UniProt数据库的构成
• UniProt数据库
UniProt知识库(UniProtKB) UniProt档案(UniParc) UniProt参考资料库(UniRef) UniProt元基因组学 环境微生物序列数据库(UniMES)
19
1.UniProt知识库(UniProtKB)
• UniProt知识库是一个专家级的数据库,它 可以通过与其它资源进行交互查找的方式 为用户提供一个有关目的蛋白质的全面的 综合信息。UniProtKB包括两个组成部分: UniProtKB/Swiss-Prot UniProtKB/TrEMBL。
4
除了蛋白质序列数据之外,PIR还包含以下信息:
(1)蛋白质名称、蛋白质的分类、蛋白质的来源; (2)关于原始数据的参考文献; (3)蛋白质功能和蛋白质的一般特征,包括基因 表达、翻译后处理、活化等; (4)序列中相关的位点、功能区域。
5
PIR提供三种类型的检索服务:
一是基于文本的交互式查询, 用户通过关键字进行数据查询。 二是标准的序列相似性搜索, 包括BLAST、FastA等。 三是结合序列相似性、注释信息和蛋白质家族 信息的高级搜索, 包括按注释分类的相似性搜索、结构域搜索等。
三、序列特征
Uniprot中一个蛋白质的例子
/uniprot/P10962
四、蛋白质结构域组成和蛋白质家族
Uniprot中一个蛋白质的例子
/uniprot/P10962
五、其他特征:结构、参与的蛋白质互作
Pfam
• 蛋白质一般是由一个或多个功能区域组成,这些 功能区域通常称作域(domain)。在不同的蛋白 质中不同的域以不同的组合出现,导致在自然界 发现多种多样组成成分的蛋白质。识别出现在蛋

整理(蛋白质序列数据库)

整理(蛋白质序列数据库)

蛋白质序列数据库我们可以根据基因组序列预测新基因,预测编码区域,并推测其产物(即蛋白质)的序列。

因此,随着基因组序列的不断增长,蛋白质序列也在不断增加。

PIR历史上,蛋白质数据库的出现先于核酸数据库。

在1960年左右,Dayhoff和其同事们搜集了当时所有已知的氨基酸序列,编著了《蛋白质序列与结构图册》。

从这本图册中的数据,演化为后来的蛋白质信息资源数据库PIR(Protein Information Resource)。

PIR是由美国生物医学基金会NBRF(National Biomedical Research Foundation)于1984年建立的,其目的是帮助研究者鉴别和解释蛋白质序列信息,研究分子进化、功能基因组,进行生物信息学分析。

它是一个全面的、经过注释的、非冗余的蛋白质序列数据库。

所有序列数据都经过整理,超过99%的序列已按蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。

PIR提供一个蛋白质序列数据库、相关数据库和辅助工具的集成系统,用户可以迅速查找、比较蛋白质序列,得到与蛋白质相关的众多信息。

目前,PIR已经成为一个集成的生物信息数据源,支持基因组研究和蛋白质组研究。

至2004年,PIR 有近30万个蛋白质的登录数据项,包括来自不同生物体的蛋白质序列。

除了蛋白质序列数据之外,PIR还包含以下信息:(1)蛋白质名称、蛋白质的分类、蛋白质的来源;(2)关于原始数据的参考文献;(3)蛋白质功能和蛋白质的一般特征,包括基因表达、翻译后处理、活化等;(4)序列中相关的位点、功能区域。

对于数据库中的每一个登录项,有与其它数据库的交叉索引,包括到GenBank、EMBL、DDBJ、GDB、MELINE等数据库的索引。

PIR中一个具体的登录项如图4.4所示。

PIR提供三种类型的检索服务。

一是基于文本的交互式查询,用户通过关键字进行数据查询。

二是标准的序列相似性搜索,包括BLAST、FastA等。

生物信息学 实验四、蛋白质序列分析及结构预测.

生物信息学 实验四、蛋白质序列分析及结构预测.

实验四、蛋白质序列分析及结构预测一、用BioEdit等软件进行序列分析打开FASTA格式序列1、Sequence-Protein-Amino Acid Composition分子质量;氨基酸组成Protein: gi|725605238|ref|XM_010330964.1| PREDICTED: Saimiri boliviensis boliviensis interferon, lambda 3 (IFNL3), mRNALength = 248 amino acidsMolecular Weight = 27462.22 DaltonsAmino Acid Number Mol%Ala A 25 10.08Cys C 9 3.63Asp D 13 5.24Glu E 14 5.65Phe F 6 2.42Gly G 10 4.03His H 10 4.03Ile I 3 1.21Lys K 8 3.23Leu L 37 14.92Met M 5 2.02Asn N 4 1.61Pro P 18 7.26Gln Q 10 4.03Arg R 22 8.87Ser S 15 6.05Thr T 16 6.45Val V 15 6.05Trp W 4 1.61Tyr Y 2 0.81氨基酸组成表2、helical wheel diagram3、Hydrophobic Moment matrix with Eisenberg consensus scale 疏水性4、Kyte&Doolittle Mean Hydrophobicity Profile5、Eisenberg Scale Mean Hydrophobicity Profile6、Cornette Scale Mean Hydrophobicity Profile7、Parker HPLC Scale Mean Hydrophobicity Profile8、Boyko Scale Mean Hydrophilicity Profile9、Hopp%Woods Scale Mean Hydrophilicity10、ProtParam tool /protparam/ProtParam (References / Documentation) is a tool which allows the computation of various physical and chemical parameters for a given protein stored in Swiss-Prot or TrEMBL or for a user entered sequence. The computed parameters include the molecular weight, theoretical pI, amino acid composition, atomic composition, extinction coefficient, estimated half-life, instability index, aliphatic index and grand average of hydropathicity (GRA VY) (Disclaimer).输入FASTA格式序列等电点11、跨膜区分析进入CBS 依次进入TMHMMWelcome to CBS http://www.cbs.dtu.dk/index.shtml CBS Prediction Servers http://www.cbs.dtu.dk/services/ TMHMM /protparam/输入FASTA格式序列结果Data 部分数据# WEBSEQUENCE# AA inside membr outside 1 A 0.00271 0.00000 0.99729 2 T 0.00267 0.00004 0.99729 3 G 0.00265 0.00006 0.99729 4 A 0.00265 0.00008 0.99727 5 A 0.00252 0.00022 0.99726 6 A 0.00252 0.00023 0.99726 7 C0.001720.001020.997268 T 0.001720.001020.99726………… ………… 1403 C 0.00059 0.00002 0.99939 1404 G 0.00059 0.00002 0.99939 1405 C 0.00059 0.00002 0.99939 1406 G 0.00059 0.00002 0.99939 1407 A0.000590.000020.999391408 G 0.00059 0.00002 0.99939 1409 A 0.00059 0.00002 0.99939 1410 C 0.00059 0.00002 0.99939 1411 C 0.00059 0.00002 0.99938 1412 T 0.00060 0.00005 0.99935 1413 G 0.00060 0.00009 0.99932 1414 A 0.00060 0.00012 0.99928 1415 A 0.00060 0.00014 0.99926 1416 T 0.00060 0.00016 0.99924 1417 T 0.00060 0.00018 0.99922 1418 G 0.00060 0.00019 0.9992 1419 T 0.00060 0.00023 0.99917 1420 G 0.00060 0.00023 0.99917 1421 T 0.00060 0.00023 0.99918 1422 T 0.00060 0.00023 0.99918 1423 G 0.00059 0.00024 0.99917 1424 C 0.00059 0.00024 0.99917 1425 C 0.00059 0.00024 0.99917 1426 A 0.00059 0.00024 0.99917 1427 G 0.00059 0.00024 0.99917 1428 C 0.00060 0.00024 0.99917 1429 G 0.00060 0.00024 0.99917 1430 G 0.00060 0.00024 0.99917 1431 G 0.00060 0.00023 0.99917 1432 G 0.00060 0.00023 0.99917 1433 A 0.00061 0.00023 0.99917 1434 C 0.00062 0.00021 0.99917 1435 C 0.00066 0.00017 0.99917 1436 T 0.00070 0.00013 0.99917 1437 G 0.00072 0.00011 0.99917 1438 T 0.00075 0.00009 0.99917 1439 G 0.00076 0.00008 0.99917 1440 T 0.00078 0.00006 0.99917 1441 G 0.00079 0.00004 0.99917 1442 T 0.00082 0.00001 0.99917 1443 C 0.00082 0.00001 0.99917 1444 T 0.00082 0.00001 0.99917 1445 G 0.00083 0.00000 0.99917 1446 A 0.00083 0.00000 0.9991712、信号肽及亚细胞定位进入SignalP 4.1 Server http://www.cbs.dtu.dk/services/SignalP/输入FASTA格式序列结果:亚细胞定位: 进入:TargetP 1.1 Server http://www.cbs.dtu.dk/services/TargetP/ 输入序列提交:结果:13、功能分析1)基于序列同源性分析的蛋白质功能预测NCBI----blast 找到吻合相对高的序列查看详情序列同源性蛋白质功能分析NCBI---GENE进入相关文献了解功能2)基于motif、结构位点、结构功能域数据库的蛋白质功能预测Motif:PROSITE//cgi-bin/prosite/ScanView.cgi?scanfile=806498321699.scan.gz结构域基序My Hits:http://hits.isb-sib.ch/cgi-bin/PFSCAN 输入序列结果:http://smart.embl-heidelberg.de/二、蛋白质二级结构预测1)NetTurnP - Prediction of Beta-turns in proteinsNetTurnP 1.0 - Prediction of Beta-turn regions in protein sequenceshttp://www.cbs.dtu.dk/services/NetTurnP/输入序列结果:NetTurnP - Prediction of Beta-turns in proteinsTechnical University of Denmark# For publication of results, please cite:# NetTurnP - Neural Network Prediction of Beta-turns by Use of Evolutionary Information and Predicted Protein Sequence Features.# Petersen B, Lundegaard C, Petersen TN (2010)# PLoS ONE 5(11):e15079 doi:10.1371/journal.pone.0015079## Column 1: Amino acid# Column 2: Sequence name# Column 3: Amino acid number# Column 4: Prediction for Beta-turn# Column 5: Class assignment - "T" for Beta-turn#V Sequence 1 0.287 .T Sequence 2 0.363 .A Sequence 3 0.403 .S Sequence 4 0.482 .E Sequence 5 0.495 .W Sequence 6 0.493 .G Sequence 7 0.552 TP Sequence 8 0.527 TS Sequence 9 0.564 TA Sequence 10 0.572 TD Sequence 11 0.643 TE Sequence 12 0.631 TD Sequence 13 0.620 TQ Sequence 14 0.612 TR Sequence 15 0.497 .S Sequence 16 0.518 TE Sequence 17 0.515 TM Sequence 18 0.557 TK Sequence 19 0.582 TR Sequence 20 0.555 TG Sequence 21 0.561 TM Sequence 22 0.552 TS Sequence 23 0.559 TR Sequence 24 0.560 TG Sequence 25 0.533 TC Sequence 26 0.486 .L Sequence 32 0.179 . M Sequence 33 0.184 .A Sequence 34 0.210 . T Sequence 35 0.236 . V Sequence 36 0.269 . L Sequence 37 0.319 . T Sequence 38 0.396 . V Sequence 39 0.448 . T Sequence 40 0.475 .G Sequence 41 0.505 T A Sequence 42 0.480 . V Sequence 43 0.449 . P Sequence 44 0.455 . V Sequence 45 0.463 . T Sequence 46 0.456 . R Sequence 47 0.467 . P Sequence 48 0.523 T P Sequence 49 0.504 T R Sequence 50 0.492 .A Sequence 51 0.488 . L Sequence 52 0.526 T P Sequence 53 0.568 T D Sequence 54 0.612 T A Sequence 55 0.650 T R Sequence 56 0.585 T G Sequence 57 0.497 .C Sequence 58 0.452 .H Sequence 59 0.380 .I Sequence 60 0.425 .A Sequence 61 0.452 . Q Sequence 62 0.457 .F Sequence 63 0.558 T K Sequence 64 0.524 T S Sequence 65 0.494 . L Sequence 66 0.482 . S Sequence 67 0.347 . P Sequence 68 0.280 . Q Sequence 69 0.259 .E Sequence 70 0.254 . L Sequence 71 0.181 . Q Sequence 72 0.153 .A Sequence 73 0.152 .F Sequence 74 0.167 . K Sequence 75 0.187 .L Sequence 81 0.362 .E Sequence 82 0.382 .E Sequence 83 0.373 . S Sequence 84 0.401 . L Sequence 85 0.373 . L Sequence 86 0.414 . L Sequence 87 0.555 T K Sequence 88 0.547 T D Sequence 89 0.559 T C Sequence 90 0.576 T R Sequence 91 0.414 .C Sequence 92 0.424 . R Sequence 93 0.443 . S Sequence 94 0.442 . R Sequence 95 0.522 T L Sequence 96 0.531 T F Sequence 97 0.572 T P Sequence 98 0.632 T R Sequence 99 0.596 T T Sequence 100 0.572 T W Sequence 101 0.535 TD Sequence 102 0.394 . L Sequence 103 0.416 . R Sequence 104 0.404 . Q Sequence 105 0.398 . L Sequence 106 0.414 . Q Sequence 107 0.371 . V Sequence 108 0.453 . R Sequence 109 0.475 .E Sequence 110 0.472 . R Sequence 111 0.481 . P Sequence 112 0.371 . V Sequence 113 0.271 .A Sequence 114 0.240 . L Sequence 115 0.188 .E Sequence 116 0.182 .A Sequence 117 0.175 .E Sequence 118 0.164 . L Sequence 119 0.168 .A Sequence 120 0.150 . L Sequence 121 0.141 . T Sequence 122 0.142 . L Sequence 123 0.143 .E Sequence 124 0.151 .A Sequence 130 0.479 .D Sequence 131 0.576 T N Sequence 132 0.572 T D Sequence 133 0.541 T M Sequence 134 0.512 T A Sequence 135 0.329 . L Sequence 136 0.275 .G Sequence 137 0.255 .D Sequence 138 0.253 . V Sequence 139 0.278 . L Sequence 140 0.373 .D Sequence 141 0.400 . R Sequence 142 0.395 . P Sequence 143 0.383 . L Sequence 144 0.308 .H Sequence 145 0.244 . T Sequence 146 0.202 . L Sequence 147 0.173 .H Sequence 148 0.152 .H Sequence 149 0.151 . V Sequence 150 0.149 . L Sequence 151 0.152 . S Sequence 152 0.162 . Q Sequence 153 0.173 . L Sequence 154 0.233 . R Sequence 155 0.280 .A Sequence 156 0.306 .C Sequence 157 0.354 . V Sequence 158 0.366 . Q Sequence 159 0.405 . P Sequence 160 0.406 . Q Sequence 161 0.403 . P Sequence 162 0.466 . T Sequence 163 0.517 T A Sequence 164 0.541 T G Sequence 165 0.588 T P Sequence 166 0.540 T R Sequence 167 0.493 . P Sequence 168 0.503 T W Sequence 169 0.433 .G Sequence 170 0.397 . R Sequence 171 0.341 . L Sequence 172 0.232 .H Sequence 173 0.198 .L Sequence 179 0.253 . Q Sequence 180 0.273 .E Sequence 181 0.290 .A Sequence 182 0.447 . P Sequence 183 0.494 . K Sequence 184 0.517 T K Sequence 185 0.554 T E Sequence 186 0.472 . S Sequence 187 0.628 T S Sequence 188 0.604 T G Sequence 189 0.595 T C Sequence 190 0.593 T L Sequence 191 0.334 .E Sequence 192 0.306 .A Sequence 193 0.286 . S Sequence 194 0.243 . V Sequence 195 0.230 . T Sequence 196 0.194 .F Sequence 197 0.177 . N Sequence 198 0.185 . L Sequence 199 0.180 .F Sequence 200 0.181 . R Sequence 201 0.199 . L Sequence 202 0.191 . L Sequence 203 0.249 . T Sequence 204 0.462 . R Sequence 205 0.469 .D Sequence 206 0.466 . L Sequence 207 0.491 . K Sequence 208 0.304 .C Sequence 209 0.311 . V Sequence 210 0.393 .A Sequence 211 0.467 . S Sequence 212 0.554 T G Sequence 213 0.630 T D Sequence 214 0.634 T L Sequence 215 0.593 T C Sequence 216 0.566 T A Sequence 217 0.554 T P Sequence 218 0.579 T S Sequence 219 0.573 T H Sequence 220 0.577 T L Sequence 221 0.544 T P Sequence 222 0.483 .I Sequence 228 0.362 .D Sequence 229 0.326 .F Sequence 230 0.303 .I Sequence 231 0.312 .Y Sequence 232 0.343 .T Sequence 233 0.420 .S Sequence 234 0.480 .T Sequence 235 0.499 .T Sequence 236 0.491 .C Sequence 237 0.509 TL Sequence 238 0.459 .N Sequence 239 0.472 .L Sequence 240 0.475 .L Sequence 241 0.412 .P Sequence 242 0.594 TP Sequence 243 0.599 TN Sequence 244 0.612 TR Sequence 245 0.650 TY Sequence 246 0.368 .Explain the output. Go back.2)GOR - Garnier et al, 1996NPS@ : GOR4 secondary structure predictionhttps://npsa-prabi.ibcp.fr/cgi-bin/npsa_automat.pl?page=npsa_gor4.html结果:3)NetSurfP-1.1 - Protein secondary structure and surface accessibility server http://www.cbs.dtu.dk/services/NetSurfP/结果:NetSurfP - Protein Surface Accessibility andSecondary Structure PredictionsTechnical University of Denmark# For publication of results, please cite:# A generic method for assignment of reliability scores applied to solvent accessibility predictions.# Bent Petersen, Thomas Nordahl Petersen, Pernille Andersen, Morten Nielsen and Claus Lundegaard# BMC Structural Biology 2009, 9:51 doi:10.1186/1472-6807-9-51## Column 1: Class assignment - B for buried or E for Exposed - Threshold: 25% exposure, but not based on RSA# Column 2: Amino acid# Column 3: Sequence name# Column 4: Amino acid number# Column 5: Relative Surface Accessibility - RSA# Column 6: Absolute Surface Accessibility# Column 7: Z-fit score for RSA prediction# Column 8: Probability for Alpha-Helix# Column 9: Probability for Beta-strand# Column 10: Probability for CoilE A Sequence 3 0.434 47.882 -1.297 0.113 0.087 0.800 E S Sequence 4 0.585 68.527 -0.812 0.113 0.087 0.800 E E Sequence 5 0.613 107.109 0.159 0.113 0.087 0.800 B W Sequence 6 0.249 59.981 -0.639 0.052 0.084 0.864 E G Sequence 7 0.338 26.577 -0.814 0.053 0.043 0.903 E P Sequence 8 0.410 58.207 -1.117 0.053 0.043 0.903 E S Sequence 9 0.584 68.410 -1.020 0.053 0.043 0.903 E A Sequence 10 0.367 40.388 -1.062 0.058 0.017 0.925 E D Sequence 11 0.536 77.238 -0.648 0.053 0.043 0.903 E E Sequence 12 0.644 112.542 -0.710 0.184 0.043 0.773 E D Sequence 13 0.581 83.708 -1.977 0.184 0.043 0.773 E Q Sequence 14 0.508 90.693 -0.589 0.268 0.043 0.689 E R Sequence 15 0.464 106.302 -0.355 0.354 0.048 0.598 E S Sequence 16 0.414 48.533 -1.835 0.354 0.048 0.598 E E Sequence 17 0.592 103.370 -0.492 0.354 0.048 0.598 E M Sequence 18 0.400 80.020 -1.980 0.354 0.048 0.598 E K Sequence 19 0.526 108.198 -0.605 0.278 0.093 0.628 E R Sequence 20 0.472 108.180 -0.949 0.113 0.087 0.800 B G Sequence 21 0.272 21.391 -2.226 0.113 0.087 0.800 B M Sequence 22 0.197 39.440 -0.962 0.118 0.150 0.732 B S Sequence 23 0.281 32.875 -1.279 0.118 0.150 0.732 E R Sequence 24 0.291 66.593 -1.665 0.191 0.086 0.723 B G Sequence 25 0.158 12.458 -1.360 0.268 0.043 0.689 B C Sequence 26 0.026 3.678 -0.098 0.502 0.102 0.396 B M Sequence 27 0.143 28.634 0.257 0.725 0.163 0.112 B A Sequence 28 0.104 11.483 -0.200 0.725 0.163 0.112 B V Sequence 29 0.048 7.454 0.791 0.807 0.137 0.056 B L Sequence 30 0.041 7.507 0.219 0.870 0.077 0.053 B V Sequence 31 0.081 12.465 -0.059 0.886 0.090 0.024 B L Sequence 32 0.067 12.213 0.544 0.870 0.077 0.053 B M Sequence 33 0.073 14.667 0.432 0.870 0.077 0.053 B A Sequence 34 0.072 7.901 -0.058 0.831 0.044 0.125 B T Sequence 35 0.115 16.020 -0.434 0.831 0.044 0.125 B V Sequence 36 0.128 19.735 -0.312 0.831 0.044 0.125 B L Sequence 37 0.130 23.730 0.063 0.751 0.050 0.199 B T Sequence 38 0.266 36.964 -0.231 0.660 0.049 0.291 E V Sequence 39 0.339 52.104 -1.218 0.354 0.048 0.598 E T Sequence 40 0.409 56.770 -2.017 0.184 0.043 0.773 B G Sequence 41 0.313 24.625 -1.553 0.053 0.043 0.903 E A Sequence 42 0.370 40.752 -2.039 0.018 0.088 0.893 B V Sequence 43 0.186 28.542 -0.494 0.020 0.205 0.775 E P Sequence 44 0.337 47.806 -1.325 0.020 0.205 0.775 B V Sequence 45 0.170 26.206 -1.051 0.018 0.088 0.893 E T Sequence 46 0.381 52.803 -1.502 0.018 0.047 0.935 E R Sequence 47 0.526 120.362 -0.292 0.018 0.019 0.964 B P Sequence 48 0.241 34.127 -1.181 0.018 0.019 0.964 E P Sequence 49 0.395 56.079 -1.454 0.018 0.019 0.964E L Sequence 52 0.335 61.265 -0.180 0.018 0.047 0.935 E P Sequence 53 0.340 48.232 -0.691 0.018 0.047 0.935 E D Sequence 54 0.732 105.424 0.275 0.018 0.019 0.964 E A Sequence 55 0.475 52.301 -1.315 0.018 0.019 0.964 E R Sequence 56 0.514 117.660 -0.150 0.018 0.047 0.935 E G Sequence 57 0.466 36.698 -0.497 0.019 0.141 0.840 B C Sequence 58 0.061 8.578 -0.417 0.021 0.279 0.699 E H Sequence 59 0.342 62.283 0.151 0.022 0.359 0.619 B I Sequence 60 0.110 20.368 -0.560 0.022 0.359 0.619 E A Sequence 61 0.325 35.848 -1.172 0.020 0.205 0.775 E Q Sequence 62 0.503 89.872 0.409 0.019 0.141 0.840 BF Sequence 63 0.126 25.348 -0.199 0.018 0.088 0.893 E K Sequence 64 0.564 116.077 0.135 0.018 0.088 0.893 E S Sequence 65 0.482 56.444 -1.479 0.018 0.047 0.935 B L Sequence 66 0.207 37.902 -0.776 0.018 0.019 0.964 E S Sequence 67 0.392 45.966 0.122 0.018 0.019 0.964 E P Sequence 68 0.386 54.802 -1.124 0.858 0.002 0.139 E Q Sequence 69 0.509 90.872 -0.427 0.923 0.002 0.076 B E Sequence 70 0.213 37.159 -0.370 0.923 0.002 0.076 B L Sequence 71 0.196 35.961 0.420 0.970 0.001 0.030 E Q Sequence 72 0.476 84.960 0.319 0.970 0.001 0.030 B A Sequence 73 0.118 13.048 -0.154 0.970 0.001 0.030 B F Sequence 74 0.061 12.263 0.168 0.970 0.001 0.030 E K Sequence 75 0.402 82.630 1.003 0.923 0.002 0.076 E R Sequence 76 0.407 93.249 1.034 0.923 0.002 0.076 B A Sequence 77 0.046 5.047 0.102 0.858 0.002 0.139 E K Sequence 78 0.339 69.732 0.957 0.858 0.002 0.139 E D Sequence 79 0.535 77.122 0.100 0.858 0.002 0.139 B A Sequence 80 0.222 24.497 0.325 0.858 0.002 0.139 B L Sequence 81 0.086 15.783 0.088 0.802 0.014 0.185 E E Sequence 82 0.421 73.479 0.113 0.802 0.014 0.185 E E Sequence 83 0.579 101.064 -0.635 0.717 0.014 0.269 B S Sequence 84 0.234 27.437 -1.170 0.622 0.015 0.363 B L Sequence 85 0.140 25.726 -0.141 0.522 0.016 0.462 B L Sequence 86 0.258 47.203 -0.156 0.455 0.046 0.498 B L Sequence 87 0.251 45.976 -0.887 0.268 0.043 0.689 E K Sequence 88 0.591 121.651 -0.038 0.191 0.086 0.723 E D Sequence 89 0.577 83.160 -0.834 0.052 0.084 0.864 B C Sequence 90 0.214 29.989 0.573 0.056 0.142 0.802 E R Sequence 91 0.462 105.752 0.703 0.066 0.296 0.638 B C Sequence 92 0.092 12.945 -0.868 0.066 0.296 0.638 E R Sequence 93 0.441 100.897 -0.588 0.064 0.216 0.721 E S Sequence 94 0.347 40.668 -1.463 0.019 0.141 0.840 E R Sequence 95 0.456 104.538 -0.134 0.020 0.205 0.775 B L Sequence 96 0.213 39.055 -1.115 0.021 0.279 0.699 B F Sequence 97 0.137 27.576 0.398 0.019 0.141 0.840 E P Sequence 98 0.373 52.957 -0.918 0.018 0.088 0.893B W Sequence 101 0.197 47.354 0.333 0.125 0.227 0.648 E D Sequence 102 0.408 58.850 0.628 0.125 0.227 0.648 B L Sequence 103 0.135 24.664 0.252 0.216 0.235 0.548 E R Sequence 104 0.493 112.989 0.612 0.216 0.235 0.548 E Q Sequence 105 0.460 82.102 0.772 0.321 0.252 0.427 B L Sequence 106 0.109 19.995 0.672 0.216 0.235 0.548 E Q Sequence 107 0.423 75.548 0.333 0.199 0.152 0.649 B V Sequence 108 0.126 19.428 0.026 0.307 0.165 0.527 E R Sequence 109 0.384 88.005 0.285 0.278 0.093 0.628 E E Sequence 110 0.570 99.527 -0.787 0.354 0.048 0.598 B R Sequence 111 0.242 55.487 0.547 0.561 0.047 0.393 B P Sequence 112 0.212 30.111 -0.237 0.717 0.014 0.269 E V Sequence 113 0.264 40.608 0.527 0.831 0.044 0.125 B A Sequence 114 0.129 14.216 -0.416 0.911 0.033 0.057 B L Sequence 115 0.071 13.073 0.588 0.911 0.033 0.057 E E Sequence 116 0.312 54.576 0.365 0.938 0.007 0.055 B A Sequence 117 0.118 12.982 -0.203 0.938 0.007 0.055 B E Sequence 118 0.226 39.395 0.183 0.911 0.033 0.057 B L Sequence 119 0.058 10.638 0.730 0.911 0.033 0.057 E A Sequence 120 0.387 42.614 0.935 0.911 0.033 0.057 B L Sequence 121 0.109 20.013 0.598 0.831 0.044 0.125 B T Sequence 122 0.078 10.846 0.183 0.918 0.063 0.019 B L Sequence 123 0.077 14.117 0.561 0.911 0.033 0.057 E E Sequence 124 0.439 76.623 1.894 0.950 0.028 0.022 B V Sequence 125 0.081 12.388 0.564 0.950 0.028 0.022 B L Sequence 126 0.069 12.579 0.437 0.879 0.010 0.111 E E Sequence 127 0.476 83.210 0.447 0.879 0.010 0.111 E A Sequence 128 0.489 53.833 -0.563 0.622 0.015 0.363 B T Sequence 129 0.204 28.281 -0.526 0.339 0.016 0.645 E A Sequence 130 0.424 46.714 -0.865 0.109 0.005 0.886 E D Sequence 131 0.581 83.664 0.009 0.053 0.005 0.942 E N Sequence 132 0.499 73.112 -1.368 0.053 0.005 0.942 E D Sequence 133 0.550 79.255 -1.082 0.176 0.004 0.820 E M Sequence 134 0.529 105.773 0.296 0.502 0.002 0.495 E A Sequence 135 0.313 34.548 0.985 0.802 0.014 0.185 B L Sequence 136 0.053 9.778 0.183 0.923 0.002 0.076 B G Sequence 137 0.212 16.669 -0.022 0.970 0.001 0.030 E D Sequence 138 0.544 78.390 0.415 0.970 0.001 0.030 B V Sequence 139 0.096 14.755 0.975 0.938 0.007 0.055 B L Sequence 140 0.041 7.489 0.162 0.879 0.010 0.111 E D Sequence 141 0.490 70.609 0.135 0.600 0.003 0.397 E R Sequence 142 0.403 92.241 0.602 0.502 0.002 0.495 B P Sequence 143 0.092 12.984 0.209 0.600 0.003 0.397 B L Sequence 144 0.084 15.325 0.131 0.782 0.003 0.216 E H Sequence 145 0.361 65.630 -0.192 0.923 0.002 0.076 B T Sequence 146 0.132 18.336 -0.058 0.923 0.002 0.076 B L Sequence 147 0.038 6.958 0.485 0.970 0.001 0.030 E H Sequence 148 0.348 63.247 0.498 0.970 0.001 0.030 E H Sequence 149 0.331 60.136 0.839 0.970 0.001 0.030B V Sequence 150 0.041 6.348 0.473 0.970 0.001 0.030 B L Sequence 151 0.173 31.676 0.458 0.970 0.001 0.030 E S Sequence 152 0.550 64.472 0.552 0.970 0.001 0.030 B Q Sequence 153 0.280 49.954 0.494 0.970 0.001 0.030 B L Sequence 154 0.060 11.023 0.197 0.923 0.002 0.076 E R Sequence 155 0.443 101.378 1.090 0.858 0.002 0.139 E A Sequence 156 0.519 57.216 0.794 0.694 0.003 0.303 BC Sequence 157 0.076 10.727 -0.397 0.600 0.003 0.397 B V Sequence 158 0.214 32.846 -0.023 0.430 0.016 0.555 E Q Sequence 159 0.581 103.749 0.558 0.181 0.016 0.803 E P Sequence 160 0.372 52.815 -0.699 0.053 0.043 0.903 E Q Sequence 161 0.518 92.479 -0.120 0.018 0.019 0.964 B P Sequence 162 0.229 32.552 -1.009 0.018 0.019 0.964 E T Sequence 163 0.558 77.381 -0.839 0.018 0.019 0.964 E A Sequence 164 0.573 63.101 -1.965 0.018 0.019 0.964 E G Sequence 165 0.501 39.429 -1.447 0.018 0.019 0.964 E P Sequence 166 0.502 71.234 -1.690 0.018 0.019 0.964 E R Sequence 167 0.404 92.424 -0.216 0.018 0.047 0.935 B P Sequence 168 0.281 39.916 -1.411 0.115 0.016 0.868 E W Sequence 169 0.443 106.638 -0.546 0.339 0.016 0.645 E G Sequence 170 0.290 22.847 -2.131 0.522 0.016 0.462 B R Sequence 171 0.219 50.128 0.487 0.802 0.014 0.185 B L Sequence 172 0.041 7.562 -0.568 0.938 0.007 0.055 E H Sequence 173 0.310 56.334 0.581 0.923 0.002 0.076 E H Sequence 174 0.347 63.156 0.424 0.970 0.001 0.030 B W Sequence 175 0.066 15.753 0.456 0.970 0.001 0.030 B L Sequence 176 0.068 12.414 0.160 0.970 0.001 0.030 E H Sequence 177 0.394 71.760 0.246 0.970 0.001 0.030 E R Sequence 178 0.303 69.364 1.450 0.923 0.002 0.076 B L Sequence 179 0.055 10.052 0.711 0.858 0.002 0.139 E Q Sequence 180 0.443 79.120 0.982 0.782 0.003 0.216 E E Sequence 181 0.620 108.314 1.492 0.600 0.003 0.397 B A Sequence 182 0.100 10.998 -0.174 0.176 0.004 0.820 E P Sequence 183 0.519 73.618 0.665 0.109 0.005 0.886 E K Sequence 184 0.729 149.894 0.904 0.181 0.016 0.803 E K Sequence 185 0.619 127.267 0.262 0.115 0.016 0.868 E E Sequence 186 0.510 89.062 -0.518 0.115 0.016 0.868 E S Sequence 187 0.407 47.689 -0.749 0.115 0.016 0.868 E S Sequence 188 0.454 53.185 -0.258 0.257 0.016 0.727 E G Sequence 189 0.289 22.744 -0.967 0.354 0.048 0.598 B C Sequence 190 0.064 9.014 -0.312 0.502 0.102 0.396 B L Sequence 191 0.115 21.075 -0.202 0.649 0.163 0.188 E E Sequence 192 0.325 56.830 0.201 0.701 0.107 0.192 B A Sequence 193 0.086 9.488 -0.828 0.779 0.100 0.120 B S Sequence 194 0.136 15.927 0.029 0.779 0.100 0.120 B V Sequence 195 0.065 9.914 -0.429 0.779 0.100 0.120 B T Sequence 196 0.085 11.817 -0.319 0.870 0.077 0.053 B F Sequence 197 0.072 14.511 0.097 0.911 0.033 0.057 B N Sequence 198 0.150 21.989 -0.346 0.879 0.010 0.111B L Sequence 199 0.057 10.492 0.062 0.938 0.007 0.055B F Sequence 200 0.081 16.176 0.103 0.938 0.007 0.055E R Sequence 201 0.258 59.013 1.046 0.938 0.007 0.055B L Sequence 202 0.082 14.959 0.208 0.879 0.010 0.111B L Sequence 203 0.067 12.249 0.337 0.879 0.010 0.111B T Sequence 204 0.240 33.343 0.112 0.717 0.014 0.269E R Sequence 205 0.489 112.050 0.481 0.430 0.016 0.555E D Sequence 206 0.433 62.366 -0.416 0.257 0.016 0.727B L Sequence 207 0.084 15.399 0.517 0.191 0.086 0.723E K Sequence 208 0.501 103.159 1.207 0.231 0.330 0.439B C Sequence 209 0.097 13.675 0.387 0.268 0.505 0.227B V Sequence 210 0.137 21.057 0.261 0.268 0.505 0.227B A Sequence 211 0.306 33.699 -0.976 0.135 0.317 0.548E S Sequence 212 0.529 61.987 -0.462 0.056 0.142 0.802E G Sequence 213 0.427 33.636 -1.328 0.018 0.047 0.935E D Sequence 214 0.636 91.705 -1.310 0.018 0.047 0.935B L Sequence 215 0.288 52.660 -0.493 0.052 0.084 0.864B C Sequence 216 0.088 12.327 -0.952 0.056 0.142 0.802E A Sequence 217 0.282 31.032 -0.158 0.052 0.084 0.864E P Sequence 218 0.369 52.304 -0.980 0.053 0.043 0.903E S Sequence 219 0.571 66.909 -1.224 0.053 0.043 0.903E H Sequence 220 0.419 76.125 -1.162 0.053 0.043 0.903B L Sequence 221 0.149 27.264 0.307 0.053 0.043 0.903E P Sequence 222 0.336 47.622 -0.813 0.113 0.043 0.844B A Sequence 223 0.295 32.520 -1.323 0.113 0.087 0.800E T Sequence 224 0.276 38.309 -0.522 0.191 0.086 0.723B H Sequence 225 0.267 48.640 -0.426 0.199 0.152 0.649B H Sequence 226 0.283 51.514 -0.300 0.216 0.235 0.548B A Sequence 227 0.115 12.695 -0.606 0.231 0.330 0.439B I Sequence 228 0.062 11.507 0.198 0.252 0.423 0.325B D Sequence 229 0.222 32.033 -0.360 0.252 0.423 0.325B F Sequence 230 0.088 17.762 0.207 0.273 0.587 0.140B I Sequence 231 0.071 13.154 -0.244 0.273 0.587 0.140B Y Sequence 232 0.153 32.717 0.494 0.268 0.505 0.227B T Sequence 233 0.215 29.793 -0.735 0.252 0.423 0.325B S Sequence 234 0.254 29.804 -1.090 0.216 0.235 0.548B T Sequence 235 0.277 38.475 -0.682 0.307 0.165 0.527B T Sequence 236 0.258 35.785 -0.222 0.199 0.152 0.649B C Sequence 237 0.072 10.067 -0.863 0.216 0.235 0.548B L Sequence 238 0.158 28.875 -0.255 0.216 0.235 0.548E N Sequence 239 0.462 67.564 -0.902 0.216 0.235 0.548B L Sequence 240 0.189 34.661 -0.397 0.113 0.087 0.800B L Sequence 241 0.210 38.451 0.093 0.053 0.043 0.903E P Sequence 242 0.379 53.752 -0.085 0.018 0.019 0.964E P Sequence 243 0.466 66.125 -1.303 0.018 0.019 0.964E N Sequence 244 0.670 98.132 -2.145 0.018 0.047 0.935E R Sequence 245 0.568 130.095 -0.533 0.018 0.019 0.964E Y Sequence 246 0.734 156.941 -1.908 0.003 0.003 0.994Explain the output. Go back.5)PORTERhttp://distill.ucd.ie/porter/结果:Subject: Porter response toQuery_name:Query_length: 248Prediction: VTASEWGPSADEDQRSEMKRGMSRGCMAVLVLMATVLTVTGAVPVTRPPRALPDARGCHICCCCCCCCCCCHHHHHHHHCCCCCCCHHHHHHHHHHHHHCCCCCCCCCCCCCCCCCCCCHAQFKSLSPQELQAFKRAKDALEESLLLKDCRCRSRLFPRTWDLRQLQVRERPVALEAELA HHHCCCCHHHHHHHHHHHHHHHHHHCECCCCCCCCCCCCCCCCCCCCHHHHHHHHHHHHHLTLEVLEATADNDMALGDVLDRPLHTLHHVLSQLRACVQPQPTAGPRPWGRLHHWLHRLQ HHHHHHHHHHHHCHHHHHHHHHHHHHHHHHHHHHHHCCCCCCCCCCHHHHHHHHHHHHHCEAPKKESSGCLEASVTFNLFRLLTRDLKCVASGDLCAXPSHLPATHHAIXDFIYTSTTCL CCCCCCCHHHHHHHHHHHHHHHHHHHHHHHHHHHHCCCCCCCCCCCCHHHHHHHCCCHHHNLLPPNRYCCCCCCCCPredictions based on PDB templates (seq. similarity up to 58.5%)Query served in 59 secondsMultiple queries to multiple servers at:http://distill.ucd.ie/distill/Access individually Porter, Porter+, PaleAle, BrownAle, X-Stout , XX-Stout, 3Distill at: http://distill.ucd.ie/porter/http://distill.ucd.ie/porter+/http://distill.ucd.ie/paleale/http://distill.ucd.ie/brownale/http://distill.ucd.ie/xstout/http://distill.ucd.ie/xxstout/Prediction of protein disorder by Spritz:http://distill.ucd.ie/spritz/For an explanation of the output formats, refer to:http://distill.ucd.ie/distill/explanation.html#output_formats Please cite one or more of the following:G.Pollastri, A.McLysaght."Porter: a new, accurate server for protein secondary structure prediction". Bioinformatics, 21(8):1719-1720, 2005./cgi/content/abstract/21/8/1719C.Mooney, Y.Wang, G.Pollastri."SCLpred: Protein Subcellular Localization Prediction by N-to-1 Neural Networks", Bioinformatics, 27 (20), 2812-2819, 2011./content/27/20/2812D.Bau, A.J.M.Martin, C.Mooney, A.Vullo, I.Walsh, G.Pollastri. "Distill: Asuite of web servers for the prediction of one-, two- and three-dimensional structural features of proteins" BMC Bioinformatics, 7:402, 2006./1471-2105/7/402/abstractC. Mooney, G.Pollastri "Beyond the Twilight Zone: Automated prediction of structural properties of proteins by recursive neural networks and remote homology information" Proteins, 77(1), 181-90, 2009. /journal/122274852/abstract G.Pollastri, A.J.M.Martin, C.Mooney, A.Vullo. "Accurate prediction of protein secondary structure and solvent accessibility by consensus combiners of sequence and structure information" BMC Bioinformatics, 8:201, 2007. /1471-2105/8/201/abstract I.Walsh,D.Bau, .M.Martin, C. Mooney, A.Vullo, G.Pollastri "Ab initio and template-based prediction of multi-class distance maps by two-dimensional recursive neural networks" BMC Structural Biology, 9:5, 2009. /1472-6807/9/5A.Vullo, I.Walsh, G.Pollastri."A two-stage approach for improved prediction of residue contact maps"BMC Bioinformatics, 7:180, 2006. /1471-2105/7/180/abstractG. Pollastri, A. Vullo, P . Frasconi, P . Baldi."Modular DAG-RNN Architectures for Assembling Coarse Protein Structures".Journal of Computational Biology, 13:3, 631-650, 2006.A. Vullo, O. Bortolami, G. Pollastri, S. Tosatto."Spritz: a server for the prediction of intrinsically disordered regions in protein sequences using kernel machines"Nucleic Acids Research, 34:W164-W168, 2006. 6)TUAT Kuroda Lab's Programb.tuat.ac.jp/dlpsvm.html结果:部分数据Sequence position Prob. by SVM-ALL Prob. by SVM-Long Prob. by SVM-Short Li 1 0 A2 0 T3 0 G4 0 A5 -0.973539 0 0 A6 -1.086915 0 0 A7 -0.891253 0 0 C8 -0.644379 0 0 T9 -0.378074 0 0 A。

蛋白质数据库及其结构预测攻略

蛋白质数据库及其结构预测攻略

蛋白质数据库及其结构预测攻略一、蛋白质结构层次一般情况下,蛋白质的结构分为4 个层次:▪初级结构——氨基酸序列;▪二级结构——а螺旋(alpha-helix),β折叠(β-sheets),β转角,无规则卷曲(random coil)▪三级结构——三维结构,由模体(motif)和结构域(domain)组成;▪四级结构——亚基之间的互作。

二、蛋白质数据库:1. 蛋白质一级数据库1.1序列数据库:UniProt包含三大蛋白质序列数据库,Swiss-Prot,TrEMBL 和PIR,分为三个层次:第一层叫UniParc,收录了所有UniProt 数据库子库中的蛋白质序列,量大,粗糙。

第二层是UniRef,他归纳了UniProt 几个主要数据库并且是将重复序列去除后的数据库。

第三层是UniProtKB,他有详细注释并与其他数据库有链接,分为Swiss-Prot(最有用的)和TrEMBL。

1.2蛋白质结构数据库PDBPDB存储生物大分子3D 结构。

这些生物大分子除了蛋白质以外还包括核酸以及核酸和蛋白质的复合物。

只有通过实验方法获得的3D 结构才会被收入其中。

PDB文件是一堆数字字母,那是每个原子的坐标,一般用用可视化软件VMD打开,免费的,这里不作具体说明。

2. 蛋白质二级数据库2.1结构域家族Pfam数据库Pfam 主页上的搜索工具可以查找某条序列上有哪些结构域。

2.2结构分类数据库CATHCATH是四种结构分类层次的首字母。

根据PDB编号搜索,可以获得各层次具体的结构分类信息以及各种结构相关分析信息、聚类分析。

2.3结构分类数据库SCOP2在搜集、整理、分析PDB数据中已知的蛋白质三维结构的基础上,详细描述了一直结构的蛋白质在结构、进化事件与功能类型三个方面的关系,主要依赖人工验证。

三、蛋白质结构研究1.二级结构1.1已知PDB-输入检索号-sequence- view sequence& DSSP image1.2未知预测网址如下:输入氨基酸序列,等待大概半小时。

生物信息学二级数据库及数据库的格式

生物信息学二级数据库及数据库的格式

..125
Homo. Sapiens Medline4,. gluco- transcriptional TGT..
......
Corticoid regulator, ..
receptor
Fig 2.7 GenBank数据库的组织. 常被计算机检索程序ENTREZ利用。
2 EMBL序列格式
• The European Molecular Biology Laboratory(EMBL)序列 条目与GenBank类似,通过大量信息来描述每个序列。该 信息组织成一个个字段,每个字段有一个标识符。这些标 识符缩写成两个字母,某些字段还有次级字段。每行序列 后面的数字显示片断的位置。
BASE COUNT count of A, C, G, T and other symbols
ORIGIN
text indicating start of sequence
1 gaattcgata aatctctggt ttattgtgca gtttatggtt ccaaaatcgc
51 atatactcac agcataactg tatatacacc cagggggcgg aatgaaagcg
Prosite的网址:
/prosite/
3、蛋白质结构二级数据库
DSSP (Definition of Secondary Structure of Proteins) 蛋白质二级结构构象参数数据库 DSSP的网址:
http://www.cmbi.kun.nl/gv/dssp/
source range of sequence, source organism
misc_signal range of sequence, type of function or signal

蛋白质数据库和蛋白序列分析

蛋白质数据库和蛋白序列分析

蛋白质数据库和蛋白序列分析摘要:生物信息学英文bioinformatics,是一门综合计算机科学,信息技术,数学理论和方法来研究生物信息的新兴的交叉学科。

包括各种生物学数据的采集、研究、存储、传递、显示、处理和模拟,基因遗传和物理图谱的处理,核苷酸和氨基酸序列分析,新基因的发现和蛋白质结构的预测等。

蛋白质序列分析是生物信息学的基本研究方法。

关键词:蛋白质序列分析蛋白质数据库 SWISS-PROT PIR TrEMBL PDB 数据库 HSSP数据库 NRL-3D 数据库 SCOP数据库生物信息数据与查询序列分析质谱隐马尔可夫模型正文:由于人类基因组计划完成了人类基因组的测序与分析工作,积累了大量的核酸和蛋白质序列数据,从而导致了分子数据库的建立。

分子生物学家在此基础上依靠计算机进行核酸和蛋白质序列分析。

一、蛋白质数据库大量生物学实验的数据积累,形成了当前数目众多的生物信息数据库。

它们各自按一定的目标收集和整理生物学实验数据,并提供相关的数据查询、数据处理。

这些生物信息数据库可以分为一级数据库和二级数据库。

以下介绍国际上比较著名的一些蛋白质数据库。

一级数据库的数据都直接来源于实验获得的原始数据,只经过简单的归类整理和注释。

比如SWISS-PROT 数据库,SWISS-PROT数据库包括了从EMBL翻译而来的蛋白质序列,这些序列经过检验和注释,该数据库主要由日内瓦大学医学生物化学系和欧洲生物信息学研究所(EBI)合作维护,其序列数量呈直线增长;PIR 数据库,它和SWISS-PROT是国际上二个主要的蛋白质序列数据库,目前这二个数据库在EMBL和GenBank数据库上均建立了镜像 (mirror) 站点。

PIR数据库的数据最初是由美国国家生物医学研究基金会收集的蛋白质序列,主要翻译自GenBank的DNA序列。

1988年,美国的NBRF、日本的JIPID(the Japanese International Protein Sequence Database日本国家蛋白质信息数据库)、德国的MIPS(Munich Information Centre for Protein Sequences摹尼黑蛋白质序列信息中心)合作,共同收集和维护PIR数据库。

(生物信息学)第四章核苷酸和蛋白质序列为基础的数据库检索

(生物信息学)第四章核苷酸和蛋白质序列为基础的数据库检索
A A A T T T G G G T C G G T A A G
缺失 序列对位排列分析时允许插入空位 空位罚分涉及两个参数 空位开放(gap opening)
空位延伸(gap extension)
序列1 A 序列2 A 2 A 2 T T 2 T 2 G C T G - 2 -5 -2 G G A 2 -3 -3 G G 2
核苷酸和蛋白质序列为基础的数据库检索
Function
Structure
Sequence
序列对位排列(sequence alignment) 将两条或多条序列对位排列,突出相似的结构 区域
序列1 序列2
表示序列的字符
两条DNA序列对位排列分析
两条蛋白质序列对位排列分析
序列比对的用途
分析功能 分析物种进化
检测突变、插入或缺失
序列延长
序列定位
基因表达谱分析
序对位排列分析的种类
序列对库对位排列分析 从数据库中寻找同源序列 主要涉及核苷酸数据库和蛋白质数据库 两序列对位排列分析 多序列对位排列分析
(一)序列对位排列分析的基本原理 1、记分矩阵(scoring matrix) 记分矩阵中含有两条序列对位排列时具体使用 的分值 长度一定时,分数越高,两条序列匹配越好 DNA序列对位记分
生物信息学
第四章
核苷酸和蛋白质序列为 基础的数据库检索
检索数据库的方法
用关键词或词组进行数据库检索
(Text-based database searching)
Gene name Author Accession number …
Database
用核苷酸或蛋白质序列进行数据库检索

PIR蛋白质序列数据库资料

PIR蛋白质序列数据库资料

Pfam
• 蛋白质一般是由一个或多个功能区域组成,这些 功能区域通常称作域(domain)。在不同的蛋白 质中不同的域以不同的组合出现,导致在自然界 发现多种多样组成成分的蛋白质。识别出现在蛋 白质中的域可以了解蛋白质的功能。
• Pfam数据库(/)是一 个大的蛋白质域家族集合,每个家族是用多序列 比对和隐马模型(HMMs)分析结果的代表。
• 它是一个全面的、经过注释的、非冗余的蛋白 质序列数据库。
• 所有序列数据都经过整理,超过99%的序列已 按蛋白质家族分类,一半以上还按蛋白质超家 族进行了分类。
4
除了蛋白质序列数据之外,PIR还包含以下信息: (1)蛋白质名称、蛋白质的分类、蛋白质的来源; (2)关于原始数据的参考文献; (3)蛋白质功能和蛋白质的一般特征,包括基因
22
• 2. iProClass-蛋白质知识整合数据库
• iProClass(/iproclass/) 提供来自90多个生物学数据库的大量整合数据,包 括蛋白ID图谱服务、UniProtKB编注蛋白质摘要描 述和筛选UnParc数据库的蛋白质序列。使用 iProClass可以检索最新的蛋白质综合信息,包括: 功能、转导通路、相互作用、家族分类、基因和基 因组、功能注释标准体系(ontology)、文献和分 类学信息。使用iProClass还可以检索ID图谱、蛋白 质词典和相关序列。
• 3. PIRSF-蛋白质家族分类系统 PIRSF (/pirsf/)分类 系统概要论述家族的特征,如家族名称、 分类分布、分级和功能域结构,以及家族 成员,包括功能、结构、传导通路、功能 注释标准体系(ontology)和家族分类。 利用这些信息可以获得蛋白质的准确功能 或预测的功能和该蛋白质所属家族成员共 有的其他特征。

蛋白质序列数据库

蛋白质序列数据库
基础生物信息学及应用
李裕强 2009.09
基 础 生 物 信
第Ⅱ部分 生物信息学数据库
第四章 蛋白质序列数据库
基 础 生 物 信 息 学 及 应 用
本章内容: 本章内容:
蛋白质序列数据库发展简介 Uniprot
第一节, 第一节,蛋白质序列数据库发展介绍
基 础 生 物 信 息 学 及 应 用
由于蛋白质序列测定技术先于DNA序列测定技术问世, 由于蛋白质序列测定技术先于DNA序列测定技术问世,蛋 DNA序列测定技术问世 白质序列的搜集也早于DNA序列. DNA序列 白质序列的搜集也早于DNA序列. 蛋白质序列数据库的雏形可以追朔到60年代.60年代中 蛋白质序列数据库的雏形可以追朔到60年代.60年代中 60年代 期到80年代初, 80年代初 期到80年代初,美国 NBRF (National Biomedical Dayhoff领导的研究组将搜集到 Research Foundation) Dayhoff领导的研究组将搜集到 的蛋白质序列和结构信息以" 的蛋白质序列和结构信息以"Atlas of Protein Structure"(蛋白质序列和结构手册 蛋白质序列和结构手册, Sequence and Structure"(蛋白质序列和结构手册, 1965-1978)的形式发表 的形式发表, 1965-1978)的形式发表,主要用来研究蛋白质的进化关 系.
ExPaSy : Expert Protein Analysis System
目前统一地址: 目前统一地址:
基 础 生 物 信 息 学 及 应 用
基 础 生 物 信 息 学 及 应 用
UniProt
基 础 生 物 信 息 学 及 应 用

蛋白质序列数据库

蛋白质序列数据库
▪ PIR-PSD的另一个重要特征是其对蛋白质超家族 的分类,提供序列的等级聚类信息,揭示序列间 的进化关系。
4 UniPro
▪ 蛋白质信息资源(PIR)、欧洲生物信息学研究所(EBI) 和瑞士生物信息学研究所(SIB)合作,于2002年共同组 建世界蛋白质资源(the Universal Protein Resource, UniPro)。
d. SWISS-PROT中尽可能减少冗余序列
e. 与其它30多个数据库建立了交叉引用,其 中包括核酸序列数据库、蛋白质序列数据 库和蛋白质结构数据库等。
f. 利用序列检索系统(SRS)可以方便地检 索SWISS-PROT和其它EBI的数据库。
2 TrEMBL
TrEMBL数据库建于1995年,意为 “Translation from EMBL”。
a. 所有序列条目都经过有经验的分子生物学家和蛋白 质化学家通过计算机工具并查阅有关文献资料仔细核 实。
b. 每个条目包含条目基本信息、分类信息(描述蛋白质的生物来源) 、引用文献
信息、注释、蛋白质序列等(如:Acetyltransferase)。
3D structure
c. 蛋白质注释
包括蛋白质的功能、翻译后修饰(如糖基化和磷酸 化)、结构域和结合位点、二级结构(如α- 螺旋和β- 片 层)、四级结构(如同聚体和异聚体)、与其它蛋白质序 列的相似性、蛋白质序列残缺与疾病的关系、序列冲突和 变异体等信息。
▪ 由蛋白质信息资源(PIR)、慕尼黑蛋白质序 列信息中心(MIPS)和日本国际蛋白质序列 数据库(JIPID)共同维护, PIR是最早的数 据库,现已并入UniProt Knowledgebase
▪ 是一个全面的、非冗余的、经过专家注释的公共 蛋白质序列数据库。PIR-PSD收集已发表的蛋白 质序列、来源、参考文献和特征信息等,她的注 释中还包括一些原始递交记录中没有的相关信息, 如在遗传图谱的位置、内含子位置、以及和其他 序列、结构、基因组和引文数据库(如Medline、 PDB和TIGR等)的相互参照

蛋白质序列数据库共31页

蛋白质序列数据库共31页

61、奢侈是舒适的,否则就不是奢侈 。——CocoCha nel 62、少而好学,如日出之阳;壮而好学 ,如日 中之光 ;志而 好学, 如炳烛 之光。 ——刘 向 63、三军可夺帅也,匹夫不可夺志也。 ——孔 丘 64、人生就是学校。在那里,与其说好 的教师 是幸福 ,不如 说好的 教师是 不幸。 ——海 贝尔 65、接受挑战,就可以享受胜利的喜悦 。——杰纳勒 尔·乔治·S·巴顿
谢谢!
蛋白质序列数据库
1、战 ……法 律,也 ----即 明示道 理。— —爱·科 克
3、法律是最保险的头盔。——爱·科 克 4、一个国家如果纲纪不正,其国风一 定颓败 。—— 塞内加 5、法律不能使人人平等,但是在法律 面前人 人是平 等的。 ——波 洛克

蛋白质数据库

蛋白质数据库
17
点击此处
18
此处链接 UniProt databases.
19
在UniProt database搜 索中的结果
20
蛋白质基本信息 蛋白质家族信息
21
22
Entry name 标题/序列名称
序列物种来源拉 丁名(常用名) 记录注册、修改日期
注册号及参考来源
物种分类型 序列长度
序列顺序
文献发表作者/刊名/发 表时间/文章名/文献数 据库记录号
包括表达蛋白质组学,细胞谱蛋白质组学以及功能蛋白质组学。
与传统蛋白质研究的区别
• 个体----整体 • 分析静态性质-----比较动态变化 • 孤立个体-----相互作用 • 小规模、非连续-----高通量、自动化
• 功能蛋白质组学是指蛋 白质间、蛋白质DNA/RNA间的相互作 用的研究。以细胞内与 某个功能有关或某种条 件下的一群蛋白质为主 要研究内容,由此建立 细胞内外信号传递的复 杂网络。
iProClass-蛋白质知识整合数据库
• (/iproclass/)提供来自90多个 生物学数据库的大量整合数据,包括蛋白ID图谱服务、 UniProtKB编注蛋白质摘要描述。
• 使用iProClass可以检索最新的蛋白质综合信息,包括:功 能、转导通路、相互作用、家族分类、基因和基因组、功能 注释标准体系(ontology)、文献和分类学信息。
• 预测 蛋白质: • 二级结构(Secondary structure) • 残基可溶性( Residue solvent accessibility) • 跨膜螺旋区定位(Location of
/
/intact/main.xhtml
P53
/
蛋白质组学数据库
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
/nuccore/22107834bank格式
Genbank格式
Genbank格式
电子提交序列到Genbank
两种主要的电子提交途径 1、互联网交互方式的提交 2、软件提交,Sequin ftp:///sequin/
专业数据库或专用数据库。
核酸序列数据库---三大核酸序 列数据库
GenBank
EMBL(的核酸数据库)
DDBJ
GenBank数据库
GenBank是具有目录和生物学注释的核酸序列 综合数据库,
由美国国家医学图书馆(NLM)的国家生物技 术信息中心(NCBI)构建、维护和管理。
该中心位于美国马里兰国家健康研究所 (NIH)。
GenBank数据库页面
GenBank数据库
GenBank(/genbank/) 该核酸数据库中包含了已经公开的30万余种不
同物种生物的核酸序列,这些数据主要来源于 全世界不同实验室和大规模测序计划项目。
GenBank数据库
GenBank数据库每天与欧洲分子生物学实验室的 核酸序列数据库(European Molecular Biology Laboratory Nucleotide Sequence Database, EMBL)和日本的DNA数据库(DNA Data Bank of Japan DDBJ)进行数据交换,以保证数据库内容 在全世界范围的同步性。
EMBL数据库
EMBL建立于1980年,EMBL核苷序列数据库(http:// /embl/)是欧洲主要的核苷序列收集单位,欧洲生物 信息中心EBI(即EMBL在德国海德堡的站点)维护这个数据库
EMBL: European Molecular Biology Laboratory EBI: European Bioinformatics Institute
核苷数据来自基因组测序中心、世界各地的科学家、欧洲专利局、以 及与合作伙伴DDBJ (Japan)和GenBank (USA)交换的数据。
EMBL数据库
DDBJ数据库
日本DNA数据库(DDBJ: www.ddbj.nig.ac.jp )是在亚洲唯一 的核酸序列数据库,是搜集研究者公认的测定核酸序列的数据 库,并且发放给数据提交者国际认证的核酸序列编号。
GenBank数据库记录格式
Nucleotide通常用FASTA和GenBank两种格式显示。
FASTA格式仅包括该序列的简要特征,并以G、A、T、C四种碱基 列出核苷酸序列,简单明了(各个数据库通用的格式,属于最简 洁明了的格式)。
而GenBank格式可显示较完整的基因序列记录,反映核苷酸序列 的详细信息( GenBank 所独有的格式)。
由于DDBJ每天将搜集的数据与EMBL-Bank/EBI和 GenBank/NCBI进行交换,使得三个核酸数据库几乎在任何时 候都享有相同数据。
DDBJ主要收集来自日本研究者获得的序列数据,但也收集数据 和发放编号给任何其他国家的研究者。
DDBJ数据库
INSDC
1998年,GenBank、EMBL和DDBJ共同成立了国际 核酸序列数据库协会
(International Nucleotide Sequence Database Collaboration,INSDC)
三大核酸数据库之间每天将新测定或更新的数据进 行交换共享,保证数据信息的完整与同步,每两个 月更新一次版本。
FASTA格式序列
>gi|221078348|gb|EU755370.2| Solanum lycopersicum isolate WRKY1000.3 WRKY mRNA, complete cds ATTTTAAGCTTTTTGGATTTGTTGGAATTTTATTAAGAAGAAATTAAAGCAATGGAAT TCACAAGTTTGGTTGATACTTCCTTGGATTTGAGTTTTAGACCTCTTCCAGTTCTTG ATAAAGTGCTGAAACAAGAAGTTCAGAGTAATTTCACTGGATTGAGCAGAGACAAT ATGCTGGTGAAAGATGAGGCAGGTGATTTGTTGGAGGAACTGAACAGAGTGAGCA GTGAAAACAAGAAACTAACAGAGATGCTCACAGTGGTGTGTGAAAATTACAATGCA TTAAGAAACCAACTAATGGAGTATATGAACAACCAGAATAATGGTGTAGTAGATGAT AGTGCTGGATCAAGGAAAAGAAAAGCTGAAAATATCTCCAATCCCAACAACAACAA CAACAACAAAAACAACAACTTGGATATTGTTTGTGGACGTTTATCAGAAAGCAGTTC AAGTGATGAAGAGTCTTGTTGCAAGAAACCTAGAGAAGAGCACATAAAAACTAAGG TTTCTGTCGTTTCTATGAGGACAGAAGCATCTGATACCTCTCTTATTGTAAA
第4章 DNA、RNA和 蛋白质序列数据库
生物信息学数据库
生物信息数据库种类繁多,就目前来看, 大体可以分为四个大类:
一 1.基因组数据库; 次 2.核酸和蛋白质一级结构序列数据库; 数 据 3.生物大分子(主要是蛋白质)三维空间结构数据库; 库
4.根据以上三类数据库和文献资料为基础构建的二次数据库。 也称专门数据库、
GenBank数据库
NCBI的GenBank: /genbank
NCBI: National Center for Biotechnology Information
NLM: National Library of Medicine NIH: National Institute of Health
相关文档
最新文档