蛋白质结构域数据库

合集下载

生物信息研究中常用蛋白质数据库的总结

生物信息研究中常用蛋白质数据库简述内蒙古工业大学理学院呼和浩特孙利霞2010.1.5摘要：在后基因组时代生物信息学的研究当中，离不开各种生物信息学数据库。

尤其在蛋白质从序列到功能的研究当中，目前各种行之有效的方法都是基于各种层次和结构的蛋白质数据库。

随着计算机技术及网络技术的发展，目前的蛋白质数据库不论是所包含数据量还是功能都日新月异，新的数据库层出不穷。

一个新手面对如此浩瀚的数据量往往无从下手。

本文粗浅地为目前蛋白质数据库的使用勾画出一个轮廓，作为自己蛋白质研究入门的一个引导。

关键词：蛋白质；数据库0 引言随着科技的发展，个人的知识往往赶不上快速膨胀的信息量，人们为了解决这个问题，便创建了形形色色的数据库。

蛋白质数据库是指：在蛋白质研究领域根据实际需要，对蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释，构建出具有特殊生物学意义和专门用途的数据库。

蛋白质数据库总体上可分为两大类：蛋白质序列数据库和蛋白质结构数据库，蛋白质序列数据库来自序列测定，结构数据库来自X-衍射和核磁共振结构测定（详见图1）。

这些数据库是分子生物信息学的基本数据资源。

上世纪90年代，我国从事蛋白质研究的学者使用的蛋白质数据库储存介质还是国外实验室发布的激光光盘[1]。

信息的传播储存甚为不便。

随着蛋白质研究的发展飞快，同时伴随着计算机和因特网发展，蛋白质数据库的储存传播方式也发生的巨大的变化。

进入21世纪后，我们所用的各种蛋白质数据库都发展成为存储在网络服务器上，基于“服务器—客户机”的访问查询方式。

伴随着计算机及物理测试技术的发展数据库的容量和功能成数量级膨胀。

但是面对如此浩瀚的数据，新手往往感到无从下手，在需要时找不到自己需要的合适数据库。

本文从目前蛋白质数据库建立的的逻辑层次出发，系统地简绍了常用蛋白质数据的概况，它们的查询方法以及它们相互之间的联系。

同时尽量不涉及数据库建设和维护方面的计算机和网络这些数据库底层的技术，为蛋白质研究的入门者及对蛋白质感兴趣的人员的一个引导。

蛋白质数据库

生物芯片北京国家工程研究中心湖南中药现代化药物筛选分中心暨湖南涵春生物有限公司常用数据库名录1、蛋白质数据库PPI - JCB 蛋白质与蛋白质相互作用网络•Swiss-Prot - 蛋白质序列注释数据库•Kabat - 免疫蛋白质序列数据库•PMD - 蛋白质突变数据库•InterPro - 蛋白质结构域和功能位点•PROSITE - 蛋白质位点和模型•BLOCKS - 生物序列分析数据库•Pfam - 蛋白质家族数据库 [镜像： St. Louis (USA), Sanger Institute, UK, Karolinska Institutet (Sweden)] •PRINTS - 蛋白质 Motif 数据库•ProDom - 蛋白质结构域数据库 (自动产生)•PROTOMAP - Swiss-Prot蛋白质自动分类系统•SBASE - SBASE 结构域预测数据库•SMART - 模式结构研究工具•STRING - 相互作用的蛋白质和基因的研究工具•TIGRFAMs - TIGR 蛋白质家族数据库•BIND - 生物分子相互作用数据库•DIP - 蛋白质相互作用数据库•MINT - 分子相互作用数据库•HPRD - 人类蛋白质查询数据库•IntAct - EBI 蛋白质相互作用数据库•GRID - 相互作用综合数据库•PPI - JCB 蛋白质与蛋白质相互作用网络2、蛋白质三级结构数据库•PDB - 蛋白质数据银行•BioMagResBank - 蛋白质、氨基酸和核苷酸的核磁共振数据库•SWISS-MODEL Repository - 自动产生蛋白质模型的数据库•ModBase - 蛋白质结构模型数据库•CATH - 蛋白质结构分类数据库•SCOP - 蛋白质结构分类 [镜像: USA | Israel | Singapore | Australia]•Molecules To Go - PDB数据库查询•BMM Domain Server - 生物分子模型数据库•ReLiBase - 受体/配体复合物数据库 [镜像： USA]•TOPS - 蛋白质拓扑图•CCDC - 剑桥晶体数据中心 (剑桥结构数据库 (CSD))•HSSP - 蛋白质二级结构数据库•MutaProt - PDB数据库中点突变的比较•SWISS-3DIMAGE - 蛋白质和其他生物分子的三维图像•BioImage - 生物图像数据库 (包含生物大分子图像) 3、蛋白质组数据库和链接•2－D胶数据库以及与2－D胶相关的数据库•蛋白质组链接4、与核酸相关的数据库•EMBL - EMBL核酸序列数据库 (EBI)•Genbank - GenBank核酸序列数据库 (NCBI)•DDBJ - 日本DNA数据库•dbEST - dbEST(表达序列标签)数据库 (NCBI)•dbSTS - dbSTS(序列标签位点)数据库 (NCBI)•AsDb - 异常剪切数据库•ACUTS - DNA非转录保守序列数据库•密码子数据库•EPD - 真核生物启动子数据库•HOVERGEN - 颈椎动物同源基因数据库•IMGT - 免疫遗传学数据库 [镜像： EBI]•ISIS - 内含子序列信息•RDP - 核糖体数据库•gRNAs db - gRNA数据库•PLACE - 植物DNA顺势调控元件数据库•PlantCARE - 植物中DNA顺势调控组件数据库•ssu rRNA - 欧洲核糖体RNA数据库－小核糖体•lsu rRNA - 欧洲核糖体RNA数据库－大核糖体•5S rRNA - 5S核糖体RNA数据库•tmRNA Website - tmRNA站点•tmRDB - tmRNA数据库•tRNA - tRNA剪切（ Bayreuth大学）•uRNA db•RNA editing - RNA剪切位点•RNAmod db - RNA修饰数据库•TelDB - 多介质端粒数据库•MPDB - 分子探针数据库•VectorDB - 载体序列数据库5、糖类•FCCA - 糖类论坛•GlycoSuiteDB - 多聚糖数据库•Monosacharide browser - Space filling Fischer projection for monosaccharides•Thorkild's lectin page - 凝集素通道6、特殊物种数据库:人类：•OMIM - 孟德尔遗传在线－－人类•GENATLAS - 人类基因图集•GeneClinics - 医学基因学库•GDB - 基因组数据库•GeneCards - 人类基因整合信息数据库•UDB - 人类基因图谱数据库•Ensembl人类基因组浏览器•UCSC人类基因组工作草图•TIGR HGI - TIGR人类基因组索引•Hs UniGene - GenBank中的人类转录本•STACK - 序列标签比对• - 人类基因预测•GenLink - 人类基因组资源数据库•GeneLynx - 人类基因组•HUGE - 人类未知基因－大型蛋白质反转录得到的cDNA (KIAA...)•HUNT - 人类异常转录本•CGAP - 癌症基因组解剖学•MGC - 哺乳动物基因•SCDb - 干细胞数据库•Homophila - 人类疾病基因与果蝇基因对比数据库•Human Protein Atlas - 人类正常组织蛋白质与癌细胞蛋白质表达与位点的比较•Chr at Rutgers - Rutgers的人类染色体信息•Chr at Sanger - Sanger Center的人类染色体信息•Chr Swiss-Prot list - Swiss-Prot的染色体信息脊椎动物：•OMIA - 孟德尔遗传在线－－动物•MGI - 小鼠基因组学信息 [镜像： Australia]•Ensembl小鼠基因组浏览器•TIGR MGI - TIGR小鼠基因索引•Mm UniGene - GenBank 中的小鼠转录本(EST clusters) •MGC - 哺乳动物基因•Mouse gene knockouts db - 小鼠基因敲除数据库•RGD - 大鼠基因组数据库•RatMAP - 大鼠基因组数据库•TIGR RGI - TIGR大鼠基因组数据库•Rn Unigene - GenBank 中的大鼠转录本(EST clusters) •BOVMAP - 牛基因数据库 (法国)•DGP - 狗基因数据库•MIS - 孟德尔遗传－－羊•Ark-Cat - 猫基因组数据库•Ark-Chicken - 鸡基因组数据库•Ark-Cow - 奶牛基因组数据库•Ark-Deer - 鹿基因组数据库•Ark-Horse - 马基因组数据库•Ark-Pig - 猪基因组数据库•Ark-Sheep - 绵羊基因组数据库•Ark-Turkey - 火鸡基因组数据库•FishBase -鱼类综合信息系统•Fugu genome project - 河豚基因组•Fugu - HGMP 河豚数据•- Ensembl 河豚基因组浏览器•Medakafish - Mekada fish (Oryzias latipes) server •Ark-Tilapia - 罗飞鱼基因组数据库•Ark-Salmon - 大马哈鱼基因组数据库•The fish net - 斑马鱼基因组数据库•Ensembl斑马鱼基因组浏览器线粒体和叶绿体：•GOBASE - 细胞器基因组数据库•MitoDat - 孟德尔遗传和线粒体数据库• C.caldarium - 蓝藻纲PK1菌株叶绿体基因组昆虫•Drosophila Swiss-Prot list - Swiss-Prot中的果蝇链接•FlyBase - 果蝇遗传数据库和分子数据库•BDGP - Berkeley果蝇基因组项目•FlyView - 果蝇图像数据库•Homophila - 人类疾病与果蝇基因对照数据库•蚊子基因组学•AnoDB - 疟蚊数据库•Ensembl蚊子基因组浏览器7、人类突变数据库•HGMD - 人类基因突变数据库•SVD - EBI序列变异数据库•GeneDis - 人类遗传病数据库8、特殊基因和蛋白质数据库•Allergens in Swiss-Prot - Swiss-Prot中过敏反应的命名与索引•Allergome - 过敏症反应分子数据库•Aminoacyl-tRNA synthetases in Swiss-Prot - Swiss-Prot 中氨基化tRNA合成酶列表9、转录后修饰数据库•DSDBASE - 二硫化物数据库 (数据来源于三级结构数据库) •GlycoSuiteDB - 多聚糖结构数据库•LIPID MAPS - 脂类代谢及路径10、系统发生学数据库•COG - 全基因组中编码的蛋白质的系统发生学分类方法•EGO - 真核生物基因分类方法•InParanoid - 真核生物分类11、芯片数据库•ArrayExpress - EBI中芯片数据•ExpressDB - 酵母菌和大肠杆菌表达数据库•GeneX - 基因表达工程12、专利数据库•DPD - DNA专利数据库•Ag Patents - USDA收录的农业工艺专利•Esp@cenet - 欧洲专利事务所专利信息数据库 (世界范围内)13、参考文献(目录数据库)•PubMed Medline server - PubMed查询•AGRICOLA - NAL农业查询数据库•Article@INIST - 科技信息数据库•Korean Journals Abstract db - 韩国杂志摘要数据库•SeqAnalRef - 序列分析文献14、字典, 读物, 课程 ,命名法•BioABACUS - 缩写词•BioTech's life science dictionary生物科技及生命科学字典•DCB - 细胞生物学字典（Julian Dow编写）15、生物软件数据库及目录•CLC Free Workbench - 可在Linux, MacOS X and Windows操作系统上运行的，对DNA、RNA和蛋白质进行算法分析的软件•CLC Protein Workbench - 可在Linux, MacOS X and Windows 操作系统上运行的，对DNA、RNA和蛋白质进行算法分析的软件•BioCatalog - EBI的生物目录16、生命科学资源•Biofind - 生物科技工业信息、评论及新闻•Bioinformatik.de - 生物信息学网页目录17、生物杂志和发行人•生物杂志主页：Swiss-Prot journals list - Swiss-Prot杂志列表• - 电子出版物目录• - 电子期刊目录18、发行人•Allen Press, Inc. - Allen出版社•AMA - 美国医学联合出版物•ACS - 美国化工协会出版物19、生物信息学杂志和通讯•BioInformer - EBI通讯•NCBI Newsletter -NCBI通讯•PDB Quaterly Newsletter - PDB通讯20、基因组通讯•Human Genome Project Information - 人类基因组计划•FGN - 真菌遗传学•Rice Genome Newsletter - 水稻基因组21、其他•IJC - 化学杂志•Plant Gene Register - 植物基因注册22、生物商业杂志•BioCentury - 生物世纪•BioWorld Online - 生物世界•Drug Discovery and Development - 药物发现和发展•GEN - 基因工程新闻23、综合性科学杂志•Nature•New Scientist•La Recherche•Science•Scientific American24、生物学研究机构•APS - 美国缩氨酸社区•ASCB - 美国细胞生物学社区•ASHG - 美国人类遗传学社区25、计算生物学服务器主页欧洲：•EBI - 欧洲生物信息学协会•EMBnet - 欧洲分子生物信息学网•EMBL - EMBL计算生物学机构美国和加拿大：•NCBI - 美国生物学信息中心•ABCC - NCI高级生物医学计算中心•ACGT - Oklahoma大学基因组技术中心亚洲•APBioNet - 亚太生物信息网•BIC-JNU - Jawaharlal Nehru大学生物信息学中心•DIC - Pune (印度)大学生物信息澳洲•APBioNet - 亚太生物信息网•ANGIS - 澳大利亚国家遗传信息服务中心•ANU - 澳大利亚国大学生物信息学研究组•APAF - 澳大利亚蛋白质组分析工具26、其他•HUJI - 耶路撒冷Hebrew大学基因组学和生物信息学服务中心•Weizmann Bioinfo/BCU - Weizmann计算生物学和生物信息学研究协会•SANBI - 南非生物信息学研究协会27、生物公司和制药公司•美国药物研究和制造商目录•Bioportfolio - 生物技术企业•Affymetrix, Inc. - Affymetrix公司28、生物信息公司•Aborygen•Accelrys, Inc•AlgoNomics NV t29、其他链接其他医学查询•HON - 基于网络的健康服务• - 药物网络指南•MedWeb - 医学链接其他科学查询•GPSDB - 基因和蛋白质同义词数据库•Chemcyclopedia Online - 商业化学试剂数据库。

蛋白质数据库使用说明

引言：蛋白质数据是生物信息学领域中非常重要的资源之一，它提供了大量关于蛋白质序列、结构、功能以及相互作用等方面的信息。

本文旨在介绍如何使用蛋白质数据库，帮助用户更好地利用这一资源进行研究。

概述：蛋白质数据库是一个集成了许多蛋白质信息的在线资源，用户可以通过搜索、浏览、等方式获取所需的信息。

其中，常用的蛋白质数据库包括NCBI、UniProt、PDB等。

这些数据库提供了丰富的蛋白质数据，并且不断更新以满足用户需求。

正文内容：1.数据库搜索功能1.1.关键词搜索1.1.1.输入蛋白质名称1.1.2.输入序列片段1.1.3.输入关键词1.2.高级搜索选项1.2.1.提供更精确的搜索结果1.2.2.支持过滤和排序功能1.2.3.可以根据相关字段进行搜索2.数据库浏览功能2.1.蛋白质分类2.1.1.按物种分类2.1.2.按功能分类2.1.3.按家族分类2.2.数据表格浏览2.2.1.查看蛋白质基本信息2.2.2.查看蛋白质序列2.2.3.查看蛋白质结构2.3.数据图谱浏览2.3.1.查看蛋白质相互作用网络2.3.2.查看蛋白质结构域分布2.3.3.查看蛋白质功能注释3.数据库功能3.1.蛋白质序列数据3.1.1.全部序列3.1.2.特定物种的序列3.2.蛋白质结构数据3.2.1.已解析的蛋白质结构3.2.2.蛋白质结构预测结果3.3.蛋白质相互作用数据3.3.1.已验证的相互作用数据3.3.2.预测的相互作用数据4.数据库工具与资源4.1.序列比对工具4.1.1.BLAST4.1.2.PSIBLAST4.2.结构预测工具4.2.1.SWISSMODEL4.2.2.Phyre24.3.功能注释资源4.3.1.GeneOntology4.3.2.InterPro4.4.数据库交互接口4.4.1.提供API接口4.4.2.支持数据提交与5.数据库更新与维护5.1.数据更新频率5.2.数据质量保证5.3.用户反馈与支持5.4.数据库版本与历史记录总结：蛋白质数据库为研究人员提供了丰富的蛋白质信息资源，通过搜索、浏览、等功能，用户可以轻松地获取需要的数据。

SMART：蛋白质结构域数据库

SMART：蛋⽩质结构域数据库SMART是蛋⽩结构域的数据库，该数据库最新版本为v8,收录了1300多个蛋⽩结构域信息，覆盖了来⾃uniprot, ensembl等多个数据库的蛋⽩。

官⽹如下http://smart.embl-heidelberg.de/该数据库有以下两种模式1. normal2. genomicnormal模式下包含了所有uniprot, ensembl的蛋⽩质信息，这些蛋⽩序列是存在冗余的，genomic模式下只包含了拥有完整蛋⽩质组的物种的信息。

两种模式可以通过SETUP菜单进⾏切换，通过颜⾊可以辨别所处的模式，⽰意如下通过右上⾓的Search SMART按钮，可以检索该数据库，⽀持以下蛋⽩名称和domain两种检索⽅式。

输⼊uniprot或者ensembl 数据库中的蛋⽩ID进⾏检索，⽰例如下，根据uniprot数据库中的蛋⽩ID C1S_HUMAN进⾏检索http://smart.embl-heidelberg.de/smart/show_motifs.pl?ID=C1S_HUMAN检索页⾯包含如下结果1. domian 结构图从图中，可以看出，该蛋⽩质包括以下5种domain1. CUB2. EGF_CA3. CCP4. Tryp_SPc还提供了每个结构域的位置信息2. 蛋⽩质相互作⽤提供了来⾃STRING数据库的蛋⽩相互作⽤信息，⽰意如下3. pathway 信息提供了Metabolic pathway 和 Kegg pathway 两个数据库的通路注释信息，⽰意如下4. orthology group 注释提供了来⾃eggNOG数据库的注释信息，⽰意如下5. 转录后修饰提供了来⾃PTM数据库的转录后修饰信息，⽰意如下按照domain进⾏检索，⽰例如下，根据domian名称CUB进⾏检索。

对于每个domain, 采⽤SM开头的编号唯⼀标识，同时提供了和其他数据库的关联信息，还⽀持下载多序列⽐对的结果。

蛋白质数据库

蛋⽩质数据库
⼀、蛋⽩质数据库
》序列数据库：Uniprot (蛋⽩质序列和具有综合功能注释⽬录的中⼼资源库)
PIR （提供蛋⽩质序列数据和分析⼯具）
》结构数据库：PDB （实验测定的⽣物⼤分⼦三维结构）
MMDB
》模体及结构域数据库：PROSITE (蛋⽩质序列功能位点数据库)
Pfom (使⽤基于隐马模型的多序列⽐对对蛋⽩质进⾏家族分类) 》蛋⽩质分类数据库：SCOP （提供已知结构蛋⽩质间的结构和进化关系信息）
CAHT
HSSP
DSSP
⼆、蛋⽩质组数据库
》SWEISS PROT 2DE PAGE / neXtProt / PaxDb / PeptideAtlas / PRIDE
涉及不同⽣物、不同器官、组织、细胞的蛋⽩质图谱数据
三、蛋⽩质互作组数据库
》HPRD / DIP / INTERACT
四、综合型数据库
》ExPASy。

蛋白质组学研究中常用的网站和数据库

蛋白质组学研究中常用的网站和数据库蛋白质, 数据库, 研究本帖引用网址：/thread-35586-1-1.html一、蛋白质数据库1.UniProt (The Universal Protein Resource) 网址：//uniprot/简介：由EBI(欧洲生物信息研究所)、PIR(蛋白信息资源)和SIB(瑞士生物信息研究所)合作建立而成，提供详细的蛋白质序列、功能信息，如蛋白质功能描述、结构域结构、转录后修饰、修饰位点、变异度、二级结构、三级结构等，同时提供其他数据库，包括序列数据库、三维结构数据库、2-D凝聚电泳数据库、蛋白质家族数据库的相应链接。

2.PIR(Protein Information Resource) 网址：/简介：致力于提供及时的、高质量、最广泛的注释，其下的数据库有iProClass、PIRSF、PIR-PSD、PIR-NREF、UniPort，与90多个生物数据库(蛋白家族、蛋白质功能、蛋白质网络、蛋白质互作、基因组等数据库)存在着交叉应用。

3.BRENDA(enzyme database) 网址：简介：酶数据库，提供酶的分类、命名法、生化反应、专一性、结构、细胞定位、提取方法、文献、应用与改造及相关疾病的数据。

4.CORUM(collection of experimentally verifiedmammalian protein complexes) 网址：http://mips.gsf.de/genre/proj/corum/index.html简介：哺乳动物蛋白复合物数据库，提供的数据包括蛋白复合物名称、亚基、功能、相关文献等5.CyBase(cyclic protein database) 网址：.au/cybase简介：环状蛋白数据库，提供环状蛋白的序列、结构等数据，提供环化蛋白预测服务。

6.DB-PABP 网址：/DB_PABP/简介：聚阴离子结合蛋白数据库。

蛋白质结构分类数据库SCOP

蛋白质结构分类数据库SCOP蛋白质结构分类数据库（structural classification of protein，SCOP）是对已知结构蛋白分质进行分类的数据库，根据不同蛋白质的氨基酸组成及三级结构的相似性，详细描述已知结构蛋白间的功能及进化关系。

SCOP数据库的构建除了使用计算机程序外，主要依赖于人工验证。

SCOP数据库建立于1994年，由英国医学研究委员会（Medical Research Council，简称MRC）的分子生物学实验室和蛋白质工程研究中心开发和维护,可以通过MRC实验室的网络服务器查询,数据库中信息主要由Alexdi G Murzin和其同事每年更新。

目前SCOP数据库的最新版本是2009年2月23日发布的1.75版，在该版本中共含有38 221个已有结构的蛋白质以及110 800个蛋白质结构域，下表中为SCOP 数据库最新版本中详细的信息统计。

在SCOP数据库中，按照从简单到复杂的顺序对蛋白质进行分类，分类基于四个层次，位于分类层次顶部的是类（Class），之后依次为家族（Family），超家族（Supper family）、折叠类型（Fold）、蛋白质结构域（protein domain）、单个PDB蛋白质结构记录。

SCOP数据库可以通过其分级结构导航进行浏览，用关键字、PDB标志码查询，或通过一个蛋白质序列进行同源搜索。

在各个分类层次中，家族用来描述相近的蛋白质进化关系,其依据为序列相似性程度。

通常将相似性程度在30%以上的蛋白质归入同一家族，即它们之间有比较明确的进化关系。

当然这一指标也并非绝对。

某些情况下，尽管序列的相似性低于这一标准，例如某些球蛋白家族的序列相似性只有15%，也可以从结构和功能相似性推断它们来自共同祖先。

超家族用来描述远源的进化关系,如果序列相似性较低，但其结构和功能特性表明它们有共同的进化起源，则将其视作超家族。

折叠类型用来描述空间的几何关系，无论有无共同的进化起源，只要二级结构单元具有相同的排列和拓扑结构，即认为这些蛋白质具有相同的折叠方式。

UniProt：蛋白质的全信息数据库

我们的目的是用广泛的对照和询问接口来提供一个全面的，分类完全的，丰富并且准确的蛋白质序列信息。

中心数据库将有两个部分：符合熟悉的瑞士－Prot(完全手工操作入口)和TrEMBL(使用丰富的自动化的分类，注释和广泛的对照)。

为方便序列查寻，UniProt也提供几个无冗余的序列数据库。

UniProt NREF(UniRef)数据库为高效率的搜寻提供适当的蛋白质的全信息数据库的代表性的子集。

全面的UniProt 档案(UniParc)每天从很多公共来源数据库更新。

数据库那些UniProt接口可在线访问()或者以几个形式下载(ftp：///pub)。

我们鼓励科学界人士向UniProt 提供数据。

介绍近来，瑞士-Prot + TrEMBL和PIR-PSD如同蛋白质数据库不同的序列信息覆盖面和注释优势共存。

2002年，在生物信息科学(SIB)的瑞士研究所和欧洲生物信息科学研究所的瑞士-Prot + TrEMBL 组 (EBI)和蛋白质信息资源(PIR)组织在乔治敦大学医学中心和国家生物医学的研究基金会联合协作。

新联合的组织的主要任务是通过建立一个综合，详细分类，丰富并且准确注释蛋白质序列的优质的数据库和广泛序列对比和询问服务的到科学团体免费接口—knowledgebase来支持生物学的研究。

UniProt 将在组织成员多年合作的坚实基础上建立起来。

UniProt 数据库包括3 个数据库层：1、UniProt 档案(UniParc)，通过储存全部可公开得到的蛋白质序列数据供一个稳定，综合，无冗余的序列收集。

蛋白结构数据库资料

SCOP首先从总体上将蛋白质进行分类，例如全型，全型，以平行折叠为主的/型，以反平行折叠为主的+型等。
例如： SCOP1.73版本有46456个全型蛋白质，该结构类型下有258个折叠类。在这258个折叠类中的第一个超家族是类球蛋白；类球蛋白又包含4个家族，其中第一个家族包含6个结构域；每个结构域下面有很多蛋白质成员。
HETSYN FORMUL HELIX SHEET TURN SSBOND
非标准残基的同义字非标准残基化学式螺旋折叠转角有二硫键存在
LINK
残基间化学键
HYDBND SLTBRG CISPEP SITE CRYST1 ORIGXn SCALEn MTRIXn TVECT
氢键盐桥顺势残基特性位点晶胞参数直角－PDB坐标直角部分结晶学坐标非晶相对称转换因子
③通过命令行方式。
(9)蛋白质三维立体结构图像的输出
习题： 1. PDB和RSCB的中英文全称分别是什么？ 2. PDB中的数据主要来源于哪两种实验测定的生物大分子三维结构？ 3. PDB中的每条记录有哪两种序列信息？ 4. PDB记录中的EXPDTA，HELIX，SSBOND
各代表什么含义？
4.3.2 MMDB数据库
(2)DSSP的输出文件 1adz.dssp
(3)DSSPcont查询 /services/DSSPcont/
习题：
1. MMDB，SCOP和DSSP的中英文全称分别是什么？ 2. DSSP数据库中二级结构共分为几类，分别代表什么？ 3. 简要描述一下SCOP数据库的分类层次。
PDB数据库的详细字段说明如下：
HEADER OBSLTE 分子类，公布日期，ID号注明该ID号已改为新号

UniProt：蛋白质的全信息数据库

我们的目的是用广泛的对照和询问接口来提供一个全面的，分类完全的，丰富并且准确的蛋白质序列信息。

中心数据库将有两个部分：符合熟悉的瑞士－Prot(完全手工操作入口)和TrEMBL(使用丰富的自动化的分类，注释和广泛的对照)。

为方便序列查寻，UniProt也提供几个无冗余的序列数据库。

UniProt NREF(UniRef)数据库为高效率的搜寻提供适当的蛋白质的全信息数据库的代表性的子集。

全面的UniProt 档案(UniParc)每天从很多公共来源数据库更新。

数据库那些UniProt接口可在线访问()或者以几个形式下载(ftp：///pub)。

我们鼓励科学界人士向UniProt 提供数据。

介绍近来，瑞士-Prot + TrEMBL和PIR-PSD如同蛋白质数据库不同的序列信息覆盖面和注释优势共存。

UniProt 将在组织成员多年合作的坚实基础上建立起来。

UniProt 数据库包括3 个数据库层：1、UniProt 档案(UniParc)，通过储存全部可公开得到的蛋白质序列数据供一个稳定，综合，无冗余的序列收集。

蛋白质数据库

– Structure prediction( Sequence-> Structure->Function) – Protein( Gene) network (2D gel)
Based on sequence!
3
蛋白质序列数据库
PIR（Protein Information Resource)
Domain Interaction ?? Domain and Function ??
Challenge III
P2P
Pathway and Networks ??
Generalized Proteomics Scheme
Total Proteins (Proteome) Separation Identification
23
练习一
• 利用PIR查询KCNJ2的信息。
24
SWISS-PROT
UniProt：(Universal Protein Resource) /
“ the world’s most comprehensive catalog of information on proteins!!!”
面临挑战
Challenge I sequence, structure and function
Sequence space Structure space Function space
2,000,000
20,000
30,000
(function by GO)
Challenge II the building blocks
UniProtKB(UniProt Knowledgebase)
有详细注释并与其他数据库及文献有链接的数据库。分为 UniProtKB/SWISS-PROT 与UniProtKB/TrEMBL两部分。

蛋白质结构域数据库

胞外末端： Asp （天冬氨酸）、 Ser （丝氨酸）和 Pro （脯氨酸）胞外-内分界区：Trp（色氨酸）跨膜区：Leu（亮氨酸）、Ile（异亮氨酸）、Val（缬氨酸）、Met（甲硫氨酸）、Phe（苯丙氨酸）、Trp（色氨酸）、 Cys （半胱氨酸）、Ala（丙氨酸）、 Pro（脯氨酸）和Gly（甘氨酸）胞内-外分界区：Tyr（络氨酸）、 Trp（色氨酸）和Phe（苯丙氨酸）胞内末端：Lys（赖氨酸）和Arg（精氨酸）
5
课程安排

一、蛋白质理化性质分析

使用工具：Protparam
使用工具：TMpred 使用工具：PredictProtein 使用工具：InterProScan 使用工具：SWISS-MODEL/SWISS-PdbViewer
二、跨膜区分析

三、二级结构分析

四、结构域分析

五、蛋白质三级结构分析

26
蛋白质二级结构分析工具
工具 BCM Search Launcher HNN 网站 / 备注包括了常见的蛋白质结构分析程序入口，一般分析可以以此服务器作为起点 http://npsa-pbil.ibcp.fr/cgi基于神经网络的分析工具， bin/npsa_automat.pl?page=npsa_nn.html 含序列到结构过程和结构到结构处理 /~www- 基于 Jnet 神经网络的分析程 jpred/submit.html 序，并采用 PSI-BLAST 来构建序列 Profile 进行预测，对于序列较短、结构单一的蛋白预测较好 /~nomi/ 预测蛋白质序列中潜在的亮 nnpredict.html 氨酸拉链结构和卷曲螺旋 http://bioweb.pasteur.fr/seqanal/interfaces 基于双层前反馈神经网络为 /nnssp-simple.html 算法，还考虑到蛋白质结构分类信息 http://bioweb.pasteur.fr/seqanal/interfaces 预测时考虑了氨基酸残基间 /predator-simple.html 的氢键

第03讲蛋白质数据库

of Protein
PIR
PIR-PSD是第一个国际蛋白质序列数据库，它从‘Atlas
Sequence and Structure’发展而来。
PIR-PSD是一个全面的、经过注释的、非冗余的蛋白质序列数据库。
‘SwissProt数据库’
由瑞士日内瓦大学生物化学系与1978年创建，之后与EMBL合作，由
(H)序列的矛盾、变化等。
‘SwissProt数据库’
SwissProt数据库的特征
④ 最小冗余：尽量将相关的数据归并，降低数据库的冗余程度。如果不同来源的原始数据有矛盾，则在相应序列特征表中加以注释。 ⑤ 与其它数据库的连接：对于每一个登录项，有许多指向其它数据库相关数据的指针，这便于用户迅速得到相关的信息。现有的交叉索引有：到EMBL核酸序列数据库的索引，到生物大分子结构数据库PDB的索引等
UniProt
UniProt是一个集中收录蛋白质资源并能与其它资源
相互联系的数据库，也是目前为止收录蛋白质序列目录最广泛、功能注释最全面的一个数据库。
UniProt数据库的四大组成
UniProt数据库的四大组成
UniProt针对不同的用户，UniProt分三个层次: (1) UniProt Knowledgebase (UniProtKB)（ UniProt知识库）包含蛋白质序列、功能、分类、交叉引用等信息存取中心。由部分组成： ① UniProtKB/Swiss-Prot ② UniProtKB/TrEMBL ③ PIR-PSD (2) UniProt Reference Clusters (UniRef) （ UniProt 参考资料库）:将相近的或者密切相关的蛋白质序列整合为单个记录，加快检索速度。 (3) UniProt Archive (UniParc) （ UniProt档案）：记录了最完整的信息，反映了所有蛋白质序列的历史。

蛋白质常用数据库一文看懂!

蛋白质常用数据库|一文看懂！蛋白质数据库是指专门存储蛋白质相关信息的数据库。

它们收集、整理和存储大量的蛋白质数据，包括蛋白质序列、结构、功能、互作关系、表达模式、疾病关联等信息。

蛋白质数据库提供了对这些数据的检索、查询和分析功能，为科学研究人员、生物信息学家和药物研发人员等提供了重要的资源。

蛋白质数据库的内容通常来自于实验室实际测定的蛋白质数据，如蛋白质序列测定、结晶学、核磁共振、质谱等技术获得的数据。

这些数据经过验证和标准化后，被整合到数据库中，使研究者能够方便地访问和利用这些数据进行各种研究工作。

下面是笔者总结的常用蛋白质数据库及网址，供大家参考。

⓪BioXFinder：BioXFinder是国内第一个也是唯一一个生物数据库：收录50多万条高质量的、整合多个来源数据，手工注释的非冗余的蛋白质信息，包含蛋白质的基本信息、序列、序列特征、功能、名称和谱系、亚细胞定位、疾病与变异、翻译后修饰、表达、相互作用等信息。

蛋白结构库：收录19多万条经过X射线单晶衍射、核磁共振、电子衍射等实验手段确定的蛋白质结构数据。

包括蛋白3D结构、基本信息、实验数据、参考文献等。

①UniProt：UniProt是一个综合性的蛋白质数据库，提供了大量蛋白质的序列、结构、功能、互作关系和注释信息。

它整合了多个来源的数据，包括Swiss-Prot、TrEMBL和PIR数据库。

②Protein Data Bank (PDB)：PDB是存储蛋白质和其他生物大分子结构的数据库。

它提供了实验确定的蛋白质结构的三维坐标数据，可用于结构生物学研究、药物设计和分子模拟等领域。

③NCBI Protein：NCBI Protein是美国国家生物技术信息中心（NCBI）提供的蛋白质数据库，包含了大量的蛋白质序列数据，可以进行蛋白质的基本信息查询和比对分析。

④Ensembl：Ensembl是一个综合性的基因组注释数据库，包含了多个物种的基因组序列、基因结构、转录本和蛋白质信息。

第三章蛋白质数据库

36
/
PIR数据库特点是：全面的、经过注释的、非冗余的蛋白质序列数据库，包括了来自几十个完整基因组的蛋白质序列。所有序列数据都经过整理，超过 99%的序列已按蛋白质家族分类，一半以上还按蛋白质超家族进行了分类。
1、PIRSF：蛋白质分类
PIRSF将蛋白质家族归为三类：
2、Gene
3、肽酶数据库
MEROPS /
第二节蛋白质结构数据库
一、蛋白质结构数据库PDB • 早在序列数据库诞生之前的70年代，蛋白质结构数
据库(Protein Data Bank，简称PDB)就已经问世。 PDB数据库原来由美国Brookhaven国家实验室负责维护和管理。 • 1998年，由美国国家科学基金委员会、能源部和卫生研究院资助，成立了结构生物学合作研究协会 (Research Collaboratory for Structural Bioinformatics ，RCSB)。PDB数据库改由RCSB管理。
3.16 MG2+
ENDMDL
空行
亚基结束
相关化合物 CONECT
1179 746 1184 1195 1203
有关记录
版权 *MASTER
40 0 0 0 0 0 0 62930 2 0 29
版权拥有者
结束符 *END
空行
文件结束
二、结构浏览器
1、RasMol和基于RasMol的浏览器
2、MMDB浏览器：Cn3D
二硫键
LINK
O1 DDA 1 C3 DDL 2
残基间化学键
连接键注释 HYDBND
N LEU 10 AO3* NDP 501
氢键
SLTBRG
O GLU 10 NZ LYS 115

生物信息学名词解释

1.生物信息学：研究大量生物数据复杂关系的学科，其特征是多学科交叉，以互联网为媒介，数据库为载体。

利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析，并以生物学知识对结果进行解释。

2.二级数据库：在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来，是对生物学知识和信息的进一步的整理。

序列格式：是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串，大于号（>）表示一个新文件的开始，其他无特殊要求。

序列格式：是GenBank 数据库的基本信息单位，是最为广泛的生物信息学序列格式之一。

该文件格式按域划分为4个部分：第一部分包含整个记录的信息（描述符）；第二部分包含注释；第三部分是引文区，提供了这个记录的科学依据；第四部分是核苷酸序列本身，以“询序列（query sequence）：也称被检索序列，用来在数据库中检索并进行相似性比较的序列。

P988.打分矩阵（scoring matrix）：在相似性检索中对序列两两比对的质量评估方法。

包括基于理论（如考虑核酸和氨基酸之间的类似性）和实际进化距离（如PAM）两类方法。

P299.空位（gap）：在序列比对时，由于序列长度不同，需要插入一个或几个位点以取得最佳比对结果，这样在其中一序列上产生中断现象，这些中断的位点称为空位。

P2910.空位罚分：空位罚分是为了补偿插入和缺失对序列相似性的影响，序列中的空位的引入不代表真正的进化事件，所以要对其进行罚分，空位罚分的多少直接影响对比的结果。

P37值：衡量序列之间相似性是否显着的期望值。

E值大小说明了可以找到与查询序列（query）相匹配的随机或无关序列的概率，E值越接近零，越不可能找到其他匹配序列，E值越小意味着序列的相似性偶然发生的机会越小，也即相似性越能反映真实的生物学意义。

P9512.低复杂度区域：BLAST搜索的过滤选项。

指序列中包含的重复度高的区域，如poly（A）。

分子生物学中常用数据库

分子生物学中常用数据库综合数据库：来源：/news/science/article/90048.html生物信息学网址链接：http://www.bioinformatics.ca/links_directory/Nucleic Acid Research Database Issue：/content/vol32/suppl_2/一、蛋白相关数据库蛋白质结构域预测工具Esignal：/esignal/信号传导系统蛋白的结构域预测工具，凡是涉及到信号传导系统的蛋白用这个预测效果最佳SignalP：http://www.cbs.dtu.dk/services/SignalP/信号肽预测工具，适合定位于非胞质位置的蛋白质Emotif：/emotif-search/结构域预测工具，由于其用motif电子学习的方法产生结构域模型，故预测效果比Prosite好Ematrix：/ematrix/是用Matrix的方法创建的结构域数据库，可与emotif互相印证。

其速度快，可快速搜索整个基因组InterPro：/InterProScan/EBI提供的服务，用图形的形式表示出搜索的结构域结果TRRD：http://wwwmgs.bionet.nsc.ru/mgs/gnw/trrd/转录因子结构域预测的最好数据库。

但不会用Protscale：/cgi-bin/protscale.pl可分析该序列的各种性状如活动度、亲水性（Kyte&Doolittle）、抗原性（Hopp&Woods）等通过寻找MOTIF和Domain来分析蛋白质的功能A. MOTIF是蛋白中较小的保守序列片断，其概念比Domain小PROSITE：/tools/scanprosite/是专门搜索蛋白质Motif的数据库，其中signature seqs是最重要的motif信息B. Domain：若干motif可形成一个Domain，每个Domain形成一个球形结构，Domain与Domain之间通常像串珠一样相连Pfam：可以搜索某段序列中的Domain，并以图形化表示出来。

蛋白质家族和结构域

1蛋白质家族和结构域数据库1.1蛋白质模体及结构域数据库模体和结构域PROSITE数据库PRINTS数据库BLOCKS数据库ProDom数据库Pfam数据库SMART数据库InterPro数据库Conserved Domain数据库CDART模体（motifs）和结构域（domains）：Biologists can gain insight of the protein function based on identification of short consensus sequences related to known functions. These consensus sequence patterns are termed motifs and domains.A motif is a short conserved sequence pattern associated with distinct functions of a protein or DNA.It is often associated with a distinct structural site performing a particular function.A typical motif, such as a Zn-finger motif, is ten to twenty amino acids long.A domain is also a conserved sequence pattern, defined as an independent functional and structural unit.Domains are normally longer than motifs.A domain consists of more than 40 residues and up to 700 residues, with an average length of 100 residues.A domain may or may not include motifs within its boundaries.Examples，transmembrane domains， ligand-binding domains.Identification of motifs and domains heavily relies on multiple sequence alignment as well as profile and hidden Markov model (HMM) constructionPROSITE（蛋白质家族及结构域数据库）：The first established sequence pattern database /prosite/是蛋白质家族和结构域数据库，包含具有生物学意义的位点、模式、可帮助识别蛋白质家族的统计特征。

蛋白结构数据库

MODEL
多亚基时显示亚基号
ATOM SIGATM ANISOU SIGUIJ TER HETATM ENDMDL CONECT MASTER END
标பைடு நூலகம்基团的原子坐标标准差温度因子各种温度因素导致的标准差链末端非标准基团原子坐标亚基结束原子间的连通性有关记录版权拥有者文件结束
6.结构模型显示软件 RasMol
SCOP数据库除了提供蛋白质结构和进化关系信息外，对于每一个蛋白质还包括下述信息：到PDB的链接，序列，参考文献，结构的图像等。
SCOP的结构分类主要是通过人工来完成的，通过图形显示器观察和比较蛋白质结构，并借助于一些软件工具进行分析。
2.分类的层次结构 (1)家族：
具有明显进化关系的蛋白质聚集到一个家族中，意味着两个蛋白质之间的等同氨基酸残基数超过30%。然而，在某些情况下，虽然两个蛋白质序列不相似，但它们具有相似的结构和相似的功能，表明属于同一个家族。
(4)下载并安装Cn3D软件。
(5)开始→程序→NCBI→Cn3D→Cn3D4.1 注：MMDB采用ASN.1的记录格式，而非PDB格式。
4.3.3 SCOP数据库
1.简介
蛋白质结构分类数据库SCOP (Structural Classification of Proteins)的目标是提供关于已知结构蛋白质之间的结构和进化关系的信息，所涉及的蛋白质包括结构数据库PDB中的所有条目。
HETSYN FORMUL HELIX SHEET TURN SSBOND
非标准残基的同义字非标准残基化学式螺旋折叠转角有二硫键存在
LINK
残基间化学键
HYDBND SLTBRG CISPEP SITE CRYST1 ORIGXn SCALEn MTRIXn TVECT

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

计算相应肽段的pI和分子量
利用蛋白质序列统计分析方法给出待测蛋白的物理化学信息
8
ProtParam工具
基于蛋白质序列的组分分析
氨基酸亲疏水性等分析为高级结构预测提供参考
Expasy 开发的针对蛋白质基本理化性质的分析：
Protparam 工具 /tools/protparam.html
计算以下物理化学性质： •相对分子质量 •氨基酸组成 •等电点（PI） •消光系数 •半衰期 •不稳定系数 •总平均亲水性 ……
9
主要选项/参数
如果分析SWISS-PORT和TrEMBL数据库中序列
直接填写Swiss-Prot/TrEMBL AC号(accession number)
如果分析新序列：
数据：C:\ZCNI\shixi4\protein.txt
14
二、蛋白质跨膜区分析
(a)-Type I membrane protein
(b)-Type II membrane protein
(c)-Multipass transmembrane proteins
(d)-Lipid chain-anchored membrane proteins
<40 stable >40 unstable
注意：ProtParam没有考虑蛋白质翻译后修饰、蛋白质多聚体等情况，故用户在预测和分析此类特定蛋白质的基本理化性质时需要仔细审视反馈结果。
13
练习一：ProtParam
/tools/protparam.h tml
备注
利用未知蛋白质的氨基酸组成确认具有相同组成的已知蛋白
计算蛋白质序列的等电点和分子量
对氨基酸序列多个物理和化学参数（分子量、等电点、吸光系数等）进行计算
PeptideMass SAPS
/tools/peptide-mass.html
http://www.isrec.isbsib.ch/software/SAPS_form.html
直接在搜索框中粘贴氨基酸序列
输入Swiss-Prot/TrEMBL AC号
打开protein.txt，
将蛋白质序列
粘贴在搜索框中
10
氨基酸数目相对分子质量理论 pI 值
氨基酸组成
返回结果
正/负电荷残基数
11
原子组成分子式
总原子数消光系数
半衰期
E(Prot) = Num(Tyr)*Ext(Tyr) + Num(Trp)*Ext(Trp) + Num(Cystine)*Ext(Cystine)
7
蛋白质理化性质分析工具
工具
AACompldent
网站
/tools/aacomp/
Compute pI/Mw /tools/piaram.html
proteins in water measured at 280 nm: Ext(Tyr) = 1490, Ext(Trp) = 5500, Ext(Cystine) = 125
Absorb(Prot) = E(Prot) / Molecular_weight
12
不稳定系数
脂肪系数总平均亲水性
17
工具 DAS
HMMTOP
SOSUI TMAP TMHMM TMpred
TopPred
常用蛋白质跨膜区域分析工具
(e)-GPI-anchored membrane proteins
15
蛋白质跨膜区特性
典型的跨膜螺旋区主要是由20~30个疏水性氨基酸（Leu、Ile、Val、Met、Gly、Ala等）组成；
亲水残基往往出现在疏水残基之间，对功能有重要的作用；
基于亲/疏水量和蛋白质跨膜区每个氨基酸的统计学分布偏好性。
5
课程安排
一、蛋白质理化性质分析
使用工具：Protparam
二、跨膜区分析
使用工具：TMpred
三、二级结构分析
使用工具：PredictProtein
四、结构域分析
使用工具：InterProScan
五、蛋白质三级结构分析
使用工具：SWISS-MODEL/SWISS-PdbViewer
蛋白质序列信号位点分析蛋白质结构域分析
蛋白质三维结构模拟
3
蛋白质结构预测过程
蛋白质理化性质和一级结构
ORF翻译蛋白质序列
实验数据
数据库搜索
结构域匹配
已知结构的同源蛋白？
有
同源建模
无二级
结构预测
有
串线法
三维结构模型
可用的折叠模型？
无
从头预测
4
ExPASy（Expert Protein Analysis System）Tools （/tools/）
数据： C:\ZCNI\shixi4\protein.txt
6
一、蛋白质基本理化性质分析
蛋白质理化性质是蛋白质研究的基础
蛋白质的基本性质：
相对分子质量等电点（pI）
氨基酸组成消光系数
半衰期
不稳定系数
总平均亲水性 ……
实验方法：
• 相对分子质量的测定、等电点实验、沉降实验 • 缺点：费时、耗资
基于实验经验值的计算机分析方法
蛋白质结构与功能预测
DNA sequence Protein sequence Protein structure Protein function
2
蛋白质序列分析主要内容
蛋白质序列分析
蛋白质一级序列
蛋白质二级结构蛋白质超二级结构蛋白质三级结构
蛋白质基本理化性质分析蛋白质亲疏水性分析跨膜区结构预测翻译后修饰位点预测蛋白质二级结构预测
16
跨膜蛋白序列“边界”原则
胞外末端：Asp（天冬氨酸）、Ser（丝氨酸）和Pro （脯氨酸）
胞外-内分界区：Trp（色氨酸）跨膜区：Leu（亮氨酸）、Ile（异亮氨酸）、Val（缬氨
酸）、Met（甲硫氨酸）、Phe（苯丙氨酸）、Trp（色氨酸）、Cys（半胱氨酸）、Ala（丙氨酸）、Pro（脯氨酸）和Gly（甘氨酸）胞内-外分界区：Tyr（络氨酸）、 Trp（色氨酸）和Phe（苯丙氨酸）胞内末端：Lys（赖氨酸）和Arg（精氨酸）

蛋白质结构域数据库

生物信息研究中常用蛋白质数据库的总结

蛋白质数据库

蛋白质数据库使用说明

SMART：蛋白质结构域数据库

蛋白质数据库

蛋白质组学研究中常用的网站和数据库

蛋白质结构分类数据库SCOP

UniProt：蛋白质的全信息数据库

蛋白结构数据库资料

UniProt：蛋白质的全信息数据库

蛋白质数据库

蛋白质结构域数据库

第03讲蛋白质数据库

蛋白质常用数据库一文看懂!

第三章 蛋白质数据库

生物信息学名词解释

分子生物学中常用数据库

蛋白质家族和结构域

蛋白结构数据库

第三章蛋白质数据库