生物信息学蛋白质序列数据库包其郁
生物信息研究中常用蛋白质数据库的总结
生物信息研究中常用蛋白质数据库简述内蒙古工业大学理学院呼和浩特孙利霞2010.1.5摘要:在后基因组时代生物信息学的研究当中,离不开各种生物信息学数据库。
尤其在蛋白质从序列到功能的研究当中,目前各种行之有效的方法都是基于各种层次和结构的蛋白质数据库。
随着计算机技术及网络技术的发展,目前的蛋白质数据库不论是所包含数据量还是功能都日新月异,新的数据库层出不穷。
一个新手面对如此浩瀚的数据量往往无从下手。
本文粗浅地为目前蛋白质数据库的使用勾画出一个轮廓,作为自己蛋白质研究入门的一个引导。
关键词:蛋白质;数据库0 引言随着科技的发展,个人的知识往往赶不上快速膨胀的信息量,人们为了解决这个问题,便创建了形形色色的数据库。
蛋白质数据库是指:在蛋白质研究领域根据实际需要,对蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释,构建出具有特殊生物学意义和专门用途的数据库。
蛋白质数据库总体上可分为两大类:蛋白质序列数据库和蛋白质结构数据库,蛋白质序列数据库来自序列测定,结构数据库来自X-衍射和核磁共振结构测定(详见图1)。
这些数据库是分子生物信息学的基本数据资源。
上世纪90年代,我国从事蛋白质研究的学者使用的蛋白质数据库储存介质还是国外实验室发布的激光光盘[1]。
信息的传播储存甚为不便。
随着蛋白质研究的发展飞快,同时伴随着计算机和因特网发展,蛋白质数据库的储存传播方式也发生的巨大的变化。
进入21世纪后,我们所用的各种蛋白质数据库都发展成为存储在网络服务器上,基于“服务器—客户机”的访问查询方式。
伴随着计算机及物理测试技术的发展数据库的容量和功能成数量级膨胀。
但是面对如此浩瀚的数据,新手往往感到无从下手,在需要时找不到自己需要的合适数据库。
本文从目前蛋白质数据库建立的的逻辑层次出发,系统地简绍了常用蛋白质数据的概况,它们的查询方法以及它们相互之间的联系。
同时尽量不涉及数据库建设和维护方面的计算机和网络这些数据库底层的技术,为蛋白质研究的入门者及对蛋白质感兴趣的人员的一个引导。
3第三章蛋白质数据库及蛋白质序列分析
杭州师范大学生命与环境科学学院 向太和
三、蛋白质二级结构预测 网站(数据库) 网站(数据库)
生物信息学
杭州师范大学生命与环境科学学院 向太和
1、蛋白质回环数据库,网址 蛋白质回环数据库, /loop
生物信息学
杭州师范大学生命与环境科学学院 向太和
生物信息学
杭州师范大学生命与环境科学学院 向太和
3、PIR数据库: PIR数据库: 数据库
PIR数据库的数据最初是由美国国家生物医学研究基金会 PIR数据库的数据最初是由美国国家生物医学研究基金会 数据库 (National Biomedical Research Foundation, NBRF)收集的 NBRF) 蛋白质序列,主要翻译自GenBank的DNA序列。 蛋白质序列,主要翻译自GenBank的DNA序列。 GenBank 序列 1988年 美国的NBRF、日本的JIPID( 1988年,美国的NBRF、日本的JIPID(the Japanese NBRF JIPID Database日本国家蛋白质信息 International Protein Sequence Database日本国家蛋白质信息 数据库)、德国的MIPS(Munich Information Centre for 数据库)、德国的MIPS( )、德国的MIPS Sequences摹尼黑蛋白质序列信息中心 合作, 摹尼黑蛋白质序列信息中心) Protein Sequences摹尼黑蛋白质序列信息中心)合作,共同收 集和维护PIR数据库。PIR根据注释程度(质量)分为4个等级。 集和维护PIR数据库。PIR根据注释程度(质量)分为4个等级。 PIR数据库 根据注释程度
生物信息学
杭州师范大学生命与环境科学学院 向太和
Uniprot数据库介绍及信息检索下载指南
UniProt数据库一、UniProt数据库简介蛋白质组常用数据库——UniProt数据库,是信息最丰富、资源最广的蛋白质数据库。
它由Swiss-Prot、TrEMBL 和PIR-PSD三大数据库的数据整合而成,数据主要来自于基因组测序项目完成后,后续获得的蛋白质序列,并包含了大量来自文献的蛋白质生物功能的信息。
一般蛋白质组搜库首选数据库也是UniProt,所以对于通过UniProt库搜库的组学数据,可以在此网站中进行蛋白功能查询。
UniProt数据库可以提供的信息包括蛋白功能描述、GO条目、细胞定位、组织特异性表达情况、生理病理情况描述、互作蛋白、Domain、翻译后修饰位点等信息。
蛋白的信息描述段落均会标出引用文章,并且可以跳转到PubMed界面进行浏览。
UniProt 数据库由UniProt 知识库(UniProtKB )、UniProt 档案(UniParc )、UniProt 参考资料库(UniRef)以及UniProt元基因组学与环境微生物序列数据库(UniMES)构成。
UniProtKB全称 UniProt Knowledgebase(UniProt知识库)它是经过专家校验的数据集,主要由两部分组成:UniProtKB/Swiss-Prot (包含检查过的、手工注释的条目) 和 UniProtKB/TrEMBL (包含未校验的、自动注释的条目)。
Swiss-Prot 数据库特点高质量的、手工注释的、非冗余的数据集;主要来自文献中的研究成果和E-value校验过计算分析结果。
有质量保证的数据才被加入该数据库!TrEMBL数据集包含高质量的计算分析结果,一般都在自动注释中富集,主要应对基因组项目获得的大量数据流以人工校验在时间上和人力上的不足。
它能注释所有可用的蛋白序列。
在三大核酸数据库(EMBL-Bank/GenBank/DDBJ)中注释的编码序列都被自动翻译并加入该数据库中。
它也有来自PDB数据库的序列,以及Ensembl、Refeq和CCDS基因预测的序列。
蛋白质数据库
生物芯片北京国家工程研究中心湖南中药现代化药物筛选分中心暨湖南涵春生物有限公司常用数据库名录1、蛋白质数据库PPI - JCB 蛋白质与蛋白质相互作用网络•Swiss-Prot - 蛋白质序列注释数据库•Kabat - 免疫蛋白质序列数据库•PMD - 蛋白质突变数据库•InterPro - 蛋白质结构域和功能位点•PROSITE - 蛋白质位点和模型•BLOCKS - 生物序列分析数据库•Pfam - 蛋白质家族数据库 [镜像: St. Louis (USA), Sanger Institute, UK, Karolinska Institutet (Sweden)] •PRINTS - 蛋白质 Motif 数据库•ProDom - 蛋白质结构域数据库 (自动产生)•PROTOMAP - Swiss-Prot蛋白质自动分类系统•SBASE - SBASE 结构域预测数据库•SMART - 模式结构研究工具•STRING - 相互作用的蛋白质和基因的研究工具•TIGRFAMs - TIGR 蛋白质家族数据库•BIND - 生物分子相互作用数据库•DIP - 蛋白质相互作用数据库•MINT - 分子相互作用数据库•HPRD - 人类蛋白质查询数据库•IntAct - EBI 蛋白质相互作用数据库•GRID - 相互作用综合数据库•PPI - JCB 蛋白质与蛋白质相互作用网络2、蛋白质三级结构数据库•PDB - 蛋白质数据银行•BioMagResBank - 蛋白质、氨基酸和核苷酸的核磁共振数据库•SWISS-MODEL Repository - 自动产生蛋白质模型的数据库•ModBase - 蛋白质结构模型数据库•CATH - 蛋白质结构分类数据库•SCOP - 蛋白质结构分类 [镜像: USA | Israel | Singapore | Australia]•Molecules To Go - PDB数据库查询•BMM Domain Server - 生物分子模型数据库•ReLiBase - 受体/配体复合物数据库 [镜像: USA]•TOPS - 蛋白质拓扑图•CCDC - 剑桥晶体数据中心 (剑桥结构数据库 (CSD))•HSSP - 蛋白质二级结构数据库•MutaProt - PDB数据库中点突变的比较•SWISS-3DIMAGE - 蛋白质和其他生物分子的三维图像•BioImage - 生物图像数据库 (包含生物大分子图像) 3、蛋白质组数据库和链接•2-D胶数据库以及与2-D胶相关的数据库•蛋白质组链接4、与核酸相关的数据库•EMBL - EMBL核酸序列数据库 (EBI)•Genbank - GenBank核酸序列数据库 (NCBI)•DDBJ - 日本DNA数据库•dbEST - dbEST(表达序列标签)数据库 (NCBI)•dbSTS - dbSTS(序列标签位点)数据库 (NCBI)•AsDb - 异常剪切数据库•ACUTS - DNA非转录保守序列数据库•密码子数据库•EPD - 真核生物启动子数据库•HOVERGEN - 颈椎动物同源基因数据库•IMGT - 免疫遗传学数据库 [镜像: EBI]•ISIS - 内含子序列信息•RDP - 核糖体数据库•gRNAs db - gRNA数据库•PLACE - 植物DNA顺势调控元件数据库•PlantCARE - 植物中DNA顺势调控组件数据库•ssu rRNA - 欧洲核糖体RNA数据库-小核糖体•lsu rRNA - 欧洲核糖体RNA数据库-大核糖体•5S rRNA - 5S核糖体RNA数据库•tmRNA Website - tmRNA站点•tmRDB - tmRNA数据库•tRNA - tRNA剪切( Bayreuth大学)•uRNA db•RNA editing - RNA剪切位点•RNAmod db - RNA修饰数据库•TelDB - 多介质端粒数据库•MPDB - 分子探针数据库•VectorDB - 载体序列数据库5、糖类•FCCA - 糖类论坛•GlycoSuiteDB - 多聚糖数据库•Monosacharide browser - Space filling Fischer projection for monosaccharides•Thorkild's lectin page - 凝集素通道6、特殊物种数据库:人类:•OMIM - 孟德尔遗传在线--人类•GENATLAS - 人类基因图集•GeneClinics - 医学基因学库•GDB - 基因组数据库•GeneCards - 人类基因整合信息数据库•UDB - 人类基因图谱数据库•Ensembl人类基因组浏览器•UCSC人类基因组工作草图•TIGR HGI - TIGR人类基因组索引•Hs UniGene - GenBank中的人类转录本•STACK - 序列标签比对• - 人类基因预测•GenLink - 人类基因组资源数据库•GeneLynx - 人类基因组•HUGE - 人类未知基因-大型蛋白质反转录得到的cDNA (KIAA...)•HUNT - 人类异常转录本•CGAP - 癌症基因组解剖学•MGC - 哺乳动物基因•SCDb - 干细胞数据库•Homophila - 人类疾病基因与果蝇基因对比数据库•Human Protein Atlas - 人类正常组织蛋白质与癌细胞蛋白质表达与位点的比较•Chr at Rutgers - Rutgers的人类染色体信息•Chr at Sanger - Sanger Center的人类染色体信息•Chr Swiss-Prot list - Swiss-Prot的染色体信息脊椎动物:•OMIA - 孟德尔遗传在线--动物•MGI - 小鼠基因组学信息 [镜像: Australia]•Ensembl小鼠基因组浏览器•TIGR MGI - TIGR小鼠基因索引•Mm UniGene - GenBank 中的小鼠转录本(EST clusters) •MGC - 哺乳动物基因•Mouse gene knockouts db - 小鼠基因敲除数据库•RGD - 大鼠基因组数据库•RatMAP - 大鼠基因组数据库•TIGR RGI - TIGR大鼠基因组数据库•Rn Unigene - GenBank 中的大鼠转录本(EST clusters) •BOVMAP - 牛基因数据库 (法国)•DGP - 狗基因数据库•MIS - 孟德尔遗传--羊•Ark-Cat - 猫基因组数据库•Ark-Chicken - 鸡基因组数据库•Ark-Cow - 奶牛基因组数据库•Ark-Deer - 鹿基因组数据库•Ark-Horse - 马基因组数据库•Ark-Pig - 猪基因组数据库•Ark-Sheep - 绵羊基因组数据库•Ark-Turkey - 火鸡基因组数据库•FishBase -鱼类综合信息系统•Fugu genome project - 河豚基因组•Fugu - HGMP 河豚数据•- Ensembl 河豚基因组浏览器•Medakafish - Mekada fish (Oryzias latipes) server •Ark-Tilapia - 罗飞鱼基因组数据库•Ark-Salmon - 大马哈鱼基因组数据库•The fish net - 斑马鱼基因组数据库•Ensembl斑马鱼基因组浏览器线粒体和叶绿体:•GOBASE - 细胞器基因组数据库•MitoDat - 孟德尔遗传和线粒体数据库• C.caldarium - 蓝藻纲PK1菌株叶绿体基因组昆虫•Drosophila Swiss-Prot list - Swiss-Prot中的果蝇链接•FlyBase - 果蝇遗传数据库和分子数据库•BDGP - Berkeley果蝇基因组项目•FlyView - 果蝇图像数据库•Homophila - 人类疾病与果蝇基因对照数据库•蚊子基因组学•AnoDB - 疟蚊数据库•Ensembl蚊子基因组浏览器7、人类突变数据库•HGMD - 人类基因突变数据库•SVD - EBI序列变异数据库•GeneDis - 人类遗传病数据库8、特殊基因和蛋白质数据库•Allergens in Swiss-Prot - Swiss-Prot中过敏反应的命名与索引•Allergome - 过敏症反应分子数据库•Aminoacyl-tRNA synthetases in Swiss-Prot - Swiss-Prot 中氨基化tRNA合成酶列表9、转录后修饰数据库•DSDBASE - 二硫化物数据库 (数据来源于三级结构数据库) •GlycoSuiteDB - 多聚糖结构数据库•LIPID MAPS - 脂类代谢及路径10、系统发生学数据库•COG - 全基因组中编码的蛋白质的系统发生学分类方法•EGO - 真核生物基因分类方法•InParanoid - 真核生物分类11、芯片数据库•ArrayExpress - EBI中芯片数据•ExpressDB - 酵母菌和大肠杆菌表达数据库•GeneX - 基因表达工程12、专利数据库•DPD - DNA专利数据库•Ag Patents - USDA收录的农业工艺专利•Esp@cenet - 欧洲专利事务所专利信息数据库 (世界范围内)13、参考文献(目录数据库)•PubMed Medline server - PubMed查询•AGRICOLA - NAL农业查询数据库•Article@INIST - 科技信息数据库•Korean Journals Abstract db - 韩国杂志摘要数据库•SeqAnalRef - 序列分析文献14、字典, 读物, 课程 ,命名法•BioABACUS - 缩写词•BioTech's life science dictionary生物科技及生命科学字典•DCB - 细胞生物学字典(Julian Dow编写)15、生物软件数据库及目录•CLC Free Workbench - 可在Linux, MacOS X and Windows操作系统上运行的,对DNA、RNA和蛋白质进行算法分析的软件•CLC Protein Workbench - 可在Linux, MacOS X and Windows 操作系统上运行的,对DNA、RNA和蛋白质进行算法分析的软件•BioCatalog - EBI的生物目录16、生命科学资源•Biofind - 生物科技工业信息、评论及新闻•Bioinformatik.de - 生物信息学网页目录17、生物杂志和发行人•生物杂志主页:Swiss-Prot journals list - Swiss-Prot杂志列表• - 电子出版物目录• - 电子期刊目录18、发行人•Allen Press, Inc. - Allen出版社•AMA - 美国医学联合出版物•ACS - 美国化工协会出版物19、生物信息学杂志和通讯•BioInformer - EBI通讯•NCBI Newsletter -NCBI通讯•PDB Quaterly Newsletter - PDB通讯20、基因组通讯•Human Genome Project Information - 人类基因组计划•FGN - 真菌遗传学•Rice Genome Newsletter - 水稻基因组21、其他•IJC - 化学杂志•Plant Gene Register - 植物基因注册22、生物商业杂志•BioCentury - 生物世纪•BioWorld Online - 生物世界•Drug Discovery and Development - 药物发现和发展•GEN - 基因工程新闻23、综合性科学杂志•Nature•New Scientist•La Recherche•Science•Scientific American24、生物学研究机构•APS - 美国缩氨酸社区•ASCB - 美国细胞生物学社区•ASHG - 美国人类遗传学社区25、计算生物学服务器主页欧洲:•EBI - 欧洲生物信息学协会•EMBnet - 欧洲分子生物信息学网•EMBL - EMBL计算生物学机构美国和加拿大:•NCBI - 美国生物学信息中心•ABCC - NCI高级生物医学计算中心•ACGT - Oklahoma大学基因组技术中心亚洲•APBioNet - 亚太生物信息网•BIC-JNU - Jawaharlal Nehru大学生物信息学中心•DIC - Pune (印度)大学生物信息澳洲•APBioNet - 亚太生物信息网•ANGIS - 澳大利亚国家遗传信息服务中心•ANU - 澳大利亚国大学生物信息学研究组•APAF - 澳大利亚蛋白质组分析工具26、其他•HUJI - 耶路撒冷Hebrew大学基因组学和生物信息学服务中心•Weizmann Bioinfo/BCU - Weizmann计算生物学和生物信息学研究协会•SANBI - 南非生物信息学研究协会27、生物公司和制药公司•美国药物研究和制造商目录•Bioportfolio - 生物技术企业•Affymetrix, Inc. - Affymetrix公司28、生物信息公司•Aborygen•Accelrys, Inc•AlgoNomics NV t29、其他链接其他医学查询•HON - 基于网络的健康服务• - 药物网络指南•MedWeb - 医学链接其他科学查询•GPSDB - 基因和蛋白质同义词数据库•Chemcyclopedia Online - 商业化学试剂数据库。
生物信息学原理与方法第九讲蛋白质序列分析与预测
8. Secondary structure prediction 二级结构预测
8-1 AGADIR – 预测肽链螺旋结构算法。 8-2 APSSP –高级蛋白质二级结构预测服务器。 8-3 GOR – Garnier1996年开发的蛋白质二级结构预测。 8-4 HNN – 神经网络方法预测蛋白质二级结构。 8-5 Jpred –趋同法预测蛋白质二级结构。 8-6 JUFO –神经网络法从序列预测蛋白质二级结构。 8-7 nnPredict -蛋白质二级结构预测。 8-8 PredictProtein -蛋白质二级结构预测。 8-9 Prof –利用Cascaded Multiple Classifiers进行蛋白质 二级结构预测。 8-10PSA -蛋白质二级结构预测。 8-11SOPMA -蛋白质二级结构预测。 8-12SSpro –利用双向重复神经网络预测蛋白质二级结构。
3.Similarity searches 相似搜索
3-1 BLAST 3-2 Bic ultra -Smith/Waterman序列搜索 3-3MPsrch - EBI的Smith/Waterman序列比对。 3-4DeCypher – Smith/Waterman序列搜索 3-5Fasta3 – EBI的FASTA version 3 3-6FDF - Smith/Waterman序列搜索 3-7PropSearch –使用氨基酸组成来进行结构同源搜索。
2.DNA -> Protein 将DNA序列 翻译成蛋白质序列
2-1Translate - 将DNA序列翻译成蛋白质序列。 2-2Transeq – 使用EMBOSS 软件包将DNA序列翻译 成蛋白质序列。 2-3Graphical Codon Usage Analyser –以图形方式显 示密码子偏向性 2-4BCM search launcher – 以六种框架翻译DNA序 列 2-5Backtranslation – 将蛋白质序列翻译成DNA序列 2-6Genewise – 比较蛋白质序列与基因组的 DNA 序 列,允许内含子和读框错误 2-7FSED – 读框错误检测 2-8LabOnWeb -使用Compugen LEADS clusters延伸 EST、表达模式及ESTs序列分析。 2-9List of gene identification software sites 列出基
生物信息学中的蛋白质序列预测问题研究
生物信息学中的蛋白质序列预测问题研究生物信息学是一个涉及多个学科领域的交叉学科,它主要以生物学为基础,借助计算机科学、统计学等多个学科的相关知识,进行生命科学研究。
其应用广泛,尤其是在基因组学、蛋白质组学和代谢组学等领域,生物信息学发挥着无法替代的作用。
生物信息学中,蛋白质序列预测问题是一个重要且常见的研究课题。
在蛋白质组学中,通过预测蛋白质功能、结构和相互作用等方面,可以更好地理解蛋白质的生物学特性和机制,进而为药物研发、疾病治疗等领域提供重要参考。
蛋白质序列预测问题包括蛋白质序列分类、结构预测、功能预测等方面。
其中,蛋白质序列分类是预测蛋白质的种类,主要通过分析蛋白质序列特征和相似性进行分类。
蛋白质结构预测是预测蛋白质的三维结构,目前主要应用模型建立和模拟等方法进行预测。
蛋白质功能预测是预测蛋白质的生物学功能,包括酶活性、配体结合、信号传导等方面)蛋白质序列预测问题的研究成果主要基于大量蛋白质序列数据的分析和模型算法的优化。
同时,蛋白质序列预测问题也面临着如数据质量、样本数量、算法精度等多个方面的挑战。
下面,本文将分别对蛋白质序列分类、结构预测和功能预测问题的研究进展进行探讨。
一、蛋白质序列分类蛋白质序列分类是生物信息学中的一项基本任务。
它不仅涉及到蛋白质的分类,也关系到蛋白质序列之间的相似性分析,对于研究蛋白质在生物体中功能和调控的起源和演化以及药物研发和基因功能注释等都具有重要意义。
目前,基于膜蛋白、酶、信号蛋白、转录因子等多种类型的蛋白质,各种分类器模型和算法方法不断涌现。
常用的分类器包括向量机、决策树、随机森林和神经网络等。
这些模型的重要性在于能通过学习其训练样本,识别新的蛋白质序列的类别属性。
这些分类器的性能不仅取决于分类器的本身结构,也与该分类器所用训练数据样本、特征选择、以及数据预处理等方面的具体情况有关。
二、蛋白质结构预测蛋白质结构预测是生物信息学中的一个重要课题。
它能够通过模拟或预测蛋白质的三维空间结构,从而进一步探讨蛋白质的构成、功能以及作用机制等生物学问题。
pfam数据库
PFAM数据库PFAM数据库是一个用于蛋白质序列家族分类的工具。
它基于蛋白质序列的共同结构和功能特征,将蛋白质序列分组成家族,从而帮助研究人员理解蛋白质的功能和进化过程。
本文将介绍PFAM数据库的基本概念、分类方法和应用情况。
1. PFAM数据库简介PFAM数据库是一个用于预测蛋白质结构和功能的数据库。
它采用蛋白质序列的保守特征,将相似的序列归类为同一个家族。
PFAM数据库包含了大量的蛋白质家族信息,可以帮助研究人员在蛋白质序列中发现潜在的功能和结构信息。
2. PFAM数据库的分类方法PFAM数据库主要基于蛋白质序列的保守结构域来进行分类。
它将蛋白质序列中相同或相似的结构域组合成家族,每个家族都包含了具有相似结构和功能的蛋白质。
PFAM数据库还提供了丰富的注释信息,帮助用户更好地理解每个家族的功能和特点。
3. PFAM数据库的应用情况PFAM数据库在生物信息学和分子生物学领域被广泛应用。
研究人员可以利用PFAM数据库来预测新发现的蛋白质的结构和功能,通过比对已知家族信息来推测未知蛋白质的特性。
此外,PFAM数据库还可以用于蛋白质序列的分类和进化分析,帮助研究人员揭示不同蛋白质家族之间的关系和进化过程。
4. 结语PFAM数据库作为一个用于蛋白质家族分类的重要工具,在生物信息学研究中扮演着重要的角色。
通过分析蛋白质序列的保守结构域,PFAM数据库可以帮助研究人员更好地理解蛋白质的功能和进化过程,为生物学研究提供了有力的支持。
希望本文介绍的内容能够帮助读者更深入地了解PFAM数据库及其在蛋白质研究中的应用。
生物信息学题库
1.以下哪一个是mRNA条目序列号:A. J01536B. NM_15392C. NP_52280D. AAB1345062.确定某个基因在哪些组织中表达的最直接获取相关信息方式是:A.UnigeneB. EntrezC. LocusLinkD. PCR3.一个基因可能对应两个Unigene簇吗?■可能 B. 不可能4.下面哪种数据库源于mRNA信息:■dbEST B. PDB C. OMIM D. HTGS5.下面哪个数据库面向人类疾病构建:A. ESTB. PDB ■. OMIM D. HTGS6.Refseq和GenBank有什么区别:A. Refseq包括了全世界各个实验室和测序项目提交的DNA序列B. GenBank提供的是非冗余序列■. Refseq源于GenBank,提供非冗余序列信息D. GenBank源于Refseq7.如果你需要查询文献信息,下列哪个数据库是你最佳选择:A. OMIMB. Entrez ■PubMed D. PROSITE8.比较从Entrez和ExPASy中提取有关蛋白质序列信息的方法,下列哪种说法正确:A. 因为GenBank的数据比EMBL更多,Entrez给出的搜索结果将更多B. 搜索结果很可能一样,因为GenBank和EMBL的序列数据实际一样■搜索结果应该相当,但是ExPASy中的SwissProt记录的输出格式不同9.天冬酰胺、色氨酸和酪氨酸的单字母代码分别对应于:■N/W/Y B. Q/W/Y C. F/W/Y D. Q/N/W10.直系同源定义为:■不同物种中具有共同祖先的同源序列B. 具有较小的氨基酸一致性但是有较大的结构相似性的同源序列C. 同一物种中由基因复制产生的同源序列D. 同一物种中具有相似的并且通常是冗余的功能的同源序列11.下列那个氨基酸最不容易突变:A. 丙氨酸B. 谷氨酰胺C. 甲硫氨酸■半胱氨酸12.PAM250矩阵定义的进化距离为两同源序列在给定的时间有多少百分比的氨基酸发生改变:A. 1%B. 20%■. 80% D. 250%13.下列哪个句子最好的描述了两个序列全局比对和局部比对的不同:A. 全局比对通常用于比对DNA序列,而局部比对通常用于比对蛋白质序列B. 全局比对允许间隙,而局部比对不允许C. 全局比对寻找全局最大化,而局部比对寻找局部最大化■全局比对比对整体序列,而局部比对寻找最佳匹配子序列14.假设你有两条远源相关蛋白质序列。
蛋白质生物信息学(共45张PPT)
利用生物信息学软件DNAman将VH-L-L的核苷酸序列翻译
为氨基酸序列
利用NCBI提供的ORF Finder预测VH-L-L的 ORF,从预测结果看出VH-L-L是一段连续 的较长的ORF,它可能是一个完整的编码 序列
利用ProtParam对VH-L-L的氨基酸序列及基本 理化性质进行了分析。
析,更加深入地理解DNA序列,结构,演化及其 与生物功能之间的关系。
研究课题涉及到分子生物学,分子演化及结构生 物学,统计学及计算机科学等许多领域。
研究过程
以数据(库)为核心 1 数据库的建立 2 生物学数据的检索 3 生物学数据的处理 4 生物学数据的利用:计算生物学
研究展望
由于生物信息学是基于分子生物学与多种学科交叉而成的 新学科,现有的形势仍表现为各种学科的简单堆砌,相互之 间的联系并不是特别的紧密。在处理大规模数据方面,没 有行之有效的一般性方法;而对于大规模数据内在的生成 机制也没有完全明了,这使得生物信息学的研究短期内很 难有突破性的结果。
第一节生物信息学与蛋白质工程 一、生物信息学概述
生物信息学是利用应用数学、信息学、统计 学和计算机科学的方法研究生物学的问题。
1987年,林华安首创Bioinformation 一词,被誉为”世界生物信息之父”。
概述
生物信息学分子生物学与信息技术(尤其是互联网 技术)的结合体。
研究材料和结果就是各种各样的生物学数据 研究工具是计算机
由于DNA自动测序技术的快速发展,
DNA数据库中的核酸序列公共数据量 以每天106bp速度增长,生物信息迅速 地膨胀成数据的海洋。毫无疑问,我们 正从一个积累数据向解释数据的时代转 变,数据量的巨大积累往往蕴含着潜 在突破性发现的可能。 “生物信息学” 正是从这一前提产生的交叉学科。
蛋白质序列数据库
4 UniPro
▪ 蛋白质信息资源(PIR)、欧洲生物信息学研究所(EBI) 和瑞士生物信息学研究所(SIB)合作,于2002年共同组 建世界蛋白质资源(the Universal Protein Resource, UniPro)。
▪ UniPro把Swiss-Prot、TrEMBL和PIR等蛋白质数据库整 合在一起,是目前国际上最全面的蛋白质信息库。
综上所述,蛋白质序列数据库种类多且各有特色,因 此,用户在分析蛋白质序列时,应根据实际情况,尽可能 选择几个不同的数据库,并对结果加以比较。
The Universal Protein Resource (Uபைடு நூலகம்iProt)
属性。
5 序列描述:
是在生物和(或)生物文献的上下文中描述一个生 物序列或生物序列集;
生物源(BioSource)-来源生物的信息; 分子信息(MolInfo)--描述器指示分子类型,如基因,
mRNA,EST,肽链信息。
蛋白质数据分析
由于传统的用X光晶体衍射和核磁共振 技术测定蛋白质的三维结构、用生化方法 研究蛋白质功能的效率不高,无法适应由 基因组测序所带来的蛋白质序列数量飞速 增长的需要,近年来,许多科学家致力于 用理论计算的方法预测蛋白质的三维结构 和功能,提高蛋白质功能研究的效率,并 取得了一定的成果。
信息、注释、蛋白质序列等(如:Acetyltransferase)。
3D structure
c. 蛋白质注释
包括蛋白质的功能、翻译后修饰(如糖基化和磷酸 化)、结构域和结合位点、二级结构(如α- 螺旋和β- 片 层)、四级结构(如同聚体和异聚体)、与其它蛋白质序 列的相似性、蛋白质序列残缺与疾病的关系、序列冲突和 变异体等信息。
2.6一级蛋白质序列数据库-02-UniProtKB的注释解读-01
《生物信息学》第二章:生物数据库(第二部分)一级蛋白质序列数据库:UniProtKB注释解读(1)这一节我们从UniProt数据库查看一条蛋白质序列(/)。
在UniProt数据库的首页上有一个关于UniProtKB数据库的统计表。
可以看到,TrEMBL数据库里存储的序列数量远远大于Swiss-Prot中的。
统计表里清楚的写着:TrEMBL是自动注释的,没有经过检查,而Swiss-Prot是人工注释的,并且经过检查。
这是Swiss-Prot和TrEMBL最大的区别,一定要记住。
跟NCBI的网站一样,UniProt数据库的首页上也有一个搜索条,选择UniprotKB数据库,然后输入“human dutpase”。
上节课我们一直在研究dUTPase,从PubMed 查文献到GenBank查看编码这一蛋白的dut基因。
这节课我们继续研究它。
这次我们直接查看dUTPase的蛋白质序列。
通过关键词搜索我们找到了很多条蛋白质序列。
从蛋白质的名字来看,第一条应该是我们想要的。
Entry这一列是蛋白质序列在UniProtKB数据库中的检索号,Entry_Name是检索名,检索号与检索名平行运行,都是一条序列在数据库中的唯一标识,两者作用相同,只是写法不同。
从检索名可以更直观的知道是哪个物种的什么蛋白质。
从加星文档图标我们可以获知序列是被人工检查过的还是没有。
也就是说,有加星文档图标的是Swiss-Prot中的数据,没有的是TrEMBL里的。
后面这几列,依次是蛋白质的名字,编码这一蛋白质的基因的名字,所属物种以及序列长度。
点击第一条序列的检索号,打开这条数据库记录。
UniProtKB中的数据库记录分成几个部分,左侧是注释标签,点击其中某一个标签可以直接跳转到该部分注释。
上方是工具标签,可以用于和其他序列进行比较,格式转换,存储等。
工具标签下方是这条蛋白质序列的基本信息,蛋白质的名字,基因的名字,所属物种,以及状态。
蛋白质结构预测和序列分析报告软件
蛋白质结构预测和序列分析软件2010-05-08 20:40转载自布丁布果最终编辑布丁布果4月18日蛋白质数据库及蛋白质序列分析第一节、蛋白质数据库介绍一、蛋白质一级数据库主要蛋白质序列数据库的网址SWISS-PROTt或htmlTrEMBLPIRrwwwMIPSProtein SequencesJIPIDProtein Sequence Database 已经和ExPASy三、蛋白质二级结构预测网站(数据库)4始建于SIB基于对蛋白质家族中同源序列多重序列比对得到的保守区域,这些区域通常与生物学功能相关。
数据库包括两个数据库文件:数据文件PrositeProsite/prosite5of Proteins)蛋白质二级结构构象参数数据库DSSPhttp://www.cmbi.kun.nl/gv/dssp6Proteins)蛋白质家族数据库FSSP/dall/fssp7Structure of Proteins)同源蛋白质数据库HSSPhttp://www.cmbi.kun.nl/gv/hssp在前面已经述说过了。
第二节、蛋白质序列分析方法一、多序列比对双序列比对是序列分析的基础。
基因家族的成组的序列来说,列之间的关系,征。
学模式方面起着相当重要的作用。
多序列比对有时用来区分一组序列之间的差异,但其主要用于描述一组序列之间的相似性关系,以便对一个基因家族的特征有一个简明扼要的了解。
立在某个数学或生物学模型之上。
因此,正如我们不能对双序列比对的结果得出“正确或错误”结果也没有绝对正确和绝对错误之分,为所使用的模型在多大程度上反映了序列之间的相似性关系以及它们的生物学特征。
我们称比对前序列中残基的位置为绝对位置。
序列Ⅰ的第Ⅰ相应地,位置。
而每个残基的绝对位置不同,的序列。
绝对位置是序列本身固有的属性,前的位置,而相对位置则是经过比对后的位置,也就比对过程赋予它的属性。
算法复杂性多序列比对的计算量相当可观,以下技术的复杂性。
基因组和蛋白质组的生物信息学分析
基因组和蛋白质组的生物信息学分析生物信息学在现代生物学研究中扮演着越来越重要的角色。
其中,基因组和蛋白质组的生物信息学分析是其中的两个重要分支。
本文将从三个方面探讨基因组和蛋白质组的生物信息学分析在现代生物学研究中的应用。
一、基因组的生物信息学分析基因组是生物体中所有基因的集合,是研究基因结构、功能、进化和调控的重要工具。
生物信息学的发展极大地促进了基因组研究的进展。
基因组序列的测定和分析是基因组学的核心内容,在分析基因组序列时,生物信息学技术的应用是必不可少的。
首先,基因组序列的注释是基因组生物信息学分析的一个重要内容。
基因组注释是指对基因组序列的各个部分进行标记和分类,确定其中的基因、元件和结构等,同时对其进行功能预测。
注释不仅有助于我们理解生物基因组的组成和功能,而且是基因组研究的重要基础。
生物信息学技术在基因组注释中的应用,涉及到各种基因预测软件和数据库的开发和应用。
其次,基因组比较是基因组生物信息学分析的另一重要方向。
通过对不同物种或同一物种不同个体的基因组进行比较和分析,可以深入了解基因组的演化、功能和结构等方面的信息。
比较基因组学的发展离不开生物信息学的支持,生物信息学技术为基因组间的比较提供了更加精确的技术手段。
最后,基因组数据挖掘是基因组生物信息学分析的重要领域之一。
在基因组研究中,随着基因组数据的不断积累,如何从海量的数据中挖掘有用的信息,成为重要的挑战。
生物信息学技术的发展为基因组数据的处理和分析提供了强有力的支持,包括数据挖掘、聚类分析、等位基因频率分析等技术,这些技术的应用不仅扩展了我们对基因组的认识,而且为生物基因组和生物学的全面发展提供了新的思路和方法。
二、蛋白质组的生物信息学分析蛋白质组是细胞及组织内的所有蛋白质的集合。
蛋白质组学是在基因组学发展的基础上建立起来的一门新兴学科,旨在深入研究蛋白质的功能和调控机制。
与基因组学类似,生物信息学在蛋白质组学的发展中也有着不可替代的作用。
生物信息学及其在蛋白质组学中的应用
蛋白质组数据库是蛋白质组学研究的主要内容之一 。 通过构建不同环境条件下组织或细胞全部蛋白质的数据库 来研究蛋白质表达的差异情况 [4] 。与其他数据库相比 ,目前 大部分蛋白质组数据库都有以下几个方面的特点 : (1) 由于 蛋白质相关数据的种类繁多 ,蛋白质组数据库的种类也多种 多样 ,如双向电泳数据库 、基于蛋白序列的数据库 、蛋白质一 级或高级结构数据库 、蛋白质相互作用数据库等等 ; (2) 数据 更新速度快 ,网络上的蛋白质组数据库的数据几乎每天都在 更新 ; (3) 网络共享程度高 ,越来越多的数据库资源与互联网 相互配合 ,使得蛋白质相关数据的利用率空前的提高 。蛋白
2. 1 基于双向电泳图谱的数据库 双向电泳技术是蛋白质组学研究中最重要的实验技术
之一 ,所以基于双向电泳图片的数据库也成了蛋白质组学研 究中主要内容 。这些数据库有以下几个特点 : (1) 数据直观 。 以蛋白质双向电泳图片为索引 ,将图片放在互联网上 ,每一 个蛋白点的信息 (等电点 、分子量等等) 都可以通过点击图片 上相应位置的蛋白点得到 ; (2) 以蛋白质双向电泳图片为基 础 ,并与其他数据 (蛋白质序列 、结构和功能等信息) 进行整 合 。目前 , 主要有水稻蛋 白 质 组 数 据 库 ( The Rice Proteome Database) [5] 、SWISS - 2DPAGE[6] 、大肠杆菌双向电泳数据库 ( ECO - 2DBASE) [7] 、酵母蛋白质组数据库 ( YPD) [8] 、造血干 细胞 蛋 白 质 组 数 据 库 ( HSC - 2DPAGE) [9] 、SIENA - 2DPA2 GE[10] 、PHCI - 2DPAGE[11] 等等 。 2. 1. 1 水稻蛋白质组数据库
生物信息学中的蛋白质序列分析与预测方法研究
生物信息学中的蛋白质序列分析与预测方法研究生物信息学是一门将计算机科学与生物学相结合的学科,通过使用计算机算法和工具,对生物数据进行分析和解释。
其中,蛋白质序列分析与预测是生物信息学中的一个重要研究方向。
本文将探讨蛋白质序列分析与预测的方法,并介绍一些常用的工具和算法。
蛋白质是生物体内起着重要功能的生物分子,也是生命活动的基本单位。
蛋白质的结构和功能与其氨基酸序列密切相关。
因此,通过分析和预测蛋白质序列,可以揭示蛋白质的结构、功能和相互作用等重要信息。
在蛋白质序列分析中,一个基本的任务是蛋白质序列的同源性比对。
同源性比对可以揭示不同蛋白质序列之间的相似性,从而推断它们的进化关系和功能。
目前,最常用的同源性比对算法是基于Smith-Waterman算法的BLAST。
BLAST通过将查询序列与数据库中已知序列进行比对,计算相似性得分,并找出最相关的序列。
BLAST不仅可以用于同源性搜索,还可以用于序列注释和多序列比对等任务。
此外,蛋白质序列分析还包括预测蛋白质二级结构、域结构和跨膜区域等。
蛋白质二级结构预测是指根据氨基酸序列,预测蛋白质中α-螺旋、β-折叠等二级结构的比例和位置。
常用的二级结构预测方法包括Chou-Fasman算法、GOR算法和PSIPRED算法等。
这些算法基于已知的氨基酸序列和结构的统计关系,通过机器学习和统计模型来预测蛋白质二级结构。
域结构是指蛋白质中具有独立结构和功能的区域。
通过预测蛋白质的域结构,可以推断蛋白质的功能和相互作用。
域结构预测的方法包括K-最近邻算法、隐马尔可夫模型和神经网络等。
这些方法基于已知的域结构数据库和统计模型,通过比对查询序列和数据库序列的相似性,寻找潜在的域结构。
另一个重要的任务是预测蛋白质跨膜区域。
蛋白质跨膜区域是指蛋白质中穿越细胞膜的区域,对细胞的功能和调控起着重要作用。
跨膜区域的预测可以帮助研究人员理解蛋白质的结构和功能。
目前,跨膜区域预测的方法包括隐马尔可夫模型和神经网络等。
蛋白质谱生信分析
百泰派克生物科技
蛋白质谱生信分析
蛋白质谱生信分析就是对质谱数据进行生物信息学分析。
所谓质谱数据就是质谱仪通过检测肽段母离子的质荷比(m/z)而得到的图谱,如肽质量指纹图谱(PMF)、肽序列图谱(PST),一般利用各种软件、数据库将质谱获得的肽离子质量与理论肽质量进行比较和评价,从而实现该肽段乃至整个蛋白的鉴定和序列分析。
常用的检索工具主要包括PeptIdenet、MS-Fit、ProFound、PeptideSearch、MS-Taq、MS-Seq、PepFrag、Mascot等。
百泰派克生物科技采用Thermo Fisher的Orbitrap Fusion Lumos质谱平台结合nanoLC-MS/MS纳升色谱,提供蛋白质质谱分析技术服务,只需要将您的实验目的告诉我们并寄送样品,百泰派克提供包括蛋白提取、蛋白酶切、肽段富集、肽段分离、质谱分析、质谱原始数据分析、生物信息学分析一站式服务,欢迎免费咨询。
uniprot蛋白质名称中括号
UniProt 蛋白质名称中括号1. 介绍在生物信息学领域中,UniProt无疑是一个人尽皆知的名词。
UniProt 数据库是全球最大的蛋白质信息资源库,汇集了大量的蛋白质序列、结构、功能及相关信息。
它为研究人员提供了宝贵的资源和数据,帮助他们更好地了解蛋白质的属性和功能。
2. UniProt蛋白质名称中括号的含义在UniProt数据库中,我们经常会看到蛋白质名称中出现括号的情况。
这些括号中所包含的信息至关重要,它们可以提供蛋白质名称的一些特定信息,从而帮助用户更好地理解蛋白质的特性和功能。
3. 括号中可能包含的信息这些括号中的信息可能包括蛋白质名称的变体、同义词、亚型、修饰状态、结构域、信号肽、来源等内容。
其中,最常见的是蛋白质的变体和同义词。
蛋白质的变体可能由于基因突变、后转录修饰等原因而产生,这些变体通常会在蛋白质名称中以括号的形式出现,帮助用户更好地区分不同的蛋白质形式。
4. 括号中信息的重要性蛋白质名称中括号中所包含的信息对于研究人员来说是非常重要的。
它们可以帮助用户更准确地找到自己需要的蛋白质信息,并且还能够帮助用户更好地理解蛋白质的多样性和复杂性。
5. 个人观点和理解个人认为,UniProt蛋白质名称中括号所包含的信息是非常宝贵的。
它们可以为研究人员提供更全面的蛋白质信息,帮助他们更好地开展科研工作。
在使用UniProt数据库时,我们应该重视蛋白质名称中括号中的信息,以便更好地进行科研工作。
6. 总结UniProt蛋白质名称中括号所包含的信息对于研究人员来说是非常重要的。
它们可以帮助我们更准确地了解蛋白质的属性和功能,并且为我们的科研工作提供宝贵的数据和信息。
在进行蛋白质信息检索和分析时,我们应该充分利用这些括号中的信息,以获得更好的研究结果。
UniProt蛋白质名称中括号的重要性不容忽视,它们是我们研究的重要依据。
UniProt数据库中蛋白质名称中括号所包含的信息确实非常重要,因为这些信息可以帮助用户更好地理解蛋白质的特性和功能。
使用生物大数据技术预测蛋白质的酶活性和功能
使用生物大数据技术预测蛋白质的酶活性和功能蛋白质是生物体内最基本的化合物之一,其在细胞功能、信号传导、代谢等诸多生物过程中发挥着重要作用。
而蛋白质的酶活性和功能则决定了其在生物体内的具体表现和生物学过程中的参与程度。
因此,对于蛋白质酶活性和功能的准确预测具有重要的理论和应用价值。
随着生物技术的不断发展,生物大数据技术成为预测蛋白质酶活性和功能的重要工具。
生物大数据技术利用海量的生物信息数据和计算方法,通过分析蛋白质序列、结构、功能等信息,在不进行实验验证的情况下,预测蛋白质的酶活性和功能,具有高通量、高效率、低成本等特点。
在预测蛋白质酶活性和功能的过程中,首先需要获取蛋白质的序列信息。
蛋白质序列是蛋白质酶活性和功能的基础,包含了蛋白质的氨基酸组成和排列顺序。
通过生物大数据技术,可以从生物数据库中获取海量的蛋白质序列数据,如GenBank、UniProt等。
其次,利用生物大数据技术进行蛋白质序列分析,寻找与酶活性和功能相关的特征。
例如,寻找保守基序、催化位点、结构特征等。
通过分析这些特征,可以初步推测蛋白质的酶活性和可能的功能。
另外,生物大数据技术还可以利用富集分析、机器学习等方法来进一步预测蛋白质的酶活性和功能。
富集分析是一种从大量蛋白质样本中寻找共同标志物或特征的方法,通过比较蛋白质样本与已知酶活性或功能的蛋白质数据库,可以预测未知蛋白质的酶活性和功能。
机器学习是通过训练模型,从已知蛋白质的酶活性和功能数据中学习规律,再应用于未知蛋白质的酶活性和功能预测。
通过构建特征向量、选择合适的机器学习算法,可以实现蛋白质酶活性和功能的高准确预测。
此外,利用生物大数据技术进行蛋白质酶活性和功能预测时,还可以结合基因组学和进化生物学的方法。
基因组学通过对多个物种的基因组序列进行比较分析,揭示基因和蛋白质在进化过程中的保守性和多样性,进而预测蛋白质的酶活性和功能。
进化生物学则通过研究物种的进化历史和生物进化的规律,推测蛋白质的酶活性和功能在进化过程中的变化和适应性。
如何用NCBI和uniprot数据库查找目的蛋白的氨基酸序列或目的基因的碱基序列
运用NCBI数据库查找目的蛋白序列或目的碱基序列
第1种方法
1.打开NCBI官网,并选择Gene菜单,如下图。
2.在搜索栏内输入想要查找的蛋白名称或基因名称,此处以基因RSK2为例,如图。
3.在搜索结果中查找目的蛋白,注意Description栏会标明物种信息,以human为例,Aliases 栏会列出目的蛋白的各种别名。
4.在Searchresult页面中点击你要找的蛋白名称(Name/Gene ID),进入页面并在页面找到“”“NCBI Reference Sequences (RefSeq)”条目,并在其子条目中找到“mRNA and Protein(s) ”,查找mRNA碱基序列点击NM,查找蛋白氨基酸序列点击NP,以下以查找mRNA碱基序列为例如下:
点击NM-004586.2进入页面后如下:
在页面下方会列出mRNA的序列:
第2中方法
1.进入Uniplot数据库,在搜索栏中直接输入要查找的基因或蛋白名称,如下图:
2.进入以下页面:
3.在搜索结果Entry name栏中会列出不同物种选项,且会有Protein names及Gene names,点击所要选择物种蛋白,进入以下页面。
4.点击页面页面左侧的Sequence栏,并找到Sequence databases,其下面表格中有RefSeq i,其中包含NP及NM。
5.此处以查找mRNA为例,点击NM,页面会跳转至NCBI的查找页面,如下:。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
5. Uni-Pro 数据检索
七、疾病相关基因数据库
(1)OMIM:
OMIM(Online Mendelian Inheritance in Man)是美 国Jonhs Hopkins大学Dr. Victor A. McKusick等人建 立和编辑的有关人类基因和遗传病目录的电子版。 于本世纪60年代创立,旨在为临床医师和遗传病 研究工作者提供服务。 OMIM包含大量的及时更新的有关人类基因及其 突变序列数据和遗传病的临床特征等信息和相关 参考文献。
八、蛋白质数据分析
由于传统的用X光晶体衍射和核磁共振 技术测定蛋白质的三维结构、用生化方法 研究蛋白质功能的效率不高,无法适应由 基因组测序所带来的蛋白质序列数量飞速 增长的需要,近年来,许多科学家致力于 用理论计算的方法预测蛋白质的三维结构 和功能,提高蛋白质功能研究的效率,并 取得了一定的成果。
The UniProt Knowledgebase (UniProtKB)
The UniProt Knowledgebase continues the work of Swiss-Prot, TrEMBL and PIR-PSD by providing an expertly and richly curated protein database Consisting of two sections. UniProtKB/Swiss-Prot UniProtKB/TrEMBL.
Biblioteka OMIM数据库基本信息
MIM----概述、克隆、 基因结构、物理图、 基因功能、 生化特征、 分子遗传学、 动物模型、 等位突变、 参考文献、 编辑史等. Eztrez gene ----分类、 参考序列、蛋白质等 Link out
P53基因的OMIM检索结果:
(2)GeneCards
UniProt Reference Clusters (UniRef)
TheUniProt Reference Clusters (UniRef) provide clustered sets of sequences from UniProtKB and selected UniParc records. It provide complete coverage of sequence space at several resolutions and speed similarity searches via sequence space compression by merging sequences that are 100% (UniRef100), 90% (UniRef90) or 50% (UniRef50) identical. UniRef90 and UniRef50 yield a database size reduction of approximately 40% and 65%, respectively, providing significantly faster sequence searches.
Pfam包含常见的蛋白质功能域和蛋白质家 族,可浏览蛋白质家族的多序列比对结果、 蛋白质功能域的立体构造、蛋白质家族的 物种分布等。 PANTHER主要包含蛋白质家族的功能分类 信息,一个大的蛋白质家族进一步按功能 上的差异被归纳成一些次家族,显示蛋白 质家族不同成员的特定功能的差异,使蛋 白质家族的功能表达更准确。
1. Swiss-Prot
SWISS-PROT由瑞士日内瓦大学医学生化系于1978年创建,后来与欧 洲分子生物学实验室合作,由瑞士生物信息学研究所(Swiss Institute of Bioinformatics,SIB)和欧洲生物信息学研究所(EBI)共同维护和 管理现已整合进UniProtKB/Swiss-Prot。
2. 蛋白质功能预测
InterPro数据库与蛋白质功能预测
蛋白质的功能分类 蛋白质序列的代谢途径分析
(1) InterPro数据库 与蛋白质功能预测
• 由EBI,SIB,Sanger Institute
等十多家单位维护
• 结合了UniProt、PROSITE, Pfam, PRINTS, ProDom、 SMART,PANTHER和 Gene3D 等数据库
六、蛋白质序列数据库
UniPro
Swiss-Prot
TrEMBL
PIR-PSD
The mission of UniProt is to provide the scientific community with a comprehensive, high-quality and freely accessible resource of protein sequence and functional information.
d. SWISS-PROT中尽可能减少冗余序列 e. 与其它30多个数据库建立了交叉引用,其 中包括核酸序列数据库、蛋白质序列数据 库和蛋白质结构数据库等。 f. 利用序列检索系统(SRS)可以方便地检 索SWISS-PROT和其它EBI的数据库。
2. TrEMBL
TrEMBL数据库建于1995年,意为 “Translation from EMBL”。
SMART 由两部分组成,普通SMART(Normal SMART)收集了 Swiss-Prot, SP-TrEMBL 和 stable Ensembl proteomes的蛋白 质数据,而基因组SMART(Genomic SMART)仅包含全 基因组测序的生物基因组的蛋白质信息。
(2) 蛋 白 质 的 功 能 分 类
InterPro功能
收集了已知蛋白质家族、蛋白质功能域 和功能位点的信息,可用于未知蛋白质序 列的: 分类( superfamily, family and subfamily levels ) 功能域 重复序列 重要位点 其他的包括 GO terms等深度注释
不同数据库在数据组成上有所不同
4. UniPro
蛋白质信息资源(PIR)、欧洲生物信息学 研究所(EBI)和瑞士生物信息学研究所 (SIB)合作,于2002年共同组建世界蛋白 质资源(the Universal Protein Resource, UniPro)。 UniPro把Swiss-Prot、TrEMBL和PIR等蛋白 质数据库整合在一起,是目前国际上最全 面的蛋白质信息库。
由蛋白质信息资源(PIR)、慕尼黑蛋白质序 列信息中心(MIPS)和日本国际蛋白质序列 数据库(JIPID)共同维护, PIR是最早的数 据库,现已并入UniProt Knowledgebase
是一个全面的、非冗余的、经过专家注释的公共 蛋白质序列数据库。PIR-PSD收集已发表的蛋白 质序列、来源、参考文献和特征信息等,她的注 释中还包括一些原始递交记录中没有的相关信息, 如在遗传图谱的位置、内含子位置、以及和其他 序列、结构、基因组和引文数据库(如Medline、 PDB和TIGR等)的相互参照 PIR-PSD的另一个重要特征是其对蛋白质超家族 的分类,提供序列的等级聚类信息,揭示序列间 的进化关系。
该数据库采用SwissPro数据库格式,其数据来 源于:
EMBL核酸序列数据库(或GenBank、DDBJ)中所有编码 序列经计算机程序自动翻译的蛋白质 从文献中查到的 或向SWISS-PROT递交的并未整合到SWISS-PROT的蛋白质 序列
3. PIR-PSD
蛋白质信息资源-国际蛋白质序列数据库 (the Protein Information Resource-International Protein Sequence Database, PIR-PSD
UniProt Archive (UniParc)
Capture all publicly available protein sequence data and contains all the protein sequences from the main publicly available protein sequence databases. UniParc is the most comprehensive publicly accessible non-redundant protein sequence database.
SWISS-PROT的特点
a. 所有序列条目都经过有经验的分子生物学家和蛋白 质化学家通过计算机工具并查阅有关文献资料仔细核 实。
b. 每个条目包含条目基本信息、分类信息 (描述蛋白质的生物来源) 、引用文献信息、 注释、蛋白质序列等(如:ampG)。
c. 蛋白质注释
包括蛋白质的功能、翻译后修饰(如糖基化和磷酸 化)、结构域和结合位点、二级结构(如α- 螺旋和β- 片 层)、四级结构(如同聚体和异聚体)、与其它蛋白质序 列的相似性、蛋白质序列残缺与疾病的关系、序列冲突和 变异体等信息。
ProDom家族 是由UniProt Knowledge Database 中自动生成的综合性的蛋 白质功能域家族数据库。
Visualization of ProDom domains on 3D structures; coupling of ProDom analysis with the Geno3D homology modelling server; ProDom-SG, a ProDom-based server dedicated to the selection of candidate proteins for structural genomics.