生物信息学蛋白库查询
blastx用法
blastx用法blastx是一种生物信息学工具,用于在蛋白质数据库中查找和比对核酸序列的编码蛋白质序列。
blastx是Blast(Basic Local Alignment Search Tool)软件家族的一员,它使用NCBI(National Center for Biotechnology Information)的非冗余蛋白质序列数据库(nr)或其他用户指定的数据库进行比对。
blastx的用法包括以下几个步骤:1.准备核酸序列文件:将需要查询的核酸序列保存在一个文本文件中,一般是FASTA格式。
2.选择合适的数据库:根据研究目的和问题的特点,选择适当的蛋白质数据库。
通常使用NCBI的nr数据库,它包含了全球各个物种已知的非冗余蛋白质序列信息。
3.运行blastx:在命令行或者图形化界面中输入blastx的命令或进行相应的设置,指定核酸序列文件和数据库,然后运行blastx。
4.解析输出结果:blastx会生成一个比对结果文件,其中包含了核酸序列与蛋白质数据库中蛋白质序列的比对信息。
可以通过查看比对分数、E-value、比对位置等指标来评估比对的质量和可靠性。
5.进一步分析和解释:基于比对结果,进一步分析和解释核酸序列与已知蛋白质序列的关系和功能。
可以通过比对的结果来预测未知序列的功能、推断物种间的亲缘关系等。
除了上述基本用法,blastx还可以通过设置不同的参数来定制化分析,例如调整比对的严格度、限定比对结果的最小阈值、特定的序列过滤等。
此外,使用blastx,还可以进行基因功能注释、找到同源蛋白、寻找变异位点等研究。
同时,blastx也可以被用于大规模的基因组、转录组以及六框架的翻译产品比对。
总的来说,blastx是一种强大的工具,被广泛应用于生物信息学领域,有助于研究人员更好地理解基因组和蛋白质的功能与演化关系。
生物信息研究中常用蛋白质数据库的总结
生物信息研究中常用蛋白质数据库简述内蒙古工业大学理学院呼和浩特孙利霞2010.1.5摘要:在后基因组时代生物信息学的研究当中,离不开各种生物信息学数据库。
尤其在蛋白质从序列到功能的研究当中,目前各种行之有效的方法都是基于各种层次和结构的蛋白质数据库。
随着计算机技术及网络技术的发展,目前的蛋白质数据库不论是所包含数据量还是功能都日新月异,新的数据库层出不穷。
一个新手面对如此浩瀚的数据量往往无从下手。
本文粗浅地为目前蛋白质数据库的使用勾画出一个轮廓,作为自己蛋白质研究入门的一个引导。
关键词:蛋白质;数据库0 引言随着科技的发展,个人的知识往往赶不上快速膨胀的信息量,人们为了解决这个问题,便创建了形形色色的数据库。
蛋白质数据库是指:在蛋白质研究领域根据实际需要,对蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释,构建出具有特殊生物学意义和专门用途的数据库。
蛋白质数据库总体上可分为两大类:蛋白质序列数据库和蛋白质结构数据库,蛋白质序列数据库来自序列测定,结构数据库来自X-衍射和核磁共振结构测定(详见图1)。
这些数据库是分子生物信息学的基本数据资源。
上世纪90年代,我国从事蛋白质研究的学者使用的蛋白质数据库储存介质还是国外实验室发布的激光光盘[1]。
信息的传播储存甚为不便。
随着蛋白质研究的发展飞快,同时伴随着计算机和因特网发展,蛋白质数据库的储存传播方式也发生的巨大的变化。
进入21世纪后,我们所用的各种蛋白质数据库都发展成为存储在网络服务器上,基于“服务器—客户机”的访问查询方式。
伴随着计算机及物理测试技术的发展数据库的容量和功能成数量级膨胀。
但是面对如此浩瀚的数据,新手往往感到无从下手,在需要时找不到自己需要的合适数据库。
本文从目前蛋白质数据库建立的的逻辑层次出发,系统地简绍了常用蛋白质数据的概况,它们的查询方法以及它们相互之间的联系。
同时尽量不涉及数据库建设和维护方面的计算机和网络这些数据库底层的技术,为蛋白质研究的入门者及对蛋白质感兴趣的人员的一个引导。
蛋白质序列数据库
2 作者
▪ 数据或文章的作者是系统联系相关数据和科学研究的关键 因素;
▪ GenBank数据库的作者的输入全称姓和名的首字母
3 文章
▪ 最常见的生物科学文献是期刊文献,对于生物数据库的引用格式缺省 是期刊文献
▪ 文章也可出现在书、手稿及电子期刊上。 ▪ 期刊名、年份、文章的首页以及文章作者的姓
4 专利权
属性。
5 序列描述:
是在生物和(或)生物文献的上下文中描述一个生 物序列或生物序列集;
生物源(BioSource)-来源生物的信息; 分子信息(MolInfo)--描述器指示分子类型,如基因,
mRNA,EST,肽链信息。
蛋白质数据分析
由于传统的用X光晶体衍射和核磁共振 技术测定蛋白质的三维结构、用生化方法 研究蛋白质功能的效率不高,无法适应由 基因组测序所带来的蛋白质序列数量飞速 增长的需要,近年来,许多科学家致力于 用理论计算的方法预测蛋白质的三维结构 和功能,提高蛋白质功能研究的效率,并 取得了一定的成果。
▪ 2个大写字母(分:基因信息号,核酸序列和蛋白质序列均有gi号; ▪ gi的来源:由源数据库提供;序列仅当其完整地被提交公
共数据库处理后,才最终达到一个序列号和一个gi号; ▪ 位置:在VERSION行中,版本号,gi号 ▪ 修改记录时,新记录与原先记录不同时(哪怕是一个碱基
a. 所有序列条目都经过有经验的分子生物学家和蛋白 质化学家通过计算机工具并查阅有关文献资料仔细核 实。
生物信息学网站网址(全)
生物信息学网站分子生物学数据库综合目录1. SRS序列查询系统(分子生物学数据库网络浏览器) http://www.embl-heidelberg.ed/srs5/2. 分子生物学数据库及服务器概览/people/pkarp/mimbd/rsmith.html3. BioMedNet图书馆4. DBGET数据库链接http://www.genome.ad.jp/dbget/dbget.links.html5. 哈佛基因组研究数据库与精选服务器6. 约翰. 霍普金斯大学(Johns Hopkins University) OWL网络服器/Dan/proteins/owl.html7. 生物网络服务器索引,USCS /network/science/biology/index.html8. 分子生物学数据库列表(LiMB) gopher:///11/molbio/other9. 病毒学的WWW服务器,UW-Madison /Welcome.html10. UK MRC 人类基组图谱计划研究中心/11. 生物学家和生物化学家的WWW资源http://www.yk.rim.pr.jp/~aisoai/index.html12. 其他生物网络服务器的链接/biolinks.html13. 分子模型服务器与数据库/lap/rsccom/dab/ind006links.html14. EMBO实际结构数据库http://xray.bmc.uu.se/embo/structdb/links.html15. 蛋白质科学家的网络资源/protein/ProSciDocs/WWWResources.html16. ExPASy分子生物学服务器http://expasy.hcuge.ch/cgi-bin/listdoc17. 抗体研究网页18. 生物信息网址http://biochem.kaist.ac.kr/bioinformatics.html19. 乔治.梅森大学(George Mason University)的生物信息学与计算分子生物学专业/~michaels/Bioinformatics/20. INFOBIOGEN数据库目录biogen.fr/services/dbcat/21. 国家生物技术信息研究室/data/data.html22. 人类基因组计划情报/TechResources/Human_Genome23. 生物学软件及数据库档案/Dan/software/biol-links.html24. 蛋白质组研究:功能基因组学的新前沿(著作目录) http://expasy.hcuge.ch/ch2d/LivreTOC.html序列与结构数据库一.主要的公共序列数据库1. EMBL WWW服务器http://www.EMBL-heidelberg.ed/Services/index.html2. Genbank 数据库查询形式(得到Genbank的一个记录) /genbank/query_form.html3. 蛋白质结构数据库WWW服务器(得到一PDB结构) 4. 欧洲生物信息学研究中心(EBI) /5. EBI产业支持/6. SWISS-PROT(蛋白质序列库) http://www.expasy.ch/sprot/sprot-top.html7. 大分子结构数据库/cgi-bin/membersl/shwtoc.pl?J:mms8. Molecules R Us(搜索及观察一蛋白质分子) /modeling/net_services.html9. PIR国际蛋白质序列数据库/Dan/proteins/pir.html10. SCOP(蛋白质的结构分类),MRC /scop/data/scop.l.html11. 洛斯阿拉莫斯的HIV分子免疫数据库/immuno/index.html12. TIGR数据库/tdb/tdb.html13. NCBI WWW Entrez浏览器/Entrez/index.html14. 剑桥结构数据库(小分子有机的及有机金属的结晶结构) 15. 基因本体论坛/GO/二. 专业数据库1. ANU生物信息学超媒体服务(病毒数据库、分类及病毒的命名法) .au/2. O-GL YCBASE(O联糖基化蛋白质的修订数据库) http://www.cbs.dtu.dk/OGLYCBASE/cbsoglycbase.html3. 基因组序列数据序(GSDB)(已注释的DNA序列的关系数据序) 4. EBI蛋白质拓扑图/tops/Serverintermed.html5. 酶及新陈代谢途径数据库(EMP) /6. 大肠杆菌数据库收集(ECDC)(大肠杆菌K12的DNA序列汇编) http://susi.bio.uni-giessen.de/ecdc.html7. EcoCyc(大肠杆菌基因及其新陈代谢的百科全书) /ecocyc/ecocyc.html8. Eddy实验室的snoRNA数据库/snoRNAdb/9. GenproEc(大肠杆菌基因及蛋白质) /html/ecoli.html10. NRSub(枯草芽胞杆菌的非冗余数据库) http://pbil.univ-lyonl.fr/nrsub/nrsub.html11. YPD(酿酒酵母蛋白质) /YPDhome.html12. 酵母基因组数据库/Saccharomyces/13. LISTA、LISTA-HOP及LISTA-HON(酵母同源数据库汇编) /14. MPDB(分子探针数据库) http://www.biotech.est.unige.it/interlab/mpdb.html15. tRNA序列及tRNA基因序列汇编http://www.uni-bayreuth.de/departments/biochemie/trna/index/html16. 贝勒医学院(Baylor College of Medicine)的小RNA数据库/dbs/SRPDB/SRPDB.html17. SRPDB(信号识别粒子数据库) /dbs/SRPDB/SRPDB.html18. RDP(核糖体数据库计划) /19. 小核糖体亚蛋白RNA结构http://rrna.uia.ac.be/ssu/index.html20. 大核糖体亚蛋白RNA结构http://rrna.uia.ac.be/lsu/index.html21. RNA修饰数据库/RNAmods/22. 16SMDB及23SMDB(16S和23S核糖体RNA突变数据库)/Departments/Biology/Databases/RNA.html23. SWISS-2DPAGE(二维凝胶电泳数据库) http://expasy.hcuge.ch/ch2d/ch2d-top.html24. PRINTS /bsm/dbbrowser/PRINTS/PRINTS.html25. KabatMan(抗体结构及序列信息数据库) /abs26. ALIGN(蛋白质序列比对一览) /bsm/dbbrowser/ALIGN/ALIGN.html27. CATH(蛋白质结构分类系统) /bsm/cath28. ProDom(蛋白质域数据库) http://protein.toulouse.inra.fr/29. Blocks数据库(蛋白质分类系统) /30. HSSP(按同源性导出的蛋白质二级结构数据库) http://www.sander.embl-heidelberg.de/hssp/31. FSSP(基于结构比对的蛋白质折叠分类) /dali/fssp/fssp.html32. SBASE蛋白质域(已注释的蛋白质序列片断) http://www.icgeb.trieste.it/~sbasessrv/33. TransTerm(翻译控制信号数据库) /Transterm.html34. GRBase(参与基因调控的蛋白质的相关信息数据库) /~regulate/trevgrb.html35. REBASE(限制性内切酶和甲基化酶数据库) /rebase/36. RNaseP数据库/RNaseP/home.html37. REGULONDB(大肠杆菌转录调控数据库) http://www.cifn.unam.mx/Computational_Biology/regulondb/38. TRANSFAC(转录因子及其DNA结合位点数据库) http://transfac.gbf.de/39. MHCPEP(MHC结合肽数据库) .au/mhcpep/40. ATCC(美国菌种保藏中心) /41. 高度保守的核蛋白序列的组蛋白序列数据库/Baxevani/HISTONES42. 3Dee(蛋白质结构域定义数据库) /servers/3Dee.html43. InterPro(蛋白质域以及功能位点的完整资源) /interpro/序列相似性搜索1. EBI序列相似性研究网页/searches/searches.html2. NCBI: BLAST注释/BLAST3. EMBL的BLITZ ULTRA快速搜索/searches/blitz_input.html4. EMBL WWW服务器http://www.embl-heidelberg.de/Services/index.html#55. 蛋白质或核苷酸的模式浏览/compbio/PatScan/HTML/patscan.html6. MEME(蛋白质超二级结构模体发现与研究) /meme/website7. CoreSearch(DNA序列保守元件的识别) http://www.gsf.de/biodv/coresearch.html8. PRINTS/PROSIT浏览(搜索motif数据库) /cgi-bin/attwood/SearchprintsForm.pl9. 苏黎世ETH服务器的DARWIN系统http://cbrg.inf.ethz.ch/10. 利用动态规划找出序列相似性的Pima IIhttp://bmerc-www.bu.ede/protein-seq/pimaII-new.html11. 利用与模式库进行哈希码(hashcode)比较找到序列相似性的DashPat /protein-seq/dashPat-new.html12. PROPSEARCH(基于氨基酸组成的搜索) http://www.embl-heidelberg.de/aaa.html13. 序列搜索协议(集成模式搜索) /bsm/dbbrowser/protocol.html14. ProtoMap(SEISS-PROT中所有蛋白质的自动层次分类) http://www.protomap.cs.huji.ac.il/15. GenQuest(利用Fasta、Blast、Smith-Waterman方法在任意数据库中搜索) http://www.gdb.rog/Dan/gq/gq.form.html16. SSearch(对特定数据库的搜索) http://watson.genes.nig.ac.jp/homology/ssearch-e_help.html17. Peer Bork搜索列表(motif/模式序列谱搜索) http://www.embl-heidelberg.de/~bork/pattern.html18. PROSITE数据库搜索(搜索序列的功能位点) /searches/prosite.html19. PROWL(Skirball研究中心的蛋白质信息检索) /index.html序列和结构的两两比对1. 蛋白质两两比对(SIM) http://expasy.hcuge.ch/sprot/sim-prot.html2. LALNVIEW比对可视化观察程序ftp://expasy.hcuge.ch/pub/lalnview3. BCM搜索装置(两两序列比对) /seq-search/alignment.html4. DALI蛋白质三维结构比较/dali/5. DIALIGN(无间隙罚分的比对程序) http://www.gsf.de/biodv/dialign/html多重序列比对及系统进行树1. ClustalW(BCM的多重序列比对) /multi-align/multi-align.html2. PHYLIP(推测系统进行树的程序) /phylip.html3. 其它系统进行树程序,PHYLIP文档的汇编http://expasy.hcuge.ch/info/phylogeny.html4. 系统进行树分析程序(生命树列表) /tree/programs/programs.html5. 遗传分类学软件(Willi hennig协会提供的列表) /education.html6. 用于多重序列比对的BCM搜索装置/multi-align/multi-align.html7. AMAS(分析多重序列比对中的序列) /servers/amas_server.html8. 维也纳RNA二级结构软件包http://www.tbi.univie.ac.at/~ivo/RNA/四. 有代表性的预测服务器1. PHD蛋白质预测服务器,用于二级结构、水溶性以及跨膜片断的预测http://www.embl-heidelberg.de/predictprotein/predictprotein.html2. PhdThreader(利用逆折叠方法预测、识别折叠类) http://www.embl-heidelberg.de/predictprotein/phd_help.html3. PSIpred(蛋白质结构预测服务器) /psipred4. THREADER(戴维. 琼斯) /~jones/threader.html5. TMHMM(跨膜螺旋蛋白的预测) http://www.cbs.dtu.dk/services/TMHMM/6. 蛋白质结构分析,BMERC /protein-seq/protein-struct.html7. 蛋白质域和折叠预测的提交表http://genome.dkfz-heidelberg.de/nnga/def-query.html8. NNSSP(利用最近相邻法预测蛋白质的二级结构) /pss/pss.html9. Swiss-Model(基于知识的蛋白质自动同源建模服务器) http://www.expasy.ch/swissmod/SWISS-MODEL.html10. SSPRED(用多重序列比对进行二级结构预测) /jong/predict/sspred.html11. 法国IBCP的SOPM(自寻优化预测方法、二级结构) http://pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=/NPSA/npsa_sopm.html12. TMAP(蛋白质跨膜片断的预测服务) http://www.embl-heidelberg.de/tmap/tmap_info.html13. TMpred(跨膜区域和方向的预测) /software/TMPRED_form.html14. MultPredict(多重序列比对的序列的二级结构) /zpred.html15. BCM搜索装置(蛋白质二级结构预测) /seq-search/struc-predict.html16. COILS(蛋白质的卷曲螺旋区域预测) /software/coils/COILS_doc.html17. Coiled Coils(卷曲螺旋) /depts/biol/units/coils/coilcoil.html18. Paircoil(氨基酸序列中的卷曲螺旋定位) /bab/webcoil.html19. PREDATOR(由单序列预测蛋白质二级结构) http://www.embl-heidelberg.de/argos/predator/predator_info.html20. EV A(蛋白质结构预测服务器的自动评估) /eva/五. 其他预测服务器1. SignalP (革兰氏阳性菌、革兰氏阴性菌和真核生物蛋白质的信号肽及剪切位点) http://www.cbs.dtu.dk/services/SignalP/2. PEDANT(蛋白质提取、描述及分析工具) http://pedant.mips.biochem.mpg.de/六. 分子生物学软件链接1. 生物信息学可视化工具/alan/VisSupp/2. EBI分子生物学软件档案/software/software.html3. BioCatalog /biocat/e-mail_Server_ANAL YSIS.html4. 生物学软件和数据库档案/Dan/softsearch/biol-links.html5. UC Santa Cruz的序列保守性HMM的SAM软件/research/compbio/sam.html七. 网上博士课程1. 生物计算课程资源列表:课程大纲http://www.techfak.uni-bielefeld.de/bcd/Curric/syllabi.html2. 生物序列分析和蛋白质建模的Ph.D课程http://www.cbs.dtu.dk/phdcourse/programme.html3. 分子科学虚拟学校/vsms/sbdd/4. EMBnet 生物计算指南http://biobase.dk/Embnetut/Universl/embnettu.html5. 蛋白质结构的合作课程/PPS/index.html6. 自然科学GNA虚拟学校http://www.techfak.uni-bielefeld.de/bcd/Vsns/index.html7. 分子生物学算法/education/courses/590bi。
生物信息学总结
一、生物学数据库总共三大数据库GenBank (隶属于NCBI) , DDBJ(日本) , EBI(欧洲)。
1. NCBIPubMed:美国国家医学图书馆提供的搜索服务,主要用于搜索paper。
Entrez :将科学文献、DNA和蛋白质序列数据库、蛋白质三维结构数据、种群研究以及全基因组组装数据整合成的一个系统,其实就是个工具,平常你点的search,是个查询、提取、显示系统。
Blast :基础局部比对搜索工具,主要用于搜索相似DNA或蛋白质序列。
OMIM :在线人类孟德尔遗传性状数据库,主要用于搜索人类基因和遗传异常序列。
BooksTaxonomy:生物类别的分类浏览器(古细菌、细菌、真核生物、病毒)Structure:分子模型数据库(MMDB,PDB)GenBank:数据量极大DbEST:表达序列标签数据库,GenBank的子库。
Unigene:为每一个gene创造一个条目,一个具体的基因可能对应于许多EST,但是只对应一个Unigene。
提供作为EST记录来源的cDNA库的组织区域分布列表,并且给出了对应于基因的EST列表,允许使用者对它们进行深入研究。
RefSeq:GenBank数据量太大,是冗余的,对应于某个基因的索引号可能有很多,但是其RefSeq仅有一个。
2. EBIEMBL:储存DNA、RNA序列的数据库,对DDBJ,GENBANK是互补的。
SWISS-PROT:现存的最好的标有注释的蛋白数据库TrEMBL:翻译后的EMBLMSD:蛋白质结构数据库Ensembl:基因组数据浏览器ArrayExpress:基因表达数据库3.其他生物学数据库PIR:蛋白信息数据库UniProt:将Swiss-Prot、PIR、TrEMBL三者合一ExPASy :专家蛋白分析系统PDB:蛋白三维结构,存储格式为pdb,用RasMol软件看二、数据库检索数据库检索是指对数据库中的注释信息进行关键词匹配查找1、Entrez使用方法登录NCBI,在Search处选择数据库,输入检索词之后回车检索格式genepept、fasta序列的fasta格式:1. 每条记录的第一行以大于号(>)开始2. 大于号后是序列的描述信息3. 从第2行开始为序列本身。
蛋白质数据库
生物芯片北京国家工程研究中心湖南中药现代化药物筛选分中心暨湖南涵春生物有限公司常用数据库名录1、蛋白质数据库PPI - JCB 蛋白质与蛋白质相互作用网络•Swiss-Prot - 蛋白质序列注释数据库•Kabat - 免疫蛋白质序列数据库•PMD - 蛋白质突变数据库•InterPro - 蛋白质结构域和功能位点•PROSITE - 蛋白质位点和模型•BLOCKS - 生物序列分析数据库•Pfam - 蛋白质家族数据库 [镜像: St. Louis (USA), Sanger Institute, UK, Karolinska Institutet (Sweden)] •PRINTS - 蛋白质 Motif 数据库•ProDom - 蛋白质结构域数据库 (自动产生)•PROTOMAP - Swiss-Prot蛋白质自动分类系统•SBASE - SBASE 结构域预测数据库•SMART - 模式结构研究工具•STRING - 相互作用的蛋白质和基因的研究工具•TIGRFAMs - TIGR 蛋白质家族数据库•BIND - 生物分子相互作用数据库•DIP - 蛋白质相互作用数据库•MINT - 分子相互作用数据库•HPRD - 人类蛋白质查询数据库•IntAct - EBI 蛋白质相互作用数据库•GRID - 相互作用综合数据库•PPI - JCB 蛋白质与蛋白质相互作用网络2、蛋白质三级结构数据库•PDB - 蛋白质数据银行•BioMagResBank - 蛋白质、氨基酸和核苷酸的核磁共振数据库•SWISS-MODEL Repository - 自动产生蛋白质模型的数据库•ModBase - 蛋白质结构模型数据库•CATH - 蛋白质结构分类数据库•SCOP - 蛋白质结构分类 [镜像: USA | Israel | Singapore | Australia]•Molecules To Go - PDB数据库查询•BMM Domain Server - 生物分子模型数据库•ReLiBase - 受体/配体复合物数据库 [镜像: USA]•TOPS - 蛋白质拓扑图•CCDC - 剑桥晶体数据中心 (剑桥结构数据库 (CSD))•HSSP - 蛋白质二级结构数据库•MutaProt - PDB数据库中点突变的比较•SWISS-3DIMAGE - 蛋白质和其他生物分子的三维图像•BioImage - 生物图像数据库 (包含生物大分子图像) 3、蛋白质组数据库和链接•2-D胶数据库以及与2-D胶相关的数据库•蛋白质组链接4、与核酸相关的数据库•EMBL - EMBL核酸序列数据库 (EBI)•Genbank - GenBank核酸序列数据库 (NCBI)•DDBJ - 日本DNA数据库•dbEST - dbEST(表达序列标签)数据库 (NCBI)•dbSTS - dbSTS(序列标签位点)数据库 (NCBI)•AsDb - 异常剪切数据库•ACUTS - DNA非转录保守序列数据库•密码子数据库•EPD - 真核生物启动子数据库•HOVERGEN - 颈椎动物同源基因数据库•IMGT - 免疫遗传学数据库 [镜像: EBI]•ISIS - 内含子序列信息•RDP - 核糖体数据库•gRNAs db - gRNA数据库•PLACE - 植物DNA顺势调控元件数据库•PlantCARE - 植物中DNA顺势调控组件数据库•ssu rRNA - 欧洲核糖体RNA数据库-小核糖体•lsu rRNA - 欧洲核糖体RNA数据库-大核糖体•5S rRNA - 5S核糖体RNA数据库•tmRNA Website - tmRNA站点•tmRDB - tmRNA数据库•tRNA - tRNA剪切( Bayreuth大学)•uRNA db•RNA editing - RNA剪切位点•RNAmod db - RNA修饰数据库•TelDB - 多介质端粒数据库•MPDB - 分子探针数据库•VectorDB - 载体序列数据库5、糖类•FCCA - 糖类论坛•GlycoSuiteDB - 多聚糖数据库•Monosacharide browser - Space filling Fischer projection for monosaccharides•Thorkild's lectin page - 凝集素通道6、特殊物种数据库:人类:•OMIM - 孟德尔遗传在线--人类•GENATLAS - 人类基因图集•GeneClinics - 医学基因学库•GDB - 基因组数据库•GeneCards - 人类基因整合信息数据库•UDB - 人类基因图谱数据库•Ensembl人类基因组浏览器•UCSC人类基因组工作草图•TIGR HGI - TIGR人类基因组索引•Hs UniGene - GenBank中的人类转录本•STACK - 序列标签比对• - 人类基因预测•GenLink - 人类基因组资源数据库•GeneLynx - 人类基因组•HUGE - 人类未知基因-大型蛋白质反转录得到的cDNA (KIAA...)•HUNT - 人类异常转录本•CGAP - 癌症基因组解剖学•MGC - 哺乳动物基因•SCDb - 干细胞数据库•Homophila - 人类疾病基因与果蝇基因对比数据库•Human Protein Atlas - 人类正常组织蛋白质与癌细胞蛋白质表达与位点的比较•Chr at Rutgers - Rutgers的人类染色体信息•Chr at Sanger - Sanger Center的人类染色体信息•Chr Swiss-Prot list - Swiss-Prot的染色体信息脊椎动物:•OMIA - 孟德尔遗传在线--动物•MGI - 小鼠基因组学信息 [镜像: Australia]•Ensembl小鼠基因组浏览器•TIGR MGI - TIGR小鼠基因索引•Mm UniGene - GenBank 中的小鼠转录本(EST clusters) •MGC - 哺乳动物基因•Mouse gene knockouts db - 小鼠基因敲除数据库•RGD - 大鼠基因组数据库•RatMAP - 大鼠基因组数据库•TIGR RGI - TIGR大鼠基因组数据库•Rn Unigene - GenBank 中的大鼠转录本(EST clusters) •BOVMAP - 牛基因数据库 (法国)•DGP - 狗基因数据库•MIS - 孟德尔遗传--羊•Ark-Cat - 猫基因组数据库•Ark-Chicken - 鸡基因组数据库•Ark-Cow - 奶牛基因组数据库•Ark-Deer - 鹿基因组数据库•Ark-Horse - 马基因组数据库•Ark-Pig - 猪基因组数据库•Ark-Sheep - 绵羊基因组数据库•Ark-Turkey - 火鸡基因组数据库•FishBase -鱼类综合信息系统•Fugu genome project - 河豚基因组•Fugu - HGMP 河豚数据•- Ensembl 河豚基因组浏览器•Medakafish - Mekada fish (Oryzias latipes) server •Ark-Tilapia - 罗飞鱼基因组数据库•Ark-Salmon - 大马哈鱼基因组数据库•The fish net - 斑马鱼基因组数据库•Ensembl斑马鱼基因组浏览器线粒体和叶绿体:•GOBASE - 细胞器基因组数据库•MitoDat - 孟德尔遗传和线粒体数据库• C.caldarium - 蓝藻纲PK1菌株叶绿体基因组昆虫•Drosophila Swiss-Prot list - Swiss-Prot中的果蝇链接•FlyBase - 果蝇遗传数据库和分子数据库•BDGP - Berkeley果蝇基因组项目•FlyView - 果蝇图像数据库•Homophila - 人类疾病与果蝇基因对照数据库•蚊子基因组学•AnoDB - 疟蚊数据库•Ensembl蚊子基因组浏览器7、人类突变数据库•HGMD - 人类基因突变数据库•SVD - EBI序列变异数据库•GeneDis - 人类遗传病数据库8、特殊基因和蛋白质数据库•Allergens in Swiss-Prot - Swiss-Prot中过敏反应的命名与索引•Allergome - 过敏症反应分子数据库•Aminoacyl-tRNA synthetases in Swiss-Prot - Swiss-Prot 中氨基化tRNA合成酶列表9、转录后修饰数据库•DSDBASE - 二硫化物数据库 (数据来源于三级结构数据库) •GlycoSuiteDB - 多聚糖结构数据库•LIPID MAPS - 脂类代谢及路径10、系统发生学数据库•COG - 全基因组中编码的蛋白质的系统发生学分类方法•EGO - 真核生物基因分类方法•InParanoid - 真核生物分类11、芯片数据库•ArrayExpress - EBI中芯片数据•ExpressDB - 酵母菌和大肠杆菌表达数据库•GeneX - 基因表达工程12、专利数据库•DPD - DNA专利数据库•Ag Patents - USDA收录的农业工艺专利•Esp@cenet - 欧洲专利事务所专利信息数据库 (世界范围内)13、参考文献(目录数据库)•PubMed Medline server - PubMed查询•AGRICOLA - NAL农业查询数据库•Article@INIST - 科技信息数据库•Korean Journals Abstract db - 韩国杂志摘要数据库•SeqAnalRef - 序列分析文献14、字典, 读物, 课程 ,命名法•BioABACUS - 缩写词•BioTech's life science dictionary生物科技及生命科学字典•DCB - 细胞生物学字典(Julian Dow编写)15、生物软件数据库及目录•CLC Free Workbench - 可在Linux, MacOS X and Windows操作系统上运行的,对DNA、RNA和蛋白质进行算法分析的软件•CLC Protein Workbench - 可在Linux, MacOS X and Windows 操作系统上运行的,对DNA、RNA和蛋白质进行算法分析的软件•BioCatalog - EBI的生物目录16、生命科学资源•Biofind - 生物科技工业信息、评论及新闻•Bioinformatik.de - 生物信息学网页目录17、生物杂志和发行人•生物杂志主页:Swiss-Prot journals list - Swiss-Prot杂志列表• - 电子出版物目录• - 电子期刊目录18、发行人•Allen Press, Inc. - Allen出版社•AMA - 美国医学联合出版物•ACS - 美国化工协会出版物19、生物信息学杂志和通讯•BioInformer - EBI通讯•NCBI Newsletter -NCBI通讯•PDB Quaterly Newsletter - PDB通讯20、基因组通讯•Human Genome Project Information - 人类基因组计划•FGN - 真菌遗传学•Rice Genome Newsletter - 水稻基因组21、其他•IJC - 化学杂志•Plant Gene Register - 植物基因注册22、生物商业杂志•BioCentury - 生物世纪•BioWorld Online - 生物世界•Drug Discovery and Development - 药物发现和发展•GEN - 基因工程新闻23、综合性科学杂志•Nature•New Scientist•La Recherche•Science•Scientific American24、生物学研究机构•APS - 美国缩氨酸社区•ASCB - 美国细胞生物学社区•ASHG - 美国人类遗传学社区25、计算生物学服务器主页欧洲:•EBI - 欧洲生物信息学协会•EMBnet - 欧洲分子生物信息学网•EMBL - EMBL计算生物学机构美国和加拿大:•NCBI - 美国生物学信息中心•ABCC - NCI高级生物医学计算中心•ACGT - Oklahoma大学基因组技术中心亚洲•APBioNet - 亚太生物信息网•BIC-JNU - Jawaharlal Nehru大学生物信息学中心•DIC - Pune (印度)大学生物信息澳洲•APBioNet - 亚太生物信息网•ANGIS - 澳大利亚国家遗传信息服务中心•ANU - 澳大利亚国大学生物信息学研究组•APAF - 澳大利亚蛋白质组分析工具26、其他•HUJI - 耶路撒冷Hebrew大学基因组学和生物信息学服务中心•Weizmann Bioinfo/BCU - Weizmann计算生物学和生物信息学研究协会•SANBI - 南非生物信息学研究协会27、生物公司和制药公司•美国药物研究和制造商目录•Bioportfolio - 生物技术企业•Affymetrix, Inc. - Affymetrix公司28、生物信息公司•Aborygen•Accelrys, Inc•AlgoNomics NV t29、其他链接其他医学查询•HON - 基于网络的健康服务• - 药物网络指南•MedWeb - 医学链接其他科学查询•GPSDB - 基因和蛋白质同义词数据库•Chemcyclopedia Online - 商业化学试剂数据库。
生物信息学 实验三 数据库搜索-BLAST
实验三数据库搜索—BLAST1. Nucleotide BLAST在Nucleotide中输入登录号搜索人类MAPK9(NM_139069.2)基因,send to 为coding sequences,作为Query 序列,或者下载complete sequences,在Blastn 中限制序列搜索范围为272-1420(编码区)。
分别用megablast, discontiguous megablast 和 blastn 进行搜索。
这三个搜索的参数不同之处,主要体现在单词单位,megablast的单词单位默认为28,可选范围从16-256, discontiguous megablast的单词单位默认为11,可选为11和12, blastn单词单位默认为11,可选范围为7,11和15。
Megablast 可以快速搜索到与query 高度相似的序列;discontiguous megablast用于寻找与 query 高度相似的序列; blastn则用于寻找与 query 有一定相似度的序列。
单词单位越小,敏感度越高,也就是说,Megablast敏感度最差,discontiguous megablast 居中,blastn 最高。
Megablast的搜索速度最快,discontiguous megablast居中,blastn最差。
三个搜索所搜索到的相似序列的数量,相似性范围和分值范围都有很大差异,具Methods Number Identity(%)Max score Megablast154172-10073.1-2122 discontiguous megablast652763-10044.6-2073 blastn116676310044.6-2073截取30bp的片段进行blastn搜索,默认参数设置如下图:搜索后,实际参数如下图,主要对word size, expect value进行了调整,这是因为我们了选中automatically adjust parameters for short input sequences,在所搜索的片段长度比较小时,数据库中随机情况下找到高度相似甚至相同的局部比对(HSPs)的可能性非常高,系统自动将 word size 调小,提高敏感度,而将 E-value 调大,确保有搜索结果出现。
生物信息学数据库
BLAST:碱基局部对准检索工具
Basic Locul Alignment Search Tool
可进行核苷酸序列、蛋白质序列方面的 同源性分析,能在8秒内在整个DNA数据库 中进行序列比较。
diabetes
顺序号中第1位数字表示所涉及 基因的遗传类型: 1:常染色体显性(1994.5.15前创建) 2:常染色体隐性(1994.5.15前创建) 3:X连锁基因座或表现型 4:Y连锁基因座或表现型 5:线粒体基因座或表现型 6:常染色体基因座或表现型 (1994.5.15后创建的条目)
比较结果页面
彩色积 分图
序 列 相 似 存贮号 描 述
描述
积分
检索 范围
E值 统计
链接
相似率为100%
序列对准 描述
三、基因组数据库
1、Genome:可获得800多种生物体的基 因组数据,部分已完成测序。
2、人类基因组资源: human genome resources
整合了多种相关的分子生物学数据库和 公共分析软件,为科研人员提供了自动化 的实验数据获得、加工和整理途径,为基 因区域的预测和基因功能预测提供了一系 列便捷的方法。
序列数据库 结构数据库 生物信息学数据库的种类 图谱数据库 突变数据库 文献数据库
专业杂志 生物信息学数据库的查找方法 专门数据库目录的网站
著名的生物信息学中心
参见教材p227--p242
NCBI数据库组织
一、NCBI中的生物信息数据库
1)、PubMed: 生物医学文献数据库 2)、Nucleotide:核酸序列数据库 3)、Protein sequence database:
生物信息学蛋白质数据库
蛋白质
The Central Dogma
生物信息学 (Bioinformatics)
是由生物学和信息科学交 叉融合形成的。包含生物 信息的获取、处理、存储、 发布、分析和解释等各个 方面,它综合运用数学、 生物学、计算机、信息科 学等诸多学科的理论方法 及国际互联网,阐明和解 释大量数据所包含的生物 学意义。
生物信息学的重要组成:
1. 数据库 (DataBase)
《Nucleic Acids Research》杂 志每年的第一期中详细介绍最新 版本的各种数据库。到2013年共 有1512个数据库。
1. 检索工具 (Retrieve Tool)
1. 分析软件 (Analysis Software)
利用在线工具和离线工具分析功 能和结构
5.美国国家生物医学基金会
(National Biomedical Research Foundation, NBRF) 数据库:PIR
6.布鲁克黑文国家实验室
(Brookhaven national laboratory) 数据库:PDB
7. 桑格研究所
(Wellcome Trust Sanger Institute) 数据库:PFAM
SRS FASTA
3.日本国立遗传学研究所
National Institute of Genetics,NIG
DNA Data Bank of Japan(DDBJ),日本DNA数据库 是日本遗传学各方面研究的中心研究机构及生命科学所有
领域的研究基地。(亚洲) 工具:
DBGET SEARCH KEGG
• TREMBL – Translation of mRNAs (RefSeq), UniGene, open reading frames (ORFs) and predicted genes from genomes – Automatic annotations
生物信息学工具介绍
生物信息学工具介绍1、FASTA[10](/fasta33/)和BLAST[11](http://www.nc /BLAST/)是目前运用较为广泛的相似性搜索工具。
比较和确定某一数据库中的序列与某一给定序列的相似性是生物信息学中最频繁使用和最有价值的操作。
本质上这与两条序列的比较没有什么两样,只是要重复成千上万次。
但是要严格地进行一次比较必定需要一定的耗时,所以必需考虑在一个合理的时间内完成搜索比较操作。
FASTA使用的是Wilbur-Lipman 算法的改进算法,进行整体联配,重点查找那些可能达到匹配显著的联配。
虽然FASTA不会错过那些匹配极好的序列,但有时会漏过一些匹配程度不高但达显著水平的序列。
使用FASTA和BLAST,进行数据库搜索,找到与查询序列有一定相似性的序列。
一般认为,如果蛋白的序列一致性为25-30%,则可认为序列同源。
BLAST(Basic Loc al Alignment Search Tool,基本局部联配搜索工具)是基于匹配短序列片段,用一种强有力的统计模型来确定未知序列与数据库序列的最佳局部联配。
BLAST 是现在应用最广泛的序列相似性搜索工具,相比FASTA 有更多改进,速度更快,并建立在严格的统计学基础之上。
这两个工具都采用局部比对的方法,选择计分矩阵对序列计分,通过分值的大小和统计学显著性分析确定有意义的局部比对。
BLAST根据搜索序列和数据库的不同类型分为5种:1、BLASTP是蛋白序列到蛋白库中的一种查询。
库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。
2、BLASTX是核酸序列到蛋白库中的一种查询。
先将核酸序列翻译成蛋白序列(一条核酸序列会被翻译成可能的六条蛋白),再对每一条作一对一的蛋白序列比对。
3、BLASTN是核酸序列到核酸库中的一种查询。
库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。
4、TBLASTN是蛋白序列到核酸库中的一种查询。
生物信息学资源检索
(三)TrEMBL
创建于1996年,意即“Translation of EMBL”,是计算 机翻译并注释的蛋白质序列数据库,收录的序列是从EMBL中 的cDNA序列翻译得到的。记录采用SWISS-PROT数据库 格式。 TrEMBL分为两个部分:SP-TrEMBL和REM-TrEMBL。 SP-TrEMBL的条目已经专家分类并且给予SWISS-PROT存 取号,但尚未通过人工审查,最终将收入SWISS-PROT。 REM-TrEMBL包含其他剩余序列,主要是免疫球蛋白、T细 胞受体、少于8个氨基酸碱基的多肽、人工合成序列、专利 序列等。 /trembl/
21
(四)GenPept 由GenBank中的cDNA序列翻译得到的蛋白质 序列数据库。 网址: ftp:///genbank/gen pept/)
22
(五)UniProt
将PIR 、SWISS-PROT和TrEMBL3个蛋白质数据库 统一起来组建而成,包含3个部分: (1)UniProt Knowledgebase(UniProtKB),这是 蛋白质序列、功能、分类、交叉引用等蛋白质知识库, 记录经过人工筛选和注释; (2)UniRef (UniProt Non-redundant Reference) 数据库,将密切相关的蛋白质序列组合到一条记录中, 以便提高搜索速度;目前,根据序列相似程度形成3个 子库,即UniRef100、UniRef90和UniRef50; (3)UniParc(UniProt Archive),是UniProt存档库, 收录所有蛋白质序列。用户可以通过文本查询数据库, 可以利用BLAST程序搜索数据库,也可以直接通过 FTP下载数据。 网址:/
32
BOND主页
蛋白质常用数据库一文看懂!
蛋白质常用数据库|一文看懂!蛋白质数据库是指专门存储蛋白质相关信息的数据库。
它们收集、整理和存储大量的蛋白质数据,包括蛋白质序列、结构、功能、互作关系、表达模式、疾病关联等信息。
蛋白质数据库提供了对这些数据的检索、查询和分析功能,为科学研究人员、生物信息学家和药物研发人员等提供了重要的资源。
蛋白质数据库的内容通常来自于实验室实际测定的蛋白质数据,如蛋白质序列测定、结晶学、核磁共振、质谱等技术获得的数据。
这些数据经过验证和标准化后,被整合到数据库中,使研究者能够方便地访问和利用这些数据进行各种研究工作。
下面是笔者总结的常用蛋白质数据库及网址,供大家参考。
⓪BioXFinder:BioXFinder是国内第一个也是唯一一个生物数据库:收录50多万条高质量的、整合多个来源数据,手工注释的非冗余的蛋白质信息,包含蛋白质的基本信息、序列、序列特征、功能、名称和谱系、亚细胞定位、疾病与变异、翻译后修饰、表达、相互作用等信息。
蛋白结构库:收录19多万条经过X射线单晶衍射、核磁共振、电子衍射等实验手段确定的蛋白质结构数据。
包括蛋白3D结构、基本信息、实验数据、参考文献等。
①UniProt:UniProt是一个综合性的蛋白质数据库,提供了大量蛋白质的序列、结构、功能、互作关系和注释信息。
它整合了多个来源的数据,包括Swiss-Prot、TrEMBL和PIR数据库。
②Protein Data Bank (PDB):PDB是存储蛋白质和其他生物大分子结构的数据库。
它提供了实验确定的蛋白质结构的三维坐标数据,可用于结构生物学研究、药物设计和分子模拟等领域。
③NCBI Protein:NCBI Protein是美国国家生物技术信息中心(NCBI)提供的蛋白质数据库,包含了大量的蛋白质序列数据,可以进行蛋白质的基本信息查询和比对分析。
④Ensembl:Ensembl是一个综合性的基因组注释数据库,包含了多个物种的基因组序列、基因结构、转录本和蛋白质信息。
ncbi使用指导
NCBI(National Center for Biotechnology Information)是美国国家生物技术信息中心(National Center for Biotechnology Information)的简称,是美国国立卫生研究院(NIH)资助的专门网站,为全世界科研人员提供大量的生物信息学数据库和信息服务。
在使用NCBI时,有几个常用的服务和工具需要注意:一、PubMedPubMed是NCBI的一个主要数据库,是一个免费的搜索工具,专门为检索生物医学文献而设计。
它包含了超过1300万篇生物医学论文,覆盖从1950年代开始至现在的所有生物医学研究。
使用步骤如下:1. 输入你想要查询的关键词或者题目,可以输入英文关键词或者作者名字,并使用逻辑词组合查询。
2. 可以使用"AND"组合多个关键词进行查询,比如在搜索框中输入“lung cancer AND chemotherapy”。
3. 在搜索结果页面,你可以查看每个文献的摘要和链接到原始的研究文章。
如果想要查看更详细的信息,可以直接点击论文标题进入PubMed数据库查看。
二、NCBI BLASTBLAST(Basic Local Alignment Search Tool)是一种用于比较序列的工具,可以帮助你查找和比较基因、DNA、RNA和蛋白质序列。
它可以帮助你找到与你的序列最匹配的已知序列。
使用步骤如下:1. 打开NCBI的BLAST主页,选择合适的BLAST工具,如BLASTP(蛋白质序列比对)、BLASTN (DNA序列比对)等。
2. 输入你的序列,可以选择从数据库下载的序列或者自己输入的序列。
3. 选择合适的数据库,如NCBI GenBank、SwissProt等,然后点击“BLAST”按钮开始搜索。
4. BLAST会返回与你输入序列最匹配的序列及其相关信息,如相似度、E值等。
三、GEO基因表达数据库GEO(Gene Expression Omnibus)是一个公开可用的基因表达数据库,包含了许多组织和疾病类型的数据。
生物信息学实验教程
生物信息学实验教程实验一、基因、蛋白质序列分析【实验目的】1、掌握基因、蛋白质序列检索的操作方法;2、熟悉蛋白质基本性质分析及其电子表达谱3、蛋白基因的引物设计【实验内容】1、使用Entrez或SRS信息查询系统检索人脂联素(adiponectin)蛋白质序列;2、使用网站对上述蛋白质序列进行分子质量、氨基酸组成、和疏水性等基本性质分析;3、蛋白基因的引物设计【实验方法】1、人脂联素基因、蛋白质序列的检索:(1)调用Internet浏览器并在其地址栏输入Entrez网址(/Entrez);(2)在Search后的选择栏中选择nucleartide\protein;(3)在输入栏输入homo sapiens adiponectin;(4)点击go后显示序列接受号及序列名称;(5)点击序列接受号NP_004788 (adiponectin precursor; adipose most abundant genetranscript 1 [Homo sapiens])后显示序列详细信息;(6)将序列转为FASTA格式保存(参考上述步骤使用SRS信息查询系统检索人脂联素蛋白质序列);(7)进入UNIGENE数据库分析其电子表达谱2、进入网站对人脂联素蛋白质序列进行分子质量、氨基酸组成和疏水性等基本性质分析:3、利用prime prime5.0设计此基因PCR引物4、独立完成NYGGF4、LYRM1两个基因的上述操作。
【作业】1、提交使用上述软件对人脂联素、NYGGF4、LYRM1蛋白质序列进行基本性质分析及其电子表达谱蛋白质实验二、序列结构预测【实验目的】1、熟悉基于序列同源性分析的蛋白质功能预测,了解基于motif、结构位点、结构功能域数据库的蛋白质功能预测;2、了解蛋白质结构预测。
【实验内容】1、对人脂联素蛋白质序列进行基于NCBI/Blast软件的蛋白质同源性分析;2、对人脂联素蛋白质序列进行motif结构分析;3、对人脂联素蛋白质序列进行二级结构和三维结构预测。
PIR蛋白质序列数据库
• 2. iProClass-蛋白质知识整合数据库
• iProClass(/iproclass/)
提供来自90多个生物学数据库的大量整合数据,包
括蛋白ID图谱服务、UniProtKB编注蛋白质摘要描
述和筛选UnParc数据库的蛋白质序列。使用 iProClass可以检索最新的蛋白质综合信息,包括: 功能、转导通路、相互作用、家族分类、基因和基 因组、功能注释标准体系(ontology)、文献和分
UniProt数据库的构成
• UniProt数据库
UniProt知识库(UniProtKB) UniProt档案(UniParc) UniProt参考资料库(UniRef) UniProt元基因组学 环境微生物序列数据库(UniMES)
19
1.UniProt知识库(UniProtKB)
• UniProt知识库是一个专家级的数据库,它 可以通过与其它资源进行交互查找的方式 为用户提供一个有关目的蛋白质的全面的 综合信息。UniProtKB包括两个组成部分: UniProtKB/Swiss-Prot UniProtKB/TrEMBL。
PIR 蛋白质序列数据库
()
PIR的产生
• PIR(Protein Information resouce,蛋白质 数据库)的出现先于核酸数据库。在1960 年左右,Dayhoff和其同事们搜集了当时所 有已知的氨基酸序列,编著了《蛋白质序 列与结构图册》。从这本图册中的数据, 演化为后来的蛋白质信息资源数据库。
21
UniProtKB/TrEMBL
• UniProtKB/TrEMBL收录的则是高质量的经计算 机分析后进行自动注释和分类的序列。计算机辅 助注释使用的是Spearmint规则,而人工注释依 据的则是蛋白质家族规则,包括HAMAP家族规 则(HAMAP family rules)、RuleBase规则、 PIRSF分类命名规则以及位点规则。 UniProtKB/TrEMBL还收录了所有EMBL-Bank/ GenBank/DDBJ核酸序列数据库中的编码序列的 翻译后蛋白质序列和来自拟南芥信息资源库 (TAIR)、SGD和人类Ensembl数据库中序列 的翻译后蛋白质序列。
ncbi蛋白质序列的二级结构
ncbi蛋白质序列的二级结构
NCBI(National Center for Biotechnology Information)是一个国际知名的生物医学信息数据库,提供了大量的生物学、生物医学和基因组学等相关数据。
在NCBI数据库中,可以通过查询蛋白质的序列标识(如蛋白质的NCBI Accession号码)来获取该蛋白质的相关信息,包括二级结构信息。
获取蛋白质的二级结构信息可以通过以下步骤进行:
1. 在NCBI的主页(https:///)上的搜索栏中输入蛋白质的序列标识,点击搜索按钮进行搜索。
2. 在搜索结果页面中,找到与蛋白质相关的条目,点击进入对应的记录页面。
3. 在记录页面中,可以找到蛋白质的基本信息、序列信息等。
如果该蛋白质的二级结构信息可用,通常会在“Structure”或“3D structure”等部分提供相关链接。
4. 点击相关链接,可以进入蛋白质的二级结构数据库(如PDB,Protein Data Bank)或相关工具网站,以查看该蛋白质的二级结构信息。
需要注意的是,不是所有蛋白质的二级结构信息都可以在NCBI数
据库中直接获取,有些蛋白质可能没有经过结晶和测定结构的报道,或者相关信息尚未被整理和存储在数据库中。
此外,蛋白质的二级结构信息也可以通过其他生物信息学工具和数据库进行预测和推断。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1、对该段序列进行同源性搜索
首先进入www.espasy.ory 点击进入Resources A..Z 点击如下图
点击BLAST 输入蛋白质序列
搜索得到同源性分析如下3图示:Score分值越大,相似性越高。
E值越小,匹配度越好。
所以蛋白序列应与p04626相似性高匹配度好
二、对该段序列进行基本性质分析:蛋白质的氨基酸组成、等电点、相对分子质量、亲水性、疏水性、消光系数、信号肽、跨膜区域等。
氨基酸组成
等电点、相对分子质量
消光系数
亲水性、疏水性
打开/protscale
如下图(网速慢,读图等好久都读不出来)
TMPred 跨膜区结构预测,打开/software/TMPRED_form.html 输入已知序列
三、分析该段序列的MOTIF
四、对该段序列进行三维结构的分析选择符合条件的一个同源建模
5、分析该序列所代表蛋白的修饰情况、所参与的代谢途径、相互作用的蛋白,以及与疾病的相关性。
蛋白质的修饰后翻译
蛋白质的相互作用
所参与的代谢途径,相关疾病
(注:本资料素材和资料部分来自网络,仅供参考。
请预览后才下载,期待你的好评与关注!)。