常用生物信息学数据库和分析工具网址
生物信息学中的数据库和计算工具
生物信息学中的数据库和计算工具生物信息学是一门综合性学科,应用范围十分广泛。
生物信息学研究的是生物体内的遗传信息的获取、存储、分析和应用。
它结合了生物学、信息学、计算机科学、数学等多个学科,旨在解决生物大数据的存储、分析和挖掘问题。
本文将介绍生物信息学中的数据库和计算工具,以及它们在生物信息学中的应用。
一、生物信息学中的数据库生物信息学中的数据库是受到生物学家和计算机科学家制作和维护的存储和组织生物数据的资源。
这些数据库包括基因组、蛋白质、代谢、信号转导、基因表达谱等生物信息学数据库。
生物信息学中的数据库已经成为研究生物学的常规工具,研究人员可以通过分析数据库中的信息来更好地理解生物学现象。
1. 基因组数据库基因组数据库是生物信息学中最重要的数据库之一。
它存储了各种物种的基因组信息。
基因组数据库的应用包括基因预测、基因注释、基因功能鉴定、基因组进化分析等。
最知名的基因组数据库包括 GenBank、EMBL、Ensembl 等。
其中 GenBank 是最大的公共基因组数据库之一,它由美国国家生物技术信息中心(NCBI)维护。
2. 蛋白质数据库蛋白质数据库是存储蛋白质结构和序列信息的数据库。
其中,PDB是最著名的蛋白质数据库之一,它提供了大量的蛋白质三维结构的信息。
此外,UniProt 是另一重要的蛋白质数据库,它整合了多个独立的蛋白质数据库,提供了关于蛋白质序列、结构和功能的详细信息。
3. 引用数据库引用数据库存储了生物学家在论文、会议和其他出版物中发表的研究结果。
它们经常被生物信息学家用于构建生物信息学算法的基础,并分析特定领域的研究趋势。
PubMed 和 Web of Science 是引文数据库的代表性例子。
二、生物信息学中的计算工具随着数据量的增加和分析复杂度的提高,生物信息学中出现了大量的计算工具用于帮助生物科学家完成各种分析任务。
这些工具包括序列比对、序列拼接、批量序列处理、统计分析、数据可视化、机器学习等。
常用生物医学数据库与分析软件介绍-Genedenovo
2011年8月 中国 · 哈尔滨
第二期生物信息学培训班
2011年8月 中国 · 哈尔滨
第二期生物信息学培训班
2011年8月 中国 · 哈尔滨
第二期生物信息学培训班
2011年8月 中国 · 哈尔滨
第二期生物信息学培训班
2011年8月 中国 · 哈尔滨
第二期生物信息学培训班
2011年8月 中国 · 哈尔滨
GenBank、dbEST、dbGSS、RefSeq、 GOLD、CCDS、UniGene miRBase NDB、BNASDB
Swiss-Prot、trEMBL、PIR、PRF PDB
dbSNP、HGMD、SCAN、DGV
HapMap
2011年8月 中国 · 哈尔滨
第二期生物信息学培训班
生物医学数据库概览
2011年8月 中国 · 哈尔滨
第二期生物信息学培训班
2011年8月 中国 · 哈尔滨
第二期生物信息学培训班
2011年8月 中国 · 哈尔滨
第二期生物信息学培训班
Ensembl: BioMart
2011年8月 中国 · 哈尔滨
第二期生物信息学培训班
2011年8月 中国 · 哈尔滨
第二期生物信息学培训班
第二期生物信息学培训班
2011年8月 中国 · 哈尔滨
第二期生物信息学培训班
2011年8月 中国 · 哈尔滨
第二期生物信息学培训班
2011年8月 中国 · 哈尔滨
第二期生物信息学培训班
2011年8月 中国 · 哈尔滨
第二期生物信息学培训班
2011年8月 中国 · 哈尔滨
第二期生物信息学培训班
UCSC
2011年8月 中国 · 哈尔滨
(完整版)生物信息学教学资料:生物信息学常用数据库
• Access to GenBank • GenBank is available for searching at NCBI via several methods. • The GenBank database is designed to provide and encourage access
http://ratmap.gen.gu.se
生物信息学方法与实践
Bioinformatics Method and Practice
1
生物信息学常用数据库
• 一级数据库
–数据库中的数据直接来源于实验获得的原始数 据,只经过简单的归类整理和注释。
• 二级数据库
–对原始生物分子数据进行整理、分类的结果, 是在一级数据库、实验数据和理论分析的基础 上针对特定的应用目标而建立的。
prior to publication so that an accession number may appear in the paper. NCBI has a WWW form, called BankIt, for convenient and quick submission of sequence data. Sequin, NCBI's stand-alone submission software for MAC, PC, and UNIX platforms, is also available by FTP. When using Sequin, the output files for direct submission should be sent to GenBank by electronic mail. • There are specialized, streamlined procedures for batch submissions of sequences, such as EST, STS, and HTG sequences.
生物信息学常用数据库(已分类)
疟原虫属(Plasmodium)基因组 酵母基因组数据库(SGD) /Saccharomyces 酿酒酵母基因组 TIGR微生物数据库 /tdb/mdb/mdbcomplete.html
COMPEL http://compel.bionet.nsc.ru/ 复合调控元件(Composite regulatory elements)
CUTG http://www.kazusa.or.jp/codon/ 遗传密码使用表
DBTBS http://dbtbs.hgc.jp/ 枯草杆菌反式作用因子和启动子
ArkDB /sites.html 农业相关和其他动物的基因组数据库
综合的微生物资源(CMR) /tigr-scripts/CMR2/CMRHomePage.spl 已完成测序的微生物基因组
CropNet / 农作物基因组图谱
CyanoBase http://www.kazusa.or.jp/cyano/
Synechocystis sp.基因组
EMGlib http://pbil.univ-lyon1.fr/emglib/emglib.html 已完成基因组测序的细菌、古细菌、酵母
EcoGene /EcoGene/EcoWeb/ 大肠杆菌(E.coli)K-12的序列
帖子
441
积分
20
金币
339
贡献值 3 点
最后登录 10-5-10
名称 地址 说明
AceDB /Software/Acedb/ 线虫(C.elegans),酵母(S.pombe)的序列和基因组信息
AmmtDB r.it/mitochondriome/ 寄生虫(Metazoan)线粒体DNA序列
生物信息学数据库
欧洲生物信息学研究所完整基因组数据库/genomes/
欧洲生物信息学研究所序列数据库研究组/seqdb/index.html
加拿大生物信息学资源http://cbr-rbc.nrc-cnrc.gc.ca/index_e.php
这是加拿大生物信息学资源(CBR)的网站。该网站由加拿大国家研究委员会(NRC)创建,旨在为国家研究委员会与其它**、学术部门的科学家提供广泛使用的生物信息学工具和共享数据。加拿大生物信息学资源部分由一个专门使用该资源的委员会管理,而且其资源在用于教育和非盈利研究时只需注册均可免费作用。网站还提供有关新闻、服务与下载等信息。
法;PSI- BLAST用迭代型的剖面打分算法,每次迭代所费时间与前者相同,它可
检索弱同源的目标;PHI-BLAST 98年刚出台,是模体(Motif )构造与搜索软件
,是更灵敏的同源搜索软件。例如线虫的CED4是apoptosis 的调控蛋白,含有涉
及磷酸结合的P 环模体,在各种ATP 酶和GTP 酶中可发现。在用gapped BLAST搜
相似的功能。另有,按PHI- BLAST搜索在MutL DNA修复蛋白中的ATP 酶域,II型
拓扑异构酶,组氨酸激酶和HS90家族蛋白,发现一个新的真核蛋白族,共有HS90
型ATP 酶域。再有在古核tRNA核苷酸转移酶中发现核苷酸转移酶域,在细菌DNA
引物酶的古核同源体中发现螺旋酶超家族II的模体VI。用以往的搜索法这些是得
,稍有变化。expect简称E-value ,已经考虑了数据库的因素。其意义是:当用
咨询序列搜索一个数据库(如非冗余的SwissProt ,现有77419 条序列,共27864727
生物信息学网站网址(全)
生物信息学网站分子生物学数据库综合目录1。
SRS序列查询系统(分子生物学数据库网络浏览器)2、分子生物学数据库及服务器概览3. BioMedNet图书馆4。
DBGET数据库链接5、哈佛基因组研究数据库与精选服务器6.约翰。
霍普金斯大学(Johns Hopkins University) OWL网络服器7. 生物网络服务器索引,USCS8。
分子生物学数据库列表(LiMB) gopher://gopher、nih、gov/11/molbio /other9。
病毒学得WWW服务器,UW—Madison10。
UK MRC 人类基组图谱计划研究中心11。
生物学家与生物化学家得资源12。
其她生物网络服务器得链接13. 分子模型服务器与数据库14、EMBO实际结构数据库15。
蛋白质科学家得网络资源16、ExPASy分子生物学服务器17。
抗体研究网页18. 生物信息网址19、乔治。
梅森大学(George Mason University)得生物信息学与计算分子生物学专业20. INFOBIOGEN数据库目录21. 国家生物技术信息研究室22。
人类基因组计划情报23、生物学软件及数据库档案24.蛋白质组研究:功能基因组学得新前沿(著作目录)序列与结构数据库一、主要得公共序列数据库1。
EMBL 服务器2。
Genbank 数据库查询形式(得到Genbank得一个记录)3、蛋白质结构数据库服务器(得到一PDB结构)4。
欧洲生物信息学研究中心(EBI)5。
EBI产业支持6、SWISS-PROT(蛋白质序列库)7. 大分子结构数据库8。
Molecules R Us(搜索及观察一蛋白质分子)9. PIR国际蛋白质序列数据库10。
SCOP(蛋白质得结构分类),MRC11. 洛斯阿拉莫斯得HIV分子免疫数据库12. TIGR数据库13、NCBI 浏览器14、剑桥结构数据库(小分子有机得及有机金属得结晶结构)15。
基因本体论坛二。
常用生物信息学数据库和分析工具网址
http://www.genome.ad.jp/dbget-bin/show man?pdb
KEGG release notes
http://www.genome.ad.jp/dbget-bin/show man?pathway
核苷酸数据库
GenBank
/
ftp:///genbank/gbrel.txt
dbEST summary report
/dbEST/dbESTsummarv.html
EMBL release notes
http://www.genome.ad.jp/dbget-bin/show man?embl
PDBSTR
http://www.genome.ad.jp
Prosite
/prosite
结构数据库
PDB
/pdb
NDB
/NDB/ndb.html
生物信息学常问的问题
/faq/
生物信息学机构
NCBI
/
International Nucleotide Sequence Database Collaboration.
/collab/
Mouse Genome Informatics
/bin/query_accession?id=MGI:97555
Saccharomyces Genome Database
/cgi-bin/dbrun/SacchDB?find+Locus+%22PGK1%22
http://www.genome.ad.jp/dbget-bin/show man?prf
PDBSTR release notes
生物学常用网站
互联网动物学协会
/home.html
该协会的目的是帮助和支持其他非盈利教育组织。
热带生物学协会(Association for Tropical Biology) /atb
国际蜜蜂研究协会 /ibra/index.html
生物学常用网站
science杂志
美国生物技术信息中心(NCBI)
nature杂志
人类基因组数据库(NCBI)
/dBest/index.html
生物科学学术机构
生物学组织 /afagen/depts/orgs.html
该网站提供生物学学术组织的链接目录。
生物学学术机构 http://www.lib.uwaterloo.ca/society/biol_soc.html
该网站信息由加拿大滑铁卢大学提供,提供生物科学学术机构索引。
该网站介绍一个正在设计临床试验和建立实验环境的生物信息学和药理学实验室。
生物多样性和生物群落
该网站为系统学家和生物学家提供信息资源。
生物学家虚拟会场 http://bioinformatics.weizmann.ac.il/BioMOO
日本DNA数据库(DDBJ)
http://www.ddbj.nig.ac.jp
science o信息资源(PIR)
/Dan/proteins/pir.html
Cell杂志
生物技术协会
哈佛生物学实验室 /genome.html
该网站提供生物技术研究资源,内容包括访问全球典型有机物资料库及其他生化资料库,并链接到哈佛大学各生物学实验室。
计算生物学和信息学实验室(CBIL)
生物信息学网站网址(全)
生物信息学网站分子生物学数据库综合目录1. SRS序列查询系统(分子生物学数据库网络浏览器) http://www.embl-heidelberg.ed/srs5/2. 分子生物学数据库及服务器概览/people/pkarp/mimbd/rsmith.html3. BioMedNet图书馆4. DBGET数据库链接http://www.genome.ad.jp/dbget/dbget.links.html5. 哈佛基因组研究数据库与精选服务器6. 约翰. 霍普金斯大学(Johns Hopkins University) OWL网络服器/Dan/proteins/owl.html7. 生物网络服务器索引,USCS /network/science/biology/index.html8. 分子生物学数据库列表(LiMB) gopher:///11/molbio/other9. 病毒学的WWW服务器,UW-Madison /Welcome.html10. UK MRC 人类基组图谱计划研究中心/11. 生物学家和生物化学家的WWW资源http://www.yk.rim.pr.jp/~aisoai/index.html12. 其他生物网络服务器的链接/biolinks.html13. 分子模型服务器与数据库/lap/rsccom/dab/ind006links.html14. EMBO实际结构数据库http://xray.bmc.uu.se/embo/structdb/links.html15. 蛋白质科学家的网络资源/protein/ProSciDocs/WWWResources.html16. ExPASy分子生物学服务器http://expasy.hcuge.ch/cgi-bin/listdoc17. 抗体研究网页18. 生物信息网址http://biochem.kaist.ac.kr/bioinformatics.html19. 乔治.梅森大学(George Mason University)的生物信息学与计算分子生物学专业/~michaels/Bioinformatics/20. INFOBIOGEN数据库目录biogen.fr/services/dbcat/21. 国家生物技术信息研究室/data/data.html22. 人类基因组计划情报/TechResources/Human_Genome23. 生物学软件及数据库档案/Dan/software/biol-links.html24. 蛋白质组研究:功能基因组学的新前沿(著作目录) http://expasy.hcuge.ch/ch2d/LivreTOC.html序列与结构数据库一.主要的公共序列数据库1. EMBL WWW服务器http://www.EMBL-heidelberg.ed/Services/index.html2. Genbank 数据库查询形式(得到Genbank的一个记录) /genbank/query_form.html3. 蛋白质结构数据库WWW服务器(得到一PDB结构) 4. 欧洲生物信息学研究中心(EBI) /5. EBI产业支持/6. SWISS-PROT(蛋白质序列库) http://www.expasy.ch/sprot/sprot-top.html7. 大分子结构数据库/cgi-bin/membersl/shwtoc.pl?J:mms8. Molecules R Us(搜索及观察一蛋白质分子) /modeling/net_services.html9. PIR国际蛋白质序列数据库/Dan/proteins/pir.html10. SCOP(蛋白质的结构分类),MRC /scop/data/scop.l.html11. 洛斯阿拉莫斯的HIV分子免疫数据库/immuno/index.html12. TIGR数据库/tdb/tdb.html13. NCBI WWW Entrez浏览器/Entrez/index.html14. 剑桥结构数据库(小分子有机的及有机金属的结晶结构) 15. 基因本体论坛/GO/二. 专业数据库1. ANU生物信息学超媒体服务(病毒数据库、分类及病毒的命名法) .au/2. O-GL YCBASE(O联糖基化蛋白质的修订数据库) http://www.cbs.dtu.dk/OGLYCBASE/cbsoglycbase.html3. 基因组序列数据序(GSDB)(已注释的DNA序列的关系数据序) 4. EBI蛋白质拓扑图/tops/Serverintermed.html5. 酶及新陈代谢途径数据库(EMP) /6. 大肠杆菌数据库收集(ECDC)(大肠杆菌K12的DNA序列汇编) http://susi.bio.uni-giessen.de/ecdc.html7. EcoCyc(大肠杆菌基因及其新陈代谢的百科全书) /ecocyc/ecocyc.html8. Eddy实验室的snoRNA数据库/snoRNAdb/9. GenproEc(大肠杆菌基因及蛋白质) /html/ecoli.html10. NRSub(枯草芽胞杆菌的非冗余数据库) http://pbil.univ-lyonl.fr/nrsub/nrsub.html11. YPD(酿酒酵母蛋白质) /YPDhome.html12. 酵母基因组数据库/Saccharomyces/13. LISTA、LISTA-HOP及LISTA-HON(酵母同源数据库汇编) /14. MPDB(分子探针数据库) http://www.biotech.est.unige.it/interlab/mpdb.html15. tRNA序列及tRNA基因序列汇编http://www.uni-bayreuth.de/departments/biochemie/trna/index/html16. 贝勒医学院(Baylor College of Medicine)的小RNA数据库/dbs/SRPDB/SRPDB.html17. SRPDB(信号识别粒子数据库) /dbs/SRPDB/SRPDB.html18. RDP(核糖体数据库计划) /19. 小核糖体亚蛋白RNA结构http://rrna.uia.ac.be/ssu/index.html20. 大核糖体亚蛋白RNA结构http://rrna.uia.ac.be/lsu/index.html21. RNA修饰数据库/RNAmods/22. 16SMDB及23SMDB(16S和23S核糖体RNA突变数据库)/Departments/Biology/Databases/RNA.html23. SWISS-2DPAGE(二维凝胶电泳数据库) http://expasy.hcuge.ch/ch2d/ch2d-top.html24. PRINTS /bsm/dbbrowser/PRINTS/PRINTS.html25. KabatMan(抗体结构及序列信息数据库) /abs26. ALIGN(蛋白质序列比对一览) /bsm/dbbrowser/ALIGN/ALIGN.html27. CATH(蛋白质结构分类系统) /bsm/cath28. ProDom(蛋白质域数据库) http://protein.toulouse.inra.fr/29. Blocks数据库(蛋白质分类系统) /30. HSSP(按同源性导出的蛋白质二级结构数据库) http://www.sander.embl-heidelberg.de/hssp/31. FSSP(基于结构比对的蛋白质折叠分类) /dali/fssp/fssp.html32. SBASE蛋白质域(已注释的蛋白质序列片断) http://www.icgeb.trieste.it/~sbasessrv/33. TransTerm(翻译控制信号数据库) /Transterm.html34. GRBase(参与基因调控的蛋白质的相关信息数据库) /~regulate/trevgrb.html35. REBASE(限制性内切酶和甲基化酶数据库) /rebase/36. RNaseP数据库/RNaseP/home.html37. REGULONDB(大肠杆菌转录调控数据库) http://www.cifn.unam.mx/Computational_Biology/regulondb/38. TRANSFAC(转录因子及其DNA结合位点数据库) http://transfac.gbf.de/39. MHCPEP(MHC结合肽数据库) .au/mhcpep/40. ATCC(美国菌种保藏中心) /41. 高度保守的核蛋白序列的组蛋白序列数据库/Baxevani/HISTONES42. 3Dee(蛋白质结构域定义数据库) /servers/3Dee.html43. InterPro(蛋白质域以及功能位点的完整资源) /interpro/序列相似性搜索1. EBI序列相似性研究网页/searches/searches.html2. NCBI: BLAST注释/BLAST3. EMBL的BLITZ ULTRA快速搜索/searches/blitz_input.html4. EMBL WWW服务器http://www.embl-heidelberg.de/Services/index.html#55. 蛋白质或核苷酸的模式浏览/compbio/PatScan/HTML/patscan.html6. MEME(蛋白质超二级结构模体发现与研究) /meme/website7. CoreSearch(DNA序列保守元件的识别) http://www.gsf.de/biodv/coresearch.html8. PRINTS/PROSIT浏览(搜索motif数据库) /cgi-bin/attwood/SearchprintsForm.pl9. 苏黎世ETH服务器的DARWIN系统http://cbrg.inf.ethz.ch/10. 利用动态规划找出序列相似性的Pima IIhttp://bmerc-www.bu.ede/protein-seq/pimaII-new.html11. 利用与模式库进行哈希码(hashcode)比较找到序列相似性的DashPat /protein-seq/dashPat-new.html12. PROPSEARCH(基于氨基酸组成的搜索) http://www.embl-heidelberg.de/aaa.html13. 序列搜索协议(集成模式搜索) /bsm/dbbrowser/protocol.html14. ProtoMap(SEISS-PROT中所有蛋白质的自动层次分类) http://www.protomap.cs.huji.ac.il/15. GenQuest(利用Fasta、Blast、Smith-Waterman方法在任意数据库中搜索) http://www.gdb.rog/Dan/gq/gq.form.html16. SSearch(对特定数据库的搜索) http://watson.genes.nig.ac.jp/homology/ssearch-e_help.html17. Peer Bork搜索列表(motif/模式序列谱搜索) http://www.embl-heidelberg.de/~bork/pattern.html18. PROSITE数据库搜索(搜索序列的功能位点) /searches/prosite.html19. PROWL(Skirball研究中心的蛋白质信息检索) /index.html序列和结构的两两比对1. 蛋白质两两比对(SIM) http://expasy.hcuge.ch/sprot/sim-prot.html2. LALNVIEW比对可视化观察程序ftp://expasy.hcuge.ch/pub/lalnview3. BCM搜索装置(两两序列比对) /seq-search/alignment.html4. DALI蛋白质三维结构比较/dali/5. DIALIGN(无间隙罚分的比对程序) http://www.gsf.de/biodv/dialign/html多重序列比对及系统进行树1. ClustalW(BCM的多重序列比对) /multi-align/multi-align.html2. PHYLIP(推测系统进行树的程序) /phylip.html3. 其它系统进行树程序,PHYLIP文档的汇编http://expasy.hcuge.ch/info/phylogeny.html4. 系统进行树分析程序(生命树列表) /tree/programs/programs.html5. 遗传分类学软件(Willi hennig协会提供的列表) /education.html6. 用于多重序列比对的BCM搜索装置/multi-align/multi-align.html7. AMAS(分析多重序列比对中的序列) /servers/amas_server.html8. 维也纳RNA二级结构软件包http://www.tbi.univie.ac.at/~ivo/RNA/四. 有代表性的预测服务器1. PHD蛋白质预测服务器,用于二级结构、水溶性以及跨膜片断的预测http://www.embl-heidelberg.de/predictprotein/predictprotein.html2. PhdThreader(利用逆折叠方法预测、识别折叠类) http://www.embl-heidelberg.de/predictprotein/phd_help.html3. PSIpred(蛋白质结构预测服务器) /psipred4. THREADER(戴维. 琼斯) /~jones/threader.html5. TMHMM(跨膜螺旋蛋白的预测) http://www.cbs.dtu.dk/services/TMHMM/6. 蛋白质结构分析,BMERC /protein-seq/protein-struct.html7. 蛋白质域和折叠预测的提交表http://genome.dkfz-heidelberg.de/nnga/def-query.html8. NNSSP(利用最近相邻法预测蛋白质的二级结构) /pss/pss.html9. Swiss-Model(基于知识的蛋白质自动同源建模服务器) http://www.expasy.ch/swissmod/SWISS-MODEL.html10. SSPRED(用多重序列比对进行二级结构预测) /jong/predict/sspred.html11. 法国IBCP的SOPM(自寻优化预测方法、二级结构) http://pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=/NPSA/npsa_sopm.html12. TMAP(蛋白质跨膜片断的预测服务) http://www.embl-heidelberg.de/tmap/tmap_info.html13. TMpred(跨膜区域和方向的预测) /software/TMPRED_form.html14. MultPredict(多重序列比对的序列的二级结构) /zpred.html15. BCM搜索装置(蛋白质二级结构预测) /seq-search/struc-predict.html16. COILS(蛋白质的卷曲螺旋区域预测) /software/coils/COILS_doc.html17. Coiled Coils(卷曲螺旋) /depts/biol/units/coils/coilcoil.html18. Paircoil(氨基酸序列中的卷曲螺旋定位) /bab/webcoil.html19. PREDATOR(由单序列预测蛋白质二级结构) http://www.embl-heidelberg.de/argos/predator/predator_info.html20. EV A(蛋白质结构预测服务器的自动评估) /eva/五. 其他预测服务器1. SignalP (革兰氏阳性菌、革兰氏阴性菌和真核生物蛋白质的信号肽及剪切位点) http://www.cbs.dtu.dk/services/SignalP/2. PEDANT(蛋白质提取、描述及分析工具) http://pedant.mips.biochem.mpg.de/六. 分子生物学软件链接1. 生物信息学可视化工具/alan/VisSupp/2. EBI分子生物学软件档案/software/software.html3. BioCatalog /biocat/e-mail_Server_ANAL YSIS.html4. 生物学软件和数据库档案/Dan/softsearch/biol-links.html5. UC Santa Cruz的序列保守性HMM的SAM软件/research/compbio/sam.html七. 网上博士课程1. 生物计算课程资源列表:课程大纲http://www.techfak.uni-bielefeld.de/bcd/Curric/syllabi.html2. 生物序列分析和蛋白质建模的Ph.D课程http://www.cbs.dtu.dk/phdcourse/programme.html3. 分子科学虚拟学校/vsms/sbdd/4. EMBnet 生物计算指南http://biobase.dk/Embnetut/Universl/embnettu.html5. 蛋白质结构的合作课程/PPS/index.html6. 自然科学GNA虚拟学校http://www.techfak.uni-bielefeld.de/bcd/Vsns/index.html7. 分子生物学算法/education/courses/590bi。
生物信息学分析方法
跨膜结构域预测 TMHMM
http://www.cbs.dtu.dk/services/TMHM M-2.0/
蛋白互作网络 STRING
http://string.embl.de
polymerase
DNA repair
helicase
双序列比对 序列分析 多序列比对(系统进化树、保守基序) ORF(Open Reading Frame)分析 基因结构分析(外显子、内含子)
节律基因Timeless
数据库 MGI
/
数据库 NCBI
https:///Blast.cgi
数据库 TAIR
/
多序列比对 MEGA
/
LTR
MSA-like TGA-element
414
568 289
CCGAAA
CCCAACGGT AACGAC
low-temperature responsiveness
cell cycle regulation auxin-responsive element
转录因子结合位点分析 JASPAR
/
系统发育树 MEGA
/
保守基序分析 MEME
/tools/meme
基因结构 GSDS
http://gsds.cLeabharlann /
启动子分析 PlantCARE
基序名称 位置 序列特征 功能
常用的生物信息学 分析方法
第十组
生物信息学Bioinformatics
生物信息学是一门在生命科学的研究中,以计算机为工具 对生物信息进行储存、检索和分析的科学。 生物信息学基本上是分子生物 学与信息技术的结合体。
研究材料和结果是各种各样
的生物学数据 研究工具是计算机 研究方法包括对生物学数据的 搜索(收集和筛选)、处理 (编辑、整理、管理和显示) 及利用(计算、模拟)
常用生物信息学数据库和分析工具网址
列结果的格式
(Boxshade)
系谱分析
PAUP
EBI ClustalW an alysis
GCG package
PHYLIP
MEG
MacClade
Phyloge netic an alysis
ClustalX
MEGA
TreeView
基因结构预测分析
Database
Protein Ki nase
Resource (PKR)
LIGAND
WIT
EcoCyc
UM-BBD
多种代谢路径数据 库
基因调控路径数据 库(TRANSPATH)
基因组数据库
禾本科比较基因组
Grai nGene
Bota ni cal Data
日本水稻基因组
(RGP)
水稻物理图谱
华大水稻基因组框 架图
PDB release no tes
man?pdb
KEGG release no tes
man ?pathway
核苷酸数据库
GenBank
dbEST
dbSTS
dbGSS
Genome (NCBI)
dbSNP
HTGS
UniGene
EMBL核苷酸数据 库
Genome (EBI)
向EMBL数据库提 交序列
DDBJ
Pla nt R gene database
启动子数据库
Eukaryotic promoter database
转录因子数据库
FRANSFAC
ooTFD
基因注释数据库
RAP-DB
基因分类数据库
Gene On tology (GO)
常用生物信息学数据库(第一讲)
常用生物信息学数据库生物信息学基础入门第一讲常用生物信息学数据库(1学时)•生物信息学的简介、发展和应用•常用生物信息学数据库的概况•NCBI、UCSC数据库的介绍和使用第二讲癌症相关数据库(1学时)•癌症相关数据库的概况•TCGA数据库的介绍和使用•TCGA数据的下载和解读•TCGA数据的在线分析工具第三讲基因功能富集分析(1学时)•基因本体数据库GO及注释•生物学通路KEGG及注释•基因功能富集分析第四讲基因调节网络分析(1学时)•蛋白互作、转录因子调节关系数据库的介绍和使用•非编码RNA调节网络数据库的介绍和使用•基因网络图的展示、Cytoscape软件的介绍和使用第五讲基于公共数据库进行课题研究的案例分析(1.5学时)•实例讲解GEO数据的下载、处理和分析•实例讲解TCGA数据的下载、处理和分析这节课的主要内容•生物信息学的概念•生物信息学发展的背景•生物信息学的发展阶段•生物信息学的研究领域•常用生物医学数据库•NCBI: Gene、GEO•UCSC: Genome Browser、Table Browser生物信息学的概念生物信息学(bioinformatics),是在生命科学的研究中,利用计算机科学、信息技术、应用数学以及统计学方法对生物信息进行采集、处理、存储、传播、分析和解释的学科。
生物信息学发展的背景•人类基因组计划( human genome project, HGP)是由美国科学家Robert Sinsheimer 于1985年5月率先提出(但是当时美国NIH不感兴趣)。
•经过多位科学家的努力,终于将HGP提上美国政府预算,并于1990年正式启动。
•预计2005年(15年的时间),将人类基因组的DNA序列全部测定,把人体内约2.5万个基因的密码全部解开,同时绘制出人类基因的图谱。
•美国、英国、法国、德国、日本和我国科学家共同参与了这一预算达30亿美元的人类基因组计划。
•我国于1999年7月加入人类基因组计划,得到完成人类3号染色体短臂上一个约30Mb区域(约3000万个碱基对)的测序任务,该区域约占人类整个基因组的1%,称之为“1%计划”。
生物信息学工具介绍
生物信息学工具介绍1、FASTA[10](/fasta33/)和BLAST[11](http://www.nc /BLAST/)是目前运用较为广泛的相似性搜索工具。
比较和确定某一数据库中的序列与某一给定序列的相似性是生物信息学中最频繁使用和最有价值的操作。
本质上这与两条序列的比较没有什么两样,只是要重复成千上万次。
但是要严格地进行一次比较必定需要一定的耗时,所以必需考虑在一个合理的时间内完成搜索比较操作。
FASTA使用的是Wilbur-Lipman 算法的改进算法,进行整体联配,重点查找那些可能达到匹配显著的联配。
虽然FASTA不会错过那些匹配极好的序列,但有时会漏过一些匹配程度不高但达显著水平的序列。
使用FASTA和BLAST,进行数据库搜索,找到与查询序列有一定相似性的序列。
一般认为,如果蛋白的序列一致性为25-30%,则可认为序列同源。
BLAST(Basic Loc al Alignment Search Tool,基本局部联配搜索工具)是基于匹配短序列片段,用一种强有力的统计模型来确定未知序列与数据库序列的最佳局部联配。
BLAST 是现在应用最广泛的序列相似性搜索工具,相比FASTA 有更多改进,速度更快,并建立在严格的统计学基础之上。
这两个工具都采用局部比对的方法,选择计分矩阵对序列计分,通过分值的大小和统计学显著性分析确定有意义的局部比对。
BLAST根据搜索序列和数据库的不同类型分为5种:1、BLASTP是蛋白序列到蛋白库中的一种查询。
库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。
2、BLASTX是核酸序列到蛋白库中的一种查询。
先将核酸序列翻译成蛋白序列(一条核酸序列会被翻译成可能的六条蛋白),再对每一条作一对一的蛋白序列比对。
3、BLASTN是核酸序列到核酸库中的一种查询。
库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。
4、TBLASTN是蛋白序列到核酸库中的一种查询。
生物信息学及常用工具简介
中心研究方向
基因组注释 芯片数据分析
与实验室密切相关 的研究和支持
为蛋白质组学研究提供 生物信息学支持
应用医学生物 信息学
基于本体论的数据仓库系统 基因组 转录组 蛋白质组 代谢组
主要内容
多序列联配(Alignment)和进化树分析 PCR引物及芯片探针的设计 使用软件在数据库中检索、收集、整理文献 BLAST应用简介 序列片段的拼接 基因注释:编码蛋白区域的预测 NCBI的数据库 代谢途径分析数据库(KEGG) 蛋白质分析数据库(uniprot) 比较基因组的方法 目标基因的分析流程
/outorder=order /tree /newtree=tree
♦ 蛋白质结构与功能预测
序列数据选取
1. 生物实验中获取或收集的相关基因或蛋白序列 2. 利用NCBI Entrez,SRS(Sequence Retrieve System)获 取序列 3. 利用同源搜索工具BLAST,从公共数据库中搜索与自身 相关序列
▼ Jackknife
不将剩下的一半序列补齐,只生成一个缩短了一半的新序列。
▼ Permute
其目的与Bootstrap和Jackknife法不同,不常用。
为什么树不一致?
1、 数据选取不充分 2、基因或蛋白质序列选择 3、测序中序列错误 4、分析方法的选择
PHYLIP
PHYLIP ( Phylogeny Inference Package )(Joseph Felsenstein等,1986-1995)由华盛顿大学遗传系开发,1980 年首次公布,免费共享,包括35个独立程序,目前的版本是3.6。 下载地址: ftp:///pub/phylip/ 标准C语言开发,有Windows、 Macintosh,Linux/UNIX等版 本。 Windows: phylipw3.6source.exe、 phylipwx3.6executables.exe,
医疗研究中的生物信息学数据库与工具
医疗研究中的生物信息学数据库与工具在现代医疗领域,生物信息学数据库与工具的应用已经变得越来越重要。
生物信息学数据库与工具是指用于存储、管理和分析生物学数据的软件系统和工具。
这些数据库和工具能够提供生物学研究人员和医学专业人员快速访问、挖掘和分析大规模的生物学数据,以便更好地理解和治疗疾病。
一、生物信息学数据库1. 基因组数据库基因组数据库是存储各种生物体基因组序列的集合。
其中,最著名的基因组数据库是基因组浏览器,如NCBI的GenBank和Ensembl。
这些数据库提供了大量的基因组序列、注释信息和相关的研究数据,为研究人员提供了基因组水平的信息。
2. 蛋白质数据库蛋白质数据库是用于存储蛋白质序列和结构的数据库。
蛋白质序列和结构数据的积累对于理解蛋白质的功能和特性至关重要。
常见的蛋白质数据库包括UniProt和PDB(蛋白数据银行),它们提供了全球各地研究人员所提交的海量蛋白质序列和结构信息。
3. 基因调控数据库基因调控数据库主要用于存储和分析基因调控元件(如启动子、增强子等)的序列和相关信息。
这些数据库对于理解基因的调控机制和功能方面起着重要的作用。
常见的基因调控数据库包括TRANSFAC、JASPAR和UCSC。
二、生物信息学工具1. 序列分析工具序列分析工具用于对DNA、RNA和蛋白质等生物序列进行分析和比对。
其中,最常用的序列比对工具是BLAST(基本局部序列比对工具)。
BLAST可以将输入的序列与已知序列数据库中的相似序列进行比对,快速找到相似序列和亲缘关系。
此外,还有如ClustalW、MUSCLE等多序列比对工具和MEME等序列模式分析工具。
2. 结构预测工具结构预测工具用于预测蛋白质的三维结构。
根据蛋白质序列,可以使用基于比较模型或折叠预测的方法进行蛋白质结构预测。
在比较模型方法中,SWISS-MODEL和Phyre2是常用的工具;而在折叠预测方法中,Rosetta和I-TASSER等被广泛使用。
生物信息学常用数据资源介绍
生物信息学常用数据资源介绍
生物信息学是一门跨学科的学科,它将计算机科学与生物学有机地结合起来,为生命科学研究提供了新的方法和手段。
在生物信息学中,数据资源是非常重要的,因为数据资源直接关系到生物信息学研究的深度和广度。
本文将介绍生物信息学中常用的数据资源,包括基因组数据库、蛋白质数据库、序列数据库、文献数据库等。
1. 基因组数据库
基因组数据库是基因组信息的集大成者。
基因组数据库收集了各种生物的基因组序列、基因注释、基因组结构等信息。
常用的基因组数据库有:GenBank、EMBL、DDBJ、NCBI、Ensembl、UCSC Genome Browser 等。
2. 蛋白质数据库
蛋白质数据库是收集了各种生物的蛋白质序列、蛋白质结构、蛋白质功能等信息的数据库。
常用的蛋白质数据库有:UniProt、PDB、Swiss-Prot、TrEMBL等。
3. 序列数据库
序列数据库主要收集了各种生物的核酸序列和蛋白质序列。
常用的序列数据库有:NCBI GenBank、EMBL、DDBJ、RefSeq、UniProtKB 等。
4. 文献数据库
文献数据库主要收集了各种与生物学相关的学术文献,包括期刊论文、会议论文、书籍等。
常用的文献数据库有:PubMed、Web of
Science、Google Scholar等。
总结
生物信息学中的数据资源非常丰富,为生物信息学研究提供了非常重要的数据支持。
除了以上介绍的常用数据资源,还有很多其他的数据资源,例如代谢组数据库、蛋白质互作数据库等等。
研究者可以根据自己的需要选择合适的数据资源,以便更好地开展生物信息学研究。
NCBI使用方法详解
NCBI使用方法详解NCBI是美国国家图书馆国家医学院的生物信息学中心(National Center for Biotechnology Information)的缩写。
该中心为生物学研究提供了大量的数据库资源和工具,供科学家和研究人员使用。
NCBI的数据库涵盖了生物学、医学和生物化学等领域的各种数据,包括基因序列、蛋白质序列、文献数据等。
这些数据资源可以帮助研究人员进行基因和蛋白质的功能注释、序列比对、基因表达分析等生物信息学分析。
以下是NCBI的使用方法的详细介绍。
1.访问NCBI网站2.注册NCBI账号如果是第一次使用NCBI,建议注册一个账号。
点击页面右上方的“Sign In”按钮,再选择“Register for an NCBI Account”选项,根据指引填写必要的信息,完成注册。
3.和浏览数据库NCBI提供了多个数据库,如Pubmed(文献数据库)、GenBank(基因序列数据库)和Protein(蛋白质序列数据库)等。
在首页的框中输入关键词,即可相应的数据库。
4.进行基因和蛋白质的序列比对在NCBI中进行序列比对,可以使用BLAST(基本局部序列比对工具)或者BLAST+(改进版局部序列比对工具)工具。
点击首页的“BLAST”链接,选择相应的工具,输入查询序列,选择目标数据库和参数,点击“Submit”按钮开始比对。
5.获取文献信息NCBI的Pubmed数据库包含了大量的科学文献,可以通过关键词或是使用高级功能来获取所需的文献。
在结果页面,可以查看摘要、全文以及相关的引用文献。
6.分析基因表达数据NCBI提供了一系列工具,用于分析基因表达数据,如GEO(基因表达数据库)和SRA(短读测序存储库)等。
可以在首页的“Datasets”菜单中选择相应的工具,上传或所需的基因表达数据进行分析。
7.获取基因和蛋白质的注释信息NCBI的GenBank和Protein数据库中包含了大量的基因和蛋白质的序列和注释信息。
分子生物学中常用数据库
分子生物学中常用数据库综合数据库:来源:/news/science/article/90048.html生物信息学网址链接:http://www.bioinformatics.ca/links_directory/Nucleic Acid Research Database Issue:/content/vol32/suppl_2/一、蛋白相关数据库蛋白质结构域预测工具Esignal:/esignal/信号传导系统蛋白的结构域预测工具,凡是涉及到信号传导系统的蛋白用这个预测效果最佳SignalP:http://www.cbs.dtu.dk/services/SignalP/信号肽预测工具,适合定位于非胞质位置的蛋白质Emotif:/emotif-search/结构域预测工具,由于其用motif电子学习的方法产生结构域模型,故预测效果比Prosite好Ematrix:/ematrix/是用Matrix的方法创建的结构域数据库,可与emotif互相印证。
其速度快,可快速搜索整个基因组InterPro:/InterProScan/EBI提供的服务,用图形的形式表示出搜索的结构域结果TRRD:http://wwwmgs.bionet.nsc.ru/mgs/gnw/trrd/转录因子结构域预测的最好数据库。
但不会用Protscale:/cgi-bin/protscale.pl可分析该序列的各种性状如活动度、亲水性(Kyte&Doolittle)、抗原性(Hopp&Woods)等通过寻找MOTIF和Domain来分析蛋白质的功能A. MOTIF是蛋白中较小的保守序列片断,其概念比Domain小PROSITE:/tools/scanprosite/是专门搜索蛋白质Motif的数据库,其中signature seqs是最重要的motif信息B. Domain:若干motif可形成一个Domain,每个Domain形成一个球形结构,Domain与Domain之间通常像串珠一样相连Pfam:可以搜索某段序列中的Domain,并以图形化表示出来。