第1讲 生物信息学序列分析核酸和蛋白质数据库
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
称为公共序列数据库(Public Sequence Database)。
所以从理论上说,这3个数据库所拥有的DNA序列数据
是完全相同的。你可以从中选择一个你喜欢的数据库;
但是如果你的研究需要实时(24小时以内)的,则要注意 这些数据库间的记录是会有差异的。
2、我国主要生物信息学机构
北京大学生物信息学中心(Centre of Bioinformatics, Peking University): www.cbi.pku.edu.cn
蛋白质序列中的一些符号含义
蛋白质基序(motif)中的x表示任意氨基酸,其中的数 字表示任意几个氨基酸;中括号[ST]表示氨基酸为S or T;大括号{P}表示除掉P之外的任意氨基酸。如:
ID ASN_GLYCOSYLATION; PATTERN. AC PS00001; DT APR-1990 (CREATED); APR-1990 (DATA UPDATE); APR-1990 (INFO UPDATE). DE N-glycosylation site. PA N-{P}-[ST]-{P}. CC /TAXO-RANGE=??E?V; CC /SITE=1,carbohydrate; CC /SKIP-FLAG=TRUE; DO PDOC00001
http://www.kazusa.or.jp/kaos/
http://www.tigr.org/tdb/e2k1/ath1/
http://www.cbc.umn.edu/ResearchProjects/Arabidopsis/ 水稻 Rice ——RGP数据库 http://rgp.dna.affrc.go.jp (http://rgp.dna.affrc.go.jp/IRGSP) http://www.genomics.org.cn(http://btn.genomics.org.cn/rice) http://www.tigr.org/ (http://www.tigr.org/tdb/e2k1/osa1/)
目前完成全基因组测序工作Leabharlann Baidu物种有很多,并在
随时更新(update).可以进入ncbi的基因组计
划二次数据库查看,其网址:
http://www.ncbi.nlm.nih.gov/Genomes
Reference to :http://www.chinagene.cn
方刚 , 陈蕴佳 , 高歌 , 刘翟 , 何坤 , 吴昕 , 顾孝诚 , 罗静初. 基因组数据库简介. 遗 传 , 2003, 25(4): 440-444
生物信息学 Bioinformatics
课程安排:
课堂多媒体讲授:
第一讲 核酸和蛋白质数据库
第二讲 国内外文献数据库 第三讲 生物信息学常用软件
第四讲 序列的提交和序列分析
教材、参考书和学术期刊
教材和参考书: 1 《生物信息学方法与实践》,张成岗和贺福初编,科学出版 社,2002年6月,第1版。 2、《生物信息学》,赵国屏等编,科学出版社,2002年4月, 第1版。 3、《基础生物信息学及应用》,蒋彦等编,清华大学出版社, 2003年11月,第1版 4、《简明生物信息学》,钟杨等编,高等教育出版社,2001 年12月,第1版。 5、《生物信息学概论》(TK Attwood, DJ Parry-Smith著), 罗静初等译,北京大学出版社,2002年4月,第1版。 6、《生物信息学-基因和蛋白质分析的实用指南》(Andreas D Baxevanis, BF Francis Ouelette著),李衍达、孙之荣等 译,清华大学出版社,2000年8月,第1版。 学术期刊:
︿ 复 合 数 据 库 ﹀
一、核酸数据库
1 、国际三大核酸数据库
• 数据库 (Database)
网址 (Address)
GenBank EMBL DDBJ
www.ncbi.nlm.nih.gov/genbank www.ebi.ac.uk/embl www.ddbj.nig.ac.jp/index-e.html
斑马鱼 Zebra fish http://zfish.uoregon.edu 人类Human ——GDB数据库 http://gdbwww.gdb.org http://www.ncbi.nlm.nih.gov/genome/guide/human
拟南芥 Arabidopsis ——TAIR(AtDB)数据库 http://www.arabidopsis.org/home.html
Research Laboratory-3D)数据库提供了贮存在
PDB库中蛋白质的序列,它可以进行与已知结构的蛋 白质序列的比较。
对来自PDB中每个已知三维结构的蛋白质序列进行多序列 列线(multiple sequence alignment)同源性比较的结果,被 贮存在HSSP(homology-derived second structures of
Protein database in NCBI http://www.ncbi.nlm.nih.gov/protein
The Protein database is a collection of sequences from several sources, including translations from annotated coding regions in GenBank, RefSeq and TPA, as well as records from SwissProt, PIR, PRF, and PDB. Protein sequences are the fundamental determinants of biological structure and function.
DDBJ:日本DNA数据库(DNA Data Bank of Japan), 由the National Institute of Genetics, NIG 主管。
这3个大型数据库于1988年达成协议,组成合作联合体。
它们每天交换信息,并对数据库DNA序列记录的统一
标准达成一致。每个机构负责收集来自不同地理分布的 数据(EMBL负责欧洲,GenBank负责美洲,DDBJ负责 亚洲等),然后来自各地的所有信息汇总在一起,3个 数据库的数据共享并向世界开放,故这3个数据库又被
中可以比较某一蛋白质与已知结构蛋白的结构相似性。 CATH(Class, Architecture, Topology and Homologous
superfamily)是与SCOP类似的一个数据库。
ExPASy蛋白质分析专家系统
目前,瑞士生物信息学研究所(Swiss Institute of
Bioinformatics, SIB)创建了蛋白质分析专家系统
PIR数据库的数据最初是由美国国家生物医学研究基
金会(National Biomedical Research Foundation, NBRF)收集的蛋白质序列,主要翻译自GenBank的
DNA序列。
1988年,美国的NBRF、日本的JIPID(the Japanese
International Protein Sequence Database日本国家蛋白
4、学会查找和理解数据库中 的数据信息
二、蛋白质数据库
SWISS-PROT和PIR是国际上二个主要的蛋白质序
列数据库,目前这二个数据库在EMBL和
GenBank数据库上均建立了镜像 (mirror) 站点。
SWISS-PROT数据库包括了从EMBL翻译而来的蛋 白质序列,这些序列经过检验和注释。该数据库 主要由日内瓦大学医学生物化学系和欧洲生物信 息学研究所(EBI)合作维护。SWISS-PROT的序列 数量呈直线增长。
GenBank:由美国国家生物技术信息中心(National Center for Biotechnology Information, NCBI) 建立。该 中心隶属于美国国家医学图书馆,位于美国国家卫生 研究院(NIH)内。
EMBL:欧洲分子生物学实验室(European Molecular Biology Laboratory, 其下有European Bioinformatics Centre),主要位于英国剑桥Cambridge和德国汉堡 Hamburg。
3、基因组数据库
如:大肠杆菌基因组ECDC、酵母菌基因组 CYGD、线虫基因组AceDB、果蝇基因组 FlyBase、老鼠基因组MGD、人类基因组 GDB、拟南芥 TAIR(AtDB)数据库和水稻基 因组RGP等。
部分生物基因组计划网址如下:
大肠杆菌E Coli—— ECDC数据库 http://www.uni-giessen.de/~gx1052/ECDC/ecdc.htm 酵母菌Yeast ——CYGD数据库 http://mips.gsf.de/genre/proj/yeast/index.jsp 线虫 Caenorhabditis elegans ——AceDB数据库 http://www.acedb.org http://elegans.swmed.edu/genome.shtml http://www.wormbase.org 果蝇 Drosophila ——FlyBase数据库 http://flybase.bio.indiana.edu/ http://morgan.harvard.edu
质信息数据库)、德国的MIPS(Munich Information Centre for Protein Sequences摹尼黑蛋白质序列信息中 心)合作,共同收集和维护PIR数据库。PIR根据注释 程度(质量)分为4个等级。
TrEMBL(Translated EMBL) 数据库也是一个蛋 白质数据库,它包括了所有EMBL库中的蛋白
北京华大基因研究中心(中国科学院北京基因组研究所):
http://www.genomics.org.cn/bgi_new/index.htm 清华大学生物系生物信息研究室: http://www.bioinfo.tsinghua.edu.cn 中国科学院上海生命科学研究院生物信息中心: www.biosino.org.cn
质编码区序列,提供了一个非常全面的蛋白质
序列数据源,但这势必导致其注释质量的下降。
PDB和NRL-3D三维蛋白质结构数据库
实验获得的三维蛋白质结构均贮存在蛋白质数据库
PDB(Protein Data Bank)中。PDB是国际上主要
的蛋白质结构数据库,虽然它没有蛋白质序列数据库 那么庞大,但其增长速度很快。PDB贮存有由X射线和 核磁共振(NMR)确定的结构数据。NRL-3D(Naval
proteins)数据库中。被列为同源的蛋白质序列很有可能具
有相同的三维结构,HSSP因此根据同源性给出了SWISS-
PROT数据库中所有蛋白质序列最有可能的三维结构。要想
了解对已知结构蛋白质进行等级分类的情况可利用
SCOP(Structural classification of proteins)数据库,在该库
第一讲、核酸和蛋白质 数据库
染色体
基因组图谱
基因组 数据库
基因组作图 核酸 序列测定 蛋白质序列 蛋白质 结构测定 蛋白质结构 X-衍射等 物理技术 分子生物信息数据库概况 蛋白质结 构数据库 蛋白质序 列数据库 DNA序列
生物信息学 数据库工具 核酸序列 数据库
二 次 数 据 库
生物信息学 数据库工具
主要蛋白质序列数据库的网址
SWISS-PROT
http://www.expasy.org/sprot 或 http://www.expasy.org/expasy_urls.html TrEMBL http://www.expasy.org/sprot PIR http://www-nbrf.georgetown.edu/pirwww
(Expert protein analysis system, ExPASy ,网址: http://www.expasy.org )涵盖了上述主要的数据库。 我国的北京大学生物信息中心 (www.cbi.pku.edu.cn) 设 立 了 E x P A S y 的 镜 像 ( M i r r o r ) 。