第三章生物信息学资源与数据挖掘工具

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

FASTA序列格式中的氨基酸表示法
A 丙 (alanine) P B D或N Q C 半胱 (cystine) R D 天冬(aspartic acid) S E 谷 (glutamic acid) T F 苯丙(phenylalanine) U G 甘 (glycine) V H 组 (histidine) W I 异亮 (isoleucine) Y K 赖 (lysine) Z L 亮 (leucine) X M 甲硫 (methionine) * N 天冬酰胺(asparagine) –



每天这三个数据库作数据同步操作 在任何一个数据库操作(查找、投递数据等)是 等效的
GenBank 主页
GenBank结构

GenBank包括三个子数据库
CoreNucleotide dbEST dbGSS


其中CoreNucleotide还分为更小的BLAST 数据库
nr htgs wgs env_nt

SWISS-PROT, ExPASy, ENZYME, …

NCGR [美], JIPID [日], HGMP[英], BioBase [丹], …
二、数据库目录
NAR数据库专辑


从1994年开始,《核酸研究》杂志(Neucleic Acids Research)每年第一期是生物数据库 专辑 每个专辑大约介绍100多种库 从2000年起,该杂志的出版社(牛津大学出版 社)设立了一个数据库目录网页

http://www.nar.oupjournals.org
其他数据库列表

NIH全球数据库列表

http://molbio.info.nih.gov/molbio/db.ht ml http://www.cbi.pku.edu.cn/help/dwut.ht ml

CBI的生物数据库镜像列表

不确定长度间隔
PHYLIP序列格式

例子
5 15 Sequence1 Sequence2 Sequence3 Sequence4 Sequence5
agctggcttaaggcc tcggactagagaatc gggacattacga--t gaataactag-gact ag--gata---gaag
三、常用序列格式
FASTA序列格式

也叫Pearson格式 简单 使用最多 例子(单序列)
>Name of the sequence ctgcgagNcgcgcgatgatagMMM-NNNnnnnatgancgcggcgagcatgtagcatgcta gctgtcgcgagcactUUUURRRrrrrrrrcggccgagatcaggcgatgcatgcgcaggga gcagcgagcgacgagcacagcatgctagctagatgcatgctaVvvvcgtaggcagccgcc
第三章 生物信息学资源与 数据挖掘工具
一、国外重要生物信息中心
NCBI



美国国家生物技术信息中心(National Center for Biotechnology Information) 前身是NIH所属的一个研究所的计算生物学 研究室,1988年独立为NCBI,形式上属于国家 医学图书馆(National Library of Medicine/NLM) 管理着许多著名数据库,如GenBank、 Medline、dbSNP、COG、OMIM等 提供Entrez、BLAST等服务 http://www.ncbi.nlm.nih.gov
NIG


日本国立遗传学研究所(National Institute of Genetics) 创立于1949年7月1日,属文部省管辖 信息服务始于1984年 维护管理着DDBJ

1987年1月发行DDBJ第一版

http://www.nig.ac.jp
其他重要中心



HHMI (Howard Hughes Medical Institute) [美] MIPS (Munich Information Center for Protein Sequences) [德] SIB (Swiss Institute of Bioinformatics) [瑞士]

GenBank 查询(1)
选数据库
已知收录号 输入收录号 (accession number)的 查询结果摘要 情况

点击查看详细结果
GenBank查询

查看详细结果 DNA
GenBank查询:Protein
GenBank序列格式
LOCUS AY513897 470 bp DNA linear PLN 14-JUN-2004 DEFINITION Zea mays subsp. parviglumis voucher PI331789 RFLP marker csu1171. ACCESSION AY513897 VERSION AY513897.1 GI:42405706 KEYWORDS . SOURCE Zea mays subsp. parviglumis ORGANISM Zea mays subsp. parviglumis Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta; Spermatophyta; Magnoliophyta; Liliopsida; Poales; Poaceae; PACCAD clade; Panicoideae; Andropogoneae; Zea. REFERENCE 1 (bases 1 to 470) AUTHORS Tenaillon,M.I., U'Ren,J., Tenaillon,O. and Gaut,B.S. TITLE Selection Versus Demography: A Multilocus Investigation of the Domestication Process in Maize JOURNAL Mol. Biol. Evol. 21 (7), 1214-1225 (2004) PUBMED 15014173 REFERENCE 2 (bases 1 to 470) AUTHORS Tenaillon,M.I., U'Ren,J., Tenaillon,O. and Gaut,B.S. TITLE Direct Submission JOURNAL Submitted (23-DEC-2003) Ecology and Evolutionary Biology, UC Irvine, 321 Steinhaus Hall, Irvine, CA 92697, USA FEATURES Location/Qualifiers source 1..470 /organism="Zea mays subsp. parviglumis" /mol_type="genomic DNA" /cultivar="Benito Juarez" /sub_species="parviglumis" /specimen_voucher="PI331789 (USDA/NCRPIS)" /db_xref="taxon:76912" /chromosome="1" /country="Mexico" misc_feature 1..470 /note="RFLP marker csu1171" ORIGIN 1 cagactacgc tgaaggcatg gtttcttctc agtgtcattc atgctctaaa tttgaaattc 61 aatataggtt gtcagcgact acgaaagttt ttattgacga tcctcttgcg attctgcagc 121 tatcaaagga ataaagacca gccaaagacc tctagctgta gccgcataag gagctggacg 181 tgtaatcatt tactctgtgc aagtttacca gtgatgcgat ctgtatagat gtgtgtcttg 241 tccagccata cgtataccgg agatgaaagg agatggaggc agtgaagaaa tatccttttt 301 tttttcttct catttttcac gaggatgcgg tgcactgctc ccagaatgct gtgtccaatt 361 tacaaacgca caggtggcat atgaactagc agagtagctt tatcttgaaa ggaaactgta 421 tttggggtcg atgaaccctc tggtgttatt cttcagactg gtaaacgatg //
“-”表示间隔
多序列FASTA
>sequence1, E. coli ctgcgagNcgcgcgatgatagMMM-NNNngnnatgancgcggcgagcatgtagcatgcta gctgtcgcgagcactUgaURRRrrrtrrrcggccgagatcaggcgatgcatgcgcaggga gcagcgagcgacgagcacagcatgctagctagatgcatgctaVagvcgtaggcagccgcc >sequence2, B. subtilis ctgcgagNcgcgcgatgatagctgactNntnatganncgcggcgagcatgtagcatgcta gctgtcgcgagcactUctURRRrrrcrrrcggccgagatcaggcgatgcatgcgcaggga gcagcgagcgacgagcacagcatgctagctagatgcatgctaVcgvcgtaggcagccgcc >sequence3, B. natto ctgcgagNcgcgcgatgatagMcgatcccnatgannncgcggcgagcatgtagcatgcta gctgtcgcgagcactUggURRRrrrggrrcggccgagatcaggcgatgcatgcgcaggga gcagcgagcgacgagcacagcatgctagctagatgcatgctaVaavcgtaggcagccgcc
FASTA序列格式中的核苷酸表示法
A 腺嘌呤(adenosine) M C 胞嘧啶(cytidine) S G 鸟嘌呤(guanine) W T 胸腺嘧啶(thymidine) B U 尿嘧啶(uridine) D R G或A (purine) H Y T或C (pyrimidine) V K G或T (keto) N – A或C (amino) G或C (strong) A或T (weak) G或T或C G或A或T A或C或T G或C或A A或G或C或T (any) 不确定长度间隔
EBI




欧洲生物信息学研究所(European Bioinformatics Institute) 1994年建于英国剑桥,前身是德国海德堡的欧 洲分子生物学实验室的信息服务部门 EBI接收了原来EMBL数据库的管理和维护 是欧洲分子生物学网(EMBnet)的一个特别节 点 http://www.ebi.ac.uk/ (主页) http://www2.ebi.ac.uk/ (工具) http://www3.ebi.ac.uk/ (服务)
谷氨酰胺(glutamine)
脯 (proline)
精 (arginine) 丝 (serine) 苏 (threonine)
硒代半胱(selenocysteine)
缬(valine) 色 (tryptophan) 酪 (tyrosine) E或Q 任何氨基 (any)
翻译终止(translation stop)
第一行:序列数和序列长度(包括间隔) 每一条序列长度相等
四、核酸数据库
国际核苷酸序列数据库联盟

ຫໍສະໝຸດ Baidu
International Nucleotide Sequence Database Collaboration (INSDC)包括
GenBank [美] http://www.ncbi.nlm.nih.gov/Genbank EMBL [欧] http://www.ebi.ac.uk/embl/ DDBJ [日] http://www.ddbj.nig.ac.jp/
相关文档
最新文档