ncbi使用技巧,spss使用指南

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

头 区
安徽大学生命科学学院
GenBank 格式
Locus 行信息: 行信息: 1. Locus name; name; 2. Sequence length; 3. Type of Molecule: DNA, mRNA, cDNA 4. Taxonomy:PRI – primate(灵长类) 、ROD – rodent(啮齿类)、 MAM Taxonomy: primate(灵长类) rodent(啮齿类) other mammalian (其它哺乳类)、VRT - other vertebrate(脊椎动物)、 (其它哺乳类) vertebrate(脊椎动物)、 INV – invertebrate sequences、PLN - plant, fungal, and algal; BCT sequences、 bacterial; VRL - viral, PHG - bacteriophage, SYN - synthetic; UNA bacteriophage, unannotated; unannotated; EST - expressed sequence tags … 5. Date: 上传或最近修改时间
安徽大学生命科学学院
蛋白质序列数据库
世界主要蛋白质序列数据库
(2) SwissProt 1986年始创于瑞士日内瓦大学 ,现由瑞士生物信息学研究所(SIB)和 1986年始创于瑞士日内瓦大学 ,现由瑞士生物信息学研究所(SIB)和 欧洲生物信息学研究所(EBI)共同管理和维护。 欧洲生物信息学研究所(EBI)共同管理和维护。 ( http://www.expasy.ch/sprot/ ) SwissProt数据库的特点:所有序列条目经过专家核实,可靠性与可 SwissProt数据库的特点:所有序列条目经过专家核实,可靠性与可 信度高;注释详细,包括蛋白质的功能、序列及结构域的结构、翻译后 修饰及其位点、突变体等
安徽大学生命科学学院
蛋白质序列数据库
以蛋白质氨基酸顺序及注释信息为基本内容的数据库 世界主要蛋白质序列数据库
(1) PIR-PSD (Protein information resource-protein sequence database) PIRresourcefounded by NBRF of USA (美国国家医学研究基金会) in 1984 (美国国家医学研究基金会) ( http://pir.georgetown.edu/ ) 1988年,日本国际蛋白质信息库(JIPID) 1988年,日本国际蛋白质信息库(JIPID)和德国慕尼黑蛋白质序列信 息中心(MIPS)加入PIR,合作成立了国际蛋白质信息中心(PIR息中心(MIPS)加入PIR,合作成立了国际蛋白质信息中心(PIRInternational)。PIR为较全面和权威注释的蛋白质数据库,具有非冗余、 International)。PIR为较全面和权威注释的蛋白质数据库,具有非冗余、 高质量注释和分类全面等特点。
安徽大学生命科学学院
NCBI 数据库检索系统 Entrez
Entrez为基于万维网 Entrez为基于万维网 NCBI数据库检索 的NCBI数据库检索 系统, 系统,通过输入关 键词, 键词,运用布尔算 可在NCBI NCBI所有 符,可在NCBI所有 数据库中进行文本 搜索。 搜索。
点击进入 Entrez主页 主页
TrEMBL、GenPept数据库的特点:序列条目来自核酸序列库的翻译, TrEMBL、GenPept数据库的特点:序列条目来自核酸序列库的翻译, 即时性强;但未经专家的注释、分析和核实,因而错误率和冗余度都较 高。
Fra Baidu bibliotek安徽大学生命科学学院
蛋白质序列数据库
全球统一的蛋白质序列与功能数据库
UniProt (Universal Protein Resource, 通用蛋白质资源) 通用蛋白质资源) ( http://www.uniprot.org/ ) 2002年,PIR、SIB、EBI合并了分属其下的PIR-PSD、Swiss-Prot和 2002年,PIR、SIB、EBI合并了分属其下的PIR-PSD、Swiss-Prot和 TrEMBL数据库,形成了统一的蛋白质数据库UniProt TrEMBL数据库,形成了统一的蛋白质数据库UniProt 截止2008年 月,UniProt共收录蛋白质序列 6,462,751个 截止2008年8月,UniProt共收录蛋白质序列 6,462,751个
安徽大学生命科学学院
GenBank
http://www.ncbi.nlm.nih.gov/
全球著名的生物信息综合数据库
GenBank(1982年成立)包含所有已知的核苷酸及蛋白质序列以及与 GenBank(1982年成立)包含所有已知的核苷酸及蛋白质序列以及与 之相关的生物学信息和参考文献,现由美国生物技术信息中心(NCBI, 之相关的生物学信息和参考文献,现由美国生物技术信息中心(NCBI, 成立于1988年)管理维护,是世界上的权威序列数据库。 成立于1988年)管理维护,是世界上的权威序列数据库。 数据库序列的来源为作者直接递交或间接查寻文献所得,并与世界上 其他公开发行的数据库,如EMBL,DDBJ交换每日更新的数据。 其他公开发行的数据库,如EMBL,DDBJ交换每日更新的数据。
安徽大学生命科学学院
核酸序列数据库
以核苷酸顺序及注释信息为基本内容的数据库 世界三大核酸数据库
1. GenBank in USA ( http://www.ncbi.nlm.nih.gov ) 2. EMBL in Europe ( http://www.ebi.ac.uk/embl ) 3. DDBJ in Japan ( http://www.ddbj.nig.ac.jp ) 1998年,GenBank, 1998年,GenBank, EMBL, DDBJ共同成立国际核酸序列数据库协会 DDBJ共同成立国际核酸序列数据库协会 (INSDC, http://www.insdc.org ),实现了全球范围内的核酸序列的同步更 新和交换互享。
安徽大学生命科学学院
蛋白质序列数据库
世界主要蛋白质序列数据库
(3) TrEMBL (translation of EMBL) 建立于1996年,是从EMBL中的cDNA序列翻译得到的蛋白质数据库。 建立于1996年,是从EMBL中的cDNA序列翻译得到的蛋白质数据库。 相似的还有GenPept GenBank) 相似的还有GenPept (GenBank)数据库。
安徽大学生命科学学院
GenBank
http://www.ncbi.nlm.nih.gov/ Home page
安徽大学生命科学学院
NCBI 数据库检索系统 Entrez
Entrez为基于万维网的NCBI数据库检索系统, Entrez为基于万维网的NCBI数据库检索系统,通过输入关 为基于万维网的NCBI数据库检索系统 键词,运用布尔算符,可在NCBI NCBI所有数据库中进行文本搜 键词,运用布尔算符,可在NCBI所有数据库中进行文本搜 索。
安徽大学生命科学学院
Entrez 应用举例
最后命中168条 从中选中NM_148952,以待详细分析。 最后命中168条,从中选中NM_148952,以待详细分析。
直接进入序列文件,或点 直接进入序列文件,或点”reports”, , 可选”Graphic”图形显示 可选 图形显示
安徽大学生命科学学院
Research Collaboratory for Structural Bioinformatics
安徽大学生命科学学院
GenBank
National Center for Biotechnology Information (NCBI) National Library of Medicine National Institutes of Health http://www.ncbi.nlm.nih.gov/
FASTA为最简单的序列(核酸或蛋白质)格式 FASTA为最简单的序列(核酸或蛋白质)格式
安徽大学生命科学学院
序列文件格式: 序列文件格式: GenBank 格式
GenBank 格式注释信息丰富全面,属文本文件,包括4部分: 格式注释信息丰富全面,属文本文件,包括4 1. 头部:含名称、定义、识别码、物种来源等基本信息; 头部:含名称、定义、识别码、物种来源等基本信息; 2. 引文区:含相关文献信息。 引文区:含相关文献信息。 3. 序列特征表:含序列的编码区、非编码区、功能域、修饰或突变位 序列特征表:含序列的编码区、非编码区、功能域、修饰或突变位 点、翻译序列等众多注释信息 4. 序列区:序列本身 序列区:序列本身
安徽大学生命科学学院
GenBank
GenBank 核酸数据库的增长(1982-2008) 核酸数据库的增长(1982-2008)
截止2008年 月,GenBank 共收录核酸序列近8300万条, 截止2008年2月,GenBank 共收录核酸序列近8300万条, 约860亿碱基对,来自26万余种生物 860亿碱基对,来自26万余种生物
Entrez 应用举例
NM_148952: 小鼠E2F转录因子 NM_148952: 小鼠E2F转录因子-4。 转录因子-
安徽大学生命科学学院
序列文件格式: 序列文件格式:FASTA 格式
GI号 号 登录号 名称 标题行
序列行
1. 2.
标题行:文件的第一行,以大于号“> 标题行:文件的第一行,以大于号“>”开始,不换行。内容可自 定义,包括基本信息和简单注释; 序列行:文件第二行起至结束,中间不得有空格。
点”Go” 输出检索结果。 输出检索结果。
安徽大学生命科学学院
Entrez 应用举例
输出相关序列3784条 有待进一步筛选:限制物种来源( 输出相关序列3784条,有待进一步筛选:限制物种来源(小鼠 Mus musculus)、限制分子为mRNA (排除未经实验验证的预测 musculus) 限制分子为mRNA (排除未经实验验证的预测 序列) 序列)。
安徽大学生命科学学院
NCBI 数据库检索系统 Entrez
安徽大学生命科学学院
Entrez 应用举例
检索主题:小鼠(mouse)转录因子 --E2F mRNA的核酸序列 转录因子(TF) 检索主题:小鼠(mouse)转录因子(TF) --E2F mRNA的核酸序列 检索过程:NCBI主页 Search对话框输入关键词 对话框输入关键词”E2F”, 检索过程:NCBI主页 All Databases 在Search对话框输入关键词”E2F”,
生物信息技术应用
分子序列比对分析
Sequence alignment
Contents
1 序列数据库 2 成对序列比对与 成对序列比对与BLAST工具 工具 3 多重序列比对与 多重序列比对与Clustal工具 工具 4 序列比对的应用
安徽大学生命科学学院
1 序列数据库 基本类型: 基本类型: 初级数据库 收录、存储序列的基本数据资源,如核酸(蛋白质)序列、 收录、存储序列的基本数据资源,如核酸(蛋白质)序列、 蛋白质空间结构及基因组信息。 蛋白质空间结构及基因组信息。 次级数据库 在初级库资源基础上进行整理和标注, 在初级库资源基础上进行整理和标注,为特定专业领域服 务的派生数据库,如表达序列标记、微列阵(基因芯片)、 务的派生数据库,如表达序列标记、微列阵(基因芯片)、 代谢和信号途径、遗传疾病数据库、免疫数据库等等。 代谢和信号途径、遗传疾病数据库、免疫数据库等等。
安徽大学生命科学学院
生物大分子结构数据库
以生物大分子各原子空间信息为基本内容的数据库
给定序列的蛋白质如何折叠为稳定、具一定生物功能的三维结构? 信息来源:对蛋白质晶体的X 信息来源:对蛋白质晶体的X射线衍射、核磁共振及冷冻电镜分析 主要数据库:美国Brookhaven国家实验室的PDB 主要数据库:美国Brookhaven国家实验室的PDB (Protein Data Bank, 1971年成立) 联合MSD-EBI、PDBj,于2003年组建全球共享的worldwide 1971年成立) 联合MSD-EBI、PDBj,于2003年组建全球共享的worldwide PDB (wwPDB) (wwPDB) ( http://www.wwpdb.org/ ) 截止2008年 月,共收录蛋白质结构52684个 截止2008年8月,共收录蛋白质结构52684个 http://www.rcsb.org/pdb
相关文档
最新文档