分子序列对比分析数据库
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
GenBank 格式注释信息丰富全面,属文本文件,包括4部分: 1. 头部:含名称、定义、识别码、物种来源等基本信息; 2. 引文区:含相关文献信息。 3. 序列特征表:含序列的编码区、非编码区、功能域、修饰或突变位
点、翻译序列等众多注释信息 4. 序列区:序列本身
头区
2021/3/11
22 安徽大学生命科学学院
2021/3/11
8 安徽大学生命科学学院
生物大分子结构数据库
❖ 以生物大分子各原子空间信息为基本内容的数据库
给定序列的蛋白质如何折叠为稳定、具一定生物功能的三维结构? 信息来源:对蛋白质晶体的X射线衍射、核磁共振及冷冻电镜分析 主要数据库:美国Brookhaven国家实验室的PDB (Protein Data Bank, 1971年成立) 联合MSD-EBI、PDBj,于2003年组建全球共享的worldwide PDB (wwPDB) ( http://www.wwpdb.org/ ) 截止2008年8月,共收录蛋白质结构52684个
http://www.rcsb.org/pdb
Resea2r0c2h1C/3o/l1la1boratory for Structural Bioinformatics
9 安徽大学生命科学学院
GenBank
National Center for Biotechnology Information (NCBI)
生物信息技术应用
分子序列比对分析
Sequence alignment
2021/3/11
1
Contents
1 序列数据库 2 成对序列比对与BLAST工具 3 多重序列比对与Clustal工具 4 序列比对的应用
2021/3/11
2 安徽大学生命科学学院
1 序列数据库
基本类型: ❖ 初级数据库 收录、存储序列的基本数据资源,如核酸(蛋白质)序列、
点”Go”输出检索结果。
2021/3/11
17 安徽大学生命科学学院
Entrez 应用举例
❖ 输出相关序列3784条,有待进一步筛选:限制物种来源(小鼠 Mus musculus)、限制分子为mRNA (排除未经实验验证的预测 序列)。
2021/3/11
18 安徽大学生命科学学院
Entrez 应用举例
2021/3/11
7 安徽大学生命科学学院
蛋白质序列数据库
❖ 全球统一的蛋白质序列与功能数据库
UniProt (Universal Protein Resource, 通用蛋白质资源) ( http://www.uniprot.org/ ) 2002年,PIR、SIB、EBI合并了分属其下的PIR-PSD、Swiss-Prot和 TrEMBL数据库,形成了统一的蛋白质数据库UniProt 截止2008年8月,UniProt共收录蛋白质序列 6,462,751个
GenBank(1982年成立)包含所有已知的核苷酸及蛋白质序列以及与 之相关的生物学信息和参考文献,现由美国生物技术信息中心(NCBI, 成立于1988年)管理维护,是世界上的权威序列数据库。
数据库序列的来源为作者直接递交或间接查寻文献所得,并与世界上 其他公开发行的数据库,如EMBL,DDBJ交换每日更新的数据。
National Library of Medicine
National Institutes of Health
2021/3/11
http://www.ncbi.nlm.nih.gov/
10 安徽大学生命科学学院
GenBank
http://www.ncbi.nlm.nih.gov/
❖ 全球著名的生物信息综合数据库
序列比对是序列分析(结构、功能与进化关系)的基 础
2021/3/11
27 安徽大学生命科学学院
序列比对相关概念
❖ 相似性(Similarity):序列间相同碱基或氨基酸残基所占比例的 高低,是直观的数量关系,是序列间匹配程度的直接测度。
❖ 同源性(Homology):核酸或蛋白质序列间具有共同起源,是 依据进化事实的因果判断。
Entrez为基于万维网 的NCBI数据库检索 系统,通过输入关 键词,运用布尔算 符,可在NCBI所有 数据库中进行文本 搜索。
点击进入 Entrez主页
15 安徽大学生命科学学院
NCBI 数据库检索系统 Entrez
2021/3/11
16 安徽大学生命科学学院
Entrez 应用举例
❖ 检索主题:小鼠(mouse)转录因子(TF) --E2F mRNA的核酸序列 ❖ 检索过程:NCBI主页All Databases在Search对话框输入关键词”E2F”,
序列比对
❖ 概念:通过比较两个或两个以上的核酸(蛋白质)序列,显 示其中相似的结构区域。 成对序列比对 (pairwise sequence alignment) 多重序列比对 (multiple sequence alignment)
❖ 功能: (1) “相似”的序列 “相似”的三维结构; (2) “相似”的序列 “相似”的功能; (3) “相似”的序列 共同的进化起源
2021/3/11
28 安徽大学生命科学学院
成对序列比对
❖ 用于两个核酸(蛋白质)序列间相似性比较,是生物信息 学的基本技术,是多重比对的基础。
The process of lining up two sequences to achieve maximal levels of identity (or conservation, in the case of amino acid sequences) for the purpose of assessing the degree of similarity and the possibility of homology.
蛋白质空间结构及基因组信息。
❖ 次级数据库 在初级库资源基础上进行整理和标注,为特定专业领域服
务的派生数据库,如表达序列标记、微列阵(基因芯片)、 代谢和信号途径、遗传疾病数据库、免疫数据库等等。
2021/3/11
3 安徽大学生命科学学院
核酸序列数据库
❖ 以核苷酸顺序及注释信息为基本内容的数据库 ❖ 世界三大核酸数据库
2021/3/11
11 安徽大学生命科学学院
GenBank
GenBank 核酸数据库的增长(1982-2008)
2021/3/11
截止2008年2月,GenBank 共收录核酸序列近8300万条,约 860亿碱基对,来自26万余种生物
12 安徽大学生命科学学院
GenBank http://www.ncbi.nlm.nih.gov/ Home page
直系同源(orthology):经由物种分离事件形成的存在于不同物种中 的结构及功能相似的序列
旁系同源(paralogy):经由基因复制而演化形成在同一生物体的一系 列结构及功能相似的序列
❖ 序列的相似与序列的同源之间无必然的因果关系(相似并 不一定同源),但存在一定的相关性(足够的相似性往往 意味着同源关系的存在)
2021/3/11
23 安徽大学生命科学学院
ຫໍສະໝຸດ Baidu
GenBank 格式
引文区
2021/3/11
24 安徽大学生命科学学院
GenBank 格式
序列特征表区
2021/3/11
25 安徽大学生命科学学院
GenBank 格式
序列区
// 2021/3/11
序列以“//”为结束标志
26 安徽大学生命科学学院
2 成对序列比对与BLAST工具
2021/3/11
4 安徽大学生命科学学院
蛋白质序列数据库
❖ 以蛋白质氨基酸顺序及注释信息为基本内容的数据库 ❖ 世界主要蛋白质序列数据库
(1) PIR-PSD (Protein information resource-protein sequence database) founded by NBRF of USA (美国国家医学研究基金会) in 1984 ( http://pir.georgetown.edu/ ) 1988年,日本国际蛋白质信息库(JIPID)和德国慕尼黑蛋白质序列信息 中心(MIPS)加入PIR,合作成立了国际蛋白质信息中心(PIRInternational)。PIR为较全面和权威注释的蛋白质数据库,具有非冗余、 高质量注释和分类全面等特点。
1. GenBank in USA ( http://www.ncbi.nlm.nih.gov ) 2. EMBL in Europe ( http://www.ebi.ac.uk/embl ) 3. DDBJ in Japan ( http://www.ddbj.nig.ac.jp ) 1998年,GenBank, EMBL, DDBJ共同成立国际核酸序列数据库协会 (INSDC, http://www.insdc.org ),实现了全球范围内的核酸序列的同步更 新和交换互享。
GenBank 格式
Locus 行信息: 1. Locus name; 2. Sequence length; 3. Type of Molecule: DNA, mRNA, cDNA 4. Taxonomy:PRI – primate(灵长类) 、ROD – rodent(啮齿类)、 MAM -
Query: 181 catcaactacaactccaaagacacccttacacccactaggatatcaacaaacctacccac 240 |||||||| |||| |||||| ||||| | |||||||||||||||||||||||||||||||
2021/3/11
13 安徽大学生命科学学院
NCBI 数据库检索系统 Entrez
❖ Entrez为基于万维网的NCBI数据库检索系统,通过输入关键 词,运用布尔算符,可在NCBI所有数据库中进行文本搜索。
2021/3/11
14 安徽大学生命科学学院
NCBI 数据库检索系统 Entrez
2021/3/11
2021/3/11
5 安徽大学生命科学学院
蛋白质序列数据库
❖ 世界主要蛋白质序列数据库
(2) SwissProt 1986年始创于瑞士日内瓦大学 ,现由瑞士生物信息学研究所(SIB)和 欧洲生物信息学研究所(EBI)共同管理和维护。 ( http://www.expasy.ch/sprot/ ) SwissProt数据库的特点:所有序列条目经过专家核实,可靠性与可信 度高;注释详细,包括蛋白质的功能、序列及结构域的结构、翻译后修 饰及其位点、突变体等
序列文件格式:FASTA 格式
GI号
登录号
名称
标题行
序列行
1. 标题行:文件的第一行,以大于号“>”开始,不换行。内容可自 定义,包括基本信息和简单注释;
2. 序列行:文件第二行起至结束,中间不得有空格。
FASTA为最简单的序列(核酸或蛋白质)格式
2021/3/11
21 安徽大学生命科学学院
序列文件格式: GenBank 格式
❖ 最后命中168条,从中选中NM_148952,以待详细分析。
2021/3/11
直接进入序列文件,或点”reports”, 可选”Graphic”图形显示
19 安徽大学生命科学学院
Entrez 应用举例
❖ NM_148952: 小鼠E2F转录因子-4。
2021/3/11
20 安徽大学生命科学学院
2021/3/11
6 安徽大学生命科学学院
蛋白质序列数据库
❖ 世界主要蛋白质序列数据库
(3) TrEMBL (translation of EMBL) 建立于1996年,是从EMBL中的cDNA序列翻译得到的蛋白质数据库。 相似的还有GenPept (GenBank)数据库。
TrEMBL、GenPept数据库的特点:序列条目来自核酸序列库的翻译, 即时性强;但未经专家的注释、分析和核实,因而错误率和冗余度都较 高。
other mammalian (其它哺乳类)、VRT - other vertebrate(脊椎动物)、 INV – invertebrate sequences、PLN - plant, fungal, and algal; BCT bacterial; VRL - viral, PHG - bacteriophage, SYN - synthetic; UNA unannotated; EST - expressed sequence tags … 5. Date: 上传或最近修改时间
点、翻译序列等众多注释信息 4. 序列区:序列本身
头区
2021/3/11
22 安徽大学生命科学学院
2021/3/11
8 安徽大学生命科学学院
生物大分子结构数据库
❖ 以生物大分子各原子空间信息为基本内容的数据库
给定序列的蛋白质如何折叠为稳定、具一定生物功能的三维结构? 信息来源:对蛋白质晶体的X射线衍射、核磁共振及冷冻电镜分析 主要数据库:美国Brookhaven国家实验室的PDB (Protein Data Bank, 1971年成立) 联合MSD-EBI、PDBj,于2003年组建全球共享的worldwide PDB (wwPDB) ( http://www.wwpdb.org/ ) 截止2008年8月,共收录蛋白质结构52684个
http://www.rcsb.org/pdb
Resea2r0c2h1C/3o/l1la1boratory for Structural Bioinformatics
9 安徽大学生命科学学院
GenBank
National Center for Biotechnology Information (NCBI)
生物信息技术应用
分子序列比对分析
Sequence alignment
2021/3/11
1
Contents
1 序列数据库 2 成对序列比对与BLAST工具 3 多重序列比对与Clustal工具 4 序列比对的应用
2021/3/11
2 安徽大学生命科学学院
1 序列数据库
基本类型: ❖ 初级数据库 收录、存储序列的基本数据资源,如核酸(蛋白质)序列、
点”Go”输出检索结果。
2021/3/11
17 安徽大学生命科学学院
Entrez 应用举例
❖ 输出相关序列3784条,有待进一步筛选:限制物种来源(小鼠 Mus musculus)、限制分子为mRNA (排除未经实验验证的预测 序列)。
2021/3/11
18 安徽大学生命科学学院
Entrez 应用举例
2021/3/11
7 安徽大学生命科学学院
蛋白质序列数据库
❖ 全球统一的蛋白质序列与功能数据库
UniProt (Universal Protein Resource, 通用蛋白质资源) ( http://www.uniprot.org/ ) 2002年,PIR、SIB、EBI合并了分属其下的PIR-PSD、Swiss-Prot和 TrEMBL数据库,形成了统一的蛋白质数据库UniProt 截止2008年8月,UniProt共收录蛋白质序列 6,462,751个
GenBank(1982年成立)包含所有已知的核苷酸及蛋白质序列以及与 之相关的生物学信息和参考文献,现由美国生物技术信息中心(NCBI, 成立于1988年)管理维护,是世界上的权威序列数据库。
数据库序列的来源为作者直接递交或间接查寻文献所得,并与世界上 其他公开发行的数据库,如EMBL,DDBJ交换每日更新的数据。
National Library of Medicine
National Institutes of Health
2021/3/11
http://www.ncbi.nlm.nih.gov/
10 安徽大学生命科学学院
GenBank
http://www.ncbi.nlm.nih.gov/
❖ 全球著名的生物信息综合数据库
序列比对是序列分析(结构、功能与进化关系)的基 础
2021/3/11
27 安徽大学生命科学学院
序列比对相关概念
❖ 相似性(Similarity):序列间相同碱基或氨基酸残基所占比例的 高低,是直观的数量关系,是序列间匹配程度的直接测度。
❖ 同源性(Homology):核酸或蛋白质序列间具有共同起源,是 依据进化事实的因果判断。
Entrez为基于万维网 的NCBI数据库检索 系统,通过输入关 键词,运用布尔算 符,可在NCBI所有 数据库中进行文本 搜索。
点击进入 Entrez主页
15 安徽大学生命科学学院
NCBI 数据库检索系统 Entrez
2021/3/11
16 安徽大学生命科学学院
Entrez 应用举例
❖ 检索主题:小鼠(mouse)转录因子(TF) --E2F mRNA的核酸序列 ❖ 检索过程:NCBI主页All Databases在Search对话框输入关键词”E2F”,
序列比对
❖ 概念:通过比较两个或两个以上的核酸(蛋白质)序列,显 示其中相似的结构区域。 成对序列比对 (pairwise sequence alignment) 多重序列比对 (multiple sequence alignment)
❖ 功能: (1) “相似”的序列 “相似”的三维结构; (2) “相似”的序列 “相似”的功能; (3) “相似”的序列 共同的进化起源
2021/3/11
28 安徽大学生命科学学院
成对序列比对
❖ 用于两个核酸(蛋白质)序列间相似性比较,是生物信息 学的基本技术,是多重比对的基础。
The process of lining up two sequences to achieve maximal levels of identity (or conservation, in the case of amino acid sequences) for the purpose of assessing the degree of similarity and the possibility of homology.
蛋白质空间结构及基因组信息。
❖ 次级数据库 在初级库资源基础上进行整理和标注,为特定专业领域服
务的派生数据库,如表达序列标记、微列阵(基因芯片)、 代谢和信号途径、遗传疾病数据库、免疫数据库等等。
2021/3/11
3 安徽大学生命科学学院
核酸序列数据库
❖ 以核苷酸顺序及注释信息为基本内容的数据库 ❖ 世界三大核酸数据库
2021/3/11
11 安徽大学生命科学学院
GenBank
GenBank 核酸数据库的增长(1982-2008)
2021/3/11
截止2008年2月,GenBank 共收录核酸序列近8300万条,约 860亿碱基对,来自26万余种生物
12 安徽大学生命科学学院
GenBank http://www.ncbi.nlm.nih.gov/ Home page
直系同源(orthology):经由物种分离事件形成的存在于不同物种中 的结构及功能相似的序列
旁系同源(paralogy):经由基因复制而演化形成在同一生物体的一系 列结构及功能相似的序列
❖ 序列的相似与序列的同源之间无必然的因果关系(相似并 不一定同源),但存在一定的相关性(足够的相似性往往 意味着同源关系的存在)
2021/3/11
23 安徽大学生命科学学院
ຫໍສະໝຸດ Baidu
GenBank 格式
引文区
2021/3/11
24 安徽大学生命科学学院
GenBank 格式
序列特征表区
2021/3/11
25 安徽大学生命科学学院
GenBank 格式
序列区
// 2021/3/11
序列以“//”为结束标志
26 安徽大学生命科学学院
2 成对序列比对与BLAST工具
2021/3/11
4 安徽大学生命科学学院
蛋白质序列数据库
❖ 以蛋白质氨基酸顺序及注释信息为基本内容的数据库 ❖ 世界主要蛋白质序列数据库
(1) PIR-PSD (Protein information resource-protein sequence database) founded by NBRF of USA (美国国家医学研究基金会) in 1984 ( http://pir.georgetown.edu/ ) 1988年,日本国际蛋白质信息库(JIPID)和德国慕尼黑蛋白质序列信息 中心(MIPS)加入PIR,合作成立了国际蛋白质信息中心(PIRInternational)。PIR为较全面和权威注释的蛋白质数据库,具有非冗余、 高质量注释和分类全面等特点。
1. GenBank in USA ( http://www.ncbi.nlm.nih.gov ) 2. EMBL in Europe ( http://www.ebi.ac.uk/embl ) 3. DDBJ in Japan ( http://www.ddbj.nig.ac.jp ) 1998年,GenBank, EMBL, DDBJ共同成立国际核酸序列数据库协会 (INSDC, http://www.insdc.org ),实现了全球范围内的核酸序列的同步更 新和交换互享。
GenBank 格式
Locus 行信息: 1. Locus name; 2. Sequence length; 3. Type of Molecule: DNA, mRNA, cDNA 4. Taxonomy:PRI – primate(灵长类) 、ROD – rodent(啮齿类)、 MAM -
Query: 181 catcaactacaactccaaagacacccttacacccactaggatatcaacaaacctacccac 240 |||||||| |||| |||||| ||||| | |||||||||||||||||||||||||||||||
2021/3/11
13 安徽大学生命科学学院
NCBI 数据库检索系统 Entrez
❖ Entrez为基于万维网的NCBI数据库检索系统,通过输入关键 词,运用布尔算符,可在NCBI所有数据库中进行文本搜索。
2021/3/11
14 安徽大学生命科学学院
NCBI 数据库检索系统 Entrez
2021/3/11
2021/3/11
5 安徽大学生命科学学院
蛋白质序列数据库
❖ 世界主要蛋白质序列数据库
(2) SwissProt 1986年始创于瑞士日内瓦大学 ,现由瑞士生物信息学研究所(SIB)和 欧洲生物信息学研究所(EBI)共同管理和维护。 ( http://www.expasy.ch/sprot/ ) SwissProt数据库的特点:所有序列条目经过专家核实,可靠性与可信 度高;注释详细,包括蛋白质的功能、序列及结构域的结构、翻译后修 饰及其位点、突变体等
序列文件格式:FASTA 格式
GI号
登录号
名称
标题行
序列行
1. 标题行:文件的第一行,以大于号“>”开始,不换行。内容可自 定义,包括基本信息和简单注释;
2. 序列行:文件第二行起至结束,中间不得有空格。
FASTA为最简单的序列(核酸或蛋白质)格式
2021/3/11
21 安徽大学生命科学学院
序列文件格式: GenBank 格式
❖ 最后命中168条,从中选中NM_148952,以待详细分析。
2021/3/11
直接进入序列文件,或点”reports”, 可选”Graphic”图形显示
19 安徽大学生命科学学院
Entrez 应用举例
❖ NM_148952: 小鼠E2F转录因子-4。
2021/3/11
20 安徽大学生命科学学院
2021/3/11
6 安徽大学生命科学学院
蛋白质序列数据库
❖ 世界主要蛋白质序列数据库
(3) TrEMBL (translation of EMBL) 建立于1996年,是从EMBL中的cDNA序列翻译得到的蛋白质数据库。 相似的还有GenPept (GenBank)数据库。
TrEMBL、GenPept数据库的特点:序列条目来自核酸序列库的翻译, 即时性强;但未经专家的注释、分析和核实,因而错误率和冗余度都较 高。
other mammalian (其它哺乳类)、VRT - other vertebrate(脊椎动物)、 INV – invertebrate sequences、PLN - plant, fungal, and algal; BCT bacterial; VRL - viral, PHG - bacteriophage, SYN - synthetic; UNA unannotated; EST - expressed sequence tags … 5. Date: 上传或最近修改时间