生物信息学第三章分子生物信息数据库
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
http://metadatabase.org/wiki/Main_Page
MetaBase
MetaBase is a user-contributed list of all the biological databases available on the internet.
Currently there are 1,799 entries, each describing a different database.
具有特殊生物学意义和专门用途 数据库开发的有效途径
二次数据库的种类
1. 以核酸数据库为基础:
2.
真核生物启动子数据库EPD
3.
克隆载体数据库Vector
4.
基因转录调控因子数据库TransFac
2. 以蛋白质序列数据库为基础:
蛋白质功能位点数据库Prosite 蛋白质序列指纹图谱数据库Prints
搜集了500多个数据库的名称、内容、数据格式、联 系地址、网址等详细信息。 DBCat按DNA、RNA、蛋白质、基因图谱、结构、 文献等分类,其中大部分数据库可以免费下载。
MetaBase
MetaBase是一个生物学数据库清单, 目前收集了1799个不同的数据库,可 直接输入数据库名称进行搜索,也可 以浏览目录。
三大核酸数据库
GenBank,由美国国家生物技术信息中心 (National Center for Biotechnology Information, NCBI)维护。
http://www.ncbi.nlm.nih.gov/genbank/
三大核酸数据库
EMBL数据库是由欧洲分子生物学 实验室(European Molecular Biology Laboratory, EMBL)创建,并因此 得名,现由欧洲生物信息学研究所 ( European Bioinformatics Institute, EBI)维护。
两类数据库的特点:
一次数据库
1. 数据量大,更新速度快,用户面广
2. 需要高性能的计算机服务器、大容量的磁盘 空间和专门的数据库管理系统支撑。
例如,欧洲生物信息学研究所用Oracle数据库软件 管理、维护核酸数据库EMBL;基因组数据库GDB的管 理运行基于Sybase数据库管理系统。
两类数据库的特点:
The databases are described in a semistructured way by using templates and entries can carry various user comments and annotations.
Entries can be searched, listed or browsed by category.
HGMP-RC
英国基因组图谱资源中心(Human Genome Mapping Project Resource Center, HGMP-RC)
搜集世界各地基因组中心、基因组数据库、基 因组图谱、基因组实验材料、基因突变,以及 生物公司、实验规程、网络教程等几百个网址。
http://www.genomeweb.com
计算机数据管理技 术广泛应用
分子生物学数据库建立并不断发展, 成为相关研究的主要数据来源和数据
交换手段。
➢计算机网络的发展和互联网在全球的普及, 为分子生物信息数据库的利用开辟了广阔 的前景。
➢测序中心和生物学家得到的各种生物学数 据都可以通过互联网直接向国际数据中心 递交。
分子生物信息数据库的种类
生物信息学第三章分子生物信息数据库
主要内容
一.分子生物信息数据库简介 ✓ 二.序列数据库 ✓ 三.基因组数据库 ✓ 四.结构数据库 ✓ 五.二次数据库 ✓ 六.数据库查询和数据库搜索 ✓
一、分子生物信息数据库简介
分子生物学领域的大规模、高通量、 自动化研究
实验数据可靠、完 整,及时实现信息 资源共享
二、序列数据库
序列数据库是分子生物信息数据库的 重要组成部分,包括核酸和蛋白质两类, 以核苷酸碱基顺序和氨基酸残基顺序为基 本内容,并附有注释信息。
1、核酸序列数据库
➢目前世界上最大的核苷酸序列数据库是 美 国 的 GenBank 、 欧 洲 的 EMBL 、 日 本 的DDBJ数据库。
➢截止到2011年4月,GenBank已经收录了 135,440,924 条 序 列 记 录 , 超 过 1260 亿 个 碱基记录,每隔大约10个月数据就翻番。
http://www.embl.org/
三大核酸数据库
DDBJ(DNA Date Base of Japan)由 日本国家遗传学研究所(National Institute of Genetics, NIG)维护。
GenBank和EMBL中各子库名称
GenBank (EMBL) PRI(HUM) ROD(ROD) MAM (MAM) VRT (VRT) INV(INV) PLN(PLN) BCT(PRO) VRL(VRL) PHG(PHG) SYN (SYN) UNA(UNC) EST(EST) PAT(PAT) STS(STS) GSS(GSS) HTG(HTG) HTC(HTC)
同源蛋白家族数据库Pfam
同源蛋白结构域数据库Blocks
二次数据库的种类
3. 以具有特殊功能的蛋白质为基础:
免疫球蛋白数据库Kabat 蛋白激酶数据库PKinase
4. 以三维结构原子坐标为基础:
蛋白质二级结构构象参数数据库DSSP 已知空间结构的蛋白质家族数据库FSSP 已知空间结构的蛋白质及其同源蛋白数据库HSSP
二次数据库 1. 容量小,更新速度较慢,可以不用大型商
业数据库软件支持。 2. 许多二次库的开发基于Web浏览器。其优
点是使用方便,使用者不需要有丰富的计 算机专业知识。
DBCat
由法国生物信息研究中心Infobiogen建立维护。 DBCat(Database Catalog,生物信息数据库目录)
1. 基因组数据库
2. 核酸和蛋白质一级结构(序列)数
据库
Hale Waihona Puke Baidu
3. 生物大分子(主要是蛋白质)空间
结构数据库
4. 二次数据库
一次数据库
一次数据库
基因组作图 序列测定 X射线衍射、核磁 共振等结构测定
基因组数据库 序列数据库 结构数据库
生物信息学的基本数据资源
二次数据库
对一次数据库以及文献等数据进行分 析、整理、归纳、注释
MetaBase
MetaBase is a user-contributed list of all the biological databases available on the internet.
Currently there are 1,799 entries, each describing a different database.
具有特殊生物学意义和专门用途 数据库开发的有效途径
二次数据库的种类
1. 以核酸数据库为基础:
2.
真核生物启动子数据库EPD
3.
克隆载体数据库Vector
4.
基因转录调控因子数据库TransFac
2. 以蛋白质序列数据库为基础:
蛋白质功能位点数据库Prosite 蛋白质序列指纹图谱数据库Prints
搜集了500多个数据库的名称、内容、数据格式、联 系地址、网址等详细信息。 DBCat按DNA、RNA、蛋白质、基因图谱、结构、 文献等分类,其中大部分数据库可以免费下载。
MetaBase
MetaBase是一个生物学数据库清单, 目前收集了1799个不同的数据库,可 直接输入数据库名称进行搜索,也可 以浏览目录。
三大核酸数据库
GenBank,由美国国家生物技术信息中心 (National Center for Biotechnology Information, NCBI)维护。
http://www.ncbi.nlm.nih.gov/genbank/
三大核酸数据库
EMBL数据库是由欧洲分子生物学 实验室(European Molecular Biology Laboratory, EMBL)创建,并因此 得名,现由欧洲生物信息学研究所 ( European Bioinformatics Institute, EBI)维护。
两类数据库的特点:
一次数据库
1. 数据量大,更新速度快,用户面广
2. 需要高性能的计算机服务器、大容量的磁盘 空间和专门的数据库管理系统支撑。
例如,欧洲生物信息学研究所用Oracle数据库软件 管理、维护核酸数据库EMBL;基因组数据库GDB的管 理运行基于Sybase数据库管理系统。
两类数据库的特点:
The databases are described in a semistructured way by using templates and entries can carry various user comments and annotations.
Entries can be searched, listed or browsed by category.
HGMP-RC
英国基因组图谱资源中心(Human Genome Mapping Project Resource Center, HGMP-RC)
搜集世界各地基因组中心、基因组数据库、基 因组图谱、基因组实验材料、基因突变,以及 生物公司、实验规程、网络教程等几百个网址。
http://www.genomeweb.com
计算机数据管理技 术广泛应用
分子生物学数据库建立并不断发展, 成为相关研究的主要数据来源和数据
交换手段。
➢计算机网络的发展和互联网在全球的普及, 为分子生物信息数据库的利用开辟了广阔 的前景。
➢测序中心和生物学家得到的各种生物学数 据都可以通过互联网直接向国际数据中心 递交。
分子生物信息数据库的种类
生物信息学第三章分子生物信息数据库
主要内容
一.分子生物信息数据库简介 ✓ 二.序列数据库 ✓ 三.基因组数据库 ✓ 四.结构数据库 ✓ 五.二次数据库 ✓ 六.数据库查询和数据库搜索 ✓
一、分子生物信息数据库简介
分子生物学领域的大规模、高通量、 自动化研究
实验数据可靠、完 整,及时实现信息 资源共享
二、序列数据库
序列数据库是分子生物信息数据库的 重要组成部分,包括核酸和蛋白质两类, 以核苷酸碱基顺序和氨基酸残基顺序为基 本内容,并附有注释信息。
1、核酸序列数据库
➢目前世界上最大的核苷酸序列数据库是 美 国 的 GenBank 、 欧 洲 的 EMBL 、 日 本 的DDBJ数据库。
➢截止到2011年4月,GenBank已经收录了 135,440,924 条 序 列 记 录 , 超 过 1260 亿 个 碱基记录,每隔大约10个月数据就翻番。
http://www.embl.org/
三大核酸数据库
DDBJ(DNA Date Base of Japan)由 日本国家遗传学研究所(National Institute of Genetics, NIG)维护。
GenBank和EMBL中各子库名称
GenBank (EMBL) PRI(HUM) ROD(ROD) MAM (MAM) VRT (VRT) INV(INV) PLN(PLN) BCT(PRO) VRL(VRL) PHG(PHG) SYN (SYN) UNA(UNC) EST(EST) PAT(PAT) STS(STS) GSS(GSS) HTG(HTG) HTC(HTC)
同源蛋白家族数据库Pfam
同源蛋白结构域数据库Blocks
二次数据库的种类
3. 以具有特殊功能的蛋白质为基础:
免疫球蛋白数据库Kabat 蛋白激酶数据库PKinase
4. 以三维结构原子坐标为基础:
蛋白质二级结构构象参数数据库DSSP 已知空间结构的蛋白质家族数据库FSSP 已知空间结构的蛋白质及其同源蛋白数据库HSSP
二次数据库 1. 容量小,更新速度较慢,可以不用大型商
业数据库软件支持。 2. 许多二次库的开发基于Web浏览器。其优
点是使用方便,使用者不需要有丰富的计 算机专业知识。
DBCat
由法国生物信息研究中心Infobiogen建立维护。 DBCat(Database Catalog,生物信息数据库目录)
1. 基因组数据库
2. 核酸和蛋白质一级结构(序列)数
据库
Hale Waihona Puke Baidu
3. 生物大分子(主要是蛋白质)空间
结构数据库
4. 二次数据库
一次数据库
一次数据库
基因组作图 序列测定 X射线衍射、核磁 共振等结构测定
基因组数据库 序列数据库 结构数据库
生物信息学的基本数据资源
二次数据库
对一次数据库以及文献等数据进行分 析、整理、归纳、注释