生物分子数据库
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
由美国Johns Hopkins大学建立。现也属 NCBI集成系统中的一个库。它主要报道人 类基因和遗传缺陷相关疾病的文字信息、 图片和参考文献,被称为人类基因及其相 关疾病与遗传特征的百科全书
例: 查找与疾病相关的基因 通过OMIM寻找疾病基因信息,通过染色体
定位找到疾病基因。 如:查找角化过度症(营养不良性神经病)
Nucleic Acids Research 杂志
相关数据库及其主要分类
1. 核酸序列数据库 2. RNA 序列数据库 3. 蛋白质序列数据库 4. 结构数据库 5. 基因组数据库 6. 代谢酶相关产物 7. 人类和其他脊椎动物基因组 8. 人类基因和疾病 9. 其他数据和其他基因表达数据库 10. 蛋白组资源 11. 其他分子生物学数据库 12. 细胞器官数据库 13. 植物数据库 14. 免疫学数据库
二、生物信息学数据库种类
《Nucleic Acids Research》杂志每年的第一 期中详细介绍最新版本的各种数据库。
在2000年1月1日出版的28卷第一期115种通 用和专用数据库。
至2008年,生物信息学数据库总数已达1078 个。比2007年增加110个。
Nucleic Acids Research 杂志
Keratoderma,palmoplantar
OMIM检索 Keratoderma palmoplantar
染色体位点
OMIM检出结果
OMIM 基因图谱
6. 引物设计
所谓引物是指在聚合反应中作为底物引发聚合产物的短的 序列统称为引物。PCR反应中扩增一个已知序列DNA,对 其引物须有一定的满足条件,才能有效地扩增模板序列, 这些条件有:(1)引物长度为20个碱基;(2)引物序列 与被扩增的序列不具有同源性;(3)引物中G+C碱基的 含量以40%~60%为宜等。设计满足PCR扩增条件的引物称 为最佳引物设计。
引物引长物度中碱基 +c的比例
熔点引物起始处与寡合苷酸 任意区域的互补指数
引物与寡合苷酸3’ 端的互补指数
引物序列
7.蛋白质结构预测
蛋白质预测的常用途径
1. 从氨基酸组成辨识蛋白质 2. 预测蛋白质的物理性质 3. 蛋白质二级结构预测 4. 其他特殊局部结构 5. 蛋白质的三维结构
蛋白质的三维结构
核酸序列数据库
蛋白质序列数据库
蛋白质结构数据库
基因组数据库图谱和显示器
人类疾病与基因数据库
生物信息分析工具
BLAST 序列相似性对比
PRIMER 引物设计
蛋白质结构预测数据库 (EMBL)根据已知蛋白 质序列,预测同族二级、三维等结构
蛋白质功能预测数据库 (EMBL )根据已知蛋白 质序列,预测蛋白质功能
数据及大分子模式(MMDB)等其他生物信 息数据库检索 PubMed书目文献数据
Entrez生命科学搜索引擎
Entrez 跨库检索
功能栏
核酸序列检索
检索字段限制
分子类型 选择
序列片段 限定
基因位置 限定
数据更新 日期限定
序列存取号 基因定义
数据库标识符
代码 物种来源
参考文献 专业评论
特性
蛋白质预测的成功范例
色氨酸笼 trp-cage nlyiqwlkdg gpssgrppps 由20个氨基酸构成,是华盛顿大学的Jonathan
Neidigh制造的人造蛋白。
大部分小分子短链结构比较松散,这种蛋白质 却像大分子蛋白质一样,具有紧凑、明确的结构。
Simmerling等人利用电脑模拟技术,根据一种蛋 白质的基因编码,准确地预测了它是怎样折叠成三 维结构的。预测结果,几乎完全符合华盛顿大学研 究小组利用核磁共振技术测量出的这种“迷你”蛋 白的形状。
在InterProScan的页面上输 入未知功能的序列
选择预测
蛋白质特征数据库中 数据获取
功能描述
相关文献链接
序列对排报告
对排序列 不一致处
3.NCBI structure
提供为研究蛋白质三维(3D) 结构集成的二个数 据库: 分子模型数据库(MMDB),提供关于各种蛋白 质的结构信息; 蛋白质域数据库(CDD),提供在proteins(CDs) 内保存的功能领域序列和结构对准表达目录。
根据引物设计的条件,进行计算机的程序处理,便可以方 便地进行自动引物设计。目前国际上有许多设计最佳引物 的软件,有网上Web界面,也有单位发行的软件包,它们 的功能各有特色,优点各异。
探针和引物设计相关网站
WHITEHEAD INSTITUTE primer3
输入序列
设定参数
输出结果
起始序列数
色氨酸笼—— 氨基酸序列:nlyiqwlkdg gpssgrppps
蛋白质功能预测
例:对给定的未知功能的序列example预测其功能
IntroPro 在domain的水平上对未知的序列 进行注释
未知功能蛋白质序列
MASVSFEQVTKQFDDYVAVNNLNLEIEDGEFLVFVGPS GCGKTTSLRLLAGLETVSQGQICIGDRRVNEL SPKDRDIAMVFQSYALYPHMSVYENMAFSLDLQGKPKE EIRQRVCSAAELLGIEKLLHRKPKELSGGQRQ RVAVGRAIVRKPSVFLMDEPLSNLDAMLRVQARKEISKL HSDLATTFIYVTHDQVEAMTMGDRIAVMKDG ILQQVDSPANLYNQPANLFVAGFIGSPAMNFFQVERLSQ EGKEKLSLDGVVLPMPDSVAKNGDRPLTLGI RPENIYHPQYLPLEIEPMELPATVNLVEMMGNELIVYAQ TPAGTEFVARIDPRVNIKQKDSVKFVVDTQR FYYFDREMETAIF
我国生物信息相关网站
三、 生物信息数据库检索
1.Entrez NCBI综合数据库
Entrez 用途
检索大分子生物学数据 获取GenBank, EMBL等数据库的核酸序列 获取Swiss-port,PIR,PRF,PDB等蛋白质序
列;从核酸序列翻译到蛋白质的序列 获取基因和染色体图谱;蛋白质三维结构
碱基数
原序列复制 后,可到 BLAST中 进行相似性
对本
2. BLAST 序列相似性检索
Basic Local Alignment SearchTool
是核酸和蛋白质序列的局部对准相似 性检索工具
序列相似性检索
Blast是为从相同和不同的有机体中,提供对 比核酸或蛋白质序列,寻找相似性序列片断的 工具。
这两个数据库让科学家检索和观看结构,从 结构上查找特定蛋白质的相似蛋白质,并且辨 认功能位点。
Structure检索步骤
第一步:
在Entrez sturcture检索栏中直接输入的检索词包括:
PDB 代码, 蛋白质名字, 作者, 或期刊名。
第二步:
通过Entrez 列阵搜寻,得出检索初步结果 。 也许出现多个指定的蛋白质存在的记录, 它们反映了 不同的实验性技术情况, 并且出现或缺乏各种各样的配合 基或金属离子。 记录也许包含全长分子的不同片段。另 外,还有许多突变体蛋白质结构,用户要注意筛选。检索 结果同时包含了 PDB记录,包括实验性描述, PDB 代码。
从通过寻找不同基因的相同序列片段,可以推 断最新测定的基因功能、预测基因家族的新成 员、探索基因的进化关系。
在基因组测序的工作中,序列相似性检索可以 预测蛋白质代码和翻译产物的功能和定位。
基因组对比
选择对 比程序 特殊对比
将序列数 据库中的 复制序列 在此粘贴
序列对比报告
对比资源
类似性图谱
第三步:显示结构概略页
观察次要结构 Secondary Structure按钮对观 看3D 分子的结构是有用的前奏
第四步:观看完整蛋白质结构按钮Full Protein Structures(须下载Cn3D软件) Viewing 3D Structures
检索MMDB
例:查找铁氧化还原蛋白的三维结构 蛋白质代码:1doi 铁氧化还原蛋白:ferredoxin fe
进入NCBI STRUCTURE
1doi
执行检索
输入检 索提问
Structure 记录
蛋白质代码
蛋白质描述:来自死海古菌的 铁氧化还原蛋白
参考文献
Structure Summary
蛋白质描述
作者
显示3D结构
显示序列报告 显示存储域
生物体分类名称
下载显示软件
蛋白质链栏。鼠标放 在栏上,显示残基数。 点击显示分子各条链、
邻族结构。
蛋白质链栏点击链接
鼠标放在链栏上,界 面显示残基号
旋转放 映
透视图选择
死海高盐环境下,生物体蛋 白的适应结果,外周结构中 有许多亲水键,更容易结合 钾离子,中间红色部分为铁 离子,他们的结合位点清晰 可见。
4.NCBI基因组数据库 GENOME
美国国家生物技术信息中心 NCBI整合。
Genome 数据库借助Entrez Map Viewer (图 形显示器软件),让用户观看数据库内带 有综合遗传和自然图的各种有机体基因组、 全部染色体、序列集成数据。
基wenku.baidu.com命名 数据库
模型制作
序列显示 蛋白质库
生物学证据 Viewer
同源基因
`
5. OMIM
Online Mendelian Inheritance in Man 孟德尔遗传数据库
生物信息学数据库 Bioinformatics database
一、概述
生物信息学的定义 生物信息学是一门交叉科学,它包含了生物信息
的获取、处理、存储、分发、分析和解释等在内的所 有方面,综合运用数学、计算机科学和生物学的各种 工具,来阐明和理解大量数据所包含的生物学意义。 (美国人类基因组计划实施五年后的总结报告)
数据库标识符 对比图谱报告
基因定义
类似性积分
E值为匹配期 望值。说明可 以找到与搜索 序列相匹配的 其它序列的几 率。E值越接 近零,越不可 能找到其它的 匹配序列,其 背后的含义就 是E值越少, 匹配度越好
点击可得待检序列 与库存序列对排
基因表达库链接 单基因库
基因信息库
人类染色体上的抗肿瘤基 因序列对排表
例: 查找与疾病相关的基因 通过OMIM寻找疾病基因信息,通过染色体
定位找到疾病基因。 如:查找角化过度症(营养不良性神经病)
Nucleic Acids Research 杂志
相关数据库及其主要分类
1. 核酸序列数据库 2. RNA 序列数据库 3. 蛋白质序列数据库 4. 结构数据库 5. 基因组数据库 6. 代谢酶相关产物 7. 人类和其他脊椎动物基因组 8. 人类基因和疾病 9. 其他数据和其他基因表达数据库 10. 蛋白组资源 11. 其他分子生物学数据库 12. 细胞器官数据库 13. 植物数据库 14. 免疫学数据库
二、生物信息学数据库种类
《Nucleic Acids Research》杂志每年的第一 期中详细介绍最新版本的各种数据库。
在2000年1月1日出版的28卷第一期115种通 用和专用数据库。
至2008年,生物信息学数据库总数已达1078 个。比2007年增加110个。
Nucleic Acids Research 杂志
Keratoderma,palmoplantar
OMIM检索 Keratoderma palmoplantar
染色体位点
OMIM检出结果
OMIM 基因图谱
6. 引物设计
所谓引物是指在聚合反应中作为底物引发聚合产物的短的 序列统称为引物。PCR反应中扩增一个已知序列DNA,对 其引物须有一定的满足条件,才能有效地扩增模板序列, 这些条件有:(1)引物长度为20个碱基;(2)引物序列 与被扩增的序列不具有同源性;(3)引物中G+C碱基的 含量以40%~60%为宜等。设计满足PCR扩增条件的引物称 为最佳引物设计。
引物引长物度中碱基 +c的比例
熔点引物起始处与寡合苷酸 任意区域的互补指数
引物与寡合苷酸3’ 端的互补指数
引物序列
7.蛋白质结构预测
蛋白质预测的常用途径
1. 从氨基酸组成辨识蛋白质 2. 预测蛋白质的物理性质 3. 蛋白质二级结构预测 4. 其他特殊局部结构 5. 蛋白质的三维结构
蛋白质的三维结构
核酸序列数据库
蛋白质序列数据库
蛋白质结构数据库
基因组数据库图谱和显示器
人类疾病与基因数据库
生物信息分析工具
BLAST 序列相似性对比
PRIMER 引物设计
蛋白质结构预测数据库 (EMBL)根据已知蛋白 质序列,预测同族二级、三维等结构
蛋白质功能预测数据库 (EMBL )根据已知蛋白 质序列,预测蛋白质功能
数据及大分子模式(MMDB)等其他生物信 息数据库检索 PubMed书目文献数据
Entrez生命科学搜索引擎
Entrez 跨库检索
功能栏
核酸序列检索
检索字段限制
分子类型 选择
序列片段 限定
基因位置 限定
数据更新 日期限定
序列存取号 基因定义
数据库标识符
代码 物种来源
参考文献 专业评论
特性
蛋白质预测的成功范例
色氨酸笼 trp-cage nlyiqwlkdg gpssgrppps 由20个氨基酸构成,是华盛顿大学的Jonathan
Neidigh制造的人造蛋白。
大部分小分子短链结构比较松散,这种蛋白质 却像大分子蛋白质一样,具有紧凑、明确的结构。
Simmerling等人利用电脑模拟技术,根据一种蛋 白质的基因编码,准确地预测了它是怎样折叠成三 维结构的。预测结果,几乎完全符合华盛顿大学研 究小组利用核磁共振技术测量出的这种“迷你”蛋 白的形状。
在InterProScan的页面上输 入未知功能的序列
选择预测
蛋白质特征数据库中 数据获取
功能描述
相关文献链接
序列对排报告
对排序列 不一致处
3.NCBI structure
提供为研究蛋白质三维(3D) 结构集成的二个数 据库: 分子模型数据库(MMDB),提供关于各种蛋白 质的结构信息; 蛋白质域数据库(CDD),提供在proteins(CDs) 内保存的功能领域序列和结构对准表达目录。
根据引物设计的条件,进行计算机的程序处理,便可以方 便地进行自动引物设计。目前国际上有许多设计最佳引物 的软件,有网上Web界面,也有单位发行的软件包,它们 的功能各有特色,优点各异。
探针和引物设计相关网站
WHITEHEAD INSTITUTE primer3
输入序列
设定参数
输出结果
起始序列数
色氨酸笼—— 氨基酸序列:nlyiqwlkdg gpssgrppps
蛋白质功能预测
例:对给定的未知功能的序列example预测其功能
IntroPro 在domain的水平上对未知的序列 进行注释
未知功能蛋白质序列
MASVSFEQVTKQFDDYVAVNNLNLEIEDGEFLVFVGPS GCGKTTSLRLLAGLETVSQGQICIGDRRVNEL SPKDRDIAMVFQSYALYPHMSVYENMAFSLDLQGKPKE EIRQRVCSAAELLGIEKLLHRKPKELSGGQRQ RVAVGRAIVRKPSVFLMDEPLSNLDAMLRVQARKEISKL HSDLATTFIYVTHDQVEAMTMGDRIAVMKDG ILQQVDSPANLYNQPANLFVAGFIGSPAMNFFQVERLSQ EGKEKLSLDGVVLPMPDSVAKNGDRPLTLGI RPENIYHPQYLPLEIEPMELPATVNLVEMMGNELIVYAQ TPAGTEFVARIDPRVNIKQKDSVKFVVDTQR FYYFDREMETAIF
我国生物信息相关网站
三、 生物信息数据库检索
1.Entrez NCBI综合数据库
Entrez 用途
检索大分子生物学数据 获取GenBank, EMBL等数据库的核酸序列 获取Swiss-port,PIR,PRF,PDB等蛋白质序
列;从核酸序列翻译到蛋白质的序列 获取基因和染色体图谱;蛋白质三维结构
碱基数
原序列复制 后,可到 BLAST中 进行相似性
对本
2. BLAST 序列相似性检索
Basic Local Alignment SearchTool
是核酸和蛋白质序列的局部对准相似 性检索工具
序列相似性检索
Blast是为从相同和不同的有机体中,提供对 比核酸或蛋白质序列,寻找相似性序列片断的 工具。
这两个数据库让科学家检索和观看结构,从 结构上查找特定蛋白质的相似蛋白质,并且辨 认功能位点。
Structure检索步骤
第一步:
在Entrez sturcture检索栏中直接输入的检索词包括:
PDB 代码, 蛋白质名字, 作者, 或期刊名。
第二步:
通过Entrez 列阵搜寻,得出检索初步结果 。 也许出现多个指定的蛋白质存在的记录, 它们反映了 不同的实验性技术情况, 并且出现或缺乏各种各样的配合 基或金属离子。 记录也许包含全长分子的不同片段。另 外,还有许多突变体蛋白质结构,用户要注意筛选。检索 结果同时包含了 PDB记录,包括实验性描述, PDB 代码。
从通过寻找不同基因的相同序列片段,可以推 断最新测定的基因功能、预测基因家族的新成 员、探索基因的进化关系。
在基因组测序的工作中,序列相似性检索可以 预测蛋白质代码和翻译产物的功能和定位。
基因组对比
选择对 比程序 特殊对比
将序列数 据库中的 复制序列 在此粘贴
序列对比报告
对比资源
类似性图谱
第三步:显示结构概略页
观察次要结构 Secondary Structure按钮对观 看3D 分子的结构是有用的前奏
第四步:观看完整蛋白质结构按钮Full Protein Structures(须下载Cn3D软件) Viewing 3D Structures
检索MMDB
例:查找铁氧化还原蛋白的三维结构 蛋白质代码:1doi 铁氧化还原蛋白:ferredoxin fe
进入NCBI STRUCTURE
1doi
执行检索
输入检 索提问
Structure 记录
蛋白质代码
蛋白质描述:来自死海古菌的 铁氧化还原蛋白
参考文献
Structure Summary
蛋白质描述
作者
显示3D结构
显示序列报告 显示存储域
生物体分类名称
下载显示软件
蛋白质链栏。鼠标放 在栏上,显示残基数。 点击显示分子各条链、
邻族结构。
蛋白质链栏点击链接
鼠标放在链栏上,界 面显示残基号
旋转放 映
透视图选择
死海高盐环境下,生物体蛋 白的适应结果,外周结构中 有许多亲水键,更容易结合 钾离子,中间红色部分为铁 离子,他们的结合位点清晰 可见。
4.NCBI基因组数据库 GENOME
美国国家生物技术信息中心 NCBI整合。
Genome 数据库借助Entrez Map Viewer (图 形显示器软件),让用户观看数据库内带 有综合遗传和自然图的各种有机体基因组、 全部染色体、序列集成数据。
基wenku.baidu.com命名 数据库
模型制作
序列显示 蛋白质库
生物学证据 Viewer
同源基因
`
5. OMIM
Online Mendelian Inheritance in Man 孟德尔遗传数据库
生物信息学数据库 Bioinformatics database
一、概述
生物信息学的定义 生物信息学是一门交叉科学,它包含了生物信息
的获取、处理、存储、分发、分析和解释等在内的所 有方面,综合运用数学、计算机科学和生物学的各种 工具,来阐明和理解大量数据所包含的生物学意义。 (美国人类基因组计划实施五年后的总结报告)
数据库标识符 对比图谱报告
基因定义
类似性积分
E值为匹配期 望值。说明可 以找到与搜索 序列相匹配的 其它序列的几 率。E值越接 近零,越不可 能找到其它的 匹配序列,其 背后的含义就 是E值越少, 匹配度越好
点击可得待检序列 与库存序列对排
基因表达库链接 单基因库
基因信息库
人类染色体上的抗肿瘤基 因序列对排表