基因功能分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
人民卫生出版社8年制及7年制临床医学等专业用《生物信息学》
另外一种化学注释的方法是 以小分子化学结构的生物学 意义为特征来实现的。
在KEGG数据库中,酶与酶 之间的反应信息以及相关的 化学结构信息分别存储在 KEGG REACTION数据库和 KEGG REPAIR数据库中。
每个化合物的化学结构都被 转 化 为 RDM (atom type changes at R:reaction center D:diffevent atom M:matched atom )模式(图8-10)。
第八章 基因注释与功能分类
Gene Annotation And Functional Classification
第一节 引 言
➢背景
随着后基因组(post-genomics)时代的来临,基因组学的研究重心 开始从阐明所有遗传信息转移到在整体分子水平对功能进行研究。 这 种 转 变的 一 个 重要 标 志 是产 生 了 功能 基 因 组学 ( functional genomics)。
人民卫生出版社8年制及7年制临床医学等专业用《生物信息学》
此图上部先对神经源 性分化因子6的相关 信息做简单描述,中 间术语系谱(Term Lineage)成阶梯状 分布,记录了GO数 据库中全部分子功能 所处的位置和关系。 下方“External Reference”提供了与 外部相关数据的链接。
界面风格类似于其他数据库 BLAST 搜 索 的 网 页 , 在 检 索 框中铁如氨基酸或核酸序列, 网页能自动识别并相应地做 BLASTP或BLASTX和数据库 中的序列比对。
这里以检索RPIA基因的序列 为例,如图所示。
人民卫生出版社8年制及7年制临床医学等专业用《生物信息学》
二、京都基因与基因组百科全书
人民卫生出版社8年制及7年制临床医学等专业用《生物信息学》
点击上图右上方的可视化视图 (Graphical View)就更清晰地 显示了分子功能记录之间构成 的复杂网状结构,既有上下隶 属关系,也存在平行关系。
人民卫生出版社8年制及7年制临床医学等专业用《生物信息学》
2. 用序列检索GO数据库
对于未知基wk.baidu.com名的序列,可 以用序列直接检索GO 数据库。 点 击 AmiGO 首 页 上 方 的 “BLAST”。
人民卫生出版社8年制及7年制临床医学等专业用《生物信息学》
其中排在第一位的是人类 基因“PGM1”的相关信息, 点击该条目进入到详细信 息页面。
该页面以表格的形式列出 了该基因有关的详细信息, 包括基因编号,基因的详 细定义,所编码的酶的编 号,基因所在通路,以及 序列的编码信息。同时, 在页面的右侧还提供了该 基因在其他分子生物学数 据库的链接,如OMIM、 NCBI、GenBank等。
此外,可以通过页面顶部的下拉 列表框来选择该通路在其他物种 中的信息,也可以通过该列表框 的选择来查看相关的基因、酶、 反应、化合物等相关通路信息。
人民卫生出版社8年制及7年制临床医学等专业用《生物信息学》
KEGG数据库的改进与更新
KEGG PATHWAY还存储了一些人类疾病通路数据,这些疾 病通路被分为六个子类:癌症、免疫系统疾病、神经退行性 疾病、循环系统疾病、代谢障碍、传染病循环系统疾病。
第二节 基因注释数据库
(Gene Annotation Database)
基因注释数据库产生的原因
一、研究人员已经掌握了大量的全基因组数据,同时关 于基因、基因产物以及生物学通路的数据也越来越多,解释 生物学实验的结果,尤其从基因组角度,需要系统的方法。
二、在基因组范围内描述蛋白质功能十分复杂,最好的 工具就是计算机程序,提供结构化的标准的生物学模型,以便 计算机程序进行分析,成为从整体水平系统研究基因及其产物 的一项基本需求。
此图显示了该基因产物的基本信息,包括类型、物种、 别名来源和序列
人民卫生出版社8年制及7年制临床医学等专业用《生物信息学》
此图显示了该基因产物 的术语关联(Term Associations)图,图中 记录名称“Term”是 GO记录的名字, “Ontology”是该基因 产物的特性,如要查看 其分子功能,可点击其 中的一条记录 “nervous system development”。
一、基因本体(Gene Ontology, GO)数据库
基因本体数据库是GO组织(Gene Ontology Consortium)在 2000年构建的一个结构化的标准生物学模型,旨在建立基因及 其产物知识的标准词汇体系,涵盖了基因的细胞组分(cellular component)、分子功能(molecular function)、生物学过程 (biological process)。
人民卫生出版社8年制及7年制临床医学等专业用《生物信息学》
KEGG数据库的注释与检索
下面以人类编码葡萄糖磷酸变位酶的基因“PGM1”为列: 首先进入KEGG首页,在首页顶端的输入框中输入类葡萄 糖磷酸变位酶基因名称“PGM1”
人民卫生出版社8年制及7年制临床医学等专业用《生物信息学》
点击搜索按钮“GO”进入查询结果页面,该页面会列出针 对基因“PGM1”在KEGG数据库中的搜索结果,除人类外, 包含“PGM1”基因的物种条目也会被列出。
KEGG对通路数据新增了两个补充内容:第一个补充是一 张全局通路图,这张全局通路图是通过手工拼接KEGG的 120多个现存通路图生成的,存储为SVG文件。另一个补 充内容是KEGG MODULE数据库,这是一个收集了通路 模块以及其它一些功能单元的新型数据库,功能模块是在 KEGG子通路中被定义为一些小的片段,通常包括几个连 续的反应步骤、操纵子、调控单元,以及通过基因组比对 得到的系统发生单元和分子的复合物等。
KEGG数据库的注释与检索
KEGG 通 常 被 看 作 是 生物系统的计算机表 示,它囊括了生物系 统中的各个对象以对 象之间的关系。在分 子层面、细胞层面、 组织层面都可以对数 据库进行检索。每个 数据库中的检索条目 按照一定规律被赋予 一个检索号,也就是 ID 。 表 中 列 出 了 KEGG的13个核心数据 库的检索号。
1. 简介
京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes, KEGG) 是系统分析基因功能、基因组信息 的数据库,它整合了基因组学、生物化学以及系统功能组 学的信息,有助于研究者把基因及表达信息作为一个整体 网络进行研究。
KEGG提供的整合代谢途径查询十分出色,包括碳水化合 物、核苷酸、氨基酸等代谢及有机物的生物降解,不仅提 供了所有可能的代谢途径,还对催化各步反应的酶进行了 全面的注解,包含其氨基酸序列、到PDB数据库的链接等。 此外,KEGG还提供基于Java的图形工具访问基因组图谱、 比较基因组图谱和操作表达图谱,以及其它序列比较、图 形比较和通路计算的工具。因此,KEGG数据库是进行生 物体内代谢分析、代谢网络分析等研究的强有力工具之一。
注释系统中每一个结点(Node)都是基因或蛋白的一种描述,结点之间 保持严格的关系,即“is a”或“part of”。
人民卫生出版社8年制及7年制临床医学等专业用《生物信息学》
一、使用GO数据库
1. 用关键词检索GO数据库
检索GO数据库通常先进入AmiGO的首页。在GO数据库中,每条记录 都有一个数据标识号GO:XXXXXX和对应的术语。因此检索时需要知 道待查基因的数字标识号或术语,将它们直接输入框中检索即可。如 果检索的基因或蛋白质存在别名,可在检索框下勾“gene or proteins”, 并在检索框中输入别名检索;“exact match”表示是否完全匹配,可 供选择。
人民卫生出版社8年制及7年制临床医学等专业用《生物信息学》
GO数据库收录的基因组数据列表 GO数据库最初收录的基因信息来源于3个模式生
物数据库:果蝇、酵母和小鼠,随后相继收录了 更多数据,其中包括国际上主要的植物,动物和 微生物基因组数据库。
GO术语在多个合作数据库中的统一使用,促进了 各类数据库对基因描述的一致性。
人民卫生出版社8年制及7年制临床医学等专业用《生物信息学》
KEGG数据库的改进与更新
为了满足日益增长的科学研究需求,KEGG数据库在最近 几 年 里 不 断 扩 充 , 新 增 加 的 50 多 个 通 路 使 KEGG PATHWAY数据库更加完善。这50多个新增加的通路包括 信号传导通路、细胞生物过程通路和人类疾病通路等。
➢ 一些小的通路模块被存储在MODULE数据库中,该数据库还存储了其 他的一些相关功能的模块以及化合物信息。
➢ KEGG DRUG数据库存储了目前在日本所有非处方药和美国的大部分 处方药品。
➢ KEGG DISEASE是一个存储疾病基因、通路、药物、以及疾病诊断标 记等信息的新型数据库。
人民卫生出版社8年制及7年制临床医学等专业用《生物信息学》
KEGG DRUG数据库也在不断的完善,其中的药物数据几乎 涵盖了日本的所有非处方药和美国的大部分处方药品。 DRUG 是一个以存储结构为基础的数据库,每条记录都包含 唯一的化学结构以及该药物的标准名称,以及药物的药效、 靶点信息、类别信息等。药物的靶点通过KEGG PATHWAY 查询,药物的分类信息是KEGG BRITE数据库的一部分,通 过药物的标准名称可以找到该药物的商品名,还可以找到药 物销售的标签信息。此外,DRUG还包括一些天然的药物和 中药的信息,有些药物被日本药典所收录。
人民卫生出版社8年制及7年制临床医学等专业用《生物信息学》
举例
这里以检索神经源性分化因子6(NEUROD6)为例。在检索框 中输入“NEUROD6”并勾选“gene and proteins”和“exact match”,运行后所得基因产物检索结果如图所示。
人民卫生出版社8年制及7年制临床医学等专业用《生物信息学》
➢任务
功能基因组学的主要任务之一是进行基因组功能注释(Genome annotation),了解基因的功能,认识基因与疾病的关系,掌握基 因的产物及其在生命活动中的作用等。
➢意义
快速有效的基因注释对进一步识别基因,研究基因的表达调控机 制,研究基因在生物体代谢途径中的地位,分析基因、基因产物 之间的相互作用关系,预测和发现蛋白质功能,揭示生命的起源 和进化等具有重要的意义。
人民卫生出版社8年制及7年制临床医学等专业用《生物信息学》
KEGG存储内容
KEGG目前共包含了19个子数据库,它们被分类成系统信 息、基因组信息和化学信息三个类别 。
➢ 基因组信息存储在GENES数据库里,包括全部完整的基因组序列和部 分测序的基因组序列,并伴有实时更新的基因相关功能的注释。
➢ KEGG中化学信息的6个数据库被称为KEGG LIGAND数据库,包含 化学物质、酶分子、酶化反应等信息。KEGG BRITE数据库是一个包 含多个生物学对象的基于功能进行等级划分的本体论数据库,它包括 分子、细胞、物种、疾病、药物、以及它们之间的关系。
人民卫生出版社8年制及7年制临床医学等专业用《生物信息学》
人民卫生出版社8年制及7年制临床医学等专业用《生物信息学》
GO注释体系特点
GO通过控制注释词汇的层次结构使得研究人员能够从不同层面查询 和使用基因注释信息。
从整体上来看GO注释系统是一个有向无环图(Directed Acyclic Graphs), 包 含 三 个 分 支 , 即 : 生 物 学 过 程 (biological process) , 分 子 功 能 (molecular function)和细胞组分(cellular component)。
人民卫生出版社8年制及7年制临床医学等专业用《生物信息学》
通过点击相应的链接,我们可以 进入该基因相应信息的页面。在 pathway这一栏中列出了该基因所 在的生物学通路,点击编号为 hsa00010(糖酵解/糖异生通路) 的通路,进入到该通路的相应页 面。该编号为hsa00010的通路页 面以简单的几何图形显示出了糖 酵解/糖异生相关生物过程。图中 红色的方框即为基因“PGM1”所 编码的酶,以此就可以通过该酶 所在位置以及通路的拓扑结构来 综合分析基因。
另外一种化学注释的方法是 以小分子化学结构的生物学 意义为特征来实现的。
在KEGG数据库中,酶与酶 之间的反应信息以及相关的 化学结构信息分别存储在 KEGG REACTION数据库和 KEGG REPAIR数据库中。
每个化合物的化学结构都被 转 化 为 RDM (atom type changes at R:reaction center D:diffevent atom M:matched atom )模式(图8-10)。
第八章 基因注释与功能分类
Gene Annotation And Functional Classification
第一节 引 言
➢背景
随着后基因组(post-genomics)时代的来临,基因组学的研究重心 开始从阐明所有遗传信息转移到在整体分子水平对功能进行研究。 这 种 转 变的 一 个 重要 标 志 是产 生 了 功能 基 因 组学 ( functional genomics)。
人民卫生出版社8年制及7年制临床医学等专业用《生物信息学》
此图上部先对神经源 性分化因子6的相关 信息做简单描述,中 间术语系谱(Term Lineage)成阶梯状 分布,记录了GO数 据库中全部分子功能 所处的位置和关系。 下方“External Reference”提供了与 外部相关数据的链接。
界面风格类似于其他数据库 BLAST 搜 索 的 网 页 , 在 检 索 框中铁如氨基酸或核酸序列, 网页能自动识别并相应地做 BLASTP或BLASTX和数据库 中的序列比对。
这里以检索RPIA基因的序列 为例,如图所示。
人民卫生出版社8年制及7年制临床医学等专业用《生物信息学》
二、京都基因与基因组百科全书
人民卫生出版社8年制及7年制临床医学等专业用《生物信息学》
点击上图右上方的可视化视图 (Graphical View)就更清晰地 显示了分子功能记录之间构成 的复杂网状结构,既有上下隶 属关系,也存在平行关系。
人民卫生出版社8年制及7年制临床医学等专业用《生物信息学》
2. 用序列检索GO数据库
对于未知基wk.baidu.com名的序列,可 以用序列直接检索GO 数据库。 点 击 AmiGO 首 页 上 方 的 “BLAST”。
人民卫生出版社8年制及7年制临床医学等专业用《生物信息学》
其中排在第一位的是人类 基因“PGM1”的相关信息, 点击该条目进入到详细信 息页面。
该页面以表格的形式列出 了该基因有关的详细信息, 包括基因编号,基因的详 细定义,所编码的酶的编 号,基因所在通路,以及 序列的编码信息。同时, 在页面的右侧还提供了该 基因在其他分子生物学数 据库的链接,如OMIM、 NCBI、GenBank等。
此外,可以通过页面顶部的下拉 列表框来选择该通路在其他物种 中的信息,也可以通过该列表框 的选择来查看相关的基因、酶、 反应、化合物等相关通路信息。
人民卫生出版社8年制及7年制临床医学等专业用《生物信息学》
KEGG数据库的改进与更新
KEGG PATHWAY还存储了一些人类疾病通路数据,这些疾 病通路被分为六个子类:癌症、免疫系统疾病、神经退行性 疾病、循环系统疾病、代谢障碍、传染病循环系统疾病。
第二节 基因注释数据库
(Gene Annotation Database)
基因注释数据库产生的原因
一、研究人员已经掌握了大量的全基因组数据,同时关 于基因、基因产物以及生物学通路的数据也越来越多,解释 生物学实验的结果,尤其从基因组角度,需要系统的方法。
二、在基因组范围内描述蛋白质功能十分复杂,最好的 工具就是计算机程序,提供结构化的标准的生物学模型,以便 计算机程序进行分析,成为从整体水平系统研究基因及其产物 的一项基本需求。
此图显示了该基因产物的基本信息,包括类型、物种、 别名来源和序列
人民卫生出版社8年制及7年制临床医学等专业用《生物信息学》
此图显示了该基因产物 的术语关联(Term Associations)图,图中 记录名称“Term”是 GO记录的名字, “Ontology”是该基因 产物的特性,如要查看 其分子功能,可点击其 中的一条记录 “nervous system development”。
一、基因本体(Gene Ontology, GO)数据库
基因本体数据库是GO组织(Gene Ontology Consortium)在 2000年构建的一个结构化的标准生物学模型,旨在建立基因及 其产物知识的标准词汇体系,涵盖了基因的细胞组分(cellular component)、分子功能(molecular function)、生物学过程 (biological process)。
人民卫生出版社8年制及7年制临床医学等专业用《生物信息学》
KEGG数据库的注释与检索
下面以人类编码葡萄糖磷酸变位酶的基因“PGM1”为列: 首先进入KEGG首页,在首页顶端的输入框中输入类葡萄 糖磷酸变位酶基因名称“PGM1”
人民卫生出版社8年制及7年制临床医学等专业用《生物信息学》
点击搜索按钮“GO”进入查询结果页面,该页面会列出针 对基因“PGM1”在KEGG数据库中的搜索结果,除人类外, 包含“PGM1”基因的物种条目也会被列出。
KEGG对通路数据新增了两个补充内容:第一个补充是一 张全局通路图,这张全局通路图是通过手工拼接KEGG的 120多个现存通路图生成的,存储为SVG文件。另一个补 充内容是KEGG MODULE数据库,这是一个收集了通路 模块以及其它一些功能单元的新型数据库,功能模块是在 KEGG子通路中被定义为一些小的片段,通常包括几个连 续的反应步骤、操纵子、调控单元,以及通过基因组比对 得到的系统发生单元和分子的复合物等。
KEGG数据库的注释与检索
KEGG 通 常 被 看 作 是 生物系统的计算机表 示,它囊括了生物系 统中的各个对象以对 象之间的关系。在分 子层面、细胞层面、 组织层面都可以对数 据库进行检索。每个 数据库中的检索条目 按照一定规律被赋予 一个检索号,也就是 ID 。 表 中 列 出 了 KEGG的13个核心数据 库的检索号。
1. 简介
京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes, KEGG) 是系统分析基因功能、基因组信息 的数据库,它整合了基因组学、生物化学以及系统功能组 学的信息,有助于研究者把基因及表达信息作为一个整体 网络进行研究。
KEGG提供的整合代谢途径查询十分出色,包括碳水化合 物、核苷酸、氨基酸等代谢及有机物的生物降解,不仅提 供了所有可能的代谢途径,还对催化各步反应的酶进行了 全面的注解,包含其氨基酸序列、到PDB数据库的链接等。 此外,KEGG还提供基于Java的图形工具访问基因组图谱、 比较基因组图谱和操作表达图谱,以及其它序列比较、图 形比较和通路计算的工具。因此,KEGG数据库是进行生 物体内代谢分析、代谢网络分析等研究的强有力工具之一。
注释系统中每一个结点(Node)都是基因或蛋白的一种描述,结点之间 保持严格的关系,即“is a”或“part of”。
人民卫生出版社8年制及7年制临床医学等专业用《生物信息学》
一、使用GO数据库
1. 用关键词检索GO数据库
检索GO数据库通常先进入AmiGO的首页。在GO数据库中,每条记录 都有一个数据标识号GO:XXXXXX和对应的术语。因此检索时需要知 道待查基因的数字标识号或术语,将它们直接输入框中检索即可。如 果检索的基因或蛋白质存在别名,可在检索框下勾“gene or proteins”, 并在检索框中输入别名检索;“exact match”表示是否完全匹配,可 供选择。
人民卫生出版社8年制及7年制临床医学等专业用《生物信息学》
GO数据库收录的基因组数据列表 GO数据库最初收录的基因信息来源于3个模式生
物数据库:果蝇、酵母和小鼠,随后相继收录了 更多数据,其中包括国际上主要的植物,动物和 微生物基因组数据库。
GO术语在多个合作数据库中的统一使用,促进了 各类数据库对基因描述的一致性。
人民卫生出版社8年制及7年制临床医学等专业用《生物信息学》
KEGG数据库的改进与更新
为了满足日益增长的科学研究需求,KEGG数据库在最近 几 年 里 不 断 扩 充 , 新 增 加 的 50 多 个 通 路 使 KEGG PATHWAY数据库更加完善。这50多个新增加的通路包括 信号传导通路、细胞生物过程通路和人类疾病通路等。
➢ 一些小的通路模块被存储在MODULE数据库中,该数据库还存储了其 他的一些相关功能的模块以及化合物信息。
➢ KEGG DRUG数据库存储了目前在日本所有非处方药和美国的大部分 处方药品。
➢ KEGG DISEASE是一个存储疾病基因、通路、药物、以及疾病诊断标 记等信息的新型数据库。
人民卫生出版社8年制及7年制临床医学等专业用《生物信息学》
KEGG DRUG数据库也在不断的完善,其中的药物数据几乎 涵盖了日本的所有非处方药和美国的大部分处方药品。 DRUG 是一个以存储结构为基础的数据库,每条记录都包含 唯一的化学结构以及该药物的标准名称,以及药物的药效、 靶点信息、类别信息等。药物的靶点通过KEGG PATHWAY 查询,药物的分类信息是KEGG BRITE数据库的一部分,通 过药物的标准名称可以找到该药物的商品名,还可以找到药 物销售的标签信息。此外,DRUG还包括一些天然的药物和 中药的信息,有些药物被日本药典所收录。
人民卫生出版社8年制及7年制临床医学等专业用《生物信息学》
举例
这里以检索神经源性分化因子6(NEUROD6)为例。在检索框 中输入“NEUROD6”并勾选“gene and proteins”和“exact match”,运行后所得基因产物检索结果如图所示。
人民卫生出版社8年制及7年制临床医学等专业用《生物信息学》
➢任务
功能基因组学的主要任务之一是进行基因组功能注释(Genome annotation),了解基因的功能,认识基因与疾病的关系,掌握基 因的产物及其在生命活动中的作用等。
➢意义
快速有效的基因注释对进一步识别基因,研究基因的表达调控机 制,研究基因在生物体代谢途径中的地位,分析基因、基因产物 之间的相互作用关系,预测和发现蛋白质功能,揭示生命的起源 和进化等具有重要的意义。
人民卫生出版社8年制及7年制临床医学等专业用《生物信息学》
KEGG存储内容
KEGG目前共包含了19个子数据库,它们被分类成系统信 息、基因组信息和化学信息三个类别 。
➢ 基因组信息存储在GENES数据库里,包括全部完整的基因组序列和部 分测序的基因组序列,并伴有实时更新的基因相关功能的注释。
➢ KEGG中化学信息的6个数据库被称为KEGG LIGAND数据库,包含 化学物质、酶分子、酶化反应等信息。KEGG BRITE数据库是一个包 含多个生物学对象的基于功能进行等级划分的本体论数据库,它包括 分子、细胞、物种、疾病、药物、以及它们之间的关系。
人民卫生出版社8年制及7年制临床医学等专业用《生物信息学》
人民卫生出版社8年制及7年制临床医学等专业用《生物信息学》
GO注释体系特点
GO通过控制注释词汇的层次结构使得研究人员能够从不同层面查询 和使用基因注释信息。
从整体上来看GO注释系统是一个有向无环图(Directed Acyclic Graphs), 包 含 三 个 分 支 , 即 : 生 物 学 过 程 (biological process) , 分 子 功 能 (molecular function)和细胞组分(cellular component)。
人民卫生出版社8年制及7年制临床医学等专业用《生物信息学》
通过点击相应的链接,我们可以 进入该基因相应信息的页面。在 pathway这一栏中列出了该基因所 在的生物学通路,点击编号为 hsa00010(糖酵解/糖异生通路) 的通路,进入到该通路的相应页 面。该编号为hsa00010的通路页 面以简单的几何图形显示出了糖 酵解/糖异生相关生物过程。图中 红色的方框即为基因“PGM1”所 编码的酶,以此就可以通过该酶 所在位置以及通路的拓扑结构来 综合分析基因。