第12讲蛋白质功能分析与预测
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
理论上,蛋白质功能指“所有在蛋白质上或
杂的概念。
完全理解蛋白质的功能需要回答一系列的问 题。如产生了什么样的蛋白质?其三维结构 如何?会出现在生物体的什么组织中?会参 与哪些细胞功能?会和哪些蛋白质发生相互 作用?在细胞的后翻译(post- translation) 过程中会得到修饰产生变化吗?会与哪些蛋 白质绑定?会催化哪些反应?会参与哪些代 谢路径?等等。
细胞组件(Cellular Component):指基因 产物位于何种细胞器或基因产物组中 (如糙面内质网,核糖体,蛋白酶体等), 即基因产物在什么地方起作用。
GO的三大独立本体及DAG图示
语义之间的关系
注释系统中每一个结点(node)都是基 因或蛋白的一种描述,结点之间保持严 格的关系,即“is a”或“part of”。
这些功能包括结构功能、酶功能、转运物质的 功能等。
面对测定的海量序列,首先要从这些序列中找 到基因(基因组结构注释),然后再给基因加上注 释(功能注释),即给这些基因提供关于它们性质 或功能的简单描述。
说明基因组所表达的全部蛋白质的表达规律 和生物功能,称为功能注释(functional annotation)。它继基因组结构注释 (genome structural annotation)完成后的 研究热点,是基因组注释(genome annotation)的重要组成部分。
目前,基因本体得到了广泛的认可,成为事实上 的标准功能术语集,为基于生物信息学的蛋白质 功能预测带来便利。
GO数据库收录的基因组数据
GO数据库最初收录的基因信息来源于3 个模式生物数据库:果蝇、酵母和小鼠, 随后相继收录了更多数据,其中包括国 际上主要的植物,动物和微生物基因组 数据库。
GO术语在多个合作数据库中的统一使用, 促进了各类数据库对基因描述的一致性。
Gene Ontology widely adopted
AgBase
GO语义的分类: 三大独立的基因本体
利用GO术语,一个Βιβλιοθήκη Baidu因或蛋白质可从 三个层面来注解:
分子功能(Molecular Function):描述在 个体分子生物学上的活性,如催化活性 或结合活性。
生物学过程(Biological Process):由分 子功能有序地组成的,具有多个步骤的 一个过程。
---在基因组范围内描述蛋白质功能十分复杂,最好 的工具就是计算机程序,提供结构化的标准的生物 学模型,以便计算机程序进行分析,成为从整体水 平系统研究基因及其产物的一项基本需求。
基因本体(gene ontology, GO) 数据库
基因本体联合会(Gene Onotology Consortium) 于1998年所建立的数据库,旨在建立一套适用 于各种物种的,对基因和蛋白质功能进行限定 和描述的,并能随着研究不断深入而更新的语 义(terms)词汇标准,即基因本体(Gene Ontology, GO, )。
第十二讲
蛋白质功能预测
基因识别
蛋白质结构解 析与预测
蛋白质功能?
本章内容
1 引言 2 蛋白质的功能描述 3 基于序列相似性的功能预测 4 基于蛋白质信号的功能预测 5 基于蛋白质序列特征的功能预测 6 基于结构的功能预测 7 基于蛋白质相互作用的预测 8 基于基因组上下文的功能预测
1引言
DNA 蛋白质就是构筑生命体最主要的材料。蛋白质 在生命过程中发挥着巨大的作用,它们执行着 大部分生物功能。
完整的蛋白质功能注释需要从生化、细胞、 组织、发育进化、生理等各方面进行描述。
基因注释数据库
Gene Annotation Database
基因注释数据库产生的原因
---研究人员已经掌握了大量的全基因组数据,同时 关于基因、基因产物以及生物学通路的数据也越来 越多,解释生物学实验的结果,尤其从基因组角度, 需要系统的方法。
生物过程
生物过程指基因或基因产物促成的生物学目 的(biological objective)。一个过程通常经 由一个或多个按顺序整合的分子功能完成。
---宽泛或称高层的生物过程术语的例子是“细 胞生长和维持”(cell growth and maintenance)或者“信号转导”(signal transduction)。
---较为特异或称底层的过程术语是“翻译” (translation)、“嘧啶代谢” (pyrimidinemetabolism)或“cAMP生物学 cAMP biosynthesis)。
分子功能
分子功能被定义为单个基因产物分子的生物化学 活性(包括针对配体或结构的特殊绑定)。
注意,这个定义同样可用于描述潜在的基因产物 或基因产物联合体(gene product complex)的 功能。不过它仅用来描述发生了什么而不特指在 哪里或何时该事件实际发生。
另外,由于实验同时会受到一些不可预知的环 境以及人为因素的影响,其所得结果的可信度也 需加以考虑。
上述种种因素制约了蛋白质大规模分析的开展, 因此,目前用实验方法阐明蛋白质功能的速度尚 远远落后于序列测定的速度。面对呈指数增长的 蛋白质序列数据,采用生物信息学的方法和手段 来阐明大批量蛋白质序列的生物学功能具有非常 重大的意义。
可采用生物信息学方法对蛋白质序列的功 能进行预测的本质原因:
---承担核心生物功能的相当一部分基因被所 有生物物种共享,因此可以利用某些特定 物种中基因所编码的少量蛋白质序列(目 前占已知蛋白质序列总数的5%)的已知生 物功能信息(知识)对其他物种的大量蛋 白质序列进行功能注释。
2蛋白质功能描述
由于蛋白质是生命活动的最终执行者,并且 蛋白质功能的阐明将有助于疾病机理的研究 并最终帮助人类进行药物设计与疾病治疗。 因此,对基因产物——蛋白质的功能预测 (protein functional prediction)是后基因组 时代的一项重要任务。
借助新的实验技术例如DNA芯片、酵母双杂交系 统、RNA干扰、CRISPR-Cas9,以及大范围系 统地缺失突变(knock-out)等进行蛋白质功能 分析取得了巨大的进展,但这些方法都需要各种 特定的设备,且价格昂贵、操作繁琐,成本高、 周期长。
杂的概念。
完全理解蛋白质的功能需要回答一系列的问 题。如产生了什么样的蛋白质?其三维结构 如何?会出现在生物体的什么组织中?会参 与哪些细胞功能?会和哪些蛋白质发生相互 作用?在细胞的后翻译(post- translation) 过程中会得到修饰产生变化吗?会与哪些蛋 白质绑定?会催化哪些反应?会参与哪些代 谢路径?等等。
细胞组件(Cellular Component):指基因 产物位于何种细胞器或基因产物组中 (如糙面内质网,核糖体,蛋白酶体等), 即基因产物在什么地方起作用。
GO的三大独立本体及DAG图示
语义之间的关系
注释系统中每一个结点(node)都是基 因或蛋白的一种描述,结点之间保持严 格的关系,即“is a”或“part of”。
这些功能包括结构功能、酶功能、转运物质的 功能等。
面对测定的海量序列,首先要从这些序列中找 到基因(基因组结构注释),然后再给基因加上注 释(功能注释),即给这些基因提供关于它们性质 或功能的简单描述。
说明基因组所表达的全部蛋白质的表达规律 和生物功能,称为功能注释(functional annotation)。它继基因组结构注释 (genome structural annotation)完成后的 研究热点,是基因组注释(genome annotation)的重要组成部分。
目前,基因本体得到了广泛的认可,成为事实上 的标准功能术语集,为基于生物信息学的蛋白质 功能预测带来便利。
GO数据库收录的基因组数据
GO数据库最初收录的基因信息来源于3 个模式生物数据库:果蝇、酵母和小鼠, 随后相继收录了更多数据,其中包括国 际上主要的植物,动物和微生物基因组 数据库。
GO术语在多个合作数据库中的统一使用, 促进了各类数据库对基因描述的一致性。
Gene Ontology widely adopted
AgBase
GO语义的分类: 三大独立的基因本体
利用GO术语,一个Βιβλιοθήκη Baidu因或蛋白质可从 三个层面来注解:
分子功能(Molecular Function):描述在 个体分子生物学上的活性,如催化活性 或结合活性。
生物学过程(Biological Process):由分 子功能有序地组成的,具有多个步骤的 一个过程。
---在基因组范围内描述蛋白质功能十分复杂,最好 的工具就是计算机程序,提供结构化的标准的生物 学模型,以便计算机程序进行分析,成为从整体水 平系统研究基因及其产物的一项基本需求。
基因本体(gene ontology, GO) 数据库
基因本体联合会(Gene Onotology Consortium) 于1998年所建立的数据库,旨在建立一套适用 于各种物种的,对基因和蛋白质功能进行限定 和描述的,并能随着研究不断深入而更新的语 义(terms)词汇标准,即基因本体(Gene Ontology, GO, )。
第十二讲
蛋白质功能预测
基因识别
蛋白质结构解 析与预测
蛋白质功能?
本章内容
1 引言 2 蛋白质的功能描述 3 基于序列相似性的功能预测 4 基于蛋白质信号的功能预测 5 基于蛋白质序列特征的功能预测 6 基于结构的功能预测 7 基于蛋白质相互作用的预测 8 基于基因组上下文的功能预测
1引言
DNA 蛋白质就是构筑生命体最主要的材料。蛋白质 在生命过程中发挥着巨大的作用,它们执行着 大部分生物功能。
完整的蛋白质功能注释需要从生化、细胞、 组织、发育进化、生理等各方面进行描述。
基因注释数据库
Gene Annotation Database
基因注释数据库产生的原因
---研究人员已经掌握了大量的全基因组数据,同时 关于基因、基因产物以及生物学通路的数据也越来 越多,解释生物学实验的结果,尤其从基因组角度, 需要系统的方法。
生物过程
生物过程指基因或基因产物促成的生物学目 的(biological objective)。一个过程通常经 由一个或多个按顺序整合的分子功能完成。
---宽泛或称高层的生物过程术语的例子是“细 胞生长和维持”(cell growth and maintenance)或者“信号转导”(signal transduction)。
---较为特异或称底层的过程术语是“翻译” (translation)、“嘧啶代谢” (pyrimidinemetabolism)或“cAMP生物学 cAMP biosynthesis)。
分子功能
分子功能被定义为单个基因产物分子的生物化学 活性(包括针对配体或结构的特殊绑定)。
注意,这个定义同样可用于描述潜在的基因产物 或基因产物联合体(gene product complex)的 功能。不过它仅用来描述发生了什么而不特指在 哪里或何时该事件实际发生。
另外,由于实验同时会受到一些不可预知的环 境以及人为因素的影响,其所得结果的可信度也 需加以考虑。
上述种种因素制约了蛋白质大规模分析的开展, 因此,目前用实验方法阐明蛋白质功能的速度尚 远远落后于序列测定的速度。面对呈指数增长的 蛋白质序列数据,采用生物信息学的方法和手段 来阐明大批量蛋白质序列的生物学功能具有非常 重大的意义。
可采用生物信息学方法对蛋白质序列的功 能进行预测的本质原因:
---承担核心生物功能的相当一部分基因被所 有生物物种共享,因此可以利用某些特定 物种中基因所编码的少量蛋白质序列(目 前占已知蛋白质序列总数的5%)的已知生 物功能信息(知识)对其他物种的大量蛋 白质序列进行功能注释。
2蛋白质功能描述
由于蛋白质是生命活动的最终执行者,并且 蛋白质功能的阐明将有助于疾病机理的研究 并最终帮助人类进行药物设计与疾病治疗。 因此,对基因产物——蛋白质的功能预测 (protein functional prediction)是后基因组 时代的一项重要任务。
借助新的实验技术例如DNA芯片、酵母双杂交系 统、RNA干扰、CRISPR-Cas9,以及大范围系 统地缺失突变(knock-out)等进行蛋白质功能 分析取得了巨大的进展,但这些方法都需要各种 特定的设备,且价格昂贵、操作繁琐,成本高、 周期长。