蛋白质组学生物信息学分析介绍
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
生物信息学分析FAQ
CHAPTER ONE ABOUT GENE ONTOLOGY ANNOTATION (3)
什么是GO? (3)
GO和KEGG注释之前,为什么要先进行序列比对(BLAST)? (3)
GO注释的意义? (3)
GO和GOslim的区别 (4)
为什么有些蛋白没有GO注释信息? (4)
为什么GO Level 2的统计饼图里蛋白数目和差异蛋白总数不一致? (4)
什么是差异蛋白的功能富集分析&WHY? (4)
GO注释结果文件解析 (5)
Sheet TopBlastHits (5)
Sheet protein2GO/protein2GOslim (5)
Sheet BP/MF/CC (6)
Sheet Level2_BP/Level2_MF/Level2_CC (6)
CHAPTER TWO ABOUT KEGG PATHWAY ANNOTATION (7)
WHY KEGG pathway annotation? (7)
KEGG通路注释的方法&流程? (7)
KEGG通路注释的意义? (7)
为什么有些蛋白没有KEGG通路注释信息? (8)
什么是差异蛋白的通路富集分析&WHY? (8)
KEGG注释结果文件解析 (8)
Sheet query2map (8)
Sheet map2query (9)
Sheet TopMapStat (9)
CHAPTER THREE ABOUT FEATURE SELECTION & CLUSTERING (10)
WHY Feature Selection? (10)
聚类分析(Clustering) (10)
聚类结果文件解析 (10)
CHAPTER FOUR ABOUT PROTEIN-PROTEIN INTERACTION NETWORK (12)
蛋白质相互作用网络分析的意义 (12)
蛋白质相互作用 VS生物学通路? (12)
蛋白质相互作用网络分析结果文件解析 (12)
CHAPTER ONE ABOUT GENE ONTOLOGY ANNOTATION
什么是GO?
随着多种生物基因组的相继解码,同时大量ESTs以及gene expression profile date的积累,使得annotation的工作量和复杂度大大增加。然而另一方面,大多数基因在不同真核生物中拥有共同的主要生物功能,通过在某些物种中获得的基因或者蛋白质(shared protein)的生物学信息,可以用以解释其他物种中对应的基因或蛋白(especially in comparative genomics)。由于这些繁复的功能信息主要是包含在积累的文献之中,如何有效的提取和综合这些信息就是我们面临的核心困难,这也是GO所要着力解决的问题。通过建立一套具有动态形式的控制字集(controlled vocabulary),来解释真核基因及蛋白在细胞内所扮演的角色,并随着生命科学研究的进步,不断积累和更新。一个ontology会被一个控制字集来描述并给予一定的名称,通过制定“本体”ontologies并运用统计学方法及自然语言处理技术,可以实现知识管理的专家系统控制。
到目前为止,Gene Ontology (GO) 数据库中有3大独立的ontology:biological process生物过程, molecular function分子功能,cellular component细胞组分。而这三个ontology下面又可以独立出不同的亚层次,层层向下构成一个ontologies的树型分支结构。可以说, GO是生物学的统一化工具。
由于GO是一种整合性的分类系统,其下的3类主ontology虽然说是独立的,但是无论是GOC原初的设计还是我们的使用中其实都还是存在一定的流程关系。一个基因/蛋白质或者一个ontology在注解的过程中,首先是考虑涉及在构成细胞内的组分和元件(cellular component),其次就是此组分/元件在分子水平上所行使的功能(molecular function),最后能够呈现出该分子功能所直接参与的生物过程(biological process)。由于这是一种存在反馈机制的注释过程,并且整个系统是动态开放实时更新的,因此在某种程度上说它具有纠错的能力。
GO和KEGG注释之前,为什么要先进行序列比对(BLAST)?
在进行功能注释和通路注释之前,我们会先将差异蛋白与合适的数据库中的蛋白序列进行比对。目的一:很多物种目前研究的程度还很有限,关于这些物种的蛋白注释信息还很不完善。根据相似性原理,具有相似序列的蛋白可能也具有相似的功能,因此,我们可以将BLAST所得的同源蛋白的注释信息转嫁到我们关注的差异蛋白上,来完成对于差异蛋白尤其是研究程度不足的物种的差异蛋白的注释。目的二:我们在查库过程中,为了得到更多的蛋白质鉴定信息,我们大多使用UniProt数据库(含SwissProt和TrEmbl:SwissProt中的蛋白均经过人工校验,数据可靠性高,注释完整;TrEmbl由基因组序列翻译而来,未经人工校验,注释信息不全)或NCBI Protein数据库(用户可任意提交序列,有冗余,信息不完善,质量很难保证),BLAST一方面可以帮我们提高后续的注释效率,另一方面也可以帮助客户大致了解所鉴定的蛋白可能的名称和功能(尤其对于uncharacterized protein,predicted protein,putative protein 等)。
GO注释的意义?
对鉴定到的蛋白或者差异蛋白进行GO注释,其宗旨是为了帮助我们了解这些蛋白。可能的应用包括: