geneontology分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Gene OntologyGO分析Gene Ontology可分为分子功能Molecula r Function生物过程b iological proce ss和细胞组成cellular component三个部分。
蛋白质或者基因可以通过ID 对应或者序列注释的方法找到与之对应的GO号而GO号可对于到Ter m即功能类别或者细胞定位。
参考网站
http://www.g eneontology.org功能富集分析功能富集需要有一个参考数据集通过该项分析可以找出在统计上显著富集的GO T erm。
功能或者定位有可能与研究的目前有关。
图1. 基于G O的蛋白质富集分析图谱GO功能分类GO功能分类是在某一功能层次上统计蛋白或者基因的数目或组成往往是在GO的第二层次。
此外也有研究都挑选一些Term而后统计直接对应到该Term的基因或蛋白数。
结果一般以柱状图或者饼图表示。
1.GO分析根据挑选出的差异基因计算这些差异基因同GO 分类中某几个特定的分支的超几何分布关系GO 分析会对每个有差异基因存在的GO返回一个
p-value小的p值表示差异基因在该GO 中出现了富集。
GO 分析对实验结果有提示的作用通过差异基因的G O 分析可以找到富集差异基因的GO分类条目寻找不同样品的差异基因可能和哪些基因功能的改变有关。
2.Pathway分析根据挑选出的差异基因计算这些差异基因同Pathway 的超几何分布关系Pathway 分析会对每个有差异基因存在的pat hway 返回一个p-valu e小的p 值表示差异基因在该p athway 中出
现了富集。
Pathway 分析对实验结果有提示的作用通过差异基因的Pa thway 分析可以找到富集差异基因的Pathway 条目寻找不同样品的差异基因可能和哪些细胞通路的改变有关。
与GO 分析不同pathway 分析的结果更显得间接这是因为pathw ay 是蛋白质之间的相互作用p athway 的变化可以由参与这条pathway 途径的蛋白的表达量或者蛋白的活性改变
而引起。
而通过芯片结果得到的是编码这些蛋白质的mRNA 表达量的变化。
从mRNA 到蛋白表达还要经过microRNA 调控翻译调控翻译后修饰如糖基化磷酸化蛋白运输等一系
列的调控过程mR NA 表达量和蛋白表达量之间往往不具有线性关系因此mRNA的改变不一定意味着蛋白表达量的改变。
同时也应注意到在某些pa thway 中如EGF/EGF R 通路细胞可以在维持蛋白量不变的情况下通过蛋白磷酸化程度的改变调节蛋白的活性来调节这条通路。
所以芯片数据pathway分析的结果需要有后期蛋白质功能实验的支持如Westernblot/ELISAIHC免疫组化over expressi on过表达RNAiRNA 干扰knockout基因敲除tra ns gene转基因等。
Pa thway 图示蓝色箭头上方图表示的是pathway 的框架图
蓝色箭头下方图用红色表示落在pathway 中的差异基因所
编码的蛋白质。
3.基因网络分析目的根据文献数据库和已知的pathway 寻找基因编码的蛋白之间的相互关系不超过
1000 个基因。
基因网络关系图蓝色外圈的红色椭圆形表示
的是有报道且被检索到的蛋白同其他蛋白之间的相互作用
网络。
4.GS EA分析Gene Set E nrichment Analy sis 分析是用统计学的方法分析5 类功能基因簇genes et是否在不同的生物样本组中存在差异通过芯片实验数据的分析寻找不同样
品的差异基因可能与哪些生物学功能相关为后期实验提供参考。
GSEA 主页截图该页面是对这5 类功能基因簇的描述5.KEGG Pathway分析 KEGG网站Kyoto E ncyclopedia ofGenes and Genom es京都基因与基因组百科全书是一套关于基因组、酶促途径以及生物化学物质的在线数据库。
它免费提供了基因数据库、通路数据库、配体化学反应数据库、序列相似性数据库SSDB 、基因表数据库、蛋白分子相互关系数据库BRI TE 并且开发网页和编程的接口。
有很多研究者采用KEGG的数据或工具进行通路的分析。
K EGG Pathway 分析可以根据输入数据不同采用两种不同的方法进行分析如果SWISSR POT 或者GeneID 列表可以通数据库号转换并对应的方式对应到通路若来自Genban k 的序列可以通过相似性注释的方式对应到KEGG Path way。
Pathway ID Description Te st 00010 Glycol ysis / Gluconeo genesis 13 00020 Citrate cycle TCA cycle 9 00051 Fructose an d mannose metab olism 8 00190 O xidative phosph orylation 12 00230 Purine meta bolism 7 00240Pyrimidine meta bolism 9 00271Methionine meta bolism 6 … … …GeneGo MetaCore是由美
国GeneGo公司开发的代谢组分析商业软件的其中一个模块其中的一项功能是进行人、大鼠、小鼠的通路分析结果示例如下Gene Ontology现今的生物学家们浪费了太多的时间和精力在搜寻生物信息上。
这种情况归结为生物学上定义混乱的原因不光是精确的计算机难以搜寻到这些随时间和人为多重因素而随机改变的定义即使是完全由人手动处理也无法完成。
举个例子来说如果需要找到一个用于制抗生素的药物靶点你可能想找到所有的和细菌蛋白质合成相关的基因产物特别是那些和人中蛋白质合成组分显著不同的。
但如果一个数据库描述这些基因产物为“翻译类”而另一个描述其为“蛋白质合成类”那么这无疑对于计算机来说是难以区分这两个在字面上相差甚远却在功能上相一致的定
义。
Gene Ontol ogy GO项目正是为了能够使对各种数据库中基因产物功能描述相一致的努力结果。
这个项目最初是由1988年对三个模式生物数据库的整合开始: FlyBas e 果蝇数据库Drosophi lat Saccharomyc es Genome Datab ase 酵母基因组数据库SGD and the MouseGenome Database小鼠基因组数据库MGD。
从那开始GO不断发展扩大现在已包含数十个动物、植物、微生物的数据库。
GO的定义法则已经在多个合作的数据库中使用这使在这些数据库中的查询具有极高的一致性。
这种定义语言具有多重结构因此在各种程度上都能进行查询。
举例来说GO可以被用来在小鼠基因组中查
询和信号转导相关的基因产物也可以进一步找到各种生物
地受体酪氨酸激酶。
这种结构允许在各种水平添加对此基因产物特性的认识。
GO 的结构包括三个方面分子生物学上的功能、生物学途径和在细胞中的组件作用。
当然它们可能在每一个方面都有多种性质。
如细胞色素C在分子功能上体现为电子传递活性在生物学途径中与氧化磷酸化和细胞凋亡
有关在细胞中存在于线粒体质中和线粒体内膜上。
下面将进一步的分别说明GO的具体定义情况。
基因产物基因产物和其生物功能常常被我们混淆。
例如“乙醇脱氢酶”既可以指放在E ppendorf管里的基因产物也表明了它的功能。
但是这之间其实是存在差别的一个基因产物可以拥有多种分子功
能多种基因产物也可以行使同一种分子功能。
比如还是“乙醇脱氢酶”其实多种基因产物都具有这种功能而并不是所有的这些酶都是由乙醇脱氢酶基因编码的。
一个基因产物可以同时具有“乙醇脱氢酶”和“乙醛歧化酶”两种功能甚至更多。
所以在GO中很重要的一点在于当使用“乙醇脱氢酶活性”这种术语时所指的是功能并不是基因产物。
许多基因产物会形成复合物后执行功能。
这些“基因复合物”有些非常简单如血红蛋白由血红蛋白基因产物α球蛋白、β球蛋白和小分子的亚血红素组成有些非常复杂如核糖体。
现在小分子的描述还没有包括在GO中。
在未来这个问题可望由和现在的K lotho 和LIGAND等小分子数据库联合而解决。
分子功能分子功
能描述在分子生物学上的活性如催化活性或结合活性。
GO 分子功能定义功能而不是整体分子而且不特异性地指出这
些功能具体的时空信息。
分子功能大部分指的是单个基因产物的功能还有一小部分是此基因产物形成的复合物的功能。
定义功能的义项包括催化活性、转运活性、结合活性等更为狭窄的定义包括腺苷酸环化酶活性或钟形受体结合活性等。
生物学途径生物学途径是由分子功能有序地组成的具有多个步骤的一个过程。
举例来说较为宽泛的是细胞生长和维持、信号传导。
一些更为具体的例子包括嘧啶代谢或α配糖基的运输等。
一个生物学途径并不是完全和一条生物学通路相等。
因此GO并不涉及到通路中复杂的机制和所依赖的因素。
细胞组件细胞中的位置指基因产物位于何种细胞器或基因产物组中如糙面内质网核或核糖体蛋白酶体等。
GO的形式GO 定义的术语有着直接非循环式directed acy clic graphs DAG s的特点而并非是传统的等级制h ierarchy定义方式随着代数增加下一级比上一级更为具体。
举个例子来说生物学途径中有一个定义是己糖合成它的上一级为己糖代谢
和单糖合成。
当某个基因被注解为“己糖合成活性”后它自动地获得了己糖代谢和单糖合成地注解。
因为在GO中每个术语必须遵循“真途径“法则即如果下一代的术语可以用于描述此基因产物其上一代术语也可以适用。
GO的注释Annotation 那么GO中的术语如何和相对应的基因产物相联
系的呢这是由参与合作的数据库来完成的它们使用GO的定义方法对它们所包含的基因产物进行注解并且提供支持这
种注解的参考和证据。
每个基因或基因产物都会有一个列表列出与之相关的GO术语。
每个数据库都会给出这些基因产物和GO术语的联系数据库并且也可以在GO的ftp站点上和WE B方式查询到。
并且GO联合会提供了简化的本体论术语GO s lim这样可以在更高级的层面上研究基因组的功能。
比如粗略地估计哪一部分的基因组与信号传导、代谢合成或复制有关。
GO对基因和蛋白的注释阐明了基因产物和用于定义他们的GO术语之间的关系。
基因产物指一个基因编码的R NA或蛋白产物。
因为一个基因可能编码多个具有很不相同性质的产物所以GO推荐的注释是针对基因产物的而不是基因的。
一个基因是和所有适用于它的术语联系在一起的。
一个基因产物可以被一种本体论定义的多种分支或多种水平注释。
注释需要反映在正常情况下此基因产物的功能生物途径定位等而并不包括其在突变或病理状态下的情况。
GO联合会的各个数据库成员采用手动或自动的方式生成注释这两种方式共有的原理是一.所有的注释都需要有来源可以是文字、另一个数据库或是计算机分析结果二.注释必须提供支持这种基因产物和GO术语之间联系的证据。
GO文件格式GO的所有数据都是免费获得的。
GO数据有三种格式flat每日更新、XML每月更新和MySQL每月更新。
这些数
据格式都可以在GO ftp的站点上下载。
XML 和My SQL 文件是被储存于独立的G O数据库中。
如果需要找到与某一个GO术语相关的基因或基因产物可以找到一个相应表格搜寻到这种注解的编号并且可以链接到与之对应的位于不同数
据库的基因相关文件。
GO浏览器和修改器br owser and edito r GO 术语和注释使用了多种不同的工具软件它们都可以在we b方式的“GO 浏览器”下“G O software page”中找到。
大多数GO浏览器都是web模式的允许你直观的看到术语和其相关信息如定义、同义词和数据库参考等。
有些GO浏览器如AmiGO和QuickGO可以看到每个术语的注释。
而可下载的DAG-Edit编辑器一样可以离线地显示注释和所有本体论定义的信息。
对于每一个浏览器来说都可以选择最适用于你要求的工具软件。
常见的三种浏览器Am iGO from BDGP 在AmiGO中可以通过查询一个GO术语而得到所有具有这个注释的基因产物或查询一个基因产物而得到它所有的注
释关系。
还可以浏览本体论得到术语之间的关系和术语对应的基因产物数目。
AmiG O直接连接GO下的MySQL。
MGI GO Browser MGI GO的功能类似于Am iGO所不同的在于它所得到的基因为小鼠基因。
MGI GO浏览器直接连接GO下的MGI数据库。
QuickGO at EB I QuickGO整合在EBI下的InterPro中可以通过查询一个GO术语而得到它的定义与关系描述、在SWISS-PR OT中的定位、在酶分类学EC和转运
分类学TC中的定位和Int erPro中的定位等。
其他还有一些特殊的浏览GO的浏览器其中括号中为建立机构和主要特色EP GO BrowserEB I基因表达情况、GoFishHarvardBoolean查询、GenNavNLM 图像化展示、GeneOntology RZPD RZPDUniGen e、ProToGO Hebre w UniversityGO的亚图像化、CGAP GO Br owser 癌症基因组解剖工程癌症、GOBrowser Il luminaeperl.、TA IR Keyword Brow ser TAIR拟南芥、
PAN DORA Hebrew Uni versity非一致化蛋白。
修改器GO 术语和本体论结构可以由任何可以读入GO平板文件的文本修改器进行编辑但是这需要对平板文件非常熟悉。
因此DAG-Edit是被推荐使用的它是为GO特别设计的能够保证
文件的句法正确。
GO注释可以被多种数据库特异性的工具所编辑如TIGR的Manatee和EBI的Ta lisman tool。
但是G O 数据库中写入新的注释是需要通过GO认证的管理员方可进行的如果想提出新的注释或对本体论的建议可以联系GO。
主要修改器为DAG-Edit和COBrA。
DAG-Edit基于Java语言提供了能浏览、查询、编辑具有DAG数据格式的GO数据界面。
在SourceForge可以免费下载伴随着帮助文件。
COB rA能够编辑和定位GO和OBO本体论。
它一次显示两个本体论因此可以在不同的水平相应定位。
如组织和细胞类型水平优点在于可以综合几种本体论支持的文件格式多包
括GO平板文件、GO RDF和OWL格式等。
如图为DAG-Edit
的界面可以分为四个部分1 定义编辑面板termeditor panel 显示当下的本体论。
也是主要的编辑本体论结构的工具可以通过点击和拖动术语来修改本体论的从属关系。
2 文本编辑面板text e ditor panel 修改术语中的内容。
在修改多个术语时会出现一个选择菜单可以选中后逐个修改。
3 DAG浏览器DA G浏览器是一个插件能够以图形的方式展示具有复杂的从属关系的术语。
4 搜寻/屏蔽面板可搜寻术语、术语类型和术语间关系。
可自定义屏蔽条件限制得出的搜寻结果。
GO数据库的查找和浏览FAQ 1. 如何搜寻注释使用AmiGO浏览器可以在所有参与的数据库中搜寻一个特定的注解。
AmiGO允许使用GO术语或基因产物的搜寻。
搜寻结果包括G O对这个术语的等级分级情况定义和近义结构外部链接所有相联系的基因产物和它的下一级术语。
2. 如何得到全部的GO注释在GO网站上基因产物与GO联系的组信息都有提供。
这些文件储存了基因/基因产物的ID和引用文献等支持证据如FlyBase 基因ID SWISS-PROT蛋白ID在ftp 站点上都可以获得。
3 在一些模式生物中一个基因通常有多个与之相关的核苷酸序列如EST、蛋白序列等。
要查询到这些序列可以从该模式生物数据库中通过基因联系
gene as sociation查询到基因获得IDgene accessi on ID或是分别在Compu gen中查询大的转录产物tra nscipt和
SWISS-PR OT/TrEMBL中查询蛋白。
4. 如何得到由GO术
语注解的蛋白序列在GO网页上选择能查询到所有数据库的Amigo浏览器键入GO术语如“线粒体”在结果中显示了被注释的基因。
然后选择你所需基因在网页的最低端把选项拖至“get fastasequence”区域再确定即可。
5 如何能够找到所有和一个特定的GO术语相关的人类基因呢GO术语是和SWISS-P ROT/TrEMBL/Inte rPro and Ensemb l中的蛋白序列
无赘余地对应的。
这些注释在EBI上的GOA-H uman 文件中GO的FTP站点上EnsemblEMBLBa nk上都可找到。
6可以直接使用GenBank的gi获取码在GO数据库中进行查询吗GO数据库中除了Compugen所提供的GenBank获取码之外没有包含其他GenBank获取码的信息但是在EBI的GOAG O Annotation中有一个综合的对GenBank/EM BL/DDBJ进行查询的方式详细请见ftp:
//ftp.e /pub/da tabases/GO/goa/HUMAN/xrefs.goa. GO与其他分类系统的定位关系Mapping to GOGO 并不只是希望为基因组建立一个标准化的、结构清晰的注释语言。
GO致力于各种基因组数据库的标准化。
GO为各种基因组分类系统和GO注释之间的转化提供了转化表见
http://www.geneontology.or g/GO.indices.ht ml 数据库索引文件来源UniProt Knowled gebase spkw2goEvelyn Camon No te: spkw2go use d to be calledswp2go all file s remain the sa me. Enzyme Comm ission ec2go Mi chael Ashburner EGAD egad2go
M ichael Ashburne r GenProtEC gen protec2go Heath er Butler and M ichael Ashburne r TIGR role tig r2go Michael As hburner TIGR Fa milies tigrfams2go TIGR StaffInterPro interp ro2go Nicola Mu lder MIPS Funca t mips2go Micha el Ashburner an d Midori Harris MetaCyc Pathwa ys metacyc2go M ichael Ashburne r and Midori Ha rris MultiFun C lassificationsmultifun2go Mic hael AshburnerJane Lomax andMargrethe Hauge Serres Pfam Do mains pfam2go N icola Mulder Pr odom Domains pr odom2go NicolaMulder Prints D omains prints2g o Nicola Mulder ProSite Domain s prosite2go Ni cola Mulder
Sma rt Domains smar t2go Nicola Mul der README 需要注意的是这些转化不是完全而精确的。
其中的一个原因可能是GO有一套完整的定义系统而很多数据库并不具有。
GO的应用GO的局限性 1. GO 不是基因序列或基因产物数据库相反的GO强调基因产物在细胞中的功能。
2.GO不是整合数据库的一种方式如联邦式整合数据库它并不能做到这点是因为 a. 更新速度较慢b. 由于每个人对数据定义的方式不同标准难以达到一致。
c. GO并不对生物学的每个方面进行描述。
如功能域的结构、3D结构、进化等。
3GO 是对基因功能的注解但是有其局限性。
比如说GO不能反映此基因的表达情况即是否在特定细胞中、特定组织中、特定发育阶段或与某种疾病相关。
GO虽然不涉及这些方面但是支持其
他的OBOopen bio logy ontologies成员成立其他类型的本体论数据库如发育本体学、蛋白组本体学、基因芯片本体学等用于基因组分析基因组和全长cDNA序列工程通常会根据序列的相似性推测基因与已注释的基因功能类似。
现在最常用的手段是在SWISS-P ROT序列中设定一个相似性的域值使用计算机化的方法来判断。
因此根据这一原理也可以得到新的G O注释被标记为“根据电子注释推测”。
一个GO的重要应用方面是对于一个GO术语能形成一个相联系的基因产物组。
举例来说某一基因产物可以被精确地注释为在碳水化合物代谢的一个特定的功能如葡萄糖代谢而在总结碳水化
合物代谢时所有这些基因产物都会聚集到一起。
GO计划为每一个高频出现的术语建立文档总汇现在有些已经在“GO Slim”中实现了。
用于基因表达分析如在芯片数据中引入GO注释通常可以揭示出为什么一个特定组的基因拥有相似的表达模式。
共表达的基因可能编码在同一个生物过程中出现的基因产物或定位于同一个细胞部位的。
如果未知基因和一些已被GO过程术语相似地注释了的基因共表达那么这个未知基因很有可能在同一个过程中发挥功能。
分析和操作基因表达芯片数据并且又能结合GO注释的软件已产生。
EBI 提供的E xpression Profi ler和EP:GO都具有此功能。
GO可能的应用GO的应用前景很广阔不可能一一列出现在已用到的包括 1 整合来自于不同生物的蛋白组信息。
2 判定蛋
白结构域的功能。
3 找到在疾病/衰老中异常表达的基因的功能类似性。
4 预测与一种疾病相关的基因 5 分析在发育中同时表达的基因6 建立起自动的能从文献中获取基因功能信息的工具。
GO规模如上所述GO的三层结构是分子功能、生化途径和细胞组件。
GO包含的大部分为平板格式文件GO flat fil e由每一种本体论中定义的文件为文本文件而包含本体论和定义两种格式的是OBO格式的平板文件X ML 作为可以用于三种本体论和所有定义的文件格式也有提供。
这些文件都在每月的1日更新GO每月将给出月份更新报告。
GO的使用和引用GO 的使用基因本体论联合会是由国家人类基因组研究所NHGRI 的R1拨款所赞助此外还有欧盟RTD项目“生活质量和生活资源管理”拨款。
G ene OntologyTM由AstraZeneca公司提供资金赞助而SGD 小组得到了I ncyteGenomics的赞助。
GO数据库中的术语、注释等都属于公共范畴。
GO的资源是免费的但是必须在以下三种情况下使用1. 必需引用基因本体论联合会。
2. 所使用的GO文件必需标明GO的版本号和日期。
GO处于不断更新中 3. GO文件的内容和内在的逻辑关系不得被更改。
引用GO 当使用GO资源时请引用以下文献Gene Ontology: tool for the unific ation of biolog y.
The Gene Ont ology Consortiu m 2000 Nature G enet. 25: 25-29. 当引用亚数据库资源时请参考GO的publication l.
。