GEO数据库简介完整版本
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
GEO 表达谱(Profiles)储存了单个基因表达 的数据资料,提供了GEO数据以“基因为中 心”的主要看法。
数据集组和表达谱的关系
在GEO DataSets中每个数据集组个体都各自 确定一个实验,而在GEO Profiles中每个数据 集组都对应多个表达谱个体。
对平台上的每个基因 (比如基因A),有多 个样本)测量值。多 个相关样本构成一个 数据集, 从中可以产生 单个或多个基因的表 达谱比较图。
样本数据描述了每个样本的 操作环境、处理方法和分离 出的各个成分的丰度测量。 每个样本均分配了一个特有 的检索号GSM***。
例如样本GSM81022
http://=GSM81022
系列(Series)
系列是把构成某个实验的相关样本集中到一个有生物意义的 数据集,同时可能还收集一些已被递呈者注明的重要基因或 者分析结果纲要,即样本收集,样本是如何相关的,如何排 序的,分析是如何进行的,和聚类数据是如何获得的信息。 一个系列中的样品是通过某一共同的属性联结在一起的,同 一个提交者,许多样本有关。
GEO数据集组(Datasets)储存了所有的元数据,提 供了GEO数据以“实验为中心”的主要观点。
数据集组的检索为GDS***。 例如:GDS2225.
表达谱(Profiles)
表达谱数据储存了来自于DataSets基因表达谱 信息。每一个表达谱都表现为一个能反映一个 数据集组中所有样本的基因表达量的统计图。
GEO数据的数据检索——方法
1. 从GEO数据库主页面右侧找到搜 索栏,直接输入要查找信息的关键 词或者检索词,如“mir29a”或者 “GDS2225 AND fto”,就会搜索 到相应的DataSets和Profiles。
2. 从主页面右侧直接打开库浏览器, 从中按照不同的“系列”、“平台 ”、“样本”、“物种”、“历史 ”来进行选择需要的数据类型。
系列(Series)
系列数据将一系列相关的 样本联系起来,提供了整 个研究的关注点和描述, 也包含了描述提取数据、 简要结论和分析的表格。 每个系列均分配了一个特 有的检索号GSE***。
例如系列GSE3541
http://=GSE3541
数据集组(DataSets)
GEO存储的是一个分类广泛的、经过多种手段处理和 不同方法分析的高通量实验数据。为了说明这些内容 ,GEO还增添了一个辅助分析工具,该工具可以把被 提交的样本归纳集中到有生物学意义和在统计学上可 比较的GEO数据集组(GEO DataSets),能提供关 于一个实验的相关梗概,以此作为下游数据挖掘和数 据显示工具的基础。
基因表达数据库 (Gene Expression Omnibus, GEO)隶属于美国国立卫生研究院的 NCBI。 GEO是当今最大、最全面的公共基因表达数据 资源。
网址:/geo/
GEO数据库的构成
1.用户提交 的原始数据
2.GEO数据库 整理后的数据
平台(Platform)
平台是描述一联串在特定实验中被检测或被定量分析的
可直接链接到Entrez其它数据库并找到 相关的检索结果。
GEO数据的数据检索——关键词
GEO可和其他NCBI数据库一样用标准关键词的方 法和基于文本布尔检索、基于序列检索、基于特有 表达行为挖掘检索或结合这些参数来进行检索查询
例如:在GEO DataSets中可以用检索词 “prostate cancer AND human[Organism] ”寻 找有关人类前列腺癌微阵列实验数据集。
3. 直接从GEO数据库的ftp服务器下 载。/geo/
GEO数据的数据检索——方法
4. 直接从NCBI主页用Entrez 进行检索。
5. GDaEE成tnOa检trS数e索ez据是t系sN主统和C。要GBIEE建存nO立t放re的Pz在集r生o成G物fiE系l医eO统s学的数最据大库特集 两点个是数通据过库任内何一。个数据库检索出的信息
基因芯片概述
基因芯片(DNA芯片)是通过微阵列技术,根 据核酸杂交的原理,将大量探针分子固定于支 持物上,然wk.baidu.com与标记的样品进行杂交,通过检 测杂交信号的强度及分布来进行分析。
基因芯片技术流程
基因芯片技术流程
基因芯片检测结果
什么是GEO数据库
随着微阵列芯片技术尤其是基因芯片的广泛应用, 产生了海量的数据,为基因研究提供大量高通量 数据资料。迫切需要一个统一管理的公共数据库。
GEO (Gene Expression Omnibus)数据库简介
报告人:沈健 2014.3.8
近几年来,随着分子生物 学技术的发展,微阵列芯 片技术已成为生物学研究 最重要的实验之一,尤其 是基因芯片的广泛应用, 产生了海量的数据,为基 因研究提供大量高通量数 据资料。
基因芯片发展历程
(DNA&RNA印记杂交) (斑点印迹法)
GEO数据的数据检索——关键词
例如:在GEO Profiles数据库中可以用检索词 fto[Gene Symbol] AND (Smok*)搜索所有 与吸烟相关并包含肥胖基因的相关实验的基因 表达谱。
GEO数据的处理
以数据集组GDS402为例来介绍一下GEO数据 库提供的一些数据挖掘分析工具。
因素,同一个提交者、许多样本有关,是关于用于以高 通量方式检查样本的物理试剂的信息。比如寡核苷酸
探针组,cDNA, SAGE标签,抗体等。
平台(Platform)
平台数据包含阵列或序列 以及阵列平台的简要描述, 每一个平台都分配了一个 特有的检索号GPL***。
例如平台GPL341: http://=GPL341
样本(Sample)
样本是指以一个平台为基础、描述某个杂交实验或者实验条 件的所有特征因素的大量测量信息,即关于被检查的mRNA 样本,实验条件,和实验产生的基因表达测量数据信息。每 个样品有一个而且只有一个必须先前被确定的亲代平台,同 一个提交者,一个平台和许多系列有关。
样本(Sample)
数据分析工具
非加权组平均法聚类小图 实验数据下载
数据集组和表达谱的关系
在GEO DataSets中每个数据集组个体都各自 确定一个实验,而在GEO Profiles中每个数据 集组都对应多个表达谱个体。
对平台上的每个基因 (比如基因A),有多 个样本)测量值。多 个相关样本构成一个 数据集, 从中可以产生 单个或多个基因的表 达谱比较图。
样本数据描述了每个样本的 操作环境、处理方法和分离 出的各个成分的丰度测量。 每个样本均分配了一个特有 的检索号GSM***。
例如样本GSM81022
http://=GSM81022
系列(Series)
系列是把构成某个实验的相关样本集中到一个有生物意义的 数据集,同时可能还收集一些已被递呈者注明的重要基因或 者分析结果纲要,即样本收集,样本是如何相关的,如何排 序的,分析是如何进行的,和聚类数据是如何获得的信息。 一个系列中的样品是通过某一共同的属性联结在一起的,同 一个提交者,许多样本有关。
GEO数据集组(Datasets)储存了所有的元数据,提 供了GEO数据以“实验为中心”的主要观点。
数据集组的检索为GDS***。 例如:GDS2225.
表达谱(Profiles)
表达谱数据储存了来自于DataSets基因表达谱 信息。每一个表达谱都表现为一个能反映一个 数据集组中所有样本的基因表达量的统计图。
GEO数据的数据检索——方法
1. 从GEO数据库主页面右侧找到搜 索栏,直接输入要查找信息的关键 词或者检索词,如“mir29a”或者 “GDS2225 AND fto”,就会搜索 到相应的DataSets和Profiles。
2. 从主页面右侧直接打开库浏览器, 从中按照不同的“系列”、“平台 ”、“样本”、“物种”、“历史 ”来进行选择需要的数据类型。
系列(Series)
系列数据将一系列相关的 样本联系起来,提供了整 个研究的关注点和描述, 也包含了描述提取数据、 简要结论和分析的表格。 每个系列均分配了一个特 有的检索号GSE***。
例如系列GSE3541
http://=GSE3541
数据集组(DataSets)
GEO存储的是一个分类广泛的、经过多种手段处理和 不同方法分析的高通量实验数据。为了说明这些内容 ,GEO还增添了一个辅助分析工具,该工具可以把被 提交的样本归纳集中到有生物学意义和在统计学上可 比较的GEO数据集组(GEO DataSets),能提供关 于一个实验的相关梗概,以此作为下游数据挖掘和数 据显示工具的基础。
基因表达数据库 (Gene Expression Omnibus, GEO)隶属于美国国立卫生研究院的 NCBI。 GEO是当今最大、最全面的公共基因表达数据 资源。
网址:/geo/
GEO数据库的构成
1.用户提交 的原始数据
2.GEO数据库 整理后的数据
平台(Platform)
平台是描述一联串在特定实验中被检测或被定量分析的
可直接链接到Entrez其它数据库并找到 相关的检索结果。
GEO数据的数据检索——关键词
GEO可和其他NCBI数据库一样用标准关键词的方 法和基于文本布尔检索、基于序列检索、基于特有 表达行为挖掘检索或结合这些参数来进行检索查询
例如:在GEO DataSets中可以用检索词 “prostate cancer AND human[Organism] ”寻 找有关人类前列腺癌微阵列实验数据集。
3. 直接从GEO数据库的ftp服务器下 载。/geo/
GEO数据的数据检索——方法
4. 直接从NCBI主页用Entrez 进行检索。
5. GDaEE成tnOa检trS数e索ez据是t系sN主统和C。要GBIEE建存nO立t放re的Pz在集r生o成G物fiE系l医eO统s学的数最据大库特集 两点个是数通据过库任内何一。个数据库检索出的信息
基因芯片概述
基因芯片(DNA芯片)是通过微阵列技术,根 据核酸杂交的原理,将大量探针分子固定于支 持物上,然wk.baidu.com与标记的样品进行杂交,通过检 测杂交信号的强度及分布来进行分析。
基因芯片技术流程
基因芯片技术流程
基因芯片检测结果
什么是GEO数据库
随着微阵列芯片技术尤其是基因芯片的广泛应用, 产生了海量的数据,为基因研究提供大量高通量 数据资料。迫切需要一个统一管理的公共数据库。
GEO (Gene Expression Omnibus)数据库简介
报告人:沈健 2014.3.8
近几年来,随着分子生物 学技术的发展,微阵列芯 片技术已成为生物学研究 最重要的实验之一,尤其 是基因芯片的广泛应用, 产生了海量的数据,为基 因研究提供大量高通量数 据资料。
基因芯片发展历程
(DNA&RNA印记杂交) (斑点印迹法)
GEO数据的数据检索——关键词
例如:在GEO Profiles数据库中可以用检索词 fto[Gene Symbol] AND (Smok*)搜索所有 与吸烟相关并包含肥胖基因的相关实验的基因 表达谱。
GEO数据的处理
以数据集组GDS402为例来介绍一下GEO数据 库提供的一些数据挖掘分析工具。
因素,同一个提交者、许多样本有关,是关于用于以高 通量方式检查样本的物理试剂的信息。比如寡核苷酸
探针组,cDNA, SAGE标签,抗体等。
平台(Platform)
平台数据包含阵列或序列 以及阵列平台的简要描述, 每一个平台都分配了一个 特有的检索号GPL***。
例如平台GPL341: http://=GPL341
样本(Sample)
样本是指以一个平台为基础、描述某个杂交实验或者实验条 件的所有特征因素的大量测量信息,即关于被检查的mRNA 样本,实验条件,和实验产生的基因表达测量数据信息。每 个样品有一个而且只有一个必须先前被确定的亲代平台,同 一个提交者,一个平台和许多系列有关。
样本(Sample)
数据分析工具
非加权组平均法聚类小图 实验数据下载