GEO专题实践二:如何使用基因表达数据分析工具GEO2R
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
GEO专题实践⼆:如何使⽤基因表达数据分析⼯具GEO2R GEO2R
NCBI提供的微阵列数据分析⼯具
基于统计分析软件R.分析
从GEO中注册的数据集中,您可以通过将每个样本数据划分为要⽐较的组并执⾏统计分析来获
得表达⽔平差异的基因组列表。
#####【实践2】使⽤GEO2R分析GEO注册的微阵列数据
[评论]如何使⽤NCBI GEO 5~使⽤GEO2R~
1. [练习2] 从[练习1]中搜索的实验数据集GSE28619的屏幕开始。
1. 单击页⾯底部的“使⽤GEO2R分析”以移⾄GEO2R页⾯。
1. 显⽰数据集中包含的样本数据列表。
您可以通过单击列标题按每个项⽬进⾏排序。
可以看
出,该数据集包括来⾃7名健康受试者和15名酒精性肝炎患者的肝脏的22个样本数据。
1. 设置要⽐较的组。
单击“定义组”,然后输⼊每个组的名称。
这次,我们将每个样本分组
为“对照”和“酒精性肝炎”作为组名。
1. 通过单击或拖动选择要放⼊组中的样本,然后单击组名称以在组中注册样本。
1. 单击“样本”以关闭样本数据列表屏幕。
选择“值分布”选项卡,然后单击“查看”以检查每个样
本的表达式分布。
(※在GEO2R中,使⽤提交的原始数据进⾏分析。
⼩⼼,因为作业执⾏
需要时间!)
1. 表达式的分布⽤⽅框和胡须图表⽰。
1. 单击“导出”,您将看到制表符分隔的⽂本,总结了框图中给出的值。
(※)
1. 返回GEO2R选项卡并单击“Top 250”以分析所选组中每个基因的表达⽔平是否存在差异。
(※)
1. 显⽰结果。
t检验的结果以P值250的升序显⽰。
1. “P.Value”是原始P值,“adj.P.Val”是应⽤多次测试校正后的P值。
重要性的评估基于
adj.P.Val。
“t”是⽤所有基因的标准偏差调节的t的正常偏差(缓和-t)。
它⽐正常t更准确,
但可以按照正常t分布处理。
“B”是对数赔率值,其中两组之间的表达⽔平不同。
exp(B)/(1 + exp(B))的值是表达⽔平不同的概率。
“logFC”是表达⽔平差异的倍数
的双倍对数。
换句话说,值2表⽰四倍的差异。
虽然这⾥的分析要求表达量以对数给出,
但原始数据可能不是对数。
在这种情况下,它会默认⾃动检测,并以对数⽅式计算。
你会
看到类似的东西。
2. 单击每⼀⾏以查看该⾏中每个基因样本中表达的量的图表。
3. 这⼀次,让我们来看看AKR1B10(aldo keto还原酶家族之⼀),它是健康⼈和酒精性肝
炎患者之间差异最⼤的基因。
发现AKR1B10在酒精性肝炎患者中⾼于健康个体。
1. 此外,SLC16A10(SLC转运蛋⽩之⼀)是第⼆个具有较⼤差异表达的基因,在酒精性肝
炎患者中发现较低。
1. 单击“⽰例值”以列出表达式值。
1. 您可以通过单击“选择列”来更改显⽰的列。
让我们删除“t-statistic”和“B-value”并添加“GO:
Process”。
更改设置后,单击“设置”。
1. 我能够更改要显⽰的列。
1. 单击“保存所有结果”以显⽰并将结果保存为⽂本。
1. 您可以通过单击“选项”选项卡来更改某些设置。
左项是多项测试校正⽅法的选择。
默认情
况下,使⽤“Benjamini&Hochberg”⽅法。
中间是选择是否记录数据。
默认情况下,⾃动检测是对数的。
右侧的项⽬是平台注释选项。
如果你有“NCBI⽣成”,那么它更可靠。
1. 更改选项后,返回GEO2R选项卡并单击重新计算。
(※这次不实施。
)
1. 在“配置⽂件图”部分中,您可以根据探针ID检查各个基因的表达状态。
在输⼊ID的窗⼝中
复制探针ID,然后单击“设置”以显⽰表达⽔平的图形。
让我们这次搜索“ALDH2”(醛脱氢酶的同⼯酶)的探针ID“201425_at”作为例⼦。
1. 正常受试者倾向于具有⽐酒精性肝炎患者更⾼的ALDH2表达⽔平。
(此操作不执⾏任何计
算,因此您⽆法确定测试结果的P值。
)
1. 您可以单击R脚本选项卡以查看已实际执⾏的R脚本。
基于此,可以通过⽤⼿边的R调整参
数来进⾏进⼀步的分析。