实验6 基因芯片数据处理分析与GO分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1、芯片数据的获取与处理
芯片杂交试验完成后, 借助扫描仪将杂交信号形成 TIF 图像, 通过图像分析软件从中提 取原始杂交信号强度值, 并将其转换成数字文本文件。 但是不同扫描仪产生的数据格式不尽 相同,因此,需要对不同平台的数据进行转换和整合。 1.1、ExpressConverter 数据格式转换 TM4(http://www.tm4.org)的 ExpressConverter 可将其他格式的数据文件转换为 MEV 格式以供后续分析。由于该软件的运行需要 Java 运行环境支持,故第一次使用之前需要预 先安装 Java Runtime Environment(http://www.java.com) 。完成 ExpressConverter 安装后,在 开始菜单中找到 Expressconverter 并打开,出现软件主界面(Figure 6.1) 。
Figure 6.9 点击“Execution”按钮,并按照提示将结果文件保存,选好路径,软件会按照设计的流程 来处理数据。从界面下方“Process Status”处可以查看软件当前的运行情况。运行结束后,可 直接到之前选好的路径下查看结果文件 testdata_MDS.mev, 该文件中的数据已完成过滤和标 准化处理。 建议用 Excel 查看,打开文件后,计算 IB/IA 值(ratio) ,当 ratio=0.5~2.0 表示与探针杂 交时,基因表达没有显著差异。当 ratio>2 或 ratio<0.5 表示基因表达呈显著差异,分别称为 上调或下调。但这种方法比较粗略,不具有统计学意义,一般用于大规模初筛。
Figure 6.2 (3)在界面下方选择“Integrated”,然后在“File”菜单下选择“Start converting”,开始转 换格式,直到界面下方显示“Converting is successful”,完成转换。此时,在原目录中会出现 文件名相同但扩展名不同的.mev 和.ann 文件,它们可用记事本或 Excel(推荐)打开。 .mev 文件包Leabharlann Baidu注释(comments)和数据(data) ,其中以“#”开头的注解部分包括文件版 本号、生成日期、数据的行数等基本信息,数据部分则详细地列出芯片中每个探针的位置、 信号强度等杂交信息(Figure 6.3) 。例如,UID 为探针标识号;IA、IB 分别表示 Cy3(对照) 和 Cy5(样本)的杂交信号强度;R 和 C、MR 和 MC、SR 和 SC 这三对数值指定了探针在 芯片中的位置;其他各列参数分别反映对照(A)和样本(B)的杂交背景、面积、信号强 度的中值等。
Figure 6.10 MeV 支持常见的芯片数据格式,如 mev、geo、gpr 以及表格格式等。这里以表格格式 的数据文件为例说明,介绍使用 MeV 进行聚类分析和差异表达基因的筛选。 ( 1 )选择数据格式:在软件界面的 “Multiple Array Views” 窗口中选择 “File—>Load Data”,弹出“Expression File Loader”窗口(Figure 6.11) 。其中表格格式为默认设置,如采用 其他数据格式,需要在“Select File Loader”菜单中指定,另作调整。
Figure 6.12 (3)显示基因表达情况:通过 Multiple Array Viewer 窗口看热图(Heat map) ,了解每 个基因在不同样本中的相对表达量(Figure 6.13) 。
Figure 6.13
(4) SAM 参数设置: SAM 是差异表达分析的一种算法。 单击常用工具栏上的“Statistics” 按钮, 选择“Significance Analysis for Microarrays”,弹出“SAM Initialization”窗口 (Figure 6.14) 。 根据以下 5 个数据分别设置参数:两组不成对(Two-class unpaired) 、两组成对(Two-class paired) 、多组(Multi-class) 、一组(One-class) 、Censored Survival。本例选择两组不成对数 据,在“Group Assignments”选框中,将 10 个样本分成两组:将 Sample1~ Sample5 设定为 Group A, Sample6~ Sample10 设定为 Group B。单击“OK”按钮,完成 SAM 参数设置。
实验六: 基因芯片数据处理和分析、GO 分析
实验目的:
1. 学会使用 TM4 软件集对芯片数据进行处理和分析,学会使用 Cluster 进行聚类分析 3. 学会 GO 语义及其相关注释的浏览与搜索,学会使用 DAVID 进行基因集功能富集分析
实验内容:
一、基因芯片数据处理和分析
基因芯片或称微阵列(microarray)能够平行、高通量地检测成千上万基因转录本的表 达水平, 应用芯片技术可以比较正常和异常细胞中的表达, 帮助识别疾病相关基因和药物作 用靶标,分析复杂疾病的致病机制,也可以揭示基因间的表达调控关系。基因芯片数据处理 包括芯片杂交实验芯片数据采集(扫描)数据基本处理提交数据库生物信息学分析 等步骤,涉及很多不同的实验类型。这里介绍 TIGR 中心开发的 TM4 软件包,应用 MeV、 Cluster 和 TreeView 等软件对相关基因表达谱进行聚类分析和差异表达基因的筛选。
Figure 6.15 (6)结果分析图:主界面左侧的导航栏 SAM(1)查看或导出结果(Figure 6.16) 。有四 种不同类型:Expression Images、Centroid Graph、Expression Graphs、Table Views,并根据
基因表达的显著性将其分成显著正向表达基因(Positive Significant Genes) 、显著负向表达 基因(Negative Significant Genes) 、正负向均为表达差异显著基因(All Significant Genes) 、 Non-significant Genes(正负向均为表达差异不显著基因)四种情况。
Figure 6.3
.ann 文件是一个芯片注释文件,用于存储每个探针的注释信息。其中 UID 表示探针的 标识号,R 和 C 分别表示探针在芯片中的位置,Name 和 ID 分别表示探针所代表的基因名 和检索号(Figure 6.4) 。
Figure 6.4 1.2、MIDAS 数据过滤和标准化 芯片杂交试验所产生的原始数据需要对低质量数据作过滤处理, 即表达水平是负值或很 小的数据或明显的噪音数据, 凡杂交信号值低于阈值的探针应予剔除, 使其对应的基因不再 进入下游的分析。由于芯片数据一般呈偏态分布,因此还需要对数据进行标准化处理,同时 还要消除实验操作造成的系统误差。 在 TM4 中 , 数 据 的 过 滤 标 准 化 通 过 MIDAS 软 件 完 成 , 下 载 地 址 为 : http://www.tm4.org/midas.html。此软件免安装,下载后解压即可使用。进入该软件所在文件 夹,双击 Midas.bat 文件,便出现 MIDAS 软件主界面(Figure 6.5) 。
Figure 6.14 (5)统计图绘制:在弹出的“SAM Graph”窗口中(Figure 6.15) ,可拖动滑块位置设置 不同阈值, 从而改变两条平行虚线之间的距离, 图中上虚线以上和下虚线以下区域分别表示 上调和下调基因, 而上下虚线中间区域表示表达差异不显著的基因。 这里我们选中“Use Fold Change”选框,使用默认值 2.0,单击“OK”按钮。
Figure 6.5 这里以 ExpressConverter 转换产生的 testdata.mev 为例,介绍使用 MIDAS 进行双色(双 通道)芯片的数据处理过程。 (1)数据读取:点击常用工具栏中左起第 5 个“Read Single Data File”的图标 ,然后 在右侧参数(Parameters )窗口的“Data File Name” 项的 “Value”栏中指定读取 testdata.mev (Figure 6.6) ,并同时勾选 A 和 B 两个通道背景校正选项“ChannelA Background Checking” 和“ChannelB Background Checking”,信噪比阈值(Signal/Noise Threshold)设定为 2。通常 筛选差异表达基因时,只有当探针杂交的信号值大于背景值时,才能进入下游分析;如杂交 信号值低于阈值,其探针会被过滤。
2、差异表达基因筛选与聚类分析
2.1、MeV 芯片数据分析的图形化显示 MutgiExperiment Viewer(MeV)是 TM4 软件包的子软件之一,其主要功能是实现芯片 数据分析的图形化显示。MeV 的最新版本在 TM4 主页(http://www.tm4.org/mev.html)下获 取。此软件免安装,解压后即可使用。 解压后进入该软件所在的文件夹, 双击 TMEV.bat 文件打开软件的主界面 (Figure 6.10) , 由两个窗口组成,上方为应用程序窗口,下方为数据处理窗口。通过应用程序窗口可以新建 许多数据处理窗口从而实现多任务分析过程。
Figure 6.1
ExpressConverter 可以读取 Genepix、ImaGene、ScanArray、ArrayVision、Agilent、TAV、 Customized、Gal 等格式的数据并将其转换成 TM4 能够使用的 MEV 格式。这里以 Genepix 文件转换为例,说明 ExpressConverter 的使用过程。 (1)在”Input Format”菜单中选择“GenePix”,指定它为读入文件格式。 (2)在“File”菜单中选择“Select input files”,选定一个或多个需要转换的 GenePix 文件 (扩展名为.gpr) 。本例从该软件的默认安装目录下,即 C:\ExpressConverter\samples\中选择 testdata.gpr 文件(Figure 6.2) 。
Figure 6.6 ,在流程窗口中显示过滤强度 ( 2 )数据过滤:点击常用工具栏中第 14 个图标 “Intensity Filter”图标(Figure 6.7) 。然后,在“Parameter”窗口中选择 Cy5 与 Cy3 的信号强度 阈值,默认值为 10000。
Figure 6.7 (3)数据标准化:分别点击常用工具栏中第 9 个 和第 13 个图标 ,在流程窗口中 显示“Locfit Normalization(Lowess)”和“Standard deviation regularization”图标(Figure 6.8) , 这两个数据标准化步骤均采取默认参数。
Figure 6.8 (4) 结果文件: 点击常用工具栏中最后 1 个图标 , 在流程窗口中显示写入数据“Write
Data”图标(Figure 6.9) ,这是将整个处理流程写到结果文件中。右侧的“Parameter”窗口有两 种选择: 勾选“Virtual Trim”表示结果文件中保留被过滤的探针, 但其信号值用零表示; 反之, 不保留被过滤的探针。勾选“Output Trimmed Data”则表示以单独文件列出被过滤的探针;反 之,则不单独列出。
Figure 6.11 ( 2 ) 数 据 导 入 : 点 击 “Browse” 按 钮 , 打 开 软 件 自 带 的 表 达 量 数 据 文 件 :
TDMS_format_sample.txt , 样 本 数 据 便 自 动 加 载 到 “Expression File Loader” 窗 口 下 方 的 “Expression Table”栏(Figure 6.12) 。实验数据类型有两个选项:双色芯片(Two-color Array) 和单色芯片(Single-color Array) ,本例选择双色芯片。单击“Load”按钮将数据导入。