芯片数据的基本处理和分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
GenMAPP
一款将芯片数据和代谢途径结合起来的图形化显示工具
Why Pathway Analysis?
Intuitive to Biologists
• • • • Provide a biological context for results More efficient than searching databases gene-by-gene Intuitive data display for sharing data Analyze over-representation of changed genes on pathways and ontologies Generate and compare pathway signatures between models
Express Converter主界面:
ExpressConverter使用方法:
1. 2. 3. 选择“Input Format→GenPix”,指定输入的文件格式; 选择“File→Select input files”,选定一个或多个需要转 换的文件; 选择“File→Start converting”,格式开始转换。
good
芯片内的数据标准化 (Normalization)
由于样本差异、荧光标记效率和检 出率的不平衡等因素,需对cy3和cy5的 原始提取信号进行均衡和修正才能进一 步分析实验数据,Normalization正是基 于此种目的。
MIDAS 可选的数据处理方法
• 标准化处理方法 Total Intensity normalization Ratio Statistics normalization Standard deviation regularization In-slide replicates analysis MA-ANOVA
TIGR TM4:
A package of Open Source software programs for Microarray analysis
( http://www.tm4.org/ )
芯片数据采集(读取扫描图)
数据基本处理
存储整理芯片数据(数据库)
芯片数据分析结果的图形显示
GenePix格式(.gpr)
芯片数据聚类分析和差异表达基因筛选
基因表达研究中通常假设表达水平相似的基 因可能参与相同或相似的生物学过程,因而它们 具有相似的基因表达谱。 例: 在临床或诊断学等领域中,为研究某些 疾病的发生机制,通常对正常组织和肿瘤组织细 胞间的基因表达情况作比较分析,从中筛选出具 有显著差异的表达基因。
下载地址:http://www.tm4.org/mev.html 。 此程序不用安装下载后解压就可以使用(需要先安装Java) 进入软件所在的文件夹(免安装),双击打开TMEV.bat文件,会出现后台 运行窗口和图形界面窗口。
• 使用ExpressConverter将testdata.gpr转换成 testdata.mev和testdata.ann。 • 用记事本查看testdata.gpr,testdata.mev和 testdata.ann。
ExpressConverter快捷方式: “开始”→“所有程序”
testdata.gpr:C:\Program Files\ExpressConverter\samples\
实习三: 芯片数据的基本处理和分析 王斌
王 丹 阮 陟 胡望雄
浙江加州国际纳米技术研究院(ZCNI)
课程内容
实习一 实习二 基因组数据注释和功能分析 核苷酸序列分析
基因组学 系 统 生 物 学
实习三
实习四 实习五 实习六
芯片数据的基本处理和分析
蛋白质结构与功能分析 蛋白质组学数据分析
转录物组学
蛋白质组学
Flags in Mev file:
• • • • A – 0 non-saturated pixels in the spot B – 0-50 non-saturated pixels in the spot C – 50 or more non-saturated pixels in the spot X – spot is rejected, due to spot shape and intensity relative to background • Y – background is higher than spot intensity • Z – spot not detected by Spotfinder
3 使用SAM查找差异表达基因
①
② ③
不同实验类型
样本分组
④
⑤
SAM结果:Expression Images
SAM结果:Centroid Graphs
SAM结果:Expression Graphs
SAM结果:Table Views
课堂练习
• 使用MeV处理TDMS_format_sample.txt ,并查看结果文件; • MEV程序位置:C:\zcni\shiyan3\MeV_4_6,双击TMEV.bat 打开程序; • 输入文件TDMS_format_sample.txt位于: C:\zcni\shiyan3\MeV_4_3\data\。
GenMAPP基本概念
• MAPP:描述了模式生物的代谢途径图。 目 前 MAPP 数 据 库 中 包 含 了 人 (H.sapiens) 、 小 鼠 (M.musculus)、大鼠 (R.norvegicus)、酵母 (S.cerevisiae)、 线虫 (C.elegans)、狗 (C.familiaris)、鸡 (G.gallus)、牛 (B.taurus)、果蝇 (D.melanogaster)和斑马鱼 (D.rerio)等 模式生物。
TIF 扫描图 对照 mRNA
RT Cy3 Cy3-cDNA RT Cy5 cDNA array Cy5-cDNA
样本 mRNA
对照基因(reference gene):绿色荧光标记(G) 样本基因(sample gene):红色荧光标记(R)
区块(block)
信号杂交的一些概念
背景
探针区域
饱和区域 非饱和区域
Step 3:标准化(包括区块间的均一化)
Step 4:结果文件的输出
Biblioteka Baidu
MIDAS统计作图(MIDAS Investigation窗口查看)
log-ratios histogram(.his)
Intensity plot (.ity)
Intensity plot (.lty)
R-I (.prc)
MeV 4.6.2支持的文件格式
• • • • • • MIDAS MEV, TAV 格式 表格格式 GEO格式 Affymetrix格式 GPR格式 Agilent格式
MeV 4.6.2程序主界面
常用工具栏
结果界面
导航栏
芯片数据聚类分析和差异表达基因筛选
1 表格格式数据的读入与转化
2 系统聚类法对基因和样本聚类 3 使用SAM(significance analysis for microarrays)查找差异表达基因
Agilent 格式 (.txt):
MEV文件:MEV格式的芯片数据
Express Converter: 芯片数据的格式转换
下载地址:http://www.tm4.org/programs/ExprConvt2_1.zip; 下载后,解压安装即可。 “开始” ->“所有程序”处打开。 需要先安装Java,Java下载地址:http://www.java.com;
Computation on Pathway Content
•
GenMAPP安装和更新
• 下载地址: http://www.genmapp.org; • 双击安装文件安装GenMAPP; • 打 开 GenMAPP 程 序 , 从 菜 单 “ Data → Download Data from GenMAPP.org” 下 载自 己 感 兴趣 物 种 的 MAPP文件和Gene Database。
MIDAS: 数据基本处理
下载地址是:http://www.tm4.org/midas.html
此程序不用安装下载后解压就可以使用。(需要先安装Java)
进入文件夹,双击打开Midas.bat文件,会出现后台运行窗口和图形界面窗口。
低质量数据过滤
• 根据Flag过滤
• 根据信号和背景值过滤
MEV文件:MEV格式的芯片数据
①
1 表格格式数据的读入与转化
1 选择“File→Load Data”弹出导 入数据对话框
③ ②
④
⑤
⑥
数据起始位置
不同颜色表示相对表达量 样本名
基因名
Heatmap View
2 系统聚类法对基因和样本聚类
①
②
聚类分析结果图:
存储和注释感兴趣的分类:
①单击鼠标左键选中目标分类使其高亮化; ②右键选择菜单中的Store Cluster,并设置注释的名称和颜色等信息。
LOWESS (Locfit) normalization
Iterative linear regression normalization Iterative log mean centering normalization • 低质量数据过滤方法 Flip-dye consistency checking Ratio Statistics confidence interval checking Invalid-intensity checking Cross-file-trim • 差异表达基因识别方法 Slice analysis (non-statistical) Cross-slide replicates t-test (statistical) Cross-slide one-class SAM (statistical)
待状态栏显示“Converting is successful”后, 格式转换完 成。此时在原genepix存放的文件夹中会出现文件名相同 但扩展名不同的.mev和.ann的文件。
input
output
程序运行前
程序运行结果
MEV文件:MEV格式的芯片数据
MEV注释文件(后缀名为.ann)
课堂练习
区块间均一化处理
用MIDAS处理单张双色芯片的基本流程
1. 2. 3. 4. 芯片数据的读入; 低质量数据的过滤; 标准化(包括区块间的均一化); 结果文件的输出。
MIDAS 程序主界面
可选的数据处理步骤
各个处理步骤的相应参数
数据分析 流程设计
程序运行状况显示
Step 1:芯片数据的读入
Step 2:低质量数据的过滤
Box plot (.box)
课堂练习
• 使用MIDAS处理testdata.mev,并查看结果文件; • MIDAS程序位置:C:\zcni\shiyan3\MIDAS2_19,双击 Midas.bat打开程序; • 输入文件testdata.mev由ExpressConverter产生,在 C:\Program Files\ExpressConverter\Samples\。
Low intensity filter Spot QC flag checking Signal/Noise checking
芯片内的数据标准化(Normalization)
A
A
MA plot
M=log2(R/G)
A=log2√R*G
In many microarray gene expression experiments, the general assumption is that most of the genes would not see any change in their expression. Therefore the majority of the points on the y axis (M) would be located at 0, since log(1) is 0.
系统生物学软件实习
芯片数据分析的一般流程:
1. 芯片杂交实验 ,芯片数据采集(读取扫描图) 2. 数据基本处理 3. 数据提交公共数据库 4. 数据生物信息学分析
实习内容:
• TIGR TM4 软件的介绍和使用 • GenMAPP软件的介绍和使用 • GEO数据库的介绍
常见的双通道(dual channel)实验流程: