实习3芯片的基本数据处理和分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Step 1:芯片数据的读入
Step 2:低质量数据的过滤
Step 3:标准化(包括区块间的均一化);
Step 4:结果文件的输出
结果文件(夹):
• • • • • *_MDS.mev Raw Low_intensity_filter Lowess Sd_reg
MIDAS统计作图(MIDAS Investigation窗口查看)
input
output
课堂练习
• 使用ExpressConverter将testdata.gpr转换成 testdata.mev和testdata.ann。 • 用记事本查看testdata.gpr,testdata.mev和 testdata.ann。
ExpressConverter: “开始” ->“所有程序” Testdata.gpr: C:\Program Files\ExpressConverter\example\
(http://www.tigr.org/software/microarray.shtml)
芯片数据采集(读取扫描图)
数据基本处理
存储整理芯片数据(数据库)
芯片数据分析结果的图形显示
常见的双通道(dual channel)实验流程:
TIF 扫描图 对照 mRNA
RT Cy3 Cy3-cDNA RT Cy5 cDNA array Cy3-cDNA
位置
FlagA: FlagB: BkgA: BkgB: SAA: SAB: MedA: MedB:
TIGR SpotFinder flag value for channel 1. TIGR SpotFinder flag value for channel 2. Background intensity for channel 1. Background intensity for channel 2. Spot area for channel 1. Spot area for channel 2. Median Intensity for channel 1 (Cy3). Median Intensity for channel 2 (Cy5).
good
MEV注释文件(后缀名为.ann)
GenePix格式(.gpr)
Agilent 格式 (.txt):
Express Converter: 芯片数据的格式转换
下载地址:http://www.tm4.org/scgi-bin/getprogram.cgi?program=expcnvt; 下载后,解压安装即可。 “开始” ->“所有程序”处打开。 需要先安装Java,Java下载地址:http://www.java.com;
多样本芯片实验 • 实验适用范围:例如,分型,不同发育阶段的表 达,不同剂量药物下的表达,等等; • 使用共同的对照:采用标准对照,或将所有样品 混合作为共同对照;
多样本实验的两种常用分析 • 聚类 • 差异表达基因的筛选
下载地址是:http://www.tm4.org/mev.html 。 此程序不用安装下载后解压就可以使用。(需要先安装Java) 进入文件夹,双击打开TMEV.dat文件,会出现后台运行窗口和图形界面窗 口。
差异表达基因识别方法
Slice analysis (non-statistical) Cross-slide replicates t-test (statistical) Cross-slide one-class SAM (statistical)
用MIDAS处理单张双色芯片的基本流程: 1. 2. 3. 4. 芯片数据的读入; 低质量数据的过滤; 标准化(包括区块间的均一化); 结果文件的输出。
数据起始位置
不同颜色表示相对表达量 样本名
基因名
用等级聚类法(Hierarchical Clustering)对基因和样本聚类
聚类结果:
使用sam查找差异表达基因
不同实验类型
样本分组
Sam结果:Expression images
Sam结果:Centroid graphs
Sam结果:Expression graphs
GenMAPP基本概念的介绍
• MAPP:描述了模式生物的代谢途径图; 目前MAPP数据库中包含了人 (H.sapiens)、小鼠 (M.musculus)、 大鼠 (R.norvegicus)、 酵母 (S.cerevisiae)、 线虫 (C.elegans)、 狗 (C.familiaris)、 鸡 (G.gallus)、 牛 (B.taurus)、 果蝇 (D.melanogaster)和 斑马鱼 (D.rerio)等模式生物。 • Gene database:包含了上述物种所含基因的注释及其基 因标识号(ID)。 对于每个基因,Gene Database会建立它在各个gene ID system中的对应关系。比如,Trp53基因在MGI(小鼠基 因组数据库)中的标识号为MGI:98834,而在UniGene数 据库中标识号为Mm.222,在Ensembl数据库中标识号为 ENSMUSG00000059552。
Sam结果:Table views
课堂练习
• 使用MEV处理TDMS_format_sample.txt ,并查看结果文件; • MEV程序位置:C:\zcni\shiyan3\MEV_4_0;双击TMEV.bat 打开程序; • 输入文件TDMS_format_sample.txt在 C:\zcni\shiyan3\MEV_4_0\data\中;
R-I plot (.prc) Intensity plot (.ity, .lty) FlipDye Diagnostic plot (.rrc)
Z-score Distribution plot (.his)
Box plot (.box)
SAM plot (.sam)
课堂练习
• 使用MIDAS处理testdata.mev,并查看结果文件; • MIDAS程序位置:C:\zcni\shiyan3\MIDAS2_19;双击 Midas.bat打开程序; • 输入文件testdata.mev由ExpressConverter产生,在 C:\Program Files\ExpressConverter\example\;
ID System (Species) Affymetrix Probe Set ID PDB EMBL Pfam Ensembl RefSeq Entrez Gene RGD (R. norvegicus) FlyBase (D. melanogaster) SGD (S.cerevisiae) Gene Ontology UniProt/TrEMBL HUGO UniGene InterPro WormBase (C. elegans) MGI (M. musculus) ZFIN (D. rerio) OMIM Other
MEV程序运行界面
工具栏
结果页面
导航栏
MEV可以读取的文件格式:
• • • • • • • MIDAS MEV, TAV 格式; 表格格式; GEO格式; Affymetrix格式; GPR格式; Agilent格式; 等等;
从“File->Load Data”导入数据:
选择格式
以表格文件为例: “select->Tab Delimited, Multiple Sample Files (TDMS) (*.*)”
芯片数据分析的一般流程: 1. 芯片杂交实验 ,芯片数据采集(读取扫描图) 2. 数据基本处理 3. 数据提交公共数据库 4. 数据生物信息学分析
பைடு நூலகம்
TIGR TM4:
A package of Open Source software programs for Microarray analysis
样本 mRNA
MEV文件:MEV格式的芯片数据
UID: IA: IB: R: C: MR: MC: SR: SC:
Unique identifier for this spot. Integrated intensity for channel 1 (Cy3). Integrated intensity for channel 2 (Cy5). Row (slide_row). Column (slide column). Meta-row (block row). Meta-column (block column). Sub-row (row in block). Sub-column (column in block).
•
低质量数据过滤方法
Flip-dye consistency checking Ratio Statistics confidence interval checking Invalid-intensity checking Cross-file-trim • Low intensity filter Spot QC flag checking Signal/Noise checking
GenMAPP: 一款将芯片数据和代谢途径结合起来的图形化显示工具
GenMAPP安装和更新
• 下载地址: http://www.genmapp.org/download.asp ; • 双击安装文件安装GenMAPP; • 打开GenMAPP程序,从菜单“Data->Download Data from GenMAPP.org”下载自己感兴趣物种的MAPP文件和 Gene Database。
标准化(normalizaton)
MA-plot。 Y轴为M=log(ratio);X轴为信号强度A=1/2log2(RG)。
区块间均一化处理
MIDAS程序界面
MIDAS 可选的数据处理方法
•
标准化处理方法
Total Intensity normalization LOWESS (Locfit) normalization Iterative linear regression normalization Iterative log mean centering normalization Ratio Statistics normalization Standard deviation regularization In-slide replicates analysis MA-ANOVA
MIDAS: 数据基本处理
下载地址是:http://www.tm4.org/midas.html。 此程序不用安装下载后解压就可以使用。(需要先安装Java) 进入文件夹,双击打开Midas.dat文件,会出现后台运行窗口和图形界面窗口。
低质量数据过滤 • 根据flag过滤 • 根据信号和背景值过滤
信号值
什么是区块(block)?
信号杂交的一些概念
背景
探针区域
饱和区域 非饱和区域
Flags in Mev file:
• • • • A – 0 non-saturated pixels in the spot B – 0-50 non-saturated pixels in the spot C – 50 or more non-saturated pixels in the spot X – spot is rejected, due to spot shape and intensity relative to background • Y – background is higher than spot intensity • Z – spot not detected by Spotfinder.
ExpressConverter的界面:
ExpressConverter使用方法:
1. 2. 3. 指定输入和输出的文件格式。 在“File->Select input files”选定一个或多个需要转换 的文件。 选择“File->Start converting”,格式就开始转化。
界面左下方显示“Converting is successful”后, 格式转 换完成。此时在原genepix存放的文件夹中会出现文件名 相同但后缀名不同的.mev和.ann的文件。
实习三 芯片的基本数据处理和分析
冯 晔
楼小燕 牟晓洲 孔建明 阮 陟
课程内容
实习一 实习二 实习三 实习四 实习五 实习六 基因组数据注释和功能分析 核苷酸序列分析 芯片的基本数据处理和分析 蛋白质结构与功能分析 蛋白质组学数据分析
基因组学 系统生物学
转录物组学
蛋白质组学
系统生物学软件实习
实习内容: • TIGR TM4 软件的介绍和使用 • GenMAPP软件的介绍和使用 • GEO数据库的介绍