基因芯片分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
时间T 基因表达情况 原始的比值 数据 Log2对数Hale Waihona Puke Baidu 换
0
1 2 3
基因的标准表 达
相对标准表达 无改变 两倍上调表达 两倍下调表达
1.0
1.0 2.0 0.5
0.0
0.0 1.0 -1.0
Biological Sample Functional Information
One Disease——One Gene Expression Pattern
• Clinical Diagnostic Use.
Prototype AmpliOnc™ I Biochip
This biochip contains all genomic regions that have been reported to be amplified in cancers.
杂交探针组
ACGTTAGA
—TATGCAATCTAG
CGTTAGAT GTTAGATC
ATACGTTAGATC
重组的互补序列
TATGCAATCTAG
靶序列
计算Ratio 值 (= Cy3/Cy5)
在 0.5-2.0 之外的定义为在两样本中有明显 差异表达。进而获取初步功能信息 • Research Use.
前面提及的标 准化方法仅效 正了数据分布 的中心,在不 同的栅格间 log-Ratios 的 方差也不同。
log 2(Ti ' ) log 2(Ti) mean a
log 2(Ti' ) log 2(Ti ) median a
R Ti G
(脚标a 为每组实验数据)
R脚本 channel.medians=apply(log(x),2,median) normalized.log.x=sweep(log(x),2,channel.medians)
下表是整理后数据的一部分
一、基因芯片数据提取与过滤
(一) cDNA微阵列芯片
Ratio (CH1I CH1B) /(CH 2I CH 2B)
(二) Affymetrix公司的原位合成芯片
定性信息提取:P/A/M(Present/Absent/Marginal) 定量信息提取:基于探针集汇总后的基因水平的荧光信号强度值
• 预处理
– 对数转换 目的:使数据服从正态分布
• 预处理
– 数据过滤 去除表达水平是负值或很小的数据或者明显的噪声数据 波动筛选:去掉一成不变的基因,要求在一定的变化范 围内波动 – 标准化 片内标准化:去除系统误差 片间标准化:在不同列之间的标准化,使每列在同一量 纲上比较
网格定位结果
数据过滤
一张玻片上,并行检测拟南芥45个基因的表达情况,这是第一次结合了高 精度机械手点样系统、荧光标记技术、双通道荧光扫描技术和数据分析软 件,是第一次真正意义上的用DNA芯片技术进行基因表达分析的应用。
部分基因组被测序的微生物全基因的DNA芯片问世,如:酿酒酵母,
大肠杆菌。 人类、大鼠和小鼠的全基因组芯片。
差异表达分析
(Analysis of Differentially Expression Gene )
一、倍数法
实验条件下的表达值
xI f xc
对照条件下的表达值
通常以2倍差异为阈值,判断基因是否差异表达
[mRNA] ~ Cy5/Cy3 = r 5_ down-regulation repression
3 1 2 4 5
6
7
8
9
10
11
12
JUNB HER2 AKT2 PDGFB 20q13 AR
YES1
FES AKT1
16
19
17 18
20
21
22
Y X
13
14
15
cDNA microarray expression patterns
of small (S) and large (L) neurons
2、K近邻法
选择与具有缺失值基因的k个邻居 基因 用邻居基因的加权平均估计缺失值
参数:
邻居个数 距离函数
3、回归法
三、数据标准化
(一)为什么要进行数据标准化
存在不同来源的系统误差 1. 染料物理特性差异(热和光敏感性,半衰期等) 2. 染料连接效能 3. 点样针差异 4. 数据收集过程中扫描设施 5. 不同芯片差异 6. 实验条件差异
• 线性标化法(Linear scaling methods) 与芯片内标化的尺度调整(Scale adjustment) 方法类似 • 非线性标化法(non-linear methods) • 分位数标化法(Quantile normalization)
3、染色互换实验(dye-swap experiment ) 的标化
Data after Median Centering and Scale Normalizing
Log Mean Signal (centered and scaled)
medians=apply(X,2,median) Y=sweep(X,2,medians) mad=apply(abs(Y),2,median) const=prod(mad)^(1/length(mad)) scale.normalized.X=t(t(X)*(const/mad))
低 表达水平 高 上调 M = Log Red - Log Green
调 控 方 向
下调
A = (Log Green + Log Red) / 2
(三) cDNA芯片数据标准化处理
1、片内标化(Within-slide normalization) 全局标化(Global normalization)
1、简单补缺法
missing values = 0 expression missing values = 1 expression (arbitrary signal) missing values = row (gene) average missing values = column (array) average
基因芯片 发展过程
Southern & Northern Blot
Dot Blot
Macroarray
Microarray
hybridization sample
target
probe
label
Data analysis
image
5
原理 -- 通过杂交检测信息
一组寡核苷酸探针 TACGTTAG ATACGTTA 由杂交位臵确定的一组 核酸探针序列 ATACGTTA TACGTTAG ACGTTAGA CGTTAGAT GTTAGATC
基因组表达
芯片数据分析
• 转录本主要包括mRNA,small RNA,noncoding RNA
生物芯片的概念是Fodor等人于1991年提出(Fodor
1991, Science)。
et al.,
在90年代初期,利用光原位合成的原理,在基质上固定高密度的寡核苷
酸的DNA测序芯片。
1995年Schena (Science, 1995)等人,把拟南芥的45个基因固定在
数据过滤的目的是去除表达水平是负值或很小的 数据、或者明显的噪声数据。 过闪耀现象 物理因素导致的信号污染 杂交效能低 点样问题 其它
• • • • •
二、数据补缺
(一)数据缺失类型
• 非随机缺失 基因表达丰度过高或过低 • 随机缺失 与基因表达丰度无关,数据 补缺主要针对随机缺失情况
(二)数据补缺方法
1 0
_
up-regulation induction
Start of experiment
time / h
combine them in the log (base 2) ratio
Log2( Red intensity / Green intensity) • Ratio= log2 (R/G)
mRNA enriched in large DRG neurons
mRNA enriched in small DRG neurons
放射性原位杂交验证结果
基因芯片的数据解读和分析
1. 芯片图像的处理。 2. 芯片杂交后获得的数据与芯片的基 因信息的连接。 3. 芯片数据的预处理及数据的可视化。 4. 数据处理和分析的算法。
Scale Normalization
• 在进行片内标准化时,不同grid中的基因强 度的分布不一致,亦即基因强度值的离散 程度不同,这是由系统误差带来的。所以 理想状态下希望它们的离散程度是一致的。 同理对于双色channel的情况在理想状态下 基因在两个染色channel中的离散程度也应 该是一致的。因此对于双色芯片数据的尺 度标准化结果就是基因在两个channel中的 中值一致,同时基因染色强度在两种 channel中的离散程度一致。
从图中可以看出由于染 色的红光强度比绿光强 度大,因此数值的整体 分布趋势是偏离那条斜 线的。这是由于红光和 绿光的感应强度不同产 生的偏差。因此希望基 因的红光强度与绿光强 度是一致的。所以所有 数值点的总体分布趋势 应该和图中斜线是相吻 合的。这样通过标准化 后所有数值点的拟合曲 线应该下移至斜线位置。
假设: R=k*G 方法:
C=log2k:中值或均值
芯片内数据标准化的常用方法是局部加权回归分析:Lowess (LocallyWeighted Linear Regression) normalization 。
Lowess 回归分析是一种非参数回归方法,也称为平滑方法,在计算两个变量的 关系时采用开放式算法,不套用现成的函数公式,所拟合的曲线可以很好的描 述变量之间关系的细微的变化。
AmpliOncTM I Biochip after hybridization; color composite of red, blue and green image
Oncogene Targets On the AmpliOnc™ I Biochip
FGR MYCL1 NMYC RAF1 HRAS1 EGFR1 REL PDGFRA CND1 INT2 MYB PIK3CA MET MYC ABL FGFR2 FGFR1 KRAS2 WNT1 GLI MDM2 CDK4
芯片1 芯片2 实验组 cy5(R) cy3(G) 对照组 cy3(G’) cy5(R’)
• 前提假设:c︽c’ • 方法:
log2 ( R / G)
log2 RG
M = log2R - log2G A = (log2R + log2G)/2
maximum Slide 1 Cy3 Cy5 Slide 2 Cy3 Cy5 Q3=75th percentile median Q1=25th percentile minimum
2、片间标化(Multiple-slide normalization) • 平均数、中位数标准化 (mean or median normalization) • 尺度调整的标准化 ( Scale Normalization) • 分位数标准化 (Quantile Normalization) 两张芯片的表达数据的分位数标化至相同,即分布于 对角线上。
lowess in R out=lowess(x,y,f=0.4) plot(x,y) lines(out$x,out$y,col=2,lwd=2
out$x will be a vector containing the x values. out$y will contain the lowess fitted values for the values in out$x. f controls the fraction of the data used to obtain each fitted value. f = 0.4 has been recommended for microarray data normalization.
(二)运用哪些基因进行标准化处理
• 芯片上大部分基因(假设芯片上大部分基因在不同 条件下表达量相同) • 不同条件间稳定表达的基因(如持家基因) • 控制序列(spiked control ) 合成DNA序列或外源的DNA序列,在不同条件下表 达水平相同。
以M (log ratio 表达量)为纵坐标,A(log intensity 表达量)为横坐 标做出数据的散点分布图。
0
1 2 3
基因的标准表 达
相对标准表达 无改变 两倍上调表达 两倍下调表达
1.0
1.0 2.0 0.5
0.0
0.0 1.0 -1.0
Biological Sample Functional Information
One Disease——One Gene Expression Pattern
• Clinical Diagnostic Use.
Prototype AmpliOnc™ I Biochip
This biochip contains all genomic regions that have been reported to be amplified in cancers.
杂交探针组
ACGTTAGA
—TATGCAATCTAG
CGTTAGAT GTTAGATC
ATACGTTAGATC
重组的互补序列
TATGCAATCTAG
靶序列
计算Ratio 值 (= Cy3/Cy5)
在 0.5-2.0 之外的定义为在两样本中有明显 差异表达。进而获取初步功能信息 • Research Use.
前面提及的标 准化方法仅效 正了数据分布 的中心,在不 同的栅格间 log-Ratios 的 方差也不同。
log 2(Ti ' ) log 2(Ti) mean a
log 2(Ti' ) log 2(Ti ) median a
R Ti G
(脚标a 为每组实验数据)
R脚本 channel.medians=apply(log(x),2,median) normalized.log.x=sweep(log(x),2,channel.medians)
下表是整理后数据的一部分
一、基因芯片数据提取与过滤
(一) cDNA微阵列芯片
Ratio (CH1I CH1B) /(CH 2I CH 2B)
(二) Affymetrix公司的原位合成芯片
定性信息提取:P/A/M(Present/Absent/Marginal) 定量信息提取:基于探针集汇总后的基因水平的荧光信号强度值
• 预处理
– 对数转换 目的:使数据服从正态分布
• 预处理
– 数据过滤 去除表达水平是负值或很小的数据或者明显的噪声数据 波动筛选:去掉一成不变的基因,要求在一定的变化范 围内波动 – 标准化 片内标准化:去除系统误差 片间标准化:在不同列之间的标准化,使每列在同一量 纲上比较
网格定位结果
数据过滤
一张玻片上,并行检测拟南芥45个基因的表达情况,这是第一次结合了高 精度机械手点样系统、荧光标记技术、双通道荧光扫描技术和数据分析软 件,是第一次真正意义上的用DNA芯片技术进行基因表达分析的应用。
部分基因组被测序的微生物全基因的DNA芯片问世,如:酿酒酵母,
大肠杆菌。 人类、大鼠和小鼠的全基因组芯片。
差异表达分析
(Analysis of Differentially Expression Gene )
一、倍数法
实验条件下的表达值
xI f xc
对照条件下的表达值
通常以2倍差异为阈值,判断基因是否差异表达
[mRNA] ~ Cy5/Cy3 = r 5_ down-regulation repression
3 1 2 4 5
6
7
8
9
10
11
12
JUNB HER2 AKT2 PDGFB 20q13 AR
YES1
FES AKT1
16
19
17 18
20
21
22
Y X
13
14
15
cDNA microarray expression patterns
of small (S) and large (L) neurons
2、K近邻法
选择与具有缺失值基因的k个邻居 基因 用邻居基因的加权平均估计缺失值
参数:
邻居个数 距离函数
3、回归法
三、数据标准化
(一)为什么要进行数据标准化
存在不同来源的系统误差 1. 染料物理特性差异(热和光敏感性,半衰期等) 2. 染料连接效能 3. 点样针差异 4. 数据收集过程中扫描设施 5. 不同芯片差异 6. 实验条件差异
• 线性标化法(Linear scaling methods) 与芯片内标化的尺度调整(Scale adjustment) 方法类似 • 非线性标化法(non-linear methods) • 分位数标化法(Quantile normalization)
3、染色互换实验(dye-swap experiment ) 的标化
Data after Median Centering and Scale Normalizing
Log Mean Signal (centered and scaled)
medians=apply(X,2,median) Y=sweep(X,2,medians) mad=apply(abs(Y),2,median) const=prod(mad)^(1/length(mad)) scale.normalized.X=t(t(X)*(const/mad))
低 表达水平 高 上调 M = Log Red - Log Green
调 控 方 向
下调
A = (Log Green + Log Red) / 2
(三) cDNA芯片数据标准化处理
1、片内标化(Within-slide normalization) 全局标化(Global normalization)
1、简单补缺法
missing values = 0 expression missing values = 1 expression (arbitrary signal) missing values = row (gene) average missing values = column (array) average
基因芯片 发展过程
Southern & Northern Blot
Dot Blot
Macroarray
Microarray
hybridization sample
target
probe
label
Data analysis
image
5
原理 -- 通过杂交检测信息
一组寡核苷酸探针 TACGTTAG ATACGTTA 由杂交位臵确定的一组 核酸探针序列 ATACGTTA TACGTTAG ACGTTAGA CGTTAGAT GTTAGATC
基因组表达
芯片数据分析
• 转录本主要包括mRNA,small RNA,noncoding RNA
生物芯片的概念是Fodor等人于1991年提出(Fodor
1991, Science)。
et al.,
在90年代初期,利用光原位合成的原理,在基质上固定高密度的寡核苷
酸的DNA测序芯片。
1995年Schena (Science, 1995)等人,把拟南芥的45个基因固定在
数据过滤的目的是去除表达水平是负值或很小的 数据、或者明显的噪声数据。 过闪耀现象 物理因素导致的信号污染 杂交效能低 点样问题 其它
• • • • •
二、数据补缺
(一)数据缺失类型
• 非随机缺失 基因表达丰度过高或过低 • 随机缺失 与基因表达丰度无关,数据 补缺主要针对随机缺失情况
(二)数据补缺方法
1 0
_
up-regulation induction
Start of experiment
time / h
combine them in the log (base 2) ratio
Log2( Red intensity / Green intensity) • Ratio= log2 (R/G)
mRNA enriched in large DRG neurons
mRNA enriched in small DRG neurons
放射性原位杂交验证结果
基因芯片的数据解读和分析
1. 芯片图像的处理。 2. 芯片杂交后获得的数据与芯片的基 因信息的连接。 3. 芯片数据的预处理及数据的可视化。 4. 数据处理和分析的算法。
Scale Normalization
• 在进行片内标准化时,不同grid中的基因强 度的分布不一致,亦即基因强度值的离散 程度不同,这是由系统误差带来的。所以 理想状态下希望它们的离散程度是一致的。 同理对于双色channel的情况在理想状态下 基因在两个染色channel中的离散程度也应 该是一致的。因此对于双色芯片数据的尺 度标准化结果就是基因在两个channel中的 中值一致,同时基因染色强度在两种 channel中的离散程度一致。
从图中可以看出由于染 色的红光强度比绿光强 度大,因此数值的整体 分布趋势是偏离那条斜 线的。这是由于红光和 绿光的感应强度不同产 生的偏差。因此希望基 因的红光强度与绿光强 度是一致的。所以所有 数值点的总体分布趋势 应该和图中斜线是相吻 合的。这样通过标准化 后所有数值点的拟合曲 线应该下移至斜线位置。
假设: R=k*G 方法:
C=log2k:中值或均值
芯片内数据标准化的常用方法是局部加权回归分析:Lowess (LocallyWeighted Linear Regression) normalization 。
Lowess 回归分析是一种非参数回归方法,也称为平滑方法,在计算两个变量的 关系时采用开放式算法,不套用现成的函数公式,所拟合的曲线可以很好的描 述变量之间关系的细微的变化。
AmpliOncTM I Biochip after hybridization; color composite of red, blue and green image
Oncogene Targets On the AmpliOnc™ I Biochip
FGR MYCL1 NMYC RAF1 HRAS1 EGFR1 REL PDGFRA CND1 INT2 MYB PIK3CA MET MYC ABL FGFR2 FGFR1 KRAS2 WNT1 GLI MDM2 CDK4
芯片1 芯片2 实验组 cy5(R) cy3(G) 对照组 cy3(G’) cy5(R’)
• 前提假设:c︽c’ • 方法:
log2 ( R / G)
log2 RG
M = log2R - log2G A = (log2R + log2G)/2
maximum Slide 1 Cy3 Cy5 Slide 2 Cy3 Cy5 Q3=75th percentile median Q1=25th percentile minimum
2、片间标化(Multiple-slide normalization) • 平均数、中位数标准化 (mean or median normalization) • 尺度调整的标准化 ( Scale Normalization) • 分位数标准化 (Quantile Normalization) 两张芯片的表达数据的分位数标化至相同,即分布于 对角线上。
lowess in R out=lowess(x,y,f=0.4) plot(x,y) lines(out$x,out$y,col=2,lwd=2
out$x will be a vector containing the x values. out$y will contain the lowess fitted values for the values in out$x. f controls the fraction of the data used to obtain each fitted value. f = 0.4 has been recommended for microarray data normalization.
(二)运用哪些基因进行标准化处理
• 芯片上大部分基因(假设芯片上大部分基因在不同 条件下表达量相同) • 不同条件间稳定表达的基因(如持家基因) • 控制序列(spiked control ) 合成DNA序列或外源的DNA序列,在不同条件下表 达水平相同。
以M (log ratio 表达量)为纵坐标,A(log intensity 表达量)为横坐 标做出数据的散点分布图。