芯片数据预处理方法-19页PPT

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
获取探针水平的数据是芯片数据处理的第一步,然后需要对其进行预处理( pre-processing),以获得基因表达数据(gene expression data)。基因表达数据 是芯片数据处理的基础。
基因芯片探针水平数据处理的R软件包有affy, affyPLM, affycomp, gcrma等。
背景处理之后,我们可以将芯片数据放入一个矩阵中:
m11
M
=
m21
M mG1
m12 L m22 L M mG2 L
m1N
m2 N
M
mGN
其中,各字母的意义如下:
N:条件数; G:基因数目(一般情况下,G>>N); 行向量mi=(mi1,mi2,…,miN)表示基因i在N个条件下的表达水平(这里 指绝对表达水平,亦即荧光强度值);
聚类和分析
1 探针水平数据(probe-level data)的获得
提取生物样品的mRNA并反转录成cDNA,同时用荧光素或同位素标记。在液 相中与基因芯片上的探针杂交,经洗膜后用图像扫描仪捕获芯片上的荧光或同位 素信号,由此获得的图像就是基因芯片的原始数据(raw data),也叫探针水平 数据。
列向量mj=(m1j,m2j,…,mGj)表示在第j个条件下各基因的表达水平 (即一张芯片的数据);
元素mij表示第基因i在第j个条件下(绝对)基因表达数据。m可以 是R(红色,Cy5,代表样品组)。也可以是G(绿色,Cy3,代表对照 组)。
2.2 数据清洗(data cleaning)
经过背景校正后的芯片数据中可能会产生负值,还有一些单个异常 大(或小)的峰(谷)信号(随机噪声)。对于负值和噪声信号,通常 的处理方法就是将其去除,常见数据经验型舍弃方法有:标准值或奇异 值舍弃法;变异系数法;前景值<200;前景值-平均数/前景值-中位数< 80%等等。然而,数据的缺失对后续的统计分析(尤其是层式聚类和主 成分分析)有致命的影响。Affy公司的芯片分析系统会直接将负值修正 为一个固定值。
基因芯片的实验流程(双通道)
单通道/双通道基因芯片实例
基因芯片数据分析:对从基因芯片高密度杂交点阵图中提取 的杂交点荧光信号进行定量分析,通过有效数据筛选和相关基因 表达谱聚类,发现基因的表达谱和功能之间的联系。
杂交完成后,要对基因芯片进行“读片”,即应用激光共聚焦荧光扫 描显微镜,对基因芯片表面的每个位点进行检测。
2.4 归一化
经过背景处理和数据清洗处理后的修正值反映了基因表达的水平。然而 在芯片试验中,各个芯片的绝对光密度值是不一样的,在比较各个试验结果 之前必需将其归一化(normalization,也称作标准化)。
数据的归一化目的是调整由于基因芯片技术引起的误差,不是调整生物 RNA 样本的差异。在同一块芯片上杂交的、由不同荧光分子标记的两个样品 间的数据,也需归一化。常用的标准化方法有“看家基因法”、基于总光密 度的方法、回归方法、比率统计法等。
对数据的删除,通常是删去所在的列向量或行向量。一个比较常用 的做法是,事先定义个阈值M。若行(列)向量中的缺失数据量达到阈 值M,则删去该向量。若未达到M,有两种方法处理,一是以0或者用基 因表达谱中的平均值或中值代替,另一个是分析基因表达谱的模式,从
2.3 提取表达值
由于芯片数据的小样本和大变量 的特点,导致数据分布呈偏态、标准 差大。对数转换能使上调、下调的基 因连续分布在0的周围,更加符合正态 分布,同时对数转换使荧光信号强度
基因芯片(gene chip),又称DNA微阵列(micΒιβλιοθήκη Baiduoarray),是 由大量DNA或寡核苷酸探针密集排列所形成的探针阵列,其工作的基 本原理是通过碱基互补配对检测生物信息。
基因芯片制备 样品制备mRNA提取等
杂交反应
信号检测与分析
实验要求:单通道—— 一张芯片检验一种状态 ; 双通道——差异表达基 因的筛选 储存的生物信息:寡核 苷酸芯片(常为单通 道)、cDNA芯片(常为 双通道)
在样品中呈高表达的基因其杂交点呈红色,相反,在对照组中高表达的基 因其杂交点呈绿色,在两组中表达水平相当的显黄色, 这些信号就代表了样品中基因的转录表达情况。
数据预处理分析流程:算 法
(以cDNA芯片为例)
探针水平数据获得(计算机扫描图像)
数据预处理:背景处理、数据清洗、提取表达值、标准化、汇总
获取基因表达数据:判断差异基因表达
探针 荧光值

基因 表达值
计算机“读片”机理
将样品中的DNA/RNA标上荧光标记,则可 以定量检验基因的表达水平。
cDNA芯片、载有较长片段的寡核苷酸芯片采用双色荧光系统:目前常用 Cy3一dUTP(绿色)标记对照组mRNA,Cy5一dUTP(红色)标记样品组 mRNA
用不同波长的荧光扫描芯片,将扫描所得每一点荧光信号值自动输入计算 机并进行信息处理,给出每个点在不同波长下的荧光强度值及其比值,同时 计算机还给出直观的显色图。
比率统计法
此方法用于标准化同一块芯片上杂交的两种样品,并且建立于以下的假 设之上:在近似的两个样品中,虽然基因有上调和下调,但一些基本的基因 (如管家基因)的表达量是近似相同的。由此得出一个近似概率密度公式: 比率T =R /G(R 和G分别是芯片上第K个点的红光和绿光的强度),经过迭代
常用的方法是平均数、中位数标准化(mean or median normalization): 将各组实验的数据的log ratio 中位数或平均数调整在同一水平。中位数标 准化:将每个芯片上的数值减去各自芯片上log Ratio值的中位数,使得 所有芯片的log Ratio值中位数就变成了0,从而不同芯片间logRaito具有可 比性。
2 预处理 2.1 背景(background)处理
背景处理即过滤芯片杂交信号中属于非特异性的背景噪音部分。一 般以图像处理软件对芯片划格后,每个杂交点周围区域各像素吸光度的 平均值作为背景,但此法存在芯片不同区域背景扣减不均匀的缺点。也 可利用芯片最低信号强度的点(代表非特异性的样本与探针结合值)或 综合整个芯片非杂交点背景所得的平均吸光值做为背景。
相关文档
最新文档