基因表达谱芯片数据分析及其Bioconductor实现
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基因表达谱芯片数据分析及其Bioconductor实现
1.表达谱芯片及其应用
表达谱DNA芯片(DNA microarrays for gene expression profiles)是指将大量DNA片段或寡核苷酸固定在玻璃、硅、塑料等硬质载体上制备成基因芯片,待测样品中的mRNA被提取后,通过逆转录获得cDNA,并在此过程中标记荧光,然后与包含上千个基因的DNA芯片进行杂交反应30min~20h后,将芯片上未发生结合反应的片段洗去,再对玻片进行激光共聚焦扫描,测定芯片上个点的荧光强度,从而推算出待测样品中各种基因的表达水平。用于研究基因表达的芯片可以有两种:①cDNA芯片;②寡核苷酸芯片。
cDNA芯片技术及载有较长片段的寡核苷酸芯片采用双色荧光系统:目前常用Cy3一dUTP(绿色)标记对照组mRNA,Cy5一dUTP(红色)标记样品组mRNA[1]。用不同波长的荧光扫描芯片,将扫描所得每一点荧光信号值自动输入计算机并进行信息处理,给出每个点在不同波长下的荧光强度值及其比值(ratio值),同时计算机还给出直观的显色图。在样品中呈高表达的基因其杂交点呈红色,相反,在对照组中高表达的基因其杂交点呈绿色,在两组中表达水平相当的显黄色,这些信号就代表了样品中基因的转录表达情况[2]。
基因芯片因具有高效率,高通量、高精度以及能平行对照研究等特点,被迅速应用于动、植物和人类基因的研究领域,如病原微生物毒力相关基因的。基因表达谱可直接检测mRNA的种类及丰度,可以同时分析上万个基因的表达变化,来揭示基因之间表达变化的相互关系。表达谱芯片可用于研究:①同一个体在同一时间里,不同基因的表达差异。芯片上固定的已知序列的cDNA或寡聚核苷酸最多可以达到30 000多个序列,与人类全基因组基因数相当,所以基因芯片一次反应几乎就能够分析整个人的基因[3]。②同一个体在不同时间里,相同基因的表达差异。③不同个体的相同基因表达上的差异。利用基因芯片可以分析多个样本,同时筛选不同样本(如肿瘤组织、癌前病变和正常组织)之间差异表达的基因,这样可以避免了芯片间的变异造成的误差[4]。张辛燕[5]等将512个人癌基因和抑癌基因的cDNA用点样仪点在特制玻片上制成表达谱芯片,对正常人卵巢组织及卵巢癌组织基因表达的差异性进行比较研究,结果发现在卵巢癌组织中下调的基因有23个,上调的基因有15个,初步筛选出了卵巢癌相关基因。Lowe[6]等利用胰腺癌、问充质细胞癌等组织的cDNA制备基因芯片,筛选到胰腺癌细胞中高表达的基因,为医疗诊断、病理研究及新药设计
奠定基础。
2. 表达谱芯片的数据处理技术
2.1 探针水平数据(probe-level data )的获得
提取生物样品的mRNA 并反转录成cDNA ,同时用荧光素或同位素标记。在液相中与基因芯片上的探针杂交,经洗膜后用图像扫描仪捕获芯片上的荧光或同位素信号[7],由此获得的图像就是基因芯片的原始数据(raw data ),也叫探针水平数据。获取探针水平的数据是芯片数据处理的第一步,然后需要对其进行预处理(pre-processing ),以获得基因表达数据(gene expression data )。基因表达数据是芯片数据处理的基础。
2.2 预处理
2.2.1 背景(background )处理
背景处理即过滤芯片杂交信号中属于非特异性的背景噪音部分。一般以图像处理软件对芯片划格后,每个杂交点周围区域各像素吸光度的平均值作为背景。但此法存在芯片不同区域背景扣减不均匀的缺点,同时会使1%~5%[7]的点产生无意义的负值。也可利用芯片最低信号强度的点(代表非特异性的样本与探针结合值)或综合整个芯片非杂交点背景所得的平均值做为背景[8] 。Brown [8]等提出利用整个芯片杂交点外的平均吸光度值作为背景的best-fit 方法,使该问题得到较好的解决,并有效地提高了处理数据的质量。
背景处理之后,我们可以将芯片数据放入一个矩阵中:
M = 其中,各字母的意义如下:
N :条件数;
G :基因数目(一般情况下,G>>N );
行向量m i =(m i1,m i2,…,m iN )表示基因i 在N 个条件下的表达水平(这里指绝对表达水平,亦即荧光强度值);
列向量mj=(m 1j ,m 2j ,…,m Gj )表示在第j 个条件下各基因的表达水平(即一张芯片的数据);
元素m ij 表示第基因i 在第j 个条件下(绝对)基因表达数据。m 可以是R (红色,Cy5,代表样品组)。也可以是G (绿色,Cy3,代表对照组)。
2.2.2 数据清洗(data cleaning )
11121221
2212N N G G GN m m m m m m m m m ⎛⎫ ⎪ ⎪ ⎪ ⎪⎝⎭
经过背景校正后的芯片数据中可能会产生负值,显然负值是没有生物学意义的。数据集中还可能包括一些单个异常大(或小)的峰(谷)信号,它们被认为是随机噪声。另外,对于负值和噪声信号,通常的处理方法就是将其去除。然而,数据的缺失(除了上述原因会造成数据缺失以外,扫描的过程中也可能会产生缺失)对后续的统计分析(尤其是层式聚类和主成分分析)有致命的影响。所以对数据的删除,通常是删去所在的列向量或行向量。一个比较常用的做法是,事先定义个阈值M。若行(列)向量中的缺失数据量达到阈值M,则删去该向量。若未达到M,有两种方法处理,一是以0或者用基因表达谱中的平均值或中值代替,另一个是分析基因表达谱的模式,从中得到相邻数据点之间的关系,据此利用相邻数据点估算得到缺失值(类似于插值)。
2.2.3 归一化(normalization)
经过背景处理和数据清洗处理后的修正值反映了基因表达的水平[9]。然而在芯片试验中,各个芯片的绝对光密度值是不一样的,在比较各个试验结果之前必需将其归一化(normalization,也称作标准化)。在同一块芯片上杂交的、由不同荧光分子标记的两个样品间的数据,也需归一化。常用的标准化方法有“看家基因法”、基于总光密度的方法、回归方法、比率统计法[10]等。
⑴―看家基因(house-keeping gene)‖法
此法最为常用,可以用于几张芯片的数据归一化。它预先选择一组表达水平不变的看家基因,计算出这组基因平均ratio值为1时标准化系数,然后将其应用于全部的数据以达到归一化的目的。但是目前尚未找到理想的看家基因[11],另外此前有研究表明,所谓―看家基因‖在不同实验条件下其表达水平同样发生变化[12]。
⑵基于总光密度的方法[13]
此方法用于标准化同一块芯片上杂交的两种样品,它假设两批待标记的mRNA的量相同;相对于对照组样品,实验组的表达应既有上调也有下调。而且,扫描所得的所有Cy5和Cy3荧光分子的光密度值是相同的。据此计算出一个标准化系数,用以重新计算芯片上每个基因的光密度。
⑶回归的方法[13]
此方法用于标准化同一块芯片上杂交的两种样品。如果mRNA来自紧密相关的样品,那么大部分基因的表达水平是相近的。这样,在以Cy5和Cy3为坐标的散点图上,这些基因应呈一直线。如果两批样品的标记和检测效率相同,则直线的斜率也是惟一的。那么,标准化这些数据就等同于用回归的方法计算其最适斜率。但在实际试验中,光密度值常为非线性,此时应该使用局部回归方法,如LOWESS(1ocally weighted scatterplot smoothing)回归法。