第六讲 基因芯片数据质量
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
M-A散点图
M-A散点图反映了表达比率随强度的分布。 M-A图增加了空间的延展性,显示了差异表 达随强度的分布,并且更易观察到两种荧 光强度之间的一些非线性的特征。 还有其它很多数据图形显示方法,比如直 方图显示像素的信号分布,从中可以估计 背景的大小。
单个点的质量
质量低的信号分析可能会导致错误的结论。一般在分析的 时候,往往会先确定质量低的点,并滤除这些点,但这种 处理有时候会过于武断,因为一些低质量点也会蕴含有用 的信息,更好的方法是给高质量点以高的权重值,低质量 点以低的权重值,然后进行分析。 评估单个点质量的方法有两个方面。一方面是根据点的物 理特性,另一方面是看这个点的强度是否与在同一张芯片 上同样的基因或者是重复芯片上同样基因点的强度是否一 致,也就是看重复点的重复性来评估单个点的数据质量。 重复点信号值理论上是满足正态分布,利用所有的重复点 求出它们所满足的正态分布,假如某个信号点的信号值显 著偏离这个正态分布,那么这个信号点的数据质量可能不 是很好。
基于芯片的图像处理信号点的质量
一、信号点的大小和规则程度。一些 信号点直径太小或者形状不规则,和 圆相差太大,这些点通常认为质量不 是很好;二、信噪比。只有信噪比比 较高的信号点,数据的可信度才高; 三、信号点周围的背景强度。假如某 个信号点周围的背景远远大于其他信 号点周围的背景,那么这个信号点很 可能被污染了;四、信号点背景的均 一程度。只有背景均一程度高的信号 点,才是质量高的点;五、信号的饱 和程度。饱和像素过多的信号点的数 据的准确性是令人怀疑的。
成品质控 玻片上的cDNA固定浓度
荧光染料染色法。从各批次制备中抽取若干张 芯片在配制染料(SYTO 61 )中浸泡5分钟(室 温),依次用TE、H2O和无水乙醇洗涤。干燥后, 用扫描仪对芯片进行扫描,扫描波长为535 nm。 使用标记的寡核苷酸杂交。使用标记的寡核苷 酸与cDNA杂交可以反映cDNA探针的相对量。 组织的RNA杂交。这种方式完全与正式的实验 相同,因此能最为真实反映芯片的质量。
生产过程 PCR产物的质检
PCR的污染控制是一个很重要的环节,严格 遵守操作规程外。 质检PCR产物质量主要采用的方法是琼脂糖 凝胶电泳,一个合格的产物,要求电泳条 带是清晰的单带。条带的亮度代表了扩增 的量,如果是多条带或拖尾(smear),则 PCR产物的质量就达不到要求。 有条件的还可以对纯化后的每个PCR产物用 96孔的紫外分光光度计进行定量分析。
假阳性
重复实验能较好地降低假阳性率和假阴性率。 实际实验中,假阳性的产生很大程度是由于随机 误差引起,如杂质、背景等因素,但不完全是随 机的,如在双荧光系统中,Cy3和Cy5两种染料对 不同基因的掺入效率略有不同,会引入一部分的 假阳性,这部分差异并不是随机的,与基因序列 或信号强度都有一定的关系,因此如果重复实验 的标记方式相同,仍然可能有个别由于两种染料 的差异引起的假阳性基因,这些假阳性只能通过 染料互换(Dye Swapping)标记的重复实验加以 去除。只是染料的差异不大,因此,在很多研究 中往往时忽略的,并没有采用染料互换标记的策 略。
PCR扩增及纯化过程
以下几个原因影响了cDNA的质量:A.模板的质量 , 要得到仅可能好的质量和产量,最好是纯化的自 理做模板,模板不能有污染。B.PCR引物序列的特 异性,不同引物的PCR扩增的效率和特异性不同, 不好的引物常常会产生非特异性扩增,导致多带、 smear,甚至没有任何扩增产物出现。 纯化方法的不同,也会影响芯片的质量。沉淀法 由于离心力的不足,会导致回收率不稳定。树脂 纯化法成本比较高,而且纯化得率也不如沉淀法。
RNA抽提方法
RNA的质和量直接影响标记效率和实验的成 功率,可以说是导致芯片实验失败的最主 要的原因 不同的物种、不同的组织类型由于细胞成 分的不同导致RNA的纯度和得率有较大的差 异,有些甚至需要特殊的实验流程
RNA的标记过程
标记反应的过程中不同的mRNA其逆转录效 率会有所差异,从而导致误差。 标记过程中产生误差的主要因素有:(1) mRNA的固有性质与逆转录酶(2)逆转录引 物 (3)荧光染料 (4)标记后产物纯化
芯片平台实验数据的评估
要得到成功的数据依赖于稳定、成功的实验,得 到真实的荧光信号,很多因素会影响到所获得的 的荧光的质和量,如芯片质量、样本的质量和操 作过程、荧光染料的强度、扫描仪的敏感度等, 另外,图像处理和数据的提取的方法也会影响到 数据的质量。 要评价芯片数据是否可靠,往往首先从芯片图像 开始判断。 要评价芯片数据的好坏,重复实验是必不可少的, 目前不同实验室采用不同的方法利用重复实验的 数据进行评价,可以大致地归纳为两大类: 一是 筛选到的差异表达基因的可靠性,二是统计分析 系统的重复性。
第六讲
Affymetrix芯片数据
Illumina芯片数据
双通道芯片数据(ScanAlyze)
双通道芯片数据(GenePix)
生物问题
实验设计
失败
芯片实验
质量控制
图像处理
数据归一化
数据预处理
通过
数据分析 差异基因 假设检验 聚类分析 分类分析
生物学验证和解释
基因芯片数据质量
芯片图像的质量
B
散点图
应用散点图我们可以对 表达谱芯片的质量和操 作进行严格的监控。
将一份样本平均分成两份 进行自身校验实验,理论 上所有点的位臵都应在45 度对角线上,但考虑到系 统误差,散点的分布表现 一定的区域,分布区域越 小,系统越稳定,误差也 越小。
两条红色平行线表示系统本身误 差的阈值,红色平行线中间的点 表示没有表达差异。红色平行线 以外的区域则是偏离较大的点, 在自身比较中代表假阳性。
点样及点样后处理
点样仪的精密度和磨损程度影响芯片矩阵的齐整 度和点大小的均匀性,虽然理论上点的质量不影 响两种荧光的比值,但由于软件对不同质量的点 信号的提取和识别程度不同,所以会导致较大的 误差 点样针的清洗性能是否好,在两次取样之间需要 进行点样针的清洗,尤其对于裂缝针或空心针, 容易有残留液体,导致DNA探针的交叉污染 点样针磨损程度,和针堵塞的情况造成点的大小 和形状都不同 点样后处理包括,水合、交联、洗脱未结合的探 针、封闭等步骤,这个过程会影响到DNA固定在芯 片上的效率
边缘效应
位于芯片的边缘,信号明显比 其它地方弱。
芯片误差来源分析
基因芯片技术是一种半定量的分析手段,存在误 差而且很难克服。 芯片实验的误差来源可以归纳为两大方面:生物 学差异和实验系统误差。生物学上的差异是内在 的,受到遗传和环境因素的影响。实验系统误差 包括两大类:一类是芯片制作带来的误差,另一 类是样本检测过程的误差。 在芯片实验中要尽量降低生物学和实验的误差, 对于后期的数据分析是至关重要的。
A log 2 R * G
1 (log 2 R log 2 G ) 2
M — A散点图
在Cy5-Cy3散点图中, 用log2(R)表示横轴 Cy5,log2(G)表示纵 轴Cy3,虽然这个散 点图显示起来非常直 接,但由于在实验中 没有差异表达的基因 总是占绝大多数,所 以此时散点图会表现 出很大的线性,以至 于其它的一些特性难 以观察到。
原材料检测 探针
对于cDNA芯片,所获得的cDNA克隆必须是经过严 格测序的,而且克隆的保存也必须严格,以防止 污染。在使用之前以及PCR之后,还可以抽出5% 的克隆进行再测序,以判断克隆的位臵是否有错 乱,污染。 对于直接点样的寡核苷酸芯片,对供应商提供的 寡核苷酸质量也有较高的要求,主要体现在纯度 ﹑序列的正确性﹑浓度等方面,一般需要HPLC纯 化,并要求供应商提供质检结果。我们只能使用 分光光度计测得其浓度和质量状况。根据测得浓 度和体积计算出所给的探针总量。例如,260/280 应该大于1.6,以防止产品中有太多单核苷酸或者 太多引物合成不完全。
芯片图像:没有 杂质,例如太高 或者太低强度的 信号点,刮擦的 痕迹,背景太高 等等
整个图像比较均一,背景均一。
擦 痕
整体背景高
局部背景高
这个可能是杂交液的配制或者芯片本身的问题, 整体背景高的需要重新杂芯片。
信号强度不均一
好的双通道cDNA芯片
有水渍, 洗涤问题
保存不当,受潮
红色荧光背景高
如何减少误差
实验设计 — 重复。生物学重复,技术上重复 — 直接比较。使用正反标记或环式标记的方法来 平衡染料和样本的差异。 实验过程的质控 — 制备过程的原材料检测 — 生产过程 Fra Baidu bibliotek 成品质控 数据处理与矫正
原材料检测 基片
目前国内外还没有统一的基片质检方案,而且由 于基片表面的化学基团的稳定性较差导致保存时 间对其固定的效率影响很大,因此基片质量差异 很大。 好的基片主要体现在背景低﹑DNA的固定能力强﹑ 平整度高等方面,因此质检也主要考察这三方面 的参数。 质检时可以把它放在光亮处,仔细检查基片上是 否有划痕,污点。每批抽出一定比例的基片,直 接用标记有荧光染料的DNA探针点样、固定、洗脱, 通过比较洗脱前后的荧光信号变化测定基片的固 定率。
硬件
不同的扫描方式就会带来误差,即使使用 同一类但由不同公司生产的扫描仪,由于 硬件配臵和光路设计的不同,也会带来一 定的误差。 光漂白现象也会对芯片数据的质量带来一 定的误差。
软件
芯片数据的一个很主要的误差来源。 不同软件的数据提取方法,由于其核心算法不同, 同样的原始图片,最后得到的原始数据多少会有 些不同。 同一套软件而言,取点(信号)和背景的原理也 有好几种,得出的数据也有一定的偏差。 软件的质量会影响扫描图像定位的准确程度和数 据的精确性等重要参数,因此需要选择质量好的 图像处理软件。
自身比较实验
自身比较实验(Self-comparison experiment,SCE) 已成为评价芯片试验体系的一个重要的方式,它 是指实验组和对照组的RNA来自同一份样本,在 双色荧光标记系统中,两种荧光标记同一RNA, 从理论上讲,所有基因的信号比值应该为1,在散 点图上形成一条斜率为1的直线。
实验系统误差
基因芯片制备过程 ——克隆的准确性 —— PCR扩增及纯化过程 ——点样及点样后处理 样本的检测过程 —— RNA抽提方法 —— RNA的标记过程 —— 杂交过程 检测系统的误差 —— 硬件 —— 软件 —— 弱信号
克隆的准确性
目前cDNA克隆的来源主要是商业化公司提 供的克隆,商品化的克隆准确性仅为6585%, 其主要原因是由于含质粒的细菌培养 及质粒抽提过程中的污染造成,另外,克 隆重排过程人为的错误也是主要的错误来 源。
芯片数据的质量
芯片数据的质量包括两个方面:一个是整 张芯片的质量,另一个是芯片上各个点的 质量。评价数据的质量应当建立在这两方 面的基础上。 评价芯片的质量最简单的方法就是计算整 个芯片的信噪比。信噪比太低表示整个芯 片的背景太高,这张芯片的质量不是很好。 散点图
结果图示
一个最常用的图形是 散点图,用来表示在 cDNA芯片中两个组织 中基因表达量的比例 信息。 横坐标表示实验组织 Cy5标记的样点信号 强度对数值,纵坐标 表示参照组织Cy3标 记的样点信号强度对 数值。45度的对角线 就是基因表达稳定不 变区域。上调和下调。
杂交过程
杂交是个非常复杂的过程,它受到了各种 各样因素的影响,如杂交的时间、空间、 玻片的表面化学性质(亲水性、疏水性), cDNA在玻片表面上的分布和结构)、温度、 杂交液的配方和浓度等等,如果考虑到探 针和靶序列的长度、G+C含量、SNP(位点多 态性)对于杂交及非特异性杂交的影响,情 况会更复杂。
自身比较实验
衡量筛选到的差异表达基因的可靠性
自身比较实验
因为自身比较实验理论上不存在差异表达基因 (真阳性),但实际上会检测到少量基因的实验 组/对照组比值超过阈值,这些即为假阳性基因 。 由于芯片上所有的基因都应该为阴性基因,因此 这时假阳性率为假阳性基因数占芯片上基因总数 的百分率。 但阈值是人为设定的主观标准,建立在阈值的基 础上来判断假阳性存在很大的主观性。另外,假 阴性及假阴性率更无法通过任何实验加以测定。 在特定的阈值下,假阳性率的大小可以反映出芯 片系统的误差情况,假阳性率高,则芯片数据误 差大,反之,则误差小。因此,假阳性率可以作 为一个芯片平台的重要质量指标。假阳性率越低, 芯片平台的可靠性越高。