第六章 芯片的数据分析
基因芯片的数据分析
基因表达谱芯片的数据分析基因芯片数据分析就是对从基因芯片高密度杂交点阵图中提取的杂交点荧光强度信号进行的定量分析,通过有效数据的筛选和相关基因表达谱的聚类,最终整合杂交点的生物学信息,发现基因的表达谱与功能可能存在的联系。
然而每次实验都产生海量数据,如何解读芯片上成千上万个基因点的杂交信息,将无机的信息数据与有机的生命活动联系起来,阐释生命特征和规律以及基因的功能,是生物信息学研究的重要课题[1]。
基因芯片的数据分析方法从机器学习的角度可分为监督分析和非监督分析,假如分类还没有形成,非监督分析和聚类方法是恰当的分析方法;假如分类已经存在,则监督分析和判别方法就比非监督分析和聚类方法更有效率。
根据研究目的的不同[2,3],我们对基因芯片数据分析方法分类如下。
(1)差异基因表达分析:基因芯片可用于监测基因在不同组织样品中的表达差异,例如在正常细胞和肿瘤细胞中;(2)聚类分析:分析基因或样本之间的相互关系,使用的统计方法主要是聚类分析;(3)判别分析:以某些在不同样品中表达差异显著的基因作为模版,通过判别分析就可建立有效的疾病诊断方法。
1 差异基因表达分析(difference expression, DE)对于使用参照实验设计进行的重复实验,可以对2样本的基因表达数据进行差异基因表达分析,具体方法包括倍数分析、t检验、方差分析等。
1.1倍数变化(fold change, FC)倍数分析是最早应用于基因芯片数据分析的方法[4],该方法是通过对基因芯片的ratio值从大到小排序,ratio 是cy3/cy5的比值,又称R/G值。
一般0.5-2.0范围内的基因不存在显著表达差异,该范围之外则认为基因的表达出现显著改变。
由于实验条件的不同,此阈值范围会根据可信区间应有所调整[5,6]。
处理后得到的信息再根据不同要求以各种形式输出,如柱形图、饼形图、点图等。
该方法的优点是需要的芯片少,节约研究成本;缺点是结论过于简单,很难发现更高层次功能的线索;除了有非常显著的倍数变化的基因外,其它变化小的基因的可靠性就值得怀疑了;这种方法对于预实验或实验初筛是可行的[7]。
聚类分析-基因芯片ppt课件
§6.4 动态聚类法
❖ 动态聚类法的基本思想是,选择一批凝聚点或给出 一个初始的分类,让样品按某种原则向凝聚点凝聚, 对凝聚点进行不断的修改或迭代,直至分类比较合 理或迭代稳定为止。类的个数k可以事先指定,也可 以在聚类过程中确定。选择初始凝聚点(或给出初始 分类)的一种简单方法是采用随机抽选(或随机分割) 样品的方法。
❖ 聚类分析根据分类对象不同分为Q型和R型聚类分析。
§6.2 距离和相似系数
❖ 相似性度量:距离和相似系数。 ❖ 距离常用来度量样品之间的相似性,相似系数常用
来度量变量之间的相似性。 ❖ 样品之间的距离和相似系数有着各种不同的定义,
而这些定义与变量的类型有着非常密切的关系。
变量的测量尺度
❖ 通常变量按测量尺度的不同可以分为间隔、有序和 名义尺度变量三类。
2
分别为第 j
个
最常用的两个相似系数
❖ 相似系数除常用来度量变量之间的相似性外有时也
用来度量样品之间的相似性,同样,距离有时也用 来度量变量之间的相似性。
❖ 由距离来构造相似系数总是可能的,如令
cij
1 1 d ij
这里d i j 为第 i 个样品与第 j 个样品的距离,显然 c i j 满 足定义相似系数的三个条件,故可作为相似系数。
❖ 距离必须满足定义距离的四个条件,所以不是总能 由相似系数构造。高尔(Gower)证明,当相似系
数矩阵 c ij 为非负定时,如令
dij 21cij
则 d i j 满足距离定义的四个条件。
§6.3 系统聚类法
❖ 系统聚类法是聚类分析诸方法中用得最多的一种。 ❖ 基本思想是:开始将个样品各自作为一类,并规定
❖ (4) 对 D 1 重复上述对D 0 的两步得 D 2 ,如此下去直 至所有元素合并成一类为止。
实验6 基因芯片数据处理分析与GO分析
实验目的:
1. 学会使用 TM4 软件集对芯片数据进行处理和分析,学会使用 Cluster 进行聚类分析 3. 学会 GO 语义及其相关注释的浏览与搜索,学会使用 DAVID 进行基因集功能富集分析
实验内容:
一、基因芯片数据处理和分析
基因芯片或称微阵列(microarray)能够平行、高通量地检测成千上万基因转录本的表 达水平, 应用芯片技术可以比较正常和异常细胞中的表达, 帮助识别疾病相关基因和药物作 用靶标,分析复杂疾病的致病机制,也可以揭示基因间的表达调控关系。基因芯片数据处理 包括芯片杂交实验芯片数据采集(扫描)数据基本处理提交数据库生物信息学分析 等步骤,涉及很多不同的实验类型。这里介绍 TIGR 中心开发的 TM4 软件包,应用 MeV、 Cluster 和 TreeView 等软件对相关基因表达谱进行聚类分析和差异表达基因的筛选。
Figure 6.11 ( 2 ) 数 据 导 入 : 点 击 “Browse” 按 钮 , 打 开 软 件 自 带 的 表 达 量 数 据 文 件 :
TDMS_format_sample.txt , 样 本 数 据 便 自 动 加 载 到 “Expression File Loader” 窗 口 下 方 的 “Expression Table”栏(Figure 6.12) 。实验数据类型有两个选项:双色芯片(Two-color Array) 和单色芯片(Single-color Array) ,本例选择双色芯片。单击“Load”按钮将数据导入。
Figure 6.12 (3)显示基因表达情况:通过 Multiple Array Viewer 窗口看热图(Heat map) ,了解每 个基因在不同样本中的相对表达量(Figure 6.13) 。
芯片数据分析
单因素多组数据统计分析
目的:只考虑一种影响因素,筛选两组以上样品 之间的差异基因。 要求:一个影响因素下的多组数据,每组数据3 个以上生物学重复。 Cy3通道信号和Cy5通道信号在常规实验设计中 不能独立分开作为两组单通道信号值进行数据分 析。
多因素数据统计分析
目的:根据一个以上不同的条件综合评判,筛选 多个条件对于两组样品造成的差异基因。
1. 图像分析
芯片分析的第一步是将芯片扫描得到的杂交信号 转化为原始的代表信号强度的数据 激光扫描仪(Scaner)得到的Cy3/Cy5图像文件 通过划格(Griding),确定杂交点范围,过滤背 景噪音,提取得到基因表达的荧光信号强度值, 最后以列表形式输出
目前可用于这一步分析工作的软件有Quantarray、 Genpix、ChipReader和ScanAlyze等
要求:多个影响因素下的2组数据,每组数据3个 以上生物学重复。
Cy3通道信号和Cy5通道信号在常规实验设计中 不能独立分开作为两组单通道信号值进行数据分 析。
SAM 分析
目的:SAM(Significant Analysis of Microarray) 分析方法是在多组实验中寻找具有差异表达的基 因。 要求:每组3个以上生物学重复。 Cy3通道信号和Cy5通道信号在常规实验设计中 不能独立分开作为两组单通道信号值进行数据分 析。
由于样本差异、荧光标记效率和检出率的不平衡, 需对Cy3和Cy5的原始提取信号进行均衡和修正 才能进一步分析实验数据。 Normalization正是基于此种目的。
Normalization的方法有很多种,包括中值法、总 体信号强度法以及指定使用芯片上的某些点来对 数据做标准化
实验6基因芯片数据处理分析与GO分析
实验6基因芯片数据处理分析与GO分析实验背景:基因芯片技术是通过检测靶基因在不同样本中的表达量差异,并分析其生物信息学特性,来揭示基因调控网络与疾病发生发展的过程的一种高通量技术。
基因芯片数据处理和分析是基因芯片研究的关键步骤之一、通过对基因芯片数据进行预处理、差异分析、聚类分析等,可以获得与研究目标相关的基因列表,并进一步进行GO(Gene Ontology)的功能富集分析,揭示差异表达基因的功能特性。
实验目的:通过基因芯片数据处理分析和GO功能富集分析,获得与研究目标相关的差异表达基因,并揭示其在生物学功能、分子过程和细胞组分方面的富集情况,为后续的生物学实验和机制研究提供理论依据。
实验步骤:1.基因芯片数据的预处理:包括数据导入、数据清洗、标准化和基因注释等。
首先,将基因芯片数据导入到数据分析软件中,然后针对数据质量进行清洗,剔除异常值和低质量的基因。
接下来,对基因表达谱数据进行归一化处理,保证不同芯片之间的数据可比性。
最后,对基因进行注释,将基因名与其对应的功能注释进行关联。
2.差异分析:通过比较不同组别之间的基因表达差异,筛选出差异表达基因。
差异分析方法包括t检验、方差分析等。
根据统计学中的显著性水平,设定p值的阈值,将差异表达基因筛选出来。
3.聚类分析:将差异表达基因按照其表达谱进行聚类分析,可将具有相似表达模式的基因聚集在一起。
常用的聚类方法包括层次聚类和K均值聚类等。
实验结果与分析:通过基因芯片数据处理和分析,我们得到了与研究目标相关的差异表达基因。
结合GO分析的结果,我们可以进一步了解这些差异表达基因在生物学功能、分子过程和细胞组分方面的富集情况。
例如,在生物学过程方面,我们可以得知这些基因是否与细胞增殖、凋亡、信号传导等生物学过程相关;在分子功能方面,我们可以了解这些基因是否具有催化活性、结合能力等分子功能特性;在细胞组分方面,我们可以了解这些基因在细胞核、细胞质、细胞膜等细胞组分的分布情况。
芯片数据的基本处理和分析
TIGR TM4:
A package of Open Source software programs for Microarray analysis
( / )
芯片数据采集(读取扫描图)
数据基本处理
存储整理芯片数据(数据库)
芯片数据分析结果的图形显示
GenePix格式(.gpr)
课堂练习
• 使用ExpressConverter将testdata.gpr转换成 testdata.mev和testdata.ann。
• 用记事本查看testdata.gpr,testdata.mev和 testdata.ann。
ExpressConverter快捷方式: “开始”→“所有程序” testdata.gpr:C:\Program Files\ExpressConverter\samples\
MIDAS: 数据基本处理
下载地址是:/midas.html 此程序不用安装下载后解压就可以使用。(需要先安装Java) 进入文件夹,双击打开Midas.bat文件,会出现后台运行窗口和图形界面窗口。
低质量数据过滤
• 根据Flag过滤 • 根据信号和背景值过滤
MIDAS 可选的数据处理方法
• 标准化处理方法
Total Intensity normalization LOWESS (Locfit) normalization Iterative linear regression normalization Iterative log mean centering normalization
对照 mRNA
RT
RT
样本 mRNA
TIF 扫描图
Cy3
Cy3-cDNA Cy5
芯片创新教育系列大数据分析芯片
芯片创新教育系列大数据分析芯片近年来,大数据技术的快速发展促使了各行各业对于数据分析的需求与重视。
而芯片作为信息技术的核心,对于大数据分析的支持起着至关重要的作用。
芯片创新教育系列大数据分析芯片应运而生,为数据分析提供了更高效、更精确的解决方案。
一、芯片创新教育系列大数据分析芯片的定义及特点芯片创新教育系列大数据分析芯片是一种专为大数据分析任务设计的高性能芯片,主要用于数据处理、数据存储和数据传输等方面。
相较于传统的通用芯片,其具备以下几个显著特点:1. 高性能:芯片创新教育系列大数据分析芯片采用了先进的制造工艺和设计理念,使得其在数据处理速度和计算能力方面具备了更强大的优势。
无论是复杂的数据计算还是庞大的数据处理,都能够得到迅速而准确的结果。
2. 低功耗:大数据分析任务通常对功耗有较高的要求。
芯片创新教育系列大数据分析芯片通过优化设计和节能技术,实现了在满足高性能的同时,尽可能地降低功耗。
这不仅有利于降低企业的运营成本,还能节约能源资源。
3. 专用性:芯片创新教育系列大数据分析芯片在设计之初就针对大数据分析场景进行了优化。
它集成了大量的硬件加速器和专用指令集,能够灵活、高效地处理各类数据分析任务。
与传统的通用芯片相比,其在数据处理效率和资源利用率上都有明显的优势。
二、芯片创新教育系列大数据分析芯片的应用领域芯片创新教育系列大数据分析芯片广泛应用于诸多领域,包括但不限于以下几个方面。
1. 商业智能:商业智能是企业做出决策的重要依据,而大数据分析则是商业智能的核心能力之一。
芯片创新教育系列大数据分析芯片能够高效地处理和分析大规模数据,提供准确的数据支持,帮助企业快速洞察市场,发现商机。
2. 金融风险控制:金融行业需要对大量的交易数据进行实时分析,以降低风险和提升效率。
芯片创新教育系列大数据分析芯片通过高性能的数据处理能力,能够帮助金融机构快速、准确地掌握市场动态,进行风险评估和决策分析。
3. 医疗健康:医疗健康领域的大数据应用也日益增多。
芯片数据分析
数据分析流程图
数据分析流程图
背景校正
荧光信号强度: 真正的荧光信号 本底信号: 来之PCR产物在在载体上的非特异性结 合、载体的发射光、仪器内部的散光 信号
数据归一化的通用方法
整体强度归一化:利用那些信号强度相差不大的 基因为标准,对整个芯片上的实施归一化 管家基因:利用管家基因在许多细胞中都有表达, 而且不受外部因素的影响 人为介入:利用人为掺入的质控样品为内标
Gene Clustering就是根据统计分析原理,对具有 相同统计行为的多个基因进行归类的分析方法, 归为一个簇的基因在功能上可能相似或关联
5. 主成分分析
通过统计学排序原理,确定方差最大的3个变量; 通过降维处理,形成三维坐标,图像中的每个点 代表相应的芯片情况。表达越相似的芯片在空间 上的定位越接近,相互距离越短。
由于样本差异、荧光标记效率和检出率的不平衡, 需对Cy3和Cy5的原始提取信号进行均衡和修正 才能进一步分析实验数据。 Normalization正是基于此种目的。
Normalization的方法有很多种,包括中值法、总 体信号强度法以及指定使用芯片上的某些点来对 数据做标准化
用一组内参照基因(如一组看家基因)校正 Microarray所有的基因、阳性基因、阴性基因、 单个基因 标准化的结果以Excel表格的形式输出,并得到 两种荧光信号标准化后的比值。通过比值的大小 (大于2或者小于0.5)就可知道该基因的表达是 上调还是下调
倍 数 差 异
目的:筛选两组样品之间的差异基因,计算以后 提供两组样品之间的差异倍数。 要求:每组样本只有一个或两个重复。
基因表达谱分析—火山图
单荧光芯片数据组间T 检验分析得到p-value 值 与 Fold change 值两个因素共同绘制火山图 (Volcano plot),用于显示两组样品数据的显著性 差异。 在火山图里,一个坐标显示着由 t-test 演算出来 p-values的负log,另一个坐标显示在两个条件比 较下log2 转换后的改变值。
基因芯片分析
如何处理和利用信息
数据管理与分析
1.基因芯片数据流关系图
确定目标
选择待检测的 目标序列
探针设计
解决杂交条件一 致性问题
芯片优化
提高芯片制备效 率
数据分析
分析杂交检测结 果及可靠性
数 序 据 列 库 分 查 析 询
公共 数据库
专用 数据库
基因芯片 数据库
杂交 检测 图像
生 物 信 息 学 数 据 挖 掘 数据可视化
一 基因芯片简介
1.基因芯片的发展历史
Southern & Northern Blot
Dot Blot
高通量、 自动化、 灵敏度高
Macroarray
Microarray
2. 基因芯片的分类
(一)按载体材料分类
• 玻璃芯片、硅芯片、陶瓷芯片。
(二)按点样方式分类
• 原位合成芯片、点样芯片。 (三)按基因芯片的使用功能 • 测序芯片、表达谱芯片、基因差异表达分析芯片。
•
•
(2)每个单元的中心位于象素点上;
(3)无灰尘等引起的噪声信号;
•
(4)最小和均匀的图像背景强度。
(3) 数据分析 图象预处理
网格定位
背景滤除 荧光信号提取 归一化处理
网格定位结果
背景区域
背景滤除
70 60 50 40 30 20 10 0 1 2 3 G 4 G C T A T
荧光信号提取
(1) 芯片设计的一般性原则
基因芯片检测的根本原理DNA的变性和复性. 因此探 针如果在同一个芯片上与不同的点进行杂交,要求杂 交的温度要尽可能一致.
Tm: 凡使50%杂交体分子发生变性分解的温度称为解链温 度, 即Tm图像具有以下几个性质:
芯片数据的基本处理和分析
课堂练习
+ 使用ExpressConverter将testdata.gpr转换成 testdata.mev和testdata.ann。
+ 用记事本查看testdata.gpr,testdata.mev和 testdata.ann。
ExpressConverter快捷方式: “开始”→“所有程序” testdata.gpr:C:\Program Files\ExpressConverter\samples\
MIDAS: 数据基本处理
下载地址是:/midas.html 此程序不用安装下载后解压就可以使用。(需要先安装Java) 进入文件夹,双击打开Midas.bat文件,会出现后台运行窗口和图形界面窗口。
低质量数据过滤
+ 根据Flag过滤 + 根据信号和背景值过滤
Intuitive to Biologists
• Provide a biological context for results • More efficient than searching databases gene-by-gene • Intuitive data display for sharing data
芯片数据聚类分析和差异表达基因筛选
基因表达研究中通常假设表达水平相似的基 因可能参与相同或相似的生物学过程,因而它们 具有相似的基因表达谱。
例: 在临床或诊断学等领域中,为研究某些 疾病的发生机制,通常对正常组织和肿瘤组织细 胞间的基因表达情况作比较分析,从中筛选出具 有显著差异的表达基因。
下载地址:/mev.html 。 此程序不用安装下载后解压就可以使用(需要先安装Java) 进入软件所在的文件夹(免安装),双击打开TMEV.bat文件,会出现后台 运行窗口和图形界面窗口。
芯片技术的芯片数据分析
芯片技术的芯片数据分析:芯片分析概述随着基因芯片技术的普及,基因表达数据大量产生,如何充分利用这些数据并从中提取有用的生物学知识,是生物信息学所面临的一个迫切问题。
简要来说,生物芯片数据分析流程大体可分成以下几个阶段。
扫描与图像识别一张芯片完成杂交实验,经扫描仪读取后生成图形文件,经过划格(Griding)、确定杂交点范围(Spot Identifying)、过滤背景噪音(Noise Filtering)等图像识别过程,才能最终得到基因表达的荧光信号强度值,并以列表形式输出。
数据预处理由于杂交荧光标记效率或检出率不平衡、位置效应等多种因素,原始提取信号需要进行均衡和修正处理后,才能进一步分析。
这一步通常需要先进行背景校正(Background Correction),去除不均匀背景光强影响,然后再进行归一化(Normalization)处理。
一般来说,对于单色DNA芯片而言,这一步相对容易;而双色DNA芯片则需要考虑不同染料(Cy3、Cy5)对于mRNA染色效率的差异。
数据分析在前一步基础上,需要根据基因表达状况与事先设定的条件,对基因进行分类处理。
具体来说,又可分为寻找差异表达基因和寻找共表达基因两种。
所谓差异表达基因(Differen-tially Expressed Genes),是指在预先设定的不同实验条件下,表达量出现显著差异的基因。
而共表达基因(Co-expressed Genes)则是指在不同实验条件下,表达模式或表达量相似的基因。
实践中,在没有先验知识的情况下,一般是通过聚类来寻找这些基因。
如果事先已经有了一组明确的训练集,也可以通过分类来寻找与这组基因具有类似表达模式的其他基因。
所谓聚类,也称无监督分类(Un-supervised Classification),是指在未设定先验类别的情况下,根据表达模式或表达值相似程度,将基因划分为若干组。
而分类则是指在给定已经先验标明类别(如肿瘤、健康)训练集前提下,根据表达模式或表达值相似程度,将被检基因或样本归入预先设定的类别中。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Normalization的方法有多种,包括中值法、 的方法有多种,包括中值法、 的方法有多种 总体信号强度法以及指定使用芯片上的某些点 来对数据作标准化; 来对数据作标准化; 用一组内参照基因(如一组看家基因) 用一组内参照基因(如一组看家基因)校正 Microarray所有的基因、阳性基因、阴性基 所有的基因、 所有的基因 阳性基因、 单个基因。 因、单个基因。 标准化的结果以Excel表格的形式输出,并得 表格的形式输出, 标准化的结果以 表格的形式输出 到两种荧光信号标准化后的比值。 到两种荧光信号标准化后的比值。通过比值的 大小(大于2或小于 或小于0.5)就可知道该基因的表 大小(大于 或小于 ) 达是上调还是下调
Microarray数据库
基因表达数据库是整个基因表达信息分析管理系统的 核心。 核心。 Microarray数据库起着数据储存和查询、各种相关信 数据库起着数据储存和查询、 数据库起着数据储存和查询 息的整合的作用。 息的整合的作用。 Microarray数据库可以包含用户的管理信息、原始实 数据库可以包含用户的管理信息、 数据库可以包含用户的管理信息 验结果(图象文件、信号强度值、背景平均值行列号、 验结果(图象文件、信号强度值、背景平均值行列号、 基因号等)、各种实验参数( )、各种实验参数 基因号等)、各种实验参数(Plates/unigene /Sets/Clusters)、探针相关信息、 clone相关信息 )、探针相关信息 )、探针相关信息、 相关信息 基因名称、基因序列、 (基因名称、基因序列、GenBank accession号、克 号 隆标志符( 和内部)、代谢途径标志符、 隆标志符(IMAGE和内部)、代谢途径标志符、内部 和内部)、代谢途径标志符 克隆标志符)、分析处理结果、 )、分析处理结果 克隆标志符)、分析处理结果、芯片设计相关的资源 和数据, 和数据,等等
基因表达信息分析管理系统
由于基因芯片的高集成性, 由于基因芯片的高集成性,每一次芯片 实验都将产生巨大的数据信息。 实验都将产生巨大的数据信息。 尽管基因芯片技术受到了广泛关注,但 尽管基因芯片技术受到了广泛关注, 认为简单人工处理一下原始数据就可以 得到有价值的生物学信息, 得到有价值的生物学信息,大量有价值 的信息就这样被浪费和湮没了。 的信息就这样被浪费和湮没了。可以肯 定地说,没有生物信息学的有效参与, 定地说,没有生物信息学的有效参与, 基因芯片技术就不能发挥最大效能。 基因芯片技术就不能发挥最大效能。
DNA芯片的信号强度分析 芯片的信号强度分析
通过QuantArray进行分析后就可得 进行分析后就可得 通过 到Cy3和Cy5信号强度的分布情况 和 信号强度的分布情况
X轴和 轴分别表示 轴和Y轴分别表示 轴和 轴分别表示Cy3 或 Cy5 的 信 号 强 度 , 45 度 角 线 表 示 Cy5/Cy3=1 ; 灰 色 区 域 表 明 Cy3/Cy5或 Cy5/Cy3的强 或 的强 度比值小于2, 度比值小于 ,红色点则 表明强度比值大于2或小 表明强度比值大于 或小 于 0.5。 如果芯片的杂交 。 信号较弱, 信号较弱 , 点的分布将 主要集中在原点附近; 主要集中在原点附近 ; 如果Cy3、Cy5的杂交信 如果 、 的杂交信 号强度不一致, 号强度不一致 , 红色点 分布将偏向一侧。 分布将偏向一侧 。 通过 这种散点图可大致判断 芯片的两种荧光染料标 记探针的效率和芯片杂 交的质量
第六章 芯片的数据分析
Microarray data analysis
Biological Question Data Analysis & Modeling
Microarray Life Cycle
Sample preparation
Microarray Detection
Microarray Reaction
Data storage
• single 10K slide = up to 50 MB • must be stored so that safe but easily accessible • MIAME compliance -experimental design -array design -extraction, preparation and labeling detail -hybridisation conditions -images and quantification specifications -normalisation controls • Gene Traffic
A
B
图3.18 标准化后的数据分布图 A为标准化处理后的所有基因的比值;B为过滤掉原 为标准化处理后的所有基因的比值; 为过滤掉原 为标准化处理后的所有基因的比值 始信号强度小于1000的基因后,剩余基因的比值分布 的基因后, 始信号强度小于 的基因后
3. Ratio分析 分析(Ratio Analysis): 分析 :
4. 基因的聚类和表达分析
现在用来分析生物芯片数据的算法还不多,已经发展 现在用来分析生物芯片数据的算法还不多, 得比较成熟的算法是聚类分析( ),包括自组 得比较成熟的算法是聚类分析(cluster),包括自组 ), 织图( ),k-means cluster,多维排列 织图(SOM), ), , (multi-dimensional scaling,MDS)等等。另外 , )等等。 还有主成分分析( ),Support Vector 还有主成分分析(PCA), ), Machines(SVM),隐式马尔可夫模型(HMM)等。 ),隐式马尔可夫模型 ( ),隐式马尔可夫模型( ) 聚类分析( 聚类分析(Cluster analysis)是芯片分析方法的一 ) 它可以将那些表达数据相关的基因聚集在一起。 种,它可以将那些表达数据相关的基因聚集在一起。 而聚类后产生的树状图通过Tree View软件则能更直 而聚类后产生的树状图通过 软件则能更直 观地观察聚类分析的结果
将每个Spot的所有相关信息如位标、基因名称、 的所有相关信息如位标、基因名称、 将每个 的所有相关信息如位标 克隆号、 结果、 克隆号、PCR结果、信号强度、Ratio值等自 结果 信号强度、 值等自 动关联并根据需要筛选数据。 动关联并根据需要筛选数据。 每个Spot的原始图象另存文件,可根据需要任 的原始图象另存文件, 每个 的原始图象另存文件 意排序,得到原始图象的拼图, 意排序,得到原始图象的拼图,对于结果分析 十分有利。 十分有利。
通过建立各种不同的数学模型, 通过建立各种不同的数学模型,可以得到各种 统计分析结果, 统计分析结果,确定不同基因在表达上的相关 性,从而找到未知基因的功能信息或已知基因 的未知功能。 的未知功能。 Gene Clustering就是根据统计分析原理,对 就是根据统计分析原理, 就是根据统计分析原理 具有相同统计行为的多个基因进行归类的分析 方法, 方法,归为一个簇的基因在功能上可能相似或 关联。 关联。 目前以直观图形显示GeneCluster结果的程序 结果的程序 目前以直观图形显示 已有人开发出来, 已有人开发出来,可将抽象的数据结果转化成 直观的树形图,便于研究人员理解和分析。 直观的树形图,便于研究人员理解和分析。
Storing array data
Scanning/ Data extraction Intranet access
BASE
Analysis: GeneSpring
Web access
世界上主要的芯片数据库有: 世界上主要的芯片数据库有
美国基因组研究中心( 美国基因组研究中心(NCGR)的GeneX ) 欧洲生物信息研究所( 欧洲生物信息研究所(EBI)的 ) ArrayExpress, , 美国生物技术信息国家中心( 美国生物技术信息国家中心(NCBI)的GEO ) (gene expression omnibus), ), MIT的ChipDB, 的 , Harvard的ExpressDB, 的 , 宾州大学的EPODB, 宾州大学的 , 加州大学San Francisco分校的 分校的AMAD等。 加州大学 分校的 等
cy3/cy5的比值,又称R/G值。 的比值,又称 的比值 值 一般0.5-2.0范围内的基因不存在显著表达差 范围内的基因不存在显著表达差 一般 异,该范围之外则认为基因的表达出现显著改 变。 处理后得到的信息再根据不同要求以各种形式 输出,如柱形图、饼形图、点图、 输出,如柱形图、饼形图、点图、原始图象拼 图等。 图等。
Microarray数据分析 数据分析
Microarray数据分析简单来说就是对 数据分析简单来说就是对 Microarray高密度杂交点阵图象处理并从中提 高密度杂交点阵图象处理并从中提 取杂交点的荧光强度信号进行定量分析, 取杂交点的荧光强度信号进行定量分析,通过 有效数据的筛选和相关基因表达谱的聚类, 有效数据的筛选和相关基因表达谱的聚类,最 终整合杂交点的生物学信息, 终整合杂交点的生物学信息,发现基因的表达 谱与功能可能存在的联系。 谱与功能可能存在的联系。
1. 图象分析
芯片分析的第一步是将芯片扫描得到的杂交信 号转化为原始的代表信号强度的数据 激光扫描仪Scaner得到的 得到的Cy3/Cy5图象文件 激光扫描仪 得到的 图象文件 通过划格( ),确定杂交点范围 通过划格(Griding),确定杂交点范围,过 ),确定杂交点范围, 滤背景噪音, 滤背景噪音,提取得到基因表达的荧光信号强 度值,最后以列表形式输出。 度值,最后以列表形式输出。 目前可用于这一步分析工作的软件有 QuantArray、Genpix、ChipReader和 、 、 和 ScanAlyze等 等
QuantArray软件也能够完成对数据的标准化 , 软件也能够完成对数据的标准化 QuantArray只能对一张芯片的信息进行处理, 只能对一张芯片的信息进行处理, 只能对一张芯片的信息进行处理 当我们需要同时处理多张芯片, 当我们需要同时处理多张芯片,比较基因在不 同处理或不同时间的表达情况, 同处理或不同时间的表达情况,并对这些芯片 作比较时该软件就无能为力了, 作比较时该软件就无能为力了,并且其输出结 果可视化程度差,差异基因需人工进行筛选。 果可视化程度差,差异基因需人工进行筛选。 GeneSpring软件在可视化程度和基因的筛选 软件在可视化程度和基因的筛选 分析等方面都做得很出色, 分析等方面都做得很出色,并最终用这种软件 分析处理我们的数据。 分析处理我们的数据。GeneSpring除了能对 除了能对 单张芯片作标准化处理外, 单张芯片作标准化处理外,还能同时对数十张 芯片作标准化分析。 芯片作标准化分析。