第六章 芯片的数据分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
通过建立各种不同的数学模型, 通过建立各种不同的数学模型,可以得到各种 统计分析结果, 统计分析结果,确定不同基因在表达上的相关 性,从而找到未知基因的功能信息或已知基因 的未知功能。 的未知功能。 Gene Clustering就是根据统计分析原理,对 就是根据统计分析原理, 就是根据统计分析原理 具有相同统计行为的多个基因进行归类的分析 方法, 方法,归为一个簇的基因在功能上可能相似或 关联。 关联。 目前以直观图形显示GeneCluster结果的程序 结果的程序 目前以直观图形显示 已有人开发出来, 已有人开发出来,可将抽象的数据结果转化成 直观的树形图,便于研究人员理解和分析。 直观的树形图,便于研究人员理解和分析。
Microarray数据分析 数据分析
Microarray数据分析简单来说就是对 数据分析简单来说就是对 Microarray高密度杂交点阵图象处理并从中提 高密度杂交点阵图象处理并从中提 取杂交点的荧光强度信号进行定量分析, 取杂交点的荧光强度信号进行定量分析,通过 有效数据的筛选和相关基因表达谱的聚类, 有效数据的筛选和相关基因表达谱的聚类,最 终整合杂交点的生物学信息, 终整合杂交点的生物学信息,发现基因的表达 谱与功能可能存在的联系。 谱与功能可能存在的联系。
基因表达信息分析管理系统
由于基因芯片的高集成性, 由于基因芯片的高集成性,每一次芯片 实验都将产生巨大的数据信息。 实验都将产生巨大的数据信息。 尽管基因芯片技术受到了广泛关注,但 尽管基因芯片技术受到了广泛关注, 认为简单人工处理一下原始数据就可以 得到有价值的生物学信息, 得到有价值的生物学信息,大量有价值 的信息就这样被浪费和湮没了。 的信息就这样被浪费和湮没了。可以肯 定地说,没有生物信息学的有效参与, 定地说,没有生物信息学的有效参与, 基因芯片技术就不能发挥最大效能。 基因芯片技术就不能发挥最大效能。
将每个Spot的所有相关信息如位标、基因名称、 的所有相关信息如位标、基因名称、 将每个 的所有相关信息如位标 克隆号、 结果、 克隆号、PCR结果、信号强度、Ratio值等自 结果 信号强度、 值等自 动关联并根据需要筛选数据。 动关联并根据需要筛选数据。 每个Spot的原始图象另存文件,可根据需要任 的原始图象另存文件, 每个 的原始图象另存文件 意排序,得到原始图象的拼图, 意排序,得到原始图象的拼图,对于结果分析 十分有利。 十分有利。
cy3/cy5的比值,又称R/G值。 的比值,又称 的比值 值 一般0.5-2.0范围内的基因不存在显著表达差 范围内的基因不存在显著表达差 一般 异,该范围之外则认为基因的表达出现显著改 变。 处理后得到的信息再根据不同要求以各种形式 输出,如柱形图、饼形图、点图、 输出,如柱形图、饼形图、点图、原始图象拼 图等。 图等。
QuantArray软件也能够完成对数据的标准化 , 软件也能够完成对数据的标准化 QuantArray只能对一张芯片的信息进行处理, 只能对一张芯片的信息进行处理, 只能对一张芯片的信息进行处理 当我们需要同时处理多张芯片, 当我们需要同时处理多张芯片,比较基因在不 同处理或不同时间的表达情况, 同处理或不同时间的表达情况,并对这些芯片 作比较时该软件就无能为力了, 作比较时该软件就无能为力了,并且其输出结 果可视化程度差,差异基因需人工进行筛选。 果可视化程度差,差异基因需人工进行筛选。 GeneSpring软件在可视化程度和基因的筛选 软件在可视化程度和基因的筛选 分析等方面都做得很出色, 分析等方面都做得很出色,并最终用这种软件 分析处理我们的数据。 分析处理我们的数据。GeneSpring除了能对 除了能对 单张芯片作标准化处理外, 单张芯片作标准化处理外,还能同时对数十张 芯片作标准化分析。 芯片作标准化分析。
芯片分析原始信号比值散点图
2. 标准化处理(Normalization) 标准化处理( )
利用QuantArray软件做图像分析处理后得到 软件做图像分析处理后得到 利用 的仅仅是原始杂交信号的强度信息, 的仅仅是原始杂交信号的强度信息,必须对这 些数据作进一步的处理才能得到有用信息。 些数据作进一步的处理才能得到有用信息。 由于样本差异、 由于样本差异、荧光标记效率和检出率的不平 需对cy3和cy5的原始提取信号进行均衡 衡,需对 和 的原始提取信号进行均衡 和修正才能进一步分析实验数据, 和修正才能进一步分析实验数据, Normalization正是基于此种目的。 正是基于此种目的。 正是基于此种目的
Microarray数据分析主要包括 数据分析主要包括
图象分析(Biodiscovery Imagene 图象分析 4.0\Quantarray分析软件 分析软件) 分析软件 标准化处理( 标准化处理(normalization) ) Ratio值分析 值分析 基因聚类分析( 基因聚类分析(Gene Clustering)。 )。
Microarray数据库
基因表达数据库是整个基因表达信息分析管理系统的 核心。 核心。 Microarray数据库起着数据储存和查询、各种相关信 数据库起着数据储存和查询、 数据库起着数据储存和查询 息的整合的作用。 息的整合的作用。 Microarray数据库可以包含用户的管理信息、原始实 数据库可以包含用户的管理信息、 数据库可以包含用户的管理信息 验结果(图象文件、信号强度值、背景平均值行列号、 验结果(图象文件、信号强度值、背景平均值行列号、 基因号等)、各种实验参数( )、各种实验参数 基因号等)、各种实验参数(Plates/unigene /Sets/Clusters)、探针相关信息、 clone相关信息 )、探针相关信息 )、探针相关信息、 相关信息 基因名称、基因序列、 (基因名称、基因序列、GenBank accession号、克 号 隆标志符( 和内部)、代谢途径标志符、 隆标志符(IMAGE和内部)、代谢途径标志符、内部 和内部)、代谢途径标志符 克隆标志符)、分析处理结果、 )、分析处理结果 克隆标志符)、分析处理结果、芯片设计相关的资源 和数据, 和数据,等等
A
B
图3.18 标准化后的数据分布图 A为标准化处理后的所有基因的比值;B为过滤掉原 为标准化处理后的所有基因的比值; 为过滤掉原 为标准化处理后的所有基因的比值 始信号强度小于1000的基因后,剩余基因的比值分布 的基因后, 始信号强度小于 的基因后
3. Ratio分析 分析(Ratio Analysis): 分析 :
第六章 芯片的数据分析
Microarray data analysis
Biological Question Data Analysis & Modeling
Microarray Life Cycle
Sample preparation
Microarray Detection
Microarray Reaction
Normalization的方法有多种,包括中值法、 的方法有多种,包括中值法、 的方法有多种 总体信号强度法以及指定使用芯片上的某些点 来对数据作标准化; 来对数据作标准化; 用一组内参照基因(如一组看家基因) 用一组内参照基因(如一组看家基因)校正 Microarray所有的基因、阳性基因、阴性基 所有的基因、 所有的基因 阳性基因、 单个基因。 因、单个基因。 标准化的结果以Excel表格的形式输出,并得 表格的形式输出, 标准化的结果以 表格的形式输出 到两种荧光信号标准化后的比值。 到两种荧光信号标准化后的比值。通过比值的 大小(大于2或小于 或小于0.5)就可知道该基因的表 大小(大于 或小于 ) 达是上调还是下调
DNA芯片的信号强度分析 芯片的信号强度分析
通过QuantArray进行分析后就可得 进行分析后就可得 通过 到Cy3和Cy5信号强度的分布情况 和 信号强度的分布情况
X轴和 轴分别表示 轴和Y轴分别表示 轴和 轴分别表示Cy3 或 Cy5 的 信 号 强 度 , 45 度 角 线 表 示 Cy5/Cy3=1 ; 灰 色 区 域 表 明 Cy3/Cy5或 Cy5/Cy3的强 或 的强 度比值小于2, 度比值小于 ,红色点则 表明强度比值大于2或小 表明强度比值大于 或小 于 0.5。 如果芯片的杂交 。 信号较弱, 信号较弱 , 点的分布将 主要集中在原点附近; 主要集中在原点附近 ; 如果Cy3、Cy5的杂交信 如果 、 的杂交信 号强度不一致, 号强度不一致 , 红色点 分布将偏向一侧。 分布将偏向一侧 。 通过 这种散点图可大致判断 芯片的两种荧光染料标 记探针的效率和芯片杂 交的质量
1. 图象分析
芯片分析的第一步是将芯片扫描得到的杂交信 号转化为原始的代表信号强度的数据 激光扫描仪Scaner得到的 得到的Cy3/Cy5图象文件 激光扫描仪 得到的 图象文件 通过划格( ),确定杂交点范围 通过划格(Griding),确定杂交点范围,过 ),确定杂交点范围, 滤背景噪音, 滤背景噪音,提取得到基因表达的荧光信号强 度值,最后以列表形式输出。 度值,最后以列表形式输出。 目前可用于这一步分析工作的软件有 QuantArray、Genpix、ChipReader和 、 、 和 ScanAlyze等 等
4. 基因的聚类和表达分析
现在用来分析生物芯片数据的算法还不多,已经发展 现在用来分析生物芯片数据的算法还不多, 得比较成熟的算法是聚类分析( ),包括自组 得比较成熟的算法是聚类分析(cluster),包括自组 ), 织图( ),k-means cluster,多维排列 织图(SOM), ), , (multi-dimensional scaling,MDS)等等。另外 , )等等。 还有主成分分析( ),Support Vector 还有主成分分析(PCA), ), Machines(SVM),隐式马尔可夫模型(HMM)等。 ),隐式马尔可夫模型 ( ),隐式马尔可夫模型( ) 聚类分析( 聚类分析(Cluster analysis)是芯片分析方法的一 ) 它可以将那些表达数据相关的基因聚集在一起。 种,它可以将那些表达数据相关的基因聚集在一起。 而聚类后产生的树状图通过Tree View软件则能更直 而聚类后产生的树状图通过 软件则能更直 观地观察聚类分析的结果
Data storage
• single 10K slide = up to 50 MB • must be stored so that safe but easily accessible • MIAME compliance -experimental design -array design -extraction, preparation and labeling detail -hybridisation conditions -images and quantification specifications -normalisation controls • Gene Traffic
Storing array data
Scanning/ Data extraction Intranet access
BASE
Analysis: GeneSpring
Web access
Fra Baidu bibliotek
世界上主要的芯片数据库有: 世界上主要的芯片数据库有
美国基因组研究中心( 美国基因组研究中心(NCGR)的GeneX ) 欧洲生物信息研究所( 欧洲生物信息研究所(EBI)的 ) ArrayExpress, , 美国生物技术信息国家中心( 美国生物技术信息国家中心(NCBI)的GEO ) (gene expression omnibus), ), MIT的ChipDB, 的 , Harvard的ExpressDB, 的 , 宾州大学的EPODB, 宾州大学的 , 加州大学San Francisco分校的 分校的AMAD等。 加州大学 分校的 等