Bioconductor基因芯片数据分析系列(一):数据的读取

合集下载

bioconductor系列教程之一分析基因芯片上

bioconductor系列教程之一分析基因芯片上

►bioconductor系列教程之一分析基因芯片上可以取代MAS5的主要还有两种算法,分别是dChip和RMA。

RMA算法正逐步成为microarray的主流算法。

RMA全称为log scale robust multi-array analysis,多阵列对数健壮算法。

RMA算法并不直接从PM的信号中减去做为背景的MM 信号,而是基于20组探针的信号分布来判断是信号还是噪音。

这种算法无疑对于低噪号的实验有较大的适用性。

Figure 2 MAS5.0, dChip 和RMA算法结果比较(数据来源:Summaries of Affymetrix GeneChip probe level data. Irizarry RA, Bolstad BM, Collin F, Cope LM, Hobbs B, Speed TP. Nucleic Acids Res 2003: 31(4);)所以这里,我就主要介绍一下如何在bioConductor使用RMA算法预处理基因芯片原始数据。

首先,去/support/technical/sample_data/demo_data.affx 下载一些示例数据文件下来。

这里,我使用Arabidopsis-AG AGCC数据示例。

我们先把下载下来的文件解压后拷贝ArabidopsisATH1-121502.CEL文件至R工作文件夹下。

首先是一个快速上手教程:1 2 3 4 5 6 7 8 910111213141516171819202122232425262728293031323334353637 > library(affy)##加载库文件Loading required package: BiobaseWelcome to BioconductorVignettes contain introductory material. To view, type'openVignette()'. To cite Bioconductor, see'citation("Biobase")'and for packages 'citation(pkgname)'.> Data <- ReadAffy()##读取工作目录下的CEL文件> eset <- rma(Data)##用RMA算法预处理数据,这时它会自动下载CDF文件,所以需要联网。

基因芯片的数据分析

基因芯片的数据分析

基因表达谱芯片的数据分析基因芯片数据分析就是对从基因芯片高密度杂交点阵图中提取的杂交点荧光强度信号进行的定量分析,通过有效数据的筛选和相关基因表达谱的聚类,最终整合杂交点的生物学信息,发现基因的表达谱与功能可能存在的联系。

然而每次实验都产生海量数据,如何解读芯片上成千上万个基因点的杂交信息,将无机的信息数据与有机的生命活动联系起来,阐释生命特征和规律以及基因的功能,是生物信息学研究的重要课题[1]。

基因芯片的数据分析方法从机器学习的角度可分为监督分析和非监督分析,假如分类还没有形成,非监督分析和聚类方法是恰当的分析方法;假如分类已经存在,则监督分析和判别方法就比非监督分析和聚类方法更有效率。

根据研究目的的不同[2,3],我们对基因芯片数据分析方法分类如下。

(1)差异基因表达分析:基因芯片可用于监测基因在不同组织样品中的表达差异,例如在正常细胞和肿瘤细胞中;(2)聚类分析:分析基因或样本之间的相互关系,使用的统计方法主要是聚类分析;(3)判别分析:以某些在不同样品中表达差异显著的基因作为模版,通过判别分析就可建立有效的疾病诊断方法。

1 差异基因表达分析(difference expression, DE)对于使用参照实验设计进行的重复实验,可以对2样本的基因表达数据进行差异基因表达分析,具体方法包括倍数分析、t检验、方差分析等。

1.1倍数变化(fold change, FC)倍数分析是最早应用于基因芯片数据分析的方法[4],该方法是通过对基因芯片的ratio值从大到小排序,ratio 是cy3/cy5的比值,又称R/G值。

一般0.5-2.0范围内的基因不存在显著表达差异,该范围之外则认为基因的表达出现显著改变。

由于实验条件的不同,此阈值范围会根据可信区间应有所调整[5,6]。

处理后得到的信息再根据不同要求以各种形式输出,如柱形图、饼形图、点图等。

该方法的优点是需要的芯片少,节约研究成本;缺点是结论过于简单,很难发现更高层次功能的线索;除了有非常显著的倍数变化的基因外,其它变化小的基因的可靠性就值得怀疑了;这种方法对于预实验或实验初筛是可行的[7]。

生物信息学讲义——基因芯片数据分析

生物信息学讲义——基因芯片数据分析

生物信息学讲义——基因芯片数据分析生物信息学是指运用计算机技术和统计学方法来解析和理解生物领域的大规模生物数据的学科。

基因芯片数据分析是生物信息学研究的一个重要方向,通过对基因芯片数据进行分析,可以揭示基因在生物过程中的功能和调节机制。

本讲义将介绍基因芯片数据的分析方法和应用。

一、基因芯片数据的获取与处理基因芯片是一种用于检测和测量基因表达水平的高通量技术,可以同时检测上千个基因的表达情况。

获取基因芯片数据的第一步是进行基因芯片实验,如DNA芯片实验或RNA芯片实验。

实验得到的数据一般为原始强度值或信号强度值。

接下来,需要对这些原始数据进行预处理,包括背景校正、归一化和过滤噪声等步骤,以消除实验误差和提高数据质量。

二、基因表达分析基因芯片数据的最主要应用之一是进行基因表达分析。

基因表达分析可以揭示在不同条件下基因的表达模式和差异表达基因。

常用的基因表达分析方法包括差异表达分析、聚类分析和差异共表达网络分析等。

差异表达分析常用来寻找在不同条件下表达差异显著的基因,如差异表达基因的筛选和注释;聚类分析可以将表达模式相似的基因分为一组,如聚类分析可以将不同样本中的基因按照表达模式进行分类;差异共表达网络分析可以找到一组在差异表达样本中共同表达的基因,揭示潜在的功能模块。

三、功能富集分析对差异表达基因进行功能富集分析可以帮助我们理解这些基因的生物学功能和参与的生物过程。

功能富集分析可以通过对差异表达基因进行GO(Gene Ontology)注释,找到在特定条件下富集的生物学过程、分子功能和细胞组分等。

另外,功能富集分析还可以进行KEGG(Kyoto Encyclopedia of Genes and Genomes)富集分析,找到差异表达基因在代谢通路和信号传导通路中的富集情况。

四、基因调控网络分析基因调控网络分析可以帮助我们揭示基因间的调控关系和寻找关键调控基因。

基因调控网络是基于差异表达数据构建的,它可以包括转录因子-靶基因调控网络和miRNA-mRNA调控网络等。

bioconductor分析芯片数据教程

bioconductor分析芯片数据教程

bioconductor分析芯片数据教程wangpeng905 2017.04.21 09:21* 这是我在The Bioinformatics Knowledgeblog 上看到的一篇教程,原文在这里,教程条理清晰,对我理解芯片数据分析流程帮助很大,就把它翻译了过来。

介绍芯片数据分析流程有些复杂,但使用R 和Bioconductor 包进行分析就简单多了。

本教程将一步一步的展示如何安装R 和Bioconductor,通过GEO 数据库下载芯片数据,对数据进行标准化,然后对数据进行质控检查,最后查找差异表达的基因。

教程示例安装的各种依赖包和运行命令均是是在Ubuntu 环境中运行的(版本:Ubuntu 10.04,R 2.121),教程的示例代码和图片在这里。

安装R 和Bioconductor 包打开命令终端,先安装R 和Bioconductor 的依赖包,然后安装R.$ sudo apt-get install r-base-core libxml2-devlibcurl4-openssl-dev curl$ R之后在R 环境中安装Bioconductor 包&gt; # 下载Bioconductor 的安装程序&gt; source("/biocLite.R")&gt; # 安装Bioconductor 的核心包&gt; biocLite()&gt; # 安装GEO 包&gt; biocLite("GEOquery")如果你没有管理员权限,你需要将这些包安装到你个人库目录中。

安装Bioconductor 需要一段时间,GEOquery 包也需要安装,GEOquery 是NCBI 存储标准化的转录组数据的基因表达综合数据库GEO 的接口程序。

下载芯片数据本教程中我们使用Dr Andrew Browning 发表的数据集GSE20986。

生物信息学讲义——基因芯片数据分析资料

生物信息学讲义——基因芯片数据分析资料

生物信息学讲义——基因芯片数据分析资料基因芯片是一种高通量的技术,可以用于同时检测和量化数以千计的基因在一个样本中的表达水平。

通过分析基因芯片数据,我们可以获得大量的基因表达信息,并进一步了解基因在不同条件和疾病状态下的调控和功能。

下面是一份关于基因芯片数据分析的讲义。

一、基因芯片数据的处理与预处理1.数据获取与质控-从基因芯片实验中获取原始数据(CEL文件)。

-进行质控,包括检查芯片质量、样本质量和数据质量。

2.数据预处理-背景校正:去除背景信号,减小非特异性杂音。

-样本标准化:对样本间进行标准化处理,消除技术变异和样本间差异。

-基因过滤:去除低表达和不变的基因,减少多重检验问题。

二、差异基因分析1.统计分析-基于统计学的差异表达分析方法,如t检验、方差分析(ANOVA)等。

-根据差异分析结果,获取差异表达的基因列表。

2.功能注释与生物学解释-对差异表达的基因进行功能注释,包括富集分析、通路分析和基因功能类别分析等。

-通过生物学数据库查询和文献阅读,解释差异表达基因的生物学意义和可能的调控机制。

三、基因共表达网络分析1.相关性分析-计算基因间的相关系数,筛选出相关性较高的基因对。

-构建基因共表达网络,通过网络可视化方式展示基因间的关系。

2.模块发现和功能注释-使用聚类算法将基因分组成不同的模块,每个模块表示一组具有相似表达模式的基因。

-对每个模块进行功能注释,了解模块内基因的共同功能或通路。

四、基因云图和热图分析1.基因云图-使用基因注释信息和基因表达水平,绘制基因表达的云图。

-通过颜色和大小表示基因的表达水平、功能注释等信息。

2.热图分析-根据基因表达水平计算基因间的相似性,将相似性转换为颜色,绘制热图。

-热图可用于显示基因表达模式的相似性和差异。

五、整合分析与生物信息学工具1.基因集富集分析-将差异表达的基因列表输入基因富集分析工具,寻找与特定通路、功能或疾病相关的基因集。

2.数据可视化工具- 使用生物信息学工具和软件,如R、Bioconductor、Cytoscape等,进行数据可视化和交互式分析。

基因表达谱芯片数据分析及其Bioconductor实现

基因表达谱芯片数据分析及其Bioconductor实现

基因表达谱芯片数据分析及其Bioconductor实现1.表达谱芯片及其应用表达谱DNA芯片(DNA microarrays for gene expression profiles)是指将大量DNA片段或寡核昔酸固定在玻璃、硅、塑料等硬质载体上制备成基因芯片,待测样品中的mRNA被提取后,通过逆转录获得cDNA,并在此过程中标记荧光,然后与包含上千个基因的DNA芯片进行杂交反应30min~20h后,将芯片上未发生结合反应的片段洗去,再对玻片进行激光共聚焦扫描,测定芯片上个点的荧光强度,从而推算出待测样品中各种基因的表达水平。

用于硏究基因表达的芯片可以有两种:①cDNA芯片;② 寡核昔酸芯片。

cDNA芯片技术及载有较长片段的寡核昔酸芯片采用双色荧光系统:U前常用Cy3—dUTP (绿色)标记对照组mRNA, Cy5—dUTP (红色)标记样品组mRNAUl。

用不同波长的荧光扫描芯片,将扫描所得每一点荧光信号值自动输入计•算机并进行信息处理,给出每个点在不同波长下的荧光强度值及其比值(ratio值),同时计算机还给出直观的显色图。

在样品中呈高表达的基因其杂交点呈红色,相反,在对照组中高表达的基因其杂交点呈绿色,在两组中表达水平相当的显黄色,这些信号就代表了样品中基因的转录表达情况⑵。

基因芯片因具有高效率,高通量、高精度以及能平行对照研究等特点,被迅速应用于动、植物和人类基因的研究领域,如病原微生物毒力相关基因的。

基因表达谱可直接检测mRNA的种类及丰度,可以同时分析上万个基因的表达变化,来揭示基因之间表达变化的相互关系。

表达谱芯片可用于研究:①同一个体在同一时间里,不同基因的表达差异。

芯片上固定的已知序列的cDNA或寡聚核昔酸最多可以达到30 000多个序列,与人类全基因组基因数相当,所以基因芯片一次反应儿乎就能够分析整个人的基因⑶。

②同一个体在不同时间里,相同基因的表达差异。

③不同个体的相同基因表达上的差异。

基因芯片原理及数据分析01

基因芯片原理及数据分析01

基因芯片数据分析流程
生物学问题 实验设计 芯片实验 图像采集和处理(图像分析) 预处理和标准化 聚类分析 差异表达基因分析 判别分析 基因网络分析
生物学解释和验证
基因芯片数据分析
基因芯片数据的预处理是一个十分关键的步
骤,通过数据过滤获取需要的数据、数据转 换满足正态分布的分析要求、缺失值的估计 弥补不完整的数据、数据归一化纠正系统误 差等处理为后续分析工作做准备,预处理分 析的重要性并不亚于基因芯片的后续分析, 它将直接影响后续分析是否能得到预期的结 果 ,Arraytools
基因芯片原理及数据分析
杨德印 生物信息学系
参考教材和资料
《基因芯片数据分析与处理》李瑶 化学工业出版社 2006年 《生物芯片分析》 [美]M.谢纳 著 科学出版社 《DNA芯片技术的方法与应用》 马文丽 郑文岭 广东科 技出版社 《生物芯片技术》 邢婉丽 程京 清华大学出版社 《生物芯片技术》 陈忠斌 化学工业出版社 《基因芯片与功能基因组》 李瑶 化学工业出版社 Google,ncbi,endnote:网络资源,文章(Paper) 相关关键词microarray,gene chip,gene expression
数据

数据表示:常用矩阵表示,即行列表示
含义 主要基因芯片数据库 smd,Geo(www.ncbi,/geo),EBI ArrayExpress

Outline
得到矩阵后?
芯片数据:众多基因的时空表达情况 基因表达模式------聚类 差异表达基因筛选(疾病相关基因筛选) 疾病类型识别 网络分析:通过芯片数据找出基因之间的 相互作用 基因注释 其他

内容
基因芯片技术(概念、制作过程、应用等) 基因芯片数据分析一般流程和主要内容

基因芯片数据处理流程与分析介绍

基因芯片数据处理流程与分析介绍

基因芯片数据处理流程与分析介绍关键词:基因芯片数据处理当人类基因体定序计划的重要里程碑完成之后,生命科学正式迈入了一个后基因体时代,基因芯片(microarray)的出现让研究人员得以宏观的视野来探讨分子机转。

不过分析是相当复杂的学问,正因为基因芯片成千上万的信息使得分析数据量庞大,更需要应用到生物统计与生物信息相关软件的协助。

要取得一完整的数据结果,除了前端的实验设计与操作的无暇外,如何以精确的分析取得可信数据,运筹帷幄于方寸之间,更是画龙点睛的关键。

基因芯片的应用基因芯片可以同时针对生物体内数以千计的基因进行表现量分析,对于科学研究者而言,不论是细胞的生命周期、生化调控路径、蛋白质交互作用关系等等研究,或是药物研发中对于药物作用目标基因的筛选,到临床的疾病诊断预测,都为基因芯片可以发挥功用的范畴。

基因表现图谱抓取了时间点当下所有的动态基因表现情形,将所有的探针所代表的基因与荧光强度转换成基本数据(raw data)后,仿如尚未解密前的达文西密码,隐藏的奥秘由丝丝的线索串联绵延,有待专家抽丝剥茧,如剥洋葱般从外而内层层解析出数千数万数据下的隐晦含义。

要获得有意义的分析结果,恐怕不能如泼墨画般洒脱随兴所致。

从raw data取得后,需要一连贯的分析流程(图一),经过许多统计方法,才能条清理明的将raw data整理出一初步的分析数据,当处理到取得实验组除以对照组的对数值后(Iog2 ratio),大约完成初步的统计工作,可进展到下一步的进阶分析阶段。

Rosetta profile error model calculation2Sqweeze replicated probes^Normalize intensities (exclude flagged ^nd wontroldata) with median scaling"Basic statistic plot and Pearson correlationcoefficient^Combine tech nicar repeatPairwise ratid calculation图一、整体分析流程。

bioconductor包的使用方法

bioconductor包的使用方法

Bioconductor包的使用方法1. 什么是Bioconductor包?Bioconductor是一个用于生物信息学和计算生物学的开源软件项目,旨在提供生物学数据的分析和可视化工具。

Bioconductor项目提供了大量的R语言包,用于处理、分析和可视化生物学数据。

这些包涵盖了多个领域,包括基因表达、基因组学、蛋白质组学、代谢组学等。

Bioconductor包的使用方法可以帮助生物学家、生物信息学家和计算生物学家更好地利用Bioconductor项目提供的工具和资源,进行生物学数据的分析和解释。

2. 安装Bioconductor包要使用Bioconductor包,首先需要安装Bioconductor。

安装Bioconductor的方法如下:if (!requireNamespace("BiocManager", quietly = TRUE))install.packages("BiocManager")BiocManager::install()上述代码会安装BiocManager包,然后使用BiocManager::install()函数安装Bioconductor。

3. 查找Bioconductor包Bioconductor提供了一个网站,可以用于查找和浏览Bioconductor包。

该网站的网址是,可以在搜索框中输入关键词来查找相关的包。

在R中,可以使用BiocManager::available()函数来列出所有可用的Bioconductor 包。

可以使用BiocManager::search()函数来搜索包含指定关键词的包。

# 列出所有可用的Bioconductor包BiocManager::available()# 搜索包含指定关键词的Bioconductor包BiocManager::search("gene expression")4. 安装Bioconductor包要安装Bioconductor包,可以使用BiocManager::install()函数。

基因芯片数据分析

基因芯片数据分析
(2). DNA chips: 将寡核苷酸探针 (20~80-mer) 合成到 芯片上。Affymetrix开发设计,通常为单通道, 一次检验一种状态 。
(1) cDNA microarrays
cDNA clones
载玻片
差异表达基因的筛选
Treatment / control Normal / tumor tissue Brain / liver …
荧光标记的靶基因
(2) DNA chips
DNA chips的制备:Affymetrix photolitography
探针长度:25 bp 每个基因:22-40个探针 Perfect Match (PM) vs.
MisMatch (MM) probes
A. 选择硅片、玻璃片、瓷片或聚丙烯膜、尼龙膜等支持物 B. 采用光导化学合成和照相平板印刷技术在硅片等表面合成寡核苷酸探 针; 或者通过液相化学合成寡核苷酸链探针,或PCR技术扩增基因序列, 由阵列复制器,或阵列机及电脑控制的机器人,将不同探针样品定量点 样于带正电荷的尼龙膜或硅片等相应位置上 C. 紫外线交联固定后即得到DNA微阵列或芯片
基因芯片数据分析
1. 基因芯片(Microarray) 2. 图像处理与数据标准化 3. 基因芯片的数据分析
1. 基因芯片简介
基因芯片 (1987): 固定有寡核苷酸、DNA或cDNA等 的生物芯片。利用这类芯片与标记生物样品进行杂 交,可对样品基因表达谱生物信息进行快速定性和 定量分析。
高通量、点阵以及Northern杂交 同时测定细胞内数千个基因的表达情况 将mRNA反转录成cDNA与芯片上的探针杂交
芯片的体积非常小:微量样品的检测 基因表达情况的定量分析
生物芯片的基本要点

bioconductor分析芯片数据教程

bioconductor分析芯片数据教程

bioconductor分析芯片数据教程wangpeng905 2017.04.21 09:21* 这是我在The Bioinformatics Knowledgeblog 上看到的一篇教程,原文在这里,教程条理清晰,对我理解芯片数据分析流程帮助很大,就把它翻译了过来。

介绍芯片数据分析流程有些复杂,但使用R 和Bioconductor 包进行分析就简单多了。

本教程将一步一步的展示如何安装R 和Bioconductor,通过GEO 数据库下载芯片数据,对数据进行标准化,然后对数据进行质控检查,最后查找差异表达的基因。

教程示例安装的各种依赖包和运行命令均是是在Ubuntu 环境中运行的(版本:Ubuntu 10.04,R 2.121),教程的示例代码和图片在这里。

安装R 和Bioconductor 包打开命令终端,先安装R 和Bioconductor 的依赖包,然后安装R.$ sudo apt-get install r-base-core libxml2-devlibcurl4-openssl-dev curl$ R之后在R 环境中安装Bioconductor 包&gt; # 下载Bioconductor 的安装程序&gt; source("/biocLite.R")&gt; # 安装Bioconductor 的核心包&gt; biocLite()&gt; # 安装GEO 包&gt; biocLite("GEOquery")如果你没有管理员权限,你需要将这些包安装到你个人库目录中。

安装Bioconductor 需要一段时间,GEOquery 包也需要安装,GEOquery 是NCBI 存储标准化的转录组数据的基因表达综合数据库GEO 的接口程序。

下载芯片数据本教程中我们使用Dr Andrew Browning 发表的数据集GSE20986。

Bioconductor的DNA甲基化芯片分析流程

Bioconductor的DNA甲基化芯片分析流程

Bioconductor的DNA甲基化芯片分析流程一次偶然的搜索中发现biocondutor有个甲基化芯片的分析流程,刚好可以学习下,写的真的很棒。

Bioconductor的DNA methylation workflow可以在/help/workflows/methylationArrayAnalysis/中查看,教程开头先对DNA甲基化芯片及其原理做了简单的介绍,包括一些常见的术语:比如β value和M value,后面就正式进入DNA甲基化的分析方法的讲解了。

下载测试数据测试数据是放在methylationArrayAnalysis中的,安装官网的方法安装下即可(PS.如果安装时卡住,可以用Rstudio的Tools来安装)source("/workflows.R")workflowInstall("methylationArrayAnalysis")安装后,比如我R包是默认安装的R文件夹中的,所以我的数据路径是E:/R-3.4.1/library/methylationArrayAnalysis/extdata/,那么可以列出该目录下有哪些文件看看list.files("E:/R-3.4.1/library/methylationArrayAnalysis/extdata/", recursive = TRUE)测试数据总共有两套数据(GSE49667和GSE51180),前者总共包括10个样本,作为主要的测试数据;后者则只用了其一个样本,作为测试数据中的异常样本。

样本分组信息:从3个体(M28, M29, M30)中取4种不同的T-cell types(naive, rTreg, act_naive, act_rTreg),act_naive、act_rTreg是指对应经anti-CD3、anti-CD28 antibodies处理的naive、rTreg,以上分组信息也可以看数据目录下的SampleSheet.csv文件作者提了最近几年常见的DNA甲基化芯片分析的软件,如minfi,methylumi,wateRmelon,missMethyl,ChAMP和charm,最后还提到了用limma来做差异甲基化位点分析读入数据先按照教程加载其所会用到的R包library(limma)library(minfi)library(IlluminaHumanMethylation450kanno.ilmn12.hg19) library(IlluminaHumanMethylation450kmanifest)library(RColorBrewer)library(missMethyl)library(matrixStats)library(minfiData)library(Gviz)library(DMRcate)library(stringr)其中minfi,IlluminaHumanMethylation450kanno.ilmn12.hg19,IlluminaHumanMethylation450kmanifest,missMethyl,DMRcate是DNA甲基化分析专用R包,RColorBrewer,Gviz是用于可视化的R包,stringr,matrixStats是用于一些数据处理的,limma则是用于差异甲基化分析的用minfi包的read.metharray.sheet函数读入IDAT格式的数据,其中SampleSheet.csv文件是必须的,不然最后数据集中会缺少样本信息;其产生的targets向量中包含了样本信息外,还有IDAT格式数据的所在路径,方便read.metharray.exp函数读入数据targets <- read.metharray.sheet("E:/R-3.4.1/library/methylationArrayAnalysis/extdata",pattern="SampleSheet.csv")rgSet <- read.metharray.exp(targets=targets)质控以detection p-values评估每样本中的每个CpG位点的质量,当p-values > 0.01时则说明该探针信号数据质量较低,需要去除detP <- detectionP(rgSet)将平均detection p-values > 0.05的样本认为是低质量的样本;从结果中可以看出最后一个样本的平均detection p-values远远大于0.05,因此从rgSet中去除(从rgSet的结构中看出,其数据分布是按照每列一个样本来的)keep <-colMeans(detP) < 0.05keeprgSet <-rgSet[,keep]标准化现在有很多用于DNA甲基化芯片数据的标准化方法,其中一些方法已经整合在minfi包中了;现在为止没有一种标准化方法被认为是最好的方法,但是一些标准化方法在某些情况下是比较好的选择,作者总结了如下几点:1.对于用于cancer/normal or vastlydifferent tissue types的差异比较的话,可以用preprocessFunnorm函数(Functionalnormalization)2.对于不需要进行差异比较的单样本数据,如单个组织样本,那么可以用preprocessQuantile函数3.更多的标准化方法的比较,作者推荐看A Data-Driven Approach to Guide theChoice of an Appropriate NormalizationMethod除了上述提的2个标准化方法外,minfi包还支持preprocessIllumina(类似于Illumina的Genome Studio的标准化方法),preprocessSWAN(Subset-quantile within array normalisation)以及preprocessNoob(normal-exponential out-of-band)作者比较了这些标准化方法后,发现对于这次的测试数据,这几种标准化结果都大体上相似的,所以作者最终选择了用preprocessQuantile,标准化为rgSet从RGChannelSet对象变成了mSetSq的GenomicRatioSet对象,表示从探针的信号强度转化到了beta value/M value,并且已mapping to GenomemSetSq <- preprocessQuantile(rgSet)我们也可以不做任何标准化处理,只为获得GenomicRatioSet对象用于下游分析mSetRaw <- preprocessRaw(rgSet)然后用minfi包内置的densityPlot函数,看看标准化前后的beta value的密度曲线targets <- targets[keep,] ##在样本信息中也去掉异常样本par(mfrow=c(1,2))densityPlot(rgSet,sampGroups=targets$Sample_Group,main="Raw",legend=FALSE)legend("top", legend = levels(factor(targets$Sample_Group)), text.col=brewer.pal(8,"Dark2"), cex = 0.6)densityPlot(getBeta(mSetSq),sampGroups=targets$Sample_Group,main="Normalized", legend=FALSE)legend("top", legend = levels(factor(targets$Sample_Group)), text.col=brewer.pal(8,"Dark2"), cex = 0.6)Data exploration作者建议可以先做个主成分分析,如Multi-dimensional scaling (MDS) plots来看下样本分布情况,可以根据情况自行选择target向量中的分组,如看下targets$Sample_Group下的MDS plot,PS.这里是用M value来作图的plotMDS(getM(mSetSq), top=1000, gene.selection="common",col=pal[factor(targets$Sample_Group)])legend("top", legend=levels(factor(targets$Sample_Group)), text.col=pal, bg="white", cex=0.7)数据过滤一些质量较差的探针需要在下游差异分析之前去除,之前的质控作者是用detection p-value去除了异常样本,在这里则需要去除在一些样本中质量较差的探针1.因为前面质控时获得的detP中的探针顺序已经和mSetSq中的探针不一致了,所以先将前者的顺序调整为和后者一致detP<-detP[match(featureNames(mSetSq),rownames(detP)),]2.作者以remove any probes that have failed in one or more samples为标准去除不满足detection p-value阈值(0.01)的探针,也就是说,一个探针只要detection p-value > 0.01就去除keep <- rowSums(detP < 0.01) == ncol(mSetSq)table(keep)mSetSqFlt <- mSetS q[keep,]3.过滤掉X,Y染色体上的探针(一般数据都要做这一步,只要还需进行下游差异分析的话),但这个测试数据都是男性样本,所以就没必要去除了,但作者还是给出了该怎么去除在X,Y染色体上探针的代码,原理就是根据ann450k = getAnnotation(IlluminaHumanMethylation450kanno.ilmn12.hg1 9)这个注释文件的数据集,里面标注了那些探针出现在哪个染色体上的信息keep <- !(featureNames(mSetSqFlt) %in% ann450k`$Name[ann450k$`chr %in% c("chrX","chrY")]) table(keep)mSetSqFlt <- mSetSqFlt[keep,]4.过滤掉所有SNP相关的探针,作者建议用minfi包的dropLociWithSnps函数,除了去除默认的SNPs位点外,还可以去除那些minor allele frequencies高于阈值的位点;注:该函数是默认去除SNPs出现在CpG or single base extension (SBE) site的探针mSetSqFlt <- dropLociWithSnps(mSetSqFlt, snps = c("CpG", "SBE"))mSetSqFlt5.去除cross-reactive的探针,也就是multi-hit探针,即映射到多个位置的;这探针list是Chen et al.(2013)发表的,所以只要出现在这list上面的探针都可以去除了dataDirectory <- "E:/R-3.4.1/library/methylationArrayAnalysis/extdata/"xReactiveProbes <- read.csv(file=paste(dataDirectory, "48639-non-specific-probes-Illumina450k.csv", sep="/"), stringsAsFactors=FALSE)keep <- !(featureNames(mSetSqFlt) %in% xReactiveProbes$T argetID)mSetSqFlt <- mSetSqFlt[keep,]mSetSqFlt做完上述过滤和标准化后,作者建议再看下MDS plot,看看样本之间的联系是否发生了改变。

基于R_Bioconductor进行生物芯片数据分析

基于R_Bioconductor进行生物芯片数据分析

17
Expression Profiling Analysis
• Clustering and visualization
library(amap) hcluster(); dist();
#Hierarchical Clustering #more efficient than hclust()
#Distance Matrix Computation
14
Expression Profiling Analysis
• Preprocessing: Two-Color Spotted Arrays
library(limma) read.maimages(); #input data backgroundCorrect(); #Background adjustment normalizeWithinArrays(); #Normalize within arrays normalizeBetweenArrays(); #Normalize between arrays exprs.MA(); #Extract expression values avereps(); #Summary plotMA(); # MA plot
library(ctc) r2gtr(); #Write to gtr, atr, cdt file format for Treeview r2atr() r2cdt() library("gplots") heatmap.2(); #extensions to the standard R heatmap()
18
Expression Profiling Analysis
• Workflow
– Intergration – Independence

芯片技术的芯片数据分析

芯片技术的芯片数据分析

芯片技术的芯片数据分析:芯片分析概述随着基因芯片技术的普及,基因表达数据大量产生,如何充分利用这些数据并从中提取有用的生物学知识,是生物信息学所面临的一个迫切问题。

简要来说,生物芯片数据分析流程大体可分成以下几个阶段。

扫描与图像识别一张芯片完成杂交实验,经扫描仪读取后生成图形文件,经过划格(Griding)、确定杂交点范围(Spot Identifying)、过滤背景噪音(Noise Filtering)等图像识别过程,才能最终得到基因表达的荧光信号强度值,并以列表形式输出。

数据预处理由于杂交荧光标记效率或检出率不平衡、位置效应等多种因素,原始提取信号需要进行均衡和修正处理后,才能进一步分析。

这一步通常需要先进行背景校正(Background Correction),去除不均匀背景光强影响,然后再进行归一化(Normalization)处理。

一般来说,对于单色DNA芯片而言,这一步相对容易;而双色DNA芯片则需要考虑不同染料(Cy3、Cy5)对于mRNA染色效率的差异。

数据分析在前一步基础上,需要根据基因表达状况与事先设定的条件,对基因进行分类处理。

具体来说,又可分为寻找差异表达基因和寻找共表达基因两种。

所谓差异表达基因(Differen-tially Expressed Genes),是指在预先设定的不同实验条件下,表达量出现显著差异的基因。

而共表达基因(Co-expressed Genes)则是指在不同实验条件下,表达模式或表达量相似的基因。

实践中,在没有先验知识的情况下,一般是通过聚类来寻找这些基因。

如果事先已经有了一组明确的训练集,也可以通过分类来寻找与这组基因具有类似表达模式的其他基因。

所谓聚类,也称无监督分类(Un-supervised Classification),是指在未设定先验类别的情况下,根据表达模式或表达值相似程度,将基因划分为若干组。

而分类则是指在给定已经先验标明类别(如肿瘤、健康)训练集前提下,根据表达模式或表达值相似程度,将被检基因或样本归入预先设定的类别中。

基因芯片及其数据分析

基因芯片及其数据分析

基因芯片及其数据分析基因芯片(gene chip)是一种高通量的基因表达分析工具,也被称为基因表达芯片或基因表达板。

它可以同时检测和分析数以万计的基因,以了解基因在细胞或组织中的表达情况。

基因芯片的制备过程包括两个主要步骤:生物实验和芯片制造。

首先,采集感兴趣的生物样本,例如人体组织或细胞。

然后,从这些样本中提取RNA或DNA,将其转录为互补DNA(cDNA),并进行标记。

接着,将这些标记的cDNA片段加入芯片上的特定位置,称为探针。

这些探针是经过设计和合成的特定序列,可以与目标基因或RNA分子特异性结合。

在数据分析方面,基因芯片的分析流程包括数据预处理、差异分析和功能注释等步骤。

数据预处理主要是对原始芯片数据进行质量控制、标准化和归一化等处理,以消除技术偏差和样本间的差异。

差异分析是通过比较不同处理组的表达谱,找到差异表达的基因或通路,从而揭示不同条件下基因表达的变化。

功能注释是将识别出的差异基因进行生物学功能描述,包括基因本体论(Gene Ontology)、通路富集分析等,从而理解这些基因的生物学意义和参与的生物过程。

基因芯片的应用非常广泛。

在生物医学研究中,它常被用于筛选差异表达的基因,发现与特定疾病相关的生物标志物,探寻病理生理过程中的致病机制等。

例如,通过对癌症患者和正常人组织样本的基因芯片分析,可以发现不同癌症类型的分子标记物,用于早期诊断和治疗监测。

此外,基因芯片还被广泛应用于农业、食品安全、环境监测等领域,用于研究植物生长发育、种子品质、环境胁迫等相关问题。

然而,基因芯片的数据分析也面临一些挑战。

首先,由于芯片技术的快速发展,数据量急剧增加。

如何高效地处理和存储这些庞大的数据成为一个问题。

其次,芯片技术本身存在一定的误差和噪音,如何准确地分析和解释数据结果也是一个难题。

此外,芯片分析常常需要结合其他实验验证结果,以确认差异表达基因的生物学意义。

总的来说,基因芯片及其数据分析是现代生物学和医学研究中的重要工具。

Bioconductor简介及其在生物信息学中的应用

Bioconductor简介及其在生物信息学中的应用

封面页(设计好之后可以删掉这个文本框哦)Bioconductor 简介及其在生物信息学中的应用郑广勇上海生命科学研究院主要内容Bioconductor 软件介绍Bioconductor 软件应用◆基因芯片分析中的应用BioconductorBioconductor 是一个基于R语言的生物信息软件包,主要用于生物数据的注释、分析、统计、以)及可视化(Bioconductor 软件包的安装Bioconductor(1) Experiment Data ; (2) Software ; (3) Annotation Data基因芯片实验流程Gene-chip experiment Picture scan Raw picture芯片数据分析流程质量控制数据预处理 差异表达基因筛选 聚类分析信号通路富集分析 功能富集分析数据预处理通过数据预处理,过滤掉低质量数据获取表达值数据,主要包括以下几个方面:数据背景处理数据标准化综合表达量计算差异表达基因分析 Fold-change值T检验经验贝叶斯(Empirical Bayes)Wilcoxon秩和检验回归模型方法差异表达基因筛选方法Fold-change最简单的判断差异基因的方法,在没有重复试验的条件下很常用。

差异表达基因筛选方法T检验较常用的统计方法, 用于判断某一基因在两个样本中其表达是否有显著性差异, 不要求等方差,要求有重复试验差异表达基因筛选方法经验贝叶斯(Empirical Bayes)T-检验的一种改进方法,将标准差及信号强度的关系使用线性模型进一步强化,提高了准确率,目前比较常用的一种方法Wilcoxon秩和检验是一种非参数的检验方法,该方法要比T-检验更加稳健, 更适合非正态分布的数据线性回归模型通过线性模型模拟不同实验条件下的基因表达情况,其给出的回归方程不仅包括筛选差异表达基因部分, 还包括数据的预处理部分Bioconductor芯片分析包affy对数据进行表达值计算,质量控制,标准化等simpleaffy对表达数据进行质量控制,T检验,筛选出差异表达基因;affyPLM对芯片数据进行读取,质量控制,标准化;gcRMA对芯片数据进行读取,质量控制,标准化;limma采用回归模型方法进行差异表达基因筛选,读取数据,数据质量控制,标准化,用回归模型的方法筛选差异表达基因等,针对双通道数据比较全面的一套处理步骤;表达谱数据聚类分析在基因表达数据分析中, 根据处理对象与目标的不同,将聚类方法分为三类: 基于基因的聚类(Gene-based clustering)基于样本的聚类(Sample-based clustering)双向聚类(Biclustering)基因本体数据库基因本体数据库() 是GO组织构建的一个结构化的标准生物学模型,旨在建立基因及其产物知识的标准词汇体系,涵盖了基因的细胞组分(cellular component)、分子功能(molecular function)、生物学过程(biological process)。

Bioconductor基因芯片数据分析系列(一):数据的读取

Bioconductor基因芯片数据分析系列(一):数据的读取

Bioconductor基因芯片数据分析系列(一):R包中数据的读取R软件的Bioconductor包是分析芯片数据的神器,今天小编打算推出芯片数据的系列教程。

首先讲数据读取,以CLL数据包中的数据为例。

打开R studio。

#安装所需的R包以及CLL包,注意大小写,一般函数都是小写的source("/biocLite.R");biocLite(“CLL”)图1.显示已经安装好Bioconductor了,版本为3.4#打开CLL包library(CLL)图2.显示打开CLL成功图3.右侧栏内可见看到目前载入的程序包data(CLLbatch)#调用RMA算法对数据预处理CLLrma<-rma(CLLbatch)#读取处理后所有样品的基因表达值e<- exprs(CLLrma)#查看数据e我们可以看到,CLL数据集中共有24个样品(CLL10.CEL, CLL11.CEL, CLL12.CEL, 等),此数据集的病人分为两组:稳定组和进展组,采用的设计为两组之间的对照试验(Control Test)。

从上面的结果可知,Bioconductor具有强大的数据预处理能力和调用能力,仅仅用了6行代码就完成了数据的读取及预处理。

Bioconductor基因芯片数据分析系列(二):GEO下载数据CEL的读取首先得下载一个数据,读取GEO的CEL文件采用如下命令:登陆pubmed,找到一个你感兴趣的数据库在底下栏目下载CEL文件打开R软件#安装所需的R包以及CLL包,注意大小写,一般函数都是小写的source("/biocLite.R");biocLite(“CLL”)>library(affy)>affybatch<- ReadAffy(celfile.path = "GSE36376_RAW")请注意目录的路径,在window下,反斜杠‘\’要用转义字符“\\”表示。

Bioconductor没想象的那么简单(part1)

Bioconductor没想象的那么简单(part1)

Bioconductor没想象的那么简单(part1)⼤神⼀句话,菜鸟跑半年。

我不是⼤神,但我可以缩短你⾛弯路的半年~就像歌⼉唱的那样,如果你不知道该往哪⼉⾛,就留在这学点⽣信好不好~这⾥有⾖⾖和花花的学习历程,从新⼿到进阶,⽣信路上有你有我!⾖⾖写于19.3.24⼀直以来我认为Bioconductor主要就是下载⽣信R包、看看⼀些说明书,但是它的强⼤远超想象,所有关于R基础对象的知识都能在这⾥学习到,其实⾥⾯的许多教程都是开放的,只是平时我们想不起来学。

但是接触到三个单细胞的R包(Seurat、Scater、Monocle)后,我发现,对象的理解是那么的重要,于是我找了这个关于整体学习Bioconductor的学习资料,也与你分享这是2018年的Bioconductor出品的课程,涵盖了基础R知识、Bioconductor架构、实际分析与Bioconductor关系,学它肯定没错的,掌握对象的知识后,也许⼀些复杂的R包学起来就会变得轻松⼀些这⾥跳过第⼀部分introduction,直接从第⼆部分(书中编号100)开始,我会提炼⾃⼰认为⽐较重要的地⽅这个教程为了打消⼤家对R和Bioconductor的为难情绪,⾸先说明了:This workshop is intended for those with little or no experience using R or Bioconductor.关于R的基础内容[带有⽰例数据]创建⽰例数据最快的⽅法:在⼀个新⽂件夹中新建⼀个Rproject,然后新建⼀个⽂本,其中包含如下信息# 先拷贝原始数据,在https:///Bioconductor/BiocWorkshops/master/100_Morgan_RBiocForAll/ALL-phenoData.csv$cat >ALL-phenoData.csv# 再粘贴(最后ctrl + c)然后你就会看到当前⽬录下就会新增⼀个ALL-phenoData.csv⽂件其中,sample表⽰样本ID号;sex是每个病⼈的性别;age是年龄;mol.biol是每个病⼈的细胞学表征,BCR/ABL表⽰存在典型的BCR/ABL易位,NEG表⽰没有特别的细胞学信息1. 我们上⾯是⾃⼰新建的⽂件,所以我们清楚知道它在什么位置,但是如果想找到某个⽂件的路径应该怎么弄?可以利⽤file.choose(),它会弹出⼀个对话框,让你去找你想找的⽂件,然后返回它的路径,当然我们可以同时把返回值赋给⼀个变量> fname <- file.choose()> fname[1] '/Users/bioconductor/ALL-phenoData.csv'# 利⽤file.exists()检查⽂件是否存在> file.exists(fname)[1] TRUE#读⼊⽂件> pdata <- read.csv(fname)#然后还是标准的检查dim(pdata)head(pdata)summary(pdata)这样R默认会把第⼀列Sample也当成数值,summary统计结果就会将sample这⼀列也进⾏统计> summary(pdata)Sample sex age mol.biol01003 : 1 F :42 Min. : 5.00 ALL1/AF4:1001005 : 1 M :83 1st Qu.:19.00 BCR/ABL :3701007 : 1 NA's: 3 Median :29.00 E2A/PBX1: 501010 : 1 Mean :32.37 NEG :7402020 : 1 3rd Qu.:45.50 NUP-98 : 103002 : 1 Max. :58.00 p15/p16 : 1(Other):122 NA's :5> typeof(pdata$Sample)[1] 'integer'这⾥显⽰第⼀列被识别为整数,但其实第⼀列信息就是字符,因此如果我们清楚知道导⼊的数据每⼀列是什么类型,那么就可以导⼊时直接指定:# 提前指定每列的类型> pdata <- read.csv(fname,colClasses = c('character', 'factor', 'integer', 'factor'))> summary(pdata)Sample sex age mol.biolLength:128 F :42 Min. : 5.00 ALL1/AF4:10Class :character M :83 1st Qu.:19.00 BCR/ABL :37Mode :character NA's: 3 Median :29.00 E2A/PBX1: 5Mean :32.37 NEG :743rd Qu.:45.50 NUP-98 : 1Max. :58.00 p15/p16 : 1NA's :51. A %in% B表⽰向量A中的元素是否在向量B中出现,返回逻辑值# 检查A中是否包含B的信息[这⾥没有全部列出]> pdata$mol.biol %in% c('BCR/ABL', 'NEG')[1] TRUE TRUE TRUE FALSE TRUE ...1. subset取⼦集# 取⼦集> subset(pdata, sex == 'F' & age > 50)Sample sex age mol.biol3 03002 F 52 BCR/ABL27 16004 F 58 ALL1/AF430 20002 F 58 BCR/ABL39 24011 F 51 BCR/ABL58 28021 F 54 BCR/ABL63 28032 F 52 ALL1/AF471 30001 F 54 BCR/ABL84 57001 F 53 NEG同样也可以选出mol.biol为BCR/ABL或NEG的⾏> bcrabl <- subset(pdata, mol.biol %in% c('BCR/ABL', 'NEG'))> dim( bcrabl )[1] 111 4# 然后table看⼀些(table的意思就是 tabular summary)> table(bcrabl$mol.biol)ALL1/AF4 BCR/ABL E2A/PBX1 NEG NUP-98 p15/p160 37 0 74 0 0# 因为我们只选了BCR/ABL和NEG两项,因此其他的都是空⽩,想要只看选出来的这两项信息,可以> factor(bcrabl$mol.biol)[1] BCR/ABL NEG BCR/ABL NEG NEG NEG NEG NEG BCR/ABL[10] BCR/ABL NEG NEG BCR/ABL NEG BCR/ABL BCR/ABL BCR/ABL BCR/ABL ...# 更新⼀下bcrabl的mol.biol列(看前后Levels的变化)# (之前)> bcrabl$mol.biol[1] BCR/ABL NEG BCR/ABL NEG NEG NEG NEG NEG BCR/ABL ...Levels: ALL1/AF4 BCR/ABL E2A/PBX1 NEG NUP-98 p15/p16# (之后)> bcrabl$mol.biol <- factor(bcrabl$mol.biol)> bcrabl$mol.biol[1] BCR/ABL NEG BCR/ABL NEG NEG NEG NEG NEG BCR/ABL ...Levels: BCR/ABL NEG1. formula公式的使⽤这个在R中是⼀个⾮常常⽤的概念,左边是因变量,右边是⾃变量,例如age ~ mol.biol就表⽰年龄随着细胞学表征的变化boxplot(age ~ mol.biol, bcrabl)从箱线图中就可以清楚看出,BCR/ABL的⼈平均年龄⽐NEG偏⾼,可以再结合t检验进⾏验证t检验是1908年德国啤酒⼚的⼀个员⼯发明,⾃谦为student,也就是t的来源。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Bioconductor基因芯片数据分析系列(一):R包中数据的读取
R软件的Bioconductor包是分析芯片数据的神器,今天小编打算推出芯片数据的系列教程。

首先讲数据读取,以CLL数据包中的数据为例。

打开R studio。

#安装所需的R包以及CLL包,注意大小写,一般函数都是小写的
source("/biocLite.R");
biocLite(“CLL”)
图1.显示已经安装好Bioconductor了,版本为3.4
#打开CLL包
library(CLL)
图2.显示打开CLL成功
图3.右侧栏内可见看到目前载入的程序包
data(CLLbatch)
#调用RMA算法对数据预处理
CLLrma<-rma(CLLbatch)
#读取处理后所有样品的基因表达值
e<- exprs(CLLrma)
#查看数据
e
我们可以看到,CLL数据集中共有24个样品(CLL10.CEL, CLL11.CEL, CLL12.CEL, 等),此数据集的病人分为两组:稳定组和进展组,采用的设计为两组之间的对照试验(Control Test)。

从上面的结果可知,Bioconductor具有强大的数据预处理能力和调用能力,仅仅用了6行代码就完成了数据的读取及预处理。

Bioconductor基因芯片数据分析系列(二):GEO下载数据CEL的读取首先得下载一个数据,读取GEO的CEL文件采用如下命令:
登陆pubmed,找到一个你感兴趣的数据库
在底下栏目下载CEL文件
打开R软件
#安装所需的R包以及CLL包,注意大小写,一般函数都是小写的
source("/biocLite.R");
biocLite(“CLL”)
>library(affy)
>affybatch<- ReadAffy(celfile.path = "GSE36376_RAW")
请注意目录的路径,在window下,反斜杠‘\’要用转义字符“\\”表示。

然后可以使用RMA或者MAS5等方法对数据进行background.correction, normaliztion, pm.correct等等一系列处理。

如果你一切用默认参数,则可以使用如下命令:
>eset<- rma(affybatch),or eset<- mas5(affybatch)
>exp<- exprs(eset)
exp就是数字化的表达谱矩阵了
请注意,rma只使用匹配探针(PM)信号,exp数据已经进行log2处理。

mas5综合考虑PM和错配探针(MM)信号,exp数据没有取对数。

下一期就得等到2017年春节期间啦,敬请期待~
另外一种是直接利用GEO上面的GEO2R按钮里面的R script下载文件:
# Version info: R 3.2.3, Biobase 2.30.0, GEOquery 2.40.0, limma 3.26.8
# R scripts generated Mon Dec 26 06:54:42 EST 2016 Server:
Query:
acc=GSE36376&platform=GPL10558&type=txt&groups=&color s=&selection=XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXX&padj=fdr&logtransform=auto&col umns=ID&columns=adj.P.Val&columns=P.Value&columns=F&c
olumns=Gene+symbol&columns=Gene+title&num=250&annot=n cbi
# Unable to generate script analyzing differential expression.
# Invalid input: at least two groups of samples should be selected.
##################################################### ###########
# Boxplot for selected GEO samples
library(Biobase)
library(GEOquery)
# load series and platform data from GEO
gset<- getGEO("GSE36376", GSEMatrix =TRUE,
getGPL=FALSE)
if (length(gset) > 1) idx<- grep("GPL10558", attr(gset, "names")) else idx<- 1
gset<- gset[[idx]]
# set parameters and draw the plot
dev.new(width=4+dim(gset)[[2]]/5, height=6)
par(mar=c(2+round(max(nchar(sampleNames(gset)))/2),4, 2,1))
title<- paste ("GSE36376", '/', annotation(gset), " selected samples", sep ='')
boxplot(exprs(gset), boxwex=0.7, notch=T, main=title, outline=FALSE, las=2)。

相关文档
最新文档