2020年7基因芯片数据分析参照模板
基因芯片数据分析过程:从原始数据到生物学意义
Th ir r a t e M c oa r y Da a Ana y i o e s r m Ra l ss Pr c s :f o w Da a t o o i a i n fc n e t o Bi l g c l S g i a c i
HU l i JAN n c u , 觎 a I , Xi - h n
[ e rs mcor y s tt a aa s ; ls raayi eea nttn K y wod ] i ar ; ti i l nl i cut n l s n n oao r a a sc y s e s ;g i
基 因芯 片 技 术 是 分 子 生 物 学 在 实 验 领 域 的 一 项 重 大 突 破 ,
33 3
文 章 编 号 :0 9 0 0 (070 — 33 0 10 — 0 22 0 )2 0 3 — 3
综
述
基 因芯 片数 据 分析 过 程 : 从原 始 数 据到 生物 学 意义
胡 延佳 , 翦新春
中南 大 学 湘雅 医 院 口腔 颌 面 外科 , 南 长 沙 4 00 湖 10 8 [ 要 】 基 因芯 片 实验 要得 到 可 靠 的 生 物 学结 论 , 摘 必须 基 于 优 化 的 实验 设 计 和 科 学 的 数据 分 析 。讨 论 了与基 因芯 片 数 据分
me tl d s n a d t e s in i c d t n l s . S v r l p o lms a o t t e e p r n a e in w ih a e r ltd wi mi na e i n h ce t i aa a a y i g f s e e a r b e b u h x e me tl d sg h c r ea e t i h —
基因表达谱数据分析技术
第18卷第6期微阵列技术[1-3]的到来对生物学和医学来说是一场革命,通过它可以同时观测成千上万个基因的表达水平,从而能够在基因组水平上以系统的、全局的观念去研究生命现象及其本质。
还可以根据基因在不同条件下表达的差异性来进行复杂疾病诊断、药物筛选、个性化治疗、基因功能发现、农作物优育和优选、环境检测和防治、食品卫生监督及司法鉴定等,因此对基因表达谱的研究具有重要的理论价值和应用意义。
微阵列基因表达数据具有维数高、样本小、非线性的特点,这对一些传统的机器学习方法提出了新的挑战,对其数据的分析已成为生物信息学研究的焦点。
1基因表达数据采集基因表达数据采集可分为三个步骤:微阵列设计、图像分析和数据获取、过滤、标准化。
基因芯片(gene chip ),简称为微阵列,就是指固着在载体上的高密度DNA 微点阵,具体地说就是将靶基因或寡核苷酸片段有序地、高密度排列在玻璃、硅等载体上。
mRNA (信使核糖核酸)的表达水平的获得是通过选取来自不同状态的样本(如正常组织与肿瘤组织、不同发育阶段组织,或用药之前与用药之后组织等,一种称为实验样本,另外一种称为参考样本),在逆转录过程中,实验样本和参考样本RNA (核糖核酸)分别用不同的红、绿荧光染料去标记,并将它们混合,与微阵列上的探针序列进行杂交,经适当的洗脱步骤与激光扫描仪对芯片进行扫描,获得对应于每种荧光的荧光强度图像,通过专用的图像分析软件,可获得微阵列上每个点的红、绿荧光强度(Cy5和Cy3),其比值(Cy5/Cy3)表示该基因在实验样本中的表达水平。
在通常情况下,考虑Cy5和Cy3的数值时,还应考虑相应的背景数值,如果微阵列上某个基因的Cy5或Cy3数值比相应的背景数值低,则该基因的表达水平无法确定。
为了方便数据处理,常孟令梅等:一种基于DCT 变换的图像认证算法文章编号:1005-1228(2010)06-0017-03基因表达谱数据分析技术刘玲(江苏财经职业技术学院,江苏淮安223001)摘要:人类基因组计划的研究已进入后基因组时代,后基因组时代研究的焦点已经从测序转向功能研究,主要采用无监督和有监督技术来分析基因表达谱和识别基因功能,通过基因转录调控网络分析细胞内基因之间的相互作用关系的整体表示,说明生命功能在基因表达层面的展现,对目前基因表达谱数据分析技术及它们的发展,进行了综述性的研究,分析了它们的优缺点,提出了解决问题的思路和方法,为基因表达谱的进一步研究提供了新的途径。
实验6 基因芯片数据处理分析与GO分析
实验目的:
1. 学会使用 TM4 软件集对芯片数据进行处理和分析,学会使用 Cluster 进行聚类分析 3. 学会 GO 语义及其相关注释的浏览与搜索,学会使用 DAVID 进行基因集功能富集分析
实验内容:
一、基因芯片数据处理和分析
基因芯片或称微阵列(microarray)能够平行、高通量地检测成千上万基因转录本的表 达水平, 应用芯片技术可以比较正常和异常细胞中的表达, 帮助识别疾病相关基因和药物作 用靶标,分析复杂疾病的致病机制,也可以揭示基因间的表达调控关系。基因芯片数据处理 包括芯片杂交实验芯片数据采集(扫描)数据基本处理提交数据库生物信息学分析 等步骤,涉及很多不同的实验类型。这里介绍 TIGR 中心开发的 TM4 软件包,应用 MeV、 Cluster 和 TreeView 等软件对相关基因表达谱进行聚类分析和差异表达基因的筛选。
Figure 6.11 ( 2 ) 数 据 导 入 : 点 击 “Browse” 按 钮 , 打 开 软 件 自 带 的 表 达 量 数 据 文 件 :
TDMS_format_sample.txt , 样 本 数 据 便 自 动 加 载 到 “Expression File Loader” 窗 口 下 方 的 “Expression Table”栏(Figure 6.12) 。实验数据类型有两个选项:双色芯片(Two-color Array) 和单色芯片(Single-color Array) ,本例选择双色芯片。单击“Load”按钮将数据导入。
Figure 6.12 (3)显示基因表达情况:通过 Multiple Array Viewer 窗口看热图(Heat map) ,了解每 个基因在不同样本中的相对表达量(Figure 6.13) 。
基因芯片(Affymetrix)分析1:芯片质量分析
基因芯⽚(Affymetrix)分析1:芯⽚质量分析TAIR,NASCarray 和 EBI 都有⼀些公开的免费芯⽚数据可以下载。
本专题使⽤的数据来⾃NASCarray(Exp350),也可以⽤FTP直接下载。
下载其中的CEL⽂件即可(.CEL.gz),下载后解压缩到同⼀⽂件夹内。
该实验有1个对照和3个处理,各有2个重复,共8张芯⽚(8个CEL⽂件)。
为什么要进⾏芯⽚质量分析?不是每个⼈做了实验都会得到⾼质量的数据,花了钱不⼀定就有回报,这道理⼤家都懂。
芯⽚实验有可能失败,失败的原因可能是技术上的(包括⽚⼦本⾝的质量),也可能是实验设计⽅⾯的。
芯⽚质量分析主要检测前者。
1 R软件包安装使⽤到两个软件包:affy,simpleaffy:library(BiocInstaller)biocLite(c("affy", "simpleaffy"))另外还需要两个辅助软件包:tcltk和scales。
tcltk⼀般R基础安装包都已经装有。
install.packages(c("tcltk", "scales"))2 读取CEL⽂件载⼊affy软件包:library(affy)library(tcltk)选取CEL⽂件。
以下两种⽅法任选⼀种即可。
第⼀种⽅法是通过选取⽬录获得某个⽬录内(包括⼦⽬录)的所有cel⽂件:# ⽤choose.dir函数选择⽂件夹dir <- tk_choose.dir(caption = "Select folder")# 列出CEL⽂件,保存到变量cel.files <- list.files(path = dir, pattern = ".+\\.cel$", ignore.case = TRUE,s = TRUE, recursive = TRUE)# 查看⽂件名basename(cel.files)第⼆种⽅法是通过⽂件选取选择⽬录内部分或全部cel⽂件:# 建⽴⽂件过滤器filters <- matrix(c("CEL file", ".[Cc][Ee][Ll]", "All", ".*"), ncol = 2, byrow = T)# 使⽤tk_choose.files函数选择⽂件cel.files <- tk_choose.files(caption = "Select CELs", multi = TRUE, filters = filters,index = 1)# 注意:较⽼版本的tk函数有bug,列表的第⼀个⽂件名可能是错的basename(cel.files)## [1] "NRID9780_Zarka_2-1_MT-0HCA(SOIL)_Rep1_ATH1.CEL"## [2] "NRID9781_Zarka_2-2_MT-0HCB(SOIL)_Rep2_ATH1.CEL"## [3] "NRID9782_Zarka_2-3_MT-1HCA(SOIL)_Rep1_ATH1.CEL"## [4] "NRID9783_Zarka_2-4_MT-1HCB(SOIL)_Rep2_ATH1.CEL"## [5] "NRID9784_Zarka_2-5_MT-24HCA(SOIL)_Rep1_ATH1.CEL"## [6] "NRID9785_Zarka_2-6_MT-24HCB(SOIL)_Rep2_ATH1.CEL"## [7] "NRID9786_Zarka_2-7_MT-7DCA(SOIL)_Rep1_ATH1.CEL"## [8] "NRID9787_Zarka_2-8_MT-7DCB(SOIL)_Rep2_ATH1.CEL"读取CEL⽂件数据使⽤ReadAffy函数,它的参数为:# Not run. 函数说明,请不要运⾏下⾯代码ReadAffy(..., filenames = character(0), widget = getOption("BioC")$affy$use.widgets,compress = getOption("BioC")$affy$compress.cel, celfile.path = NULL, sampleNames = NULL,phenoData = NULL, description = NULL, notes = "", rm.mask = FALSE, rm.outliers = FALSE,rm.extra = FALSE, verbose = FALSE, sd = FALSE, cdfname = NULL)除⽂件名外我们使⽤函数的默认参数读取CEL⽂件:data.raw <- ReadAffy(filenames = cel.files)读⼊芯⽚的默认样品名称是⽂件名,⽤sampleNames函数查看或修改:sampleNames(data.raw)## [1] "NRID9780_Zarka_2-1_MT-0HCA(SOIL)_Rep1_ATH1.CEL"## [2] "NRID9781_Zarka_2-2_MT-0HCB(SOIL)_Rep2_ATH1.CEL"## [3] "NRID9782_Zarka_2-3_MT-1HCA(SOIL)_Rep1_ATH1.CEL"## [4] "NRID9783_Zarka_2-4_MT-1HCB(SOIL)_Rep2_ATH1.CEL"## [5] "NRID9784_Zarka_2-5_MT-24HCA(SOIL)_Rep1_ATH1.CEL"## [6] "NRID9785_Zarka_2-6_MT-24HCB(SOIL)_Rep2_ATH1.CEL"## [7] "NRID9786_Zarka_2-7_MT-7DCA(SOIL)_Rep1_ATH1.CEL"## [8] "NRID9787_Zarka_2-8_MT-7DCB(SOIL)_Rep2_ATH1.CEL"sampleNames(data.raw) <- paste("CHIP", 1:length(cel.files), sep = "-")sampleNames(data.raw)## [1] "CHIP-1" "CHIP-2" "CHIP-3" "CHIP-4" "CHIP-5" "CHIP-6" "CHIP-7" "CHIP-8"3 查看芯⽚的基本信息Phenotypic data数据可能有⽤,可以修改成你需要的内容,⽤pData函数查看和修改:pData(data.raw)## sample## CHIP-1 1## CHIP-2 2## CHIP-3 3## CHIP-4 4## CHIP-5 5## CHIP-6 6## CHIP-7 7## CHIP-8 8pData(data.raw)$Treatment <- gl(2, 1, length = length(cel.files), labels = c("CK","T"))pData(data.raw)## sample Treatment## CHIP-1 1 CK## CHIP-2 2 T## CHIP-3 3 CK## CHIP-4 4 T## CHIP-5 5 CK## CHIP-6 6 T## CHIP-7 7 CK## CHIP-8 8 TPM和MM查看:# Perfect-match probespm.data <- pm(data.raw)head(pm.data)## CHIP-1 CHIP-2 CHIP-3 CHIP-4 CHIP-5 CHIP-6 CHIP-7 CHIP-8 ## 501131 127.0 166.3 112.0 139.8 111.3 85.5 126.3 102.8## 251604 118.5 105.0 82.0 101.5 94.0 81.3 103.8 103.0## 261891 117.0 90.5 113.0 101.8 99.3 107.0 85.3 85.3## 230387 140.5 113.5 94.8 137.5 117.3 112.5 124.3 114.0## 217334 227.3 192.5 174.0 192.8 162.3 163.3 235.0 195.8## 451116 135.0 122.0 86.8 93.3 83.8 87.3 97.3 83.5# Mis-match probesmm.data <- mm(data.raw)head(mm.data)## CHIP-1 CHIP-2 CHIP-3 CHIP-4 CHIP-5 CHIP-6 CHIP-7 CHIP-8 ## 501843 89.0 88.0 80.5 91.0 77.0 75.0 79.0 72.0## 252316 134.3 77.3 77.0 107.8 98.5 75.0 99.5 71.3## 262603 119.3 90.5 82.0 86.3 93.0 89.3 94.5 83.8## 231099 123.5 94.5 76.5 95.0 89.3 87.8 95.5 91.5## 218046 110.3 93.0 74.8 100.5 86.0 89.5 104.5 102.3## 451828 127.5 77.0 80.3 94.5 72.3 79.0 86.3 67.84 显⽰芯⽚扫描图像(灰度)# 芯⽚数量n.cel <- length(cel.files)par(mfrow = c(ceiling(n.cel/2), 2))par(mar = c(0.5, 0.5, 2, 0.5))# 设置调⾊板颜⾊为灰度pallette.gray <- c(rep(gray(0:10/10), times = seq(1, 41, by = 4)))# 通过for循环逐个作图for (i in 1:n.cel) image(data.raw[, i], col = pallette.gray)如果芯⽚图像有斑块现象就很可能是坏⽚。
实验6基因芯片数据处理分析与GO分析
实验6基因芯片数据处理分析与GO分析实验背景:基因芯片技术是通过检测靶基因在不同样本中的表达量差异,并分析其生物信息学特性,来揭示基因调控网络与疾病发生发展的过程的一种高通量技术。
基因芯片数据处理和分析是基因芯片研究的关键步骤之一、通过对基因芯片数据进行预处理、差异分析、聚类分析等,可以获得与研究目标相关的基因列表,并进一步进行GO(Gene Ontology)的功能富集分析,揭示差异表达基因的功能特性。
实验目的:通过基因芯片数据处理分析和GO功能富集分析,获得与研究目标相关的差异表达基因,并揭示其在生物学功能、分子过程和细胞组分方面的富集情况,为后续的生物学实验和机制研究提供理论依据。
实验步骤:1.基因芯片数据的预处理:包括数据导入、数据清洗、标准化和基因注释等。
首先,将基因芯片数据导入到数据分析软件中,然后针对数据质量进行清洗,剔除异常值和低质量的基因。
接下来,对基因表达谱数据进行归一化处理,保证不同芯片之间的数据可比性。
最后,对基因进行注释,将基因名与其对应的功能注释进行关联。
2.差异分析:通过比较不同组别之间的基因表达差异,筛选出差异表达基因。
差异分析方法包括t检验、方差分析等。
根据统计学中的显著性水平,设定p值的阈值,将差异表达基因筛选出来。
3.聚类分析:将差异表达基因按照其表达谱进行聚类分析,可将具有相似表达模式的基因聚集在一起。
常用的聚类方法包括层次聚类和K均值聚类等。
实验结果与分析:通过基因芯片数据处理和分析,我们得到了与研究目标相关的差异表达基因。
结合GO分析的结果,我们可以进一步了解这些差异表达基因在生物学功能、分子过程和细胞组分方面的富集情况。
例如,在生物学过程方面,我们可以得知这些基因是否与细胞增殖、凋亡、信号传导等生物学过程相关;在分子功能方面,我们可以了解这些基因是否具有催化活性、结合能力等分子功能特性;在细胞组分方面,我们可以了解这些基因在细胞核、细胞质、细胞膜等细胞组分的分布情况。
基因芯片小知识(二)数据分析
基因芯片小知识(二)数据分析发送生信到本公众号(freescience联盟)后台,查看系列相关文章~提取生物样品的mRNA并反转录成cDNA,同时用荧光素或同位素标记。
在液相中与基因芯片上的探针杂交,经洗膜后用图像扫描仪捕获芯片上的荧光或同位素信号,由此获得的图像就是基因芯片的原始数据(raw data),也叫探针水平数据。
获取探针水平的数据是芯片数据处理的第一步,然后需要对其进行预处理(pre-processing),以获得基因表达数据(gene expression data)。
基因表达数据通常用矩阵形式表示,称为基因表达矩阵。
基因表达矩阵的每一行代表一个基因的表达量,一列代表一个样本的所有基因的表达情况。
一背景(background)处理背景处理即过滤芯片杂交信号中属于非特异性的背景噪音部分。
一般以图像处理软件对芯片划格后,每个杂交点周围区域各像素吸光度的平均值作为背景。
但此法存在芯片不同区域背景扣减不均匀的缺点,同时会使1%~5%的点产生无意义的负值。
也可利用芯片最低信号强度的点(代表非特异性的样本与探针结合值)或综合整个芯片非杂交点背景所得的平均值做为背景。
Brown等提出利用整个芯片杂交点外的平均吸光度值作为背景的best-fit方法,使该问题得到较好的解决,并有效地提高了处理数据的质量。
背景处理之后,我们可以将芯片数据以矩阵的格式输出。
二数据筛选经过背景校正后的芯片数据中可能会产生负值,显然负值是没有生物学意义的。
数据集中还可能包括一些单个异常大(或小)的峰(谷)信号,它们被认为是随机噪声。
另外,对于负值和噪声信号,通常的处理方法就是将其去除。
然而,数据的缺失(除了上述原因会造成数据缺失以外,扫描的过程中也可能会产生缺失)对后续的统计分析(尤其是层式聚类和主成分分析)有致命的影响,所以在进行分析前需要数据筛选。
数据筛选的步骤是先筛选点样,然后是数据标准化、截断异常值,最后筛选基因。
2020年基因芯片行业分析报告
2020年基因芯片行业分析报告2020年11月目录一、行业发展概况 (5)1、基因芯片的定义与分类 (5)2、行业发展历程 (5)(1)技术空白期(1997年以前) (6)(2)初具萌芽期(1998-2000年) (6)(3)技术探索期(2001-2005年) (7)(4)快速发展期(2006-2010年) (7)(5)产业化探索期(2011年至今) (7)3、行业发展趋势 (8)(1)多种疾病基因数据库建设 (8)(2)中低密度基因芯片热度提高 (9)二、行业市场规模 (10)三、行业上下游情况 (11)1、上游情况 (12)2、下游情况 (13)四、影响行业发展的因素 (14)1、有利因素 (14)(1)潜在的医学诊断需求创造市场空间 (14)①产前筛查需求 (14)②肿瘤诊断需求 (15)(2)居民消费能力提高,健康意识增强 (16)(3)应用示范中心建设推动产业化 (17)2、不利因素 (18)(1)缺乏复合型人才 (18)(2)应用成本高 (19)(3)缺乏数据库 (19)五、行业监管和政策 (20)1、行业监管法律法规 (20)2、行业发展支持政策 (22)六、行业主要壁垒 (25)1、技术壁垒 (25)2、人才壁垒 (25)3、资质壁垒 (26)七、行业主要企业简析 (26)1、达安基因 (28)(1)研发平台优势 (29)(2)品牌集成+市场网络平台优势 (30)(3)产业链平台优势 (30)2、赛乐奇 (30)(1)技术优势 (31)(2)产品优势 (32)(3)团队优势 (32)基因芯片,指通过与一组已知序列的核酸探针杂交进行核酸序列测定的方法,即在一块基片表面固定了序列已知的靶核苷酸的探针,当带标记的核酸序列与基因芯片上对应位置的核酸探针产生互补匹配时,通过确定探针位置,获得一组序列完全互补的探针序列,重组出靶核酸序列的技术。
中国基因芯片行业起步较晚,得益于国家相关政策支持和终端需求的不断扩大,现阶段,基因芯片行业已进入产业化探索阶段,市场规模持续增长,预计2023年达到348.1亿元人民币规模。
基因芯片数据分析
第三步:模型评估
第7次课 基因芯片数据分析
研究现状与最新进展
内容提要
1. 数据预处理 2. 寻找差异基因 3. 聚类分析 4. 分类分析 5. 通路与功能分析 6. 基因调控网络构建
1. 数据预处理
校正前后的芯片MA散点图
2. 寻找差异基因
根据p值和变化倍数确定差异表达基因
3. 聚类分析
目的: 基于相似性或者差异程度,对基因/样品进行划分, 每一个分组称为一个“cluster” 划分多少组:生物学背景,用户定义
自组织映射神经网络
优点是自动提取样本数据中的信息,是一种全局 的决策方法,能避免陷入局部最小。具有更稳健 更准确的特点,对噪声稳定,一般不依赖于数据 分布的形状。
缺点在于必须实现人为设定类的数目与学习参数, 而且学习时间较长
(四)双向聚类
双向聚类:识别基 因表达谱矩阵中同 质的子矩阵,运用 特定的基因子类识 别样本子类。
层次聚类方法
目前运用在芯片数据分析中最多的聚类方法, 得到类似于进化分析的系统树图。
其主要思想是先计算n个样本类间的距离,再 将相似性最高的两类合并为一个新类,得到n1类的矩阵,不断重复这个过程直至所有的基 因融合成为一个大类。
层次聚类
乳腺癌亚型分类研究
乳腺癌亚型:根据浸润性乳腺癌基因表达情况分类 采用层次聚类法
基因芯片聚类分析举例
例1. 酵母新陈代谢的时序基因芯片数据分析 例2. 芯片数据的基因本体富集性分析
聚类方法的问题
问题:下面的情况有用吗?
距离度量问题:怎样定义? 更复杂的方法: manifold clustering
5. 芯片数据的分类分析
线性判别分析(LDA):找边界 K临近(KNN):和“朋友”保持一致 机器学习方法:
基因芯片技术的应用分析
基因芯片技术的应用分析摘要:基因芯片技术是近年来诞生的一项高通量、高效率检测技术,能够帮助人们大规模的获取生物信息,为生命科学的研究提供了新的理论支撑。
本文主要针对基因芯片技术的应用进行分析。
关键词:基因芯片技术;应用;分析随着科学技术的不断进步,基因技术也在不断的更新变化,基因芯片技术就是在这样的时代背景下发展起来的,它是生物学上的一种全新的技术,融合了生命科学,化学、计算机技术、生物学等各个领域,该项技术的产生为人类的生活带来了更大的便利,尤其是在医学领域,为各种疑难杂症的治疗提供了新型的治疗方式。
一、基因芯片技术的原理基因芯片技术是在近几年开发研制出来的一种全新的测试DNA的方式,他借助于集成电路制作过程中的微缩技术,将不连续、分散的基因片段整合起来,再整合上核酸、蛋白多肽等分子结构,形成高密度的分子列,然后再进行靶分子作用,利用分子杂交技术进行化学反应,其结果显示出来后,由计算机进行数据分析,转变为适合我们应用的信息。
二、基因芯片技术的四个核心技术1、基因芯片的制作技术基因芯片技术应用的首要步骤是制作基因芯片,现阶段采用的方式主要有原位合成法和直接点样法。
原位合成法主要包括光导合成法和压电合成法,对于寡核苷酸比较适用,其反应比较迅速,信息量大,并且可以和其他的芯片制作方式结合使用,制作过程简单易行,但是原位合成法的探针长度不够,使有些测试工作不能正常进行。
2、样品的制作与标记技术在需要检测的组织中提取DNA或RNA,经过转录、标记,转变为适于检测的基因样品。
现阶段采用的标记方式主要有荧光标记,在需要测试的基因片断中用荧光素加以标识,便于使用者可以迅速的找到需要检测的部位。
3、杂交反应技术基因芯片技术运用的是固液相反的杂交反应,将探针分子固定在基因芯片的表面,然后将其与液体中的靶分子进行反应,进而获得需要的数据信息。
但是基因芯片的杂交反应要求比较严格,对于盐浓度、探针的长度和带电量、探针与芯片之间的连接臂种类和长度等都有要求。
基因芯片原理及数据分析01
基因芯片数据分析流程
生物学问题 实验设计 芯片实验 图像采集和处理(图像分析) 预处理和标准化 聚类分析 差异表达基因分析 判别分析 基因网络分析
生物学解释和验证
基因芯片数据分析
基因芯片数据的预处理是一个十分关键的步
骤,通过数据过滤获取需要的数据、数据转 换满足正态分布的分析要求、缺失值的估计 弥补不完整的数据、数据归一化纠正系统误 差等处理为后续分析工作做准备,预处理分 析的重要性并不亚于基因芯片的后续分析, 它将直接影响后续分析是否能得到预期的结 果 ,Arraytools
基因芯片原理及数据分析
杨德印 生物信息学系
参考教材和资料
《基因芯片数据分析与处理》李瑶 化学工业出版社 2006年 《生物芯片分析》 [美]M.谢纳 著 科学出版社 《DNA芯片技术的方法与应用》 马文丽 郑文岭 广东科 技出版社 《生物芯片技术》 邢婉丽 程京 清华大学出版社 《生物芯片技术》 陈忠斌 化学工业出版社 《基因芯片与功能基因组》 李瑶 化学工业出版社 Google,ncbi,endnote:网络资源,文章(Paper) 相关关键词microarray,gene chip,gene expression
数据
数据表示:常用矩阵表示,即行列表示
含义 主要基因芯片数据库 smd,Geo(www.ncbi,/geo),EBI ArrayExpress
Outline
得到矩阵后?
芯片数据:众多基因的时空表达情况 基因表达模式------聚类 差异表达基因筛选(疾病相关基因筛选) 疾病类型识别 网络分析:通过芯片数据找出基因之间的 相互作用 基因注释 其他
内容
基因芯片技术(概念、制作过程、应用等) 基因芯片数据分析一般流程和主要内容
基因芯片技术利用基因芯片进行差异表达基因分析解析PPT教案
差异表达基因分析
在Affymetrix等短的寡核苷酸芯片中,采用单色荧 光标记的方式,实验组和对照组分别用两张芯片进 行检测,表达差异值即为两张芯片的信号比值。
噪声和芯片本身的一些因素以及生物学本身的特点 给筛选差异表达基因带来了很大的麻烦。
必须设定一个差异表达基因的判定标准。这个筛选 的标准就称为差异表达基因的阈值。
第9页/共70页 第8页/共70页
排秩统计量法
选择一个统计量给基因排秩(研究多,方法多) 为排秩统计量选择一个阈值,在阈值之上的值
将被认为是表达差异显著的值
第10页/共70页 第9页/共70页
重复芯片(replicates)M值法
根据比率平均值或M值对基因排序。M值为信 号强度比值的log2值,M杠是任一特定基因在 重复序列中M值的均值。
第7页/共70页 第6页/共70页
Z值法
在一张cDNA芯片上一般都点了很多基因,其实这些基 因中只有一小部分表达有差异,所以一般都假设表达 的比率值满足正态分布。
Z=(X-µ)/σ. |Z|>=1.96 在寡核苷酸芯片中,芯片上的基因在相应实验条件下
或相应组织中也只有一小部分基因有表达,可以假定 强度满足对数正态分布,同样可以对其作Z变换,使其 具有统计意义。
第8页/共70页 第7页/共70页
Z值法
缺点: 如果实验体系中没有一条差异表达的基因,Z值法还是
会挑选出5%的差异表达基因。这是因为在芯片实验中, 总有一些由于背景噪声产生的假阳性点。 如果实际上实验中有大量的基因表达发生改变,Z值法 还是机械的找出5%的差异表达基因,丢失了一部分真 阳性点。
在加权均数中,权重为上面计算的基因间的相似性。K 值的确定具有一定的经验性,但不宜太大和太小。
芯片间数据分析
Gene expression unchanged induced repressed
Processing of images
• Addressing or gridding – Assigning coordinates to each of the spots
• Segmentation – Classification of pixels either as foreground or as background
– TIFF (tagged image file format) 16 bit (65’536 levels of grey) – 1cm x 1cm image at 16 bit = 2Mb (uncompressed) – other formats exist e.g.. SCN (used at Stanford University)
Meng Zhou
Areas Being Studied with Microarrays
• Differential gene expression between two (or more) sample types
• Similar gene expression across treatments
7基因芯片数据分析
(2)分析方法
lo2g(R/G)
log2 RG
M = log2R - log2G A = (log2R + log2G)/2
前面提及的标准化方 法仅效正了数据分布的 中心,在不同的栅格间 log-Ratios 的方差也 不同。
第三节 差异表达分析
(Analysis of Differentially Expression Gene )
2、K近邻法
选择与具有缺失值基因的 k个邻居基因
用邻居基因的加权平均估 计缺失值
参数: 邻居个数 距离函数
3、回归法
三、数据标准化
(一)为什么要进行数据标准化
存在不同来源的系统误差 1. 染料物理特性差异(热和光敏感性,半衰期等) 2. 染料连接效能 3. 点样针差异 4. 数据收集过程中扫描设施 5. 不同芯片差异 6. 实验条件差异
SS组间 ni(xix)2
i
MS组内
SS组内 v组内
2
SS组内
(xij xi)
ij
F MS组间 MS 组内
方差分析可用于基因在两种或多种条件间的表达量的比较, 它将基因在样本之间的总变异分解为组间变异和组内变异两 部分。通过方差分析的假设检验判断组间变异是否存在,如 果存在则表明基因在不同条件下的表达有差异。
limma Matlab: Bioinformatics Toolbox
生命不止 奋斗不息 谢谢
第五节 基因芯片数据的分 类分析
(Classification of Microarray Data )
一、线性判别分类器
g(x)wTxb00,,LL12
二、k近邻分类法 基本思想
三、决策树
(一)基本思想
基因芯片及新一代测序数据分析基础
RNA-Seq 数据归一化方法
报告内容
• 数据质控
1
• 数据归一化
2
• 差异筛选
3
• 关联注释
4
• 常用的生物信息分析方法/软件
5
差异筛选方法
不同模拟实验条件下模拟200次各方法对差异变量的平均排序结果
2007 中国卫生统计学术大会论文 赵
报告内容
• 数据质控
1
• 数据归一化
2
• 差异筛选
3
已知miRNA 发现的比例
Exon capture 数据质控
捕获富集效率统计
Exon capture 数据质控
捕获目标区域的测序深度
报告内容
• 数据质控
1
• 数据归一化
2
• 差异筛选
3
• 关联注释
4
• 常用的生物信息分析方法/软件
5
数据归一化的重要性
目的是建立数据可以合理比较的基础
主要芯片归一化方法
GO富集分析
Pathway 富集分析
GSEA 原理
GSEA 运行
WGCNA
基因间相关系数的建立
a | cor(x , x ) |
ij
ij
Construct a network
Rationale: make use of interaction patterns between genes
Agilent
• Background correction + averaging duplicate spots + normalization
Illumina
• Background correction (in GenomeStudio) + normalization
基因芯片分析
Microarray: 误差的来源
1. 图像分析 2. 扫描 3. DNA杂交过程 (温度、时间、混合均匀 程度等) 4. 探针的标记 5. RNA的抽提 6. 加样 7. 其他
Bioinformatics, 2008-2009, Semester 1, USTC
Red/green 比值存在亮度的倾向
Bioinformatics, 2008-2009, Semester 1, USTC
Microarray: 误差的来源
系统的
log signal intensity log RNA abundance
Bioinformatics, 2008-2009, Semester 1, USTC
随机的
/2
Bioinformatics, 2008-2009, Semester 1, USTC
/2
P-value: 学生分布
1. T-test: 学生分布 2. Excel函数:TTEST(array1,array2,tails,type)
Array1为第一个数据集 Array2为第二个数据集 Tails指示分布曲线的尾数。如果 tails = 1,函数 TTEST 使用单尾分布。如果 tails = 2,函数 TTEST 使 用双尾分布 Type为 t 检验的类型
M = log2R/G = log2R - log2G
Values should scatter about zero.
= (log2R Bioinformatics, 2008-2009, Semester 1, USTC+
log2G )/2
数据标准化
before
after
基因芯片小知识(二)数据分析
基因芯片小知识(二)数据分析提取生物样品的mRNA并反转录成cDNA,同时用荧光素或同位素标记。
在液相中与基因芯片上的探针杂交,经洗膜后用图像扫描仪捕获芯片上的荧光或同位素信号,由此获得的图像就是基因芯片的原始数据(raw data),也叫探针水平数据。
获取探针水平的数据是芯片数据处理的第一步,然后需要对其进行预处理(pre-processing),以获得基因表达数据(gene expression data)。
基因表达数据通常用矩阵形式表示,称为基因表达矩阵。
基因表达矩阵的每一行代表一个基因的表达量,一列代表一个样本的所有基因的表达情况。
一背景(background)处理背景处理即过滤芯片杂交信号中属于非特异性的背景噪音部分。
一般以图像处理软件对芯片划格后,每个杂交点周围区域各像素吸光度的平均值作为背景。
但此法存在芯片不同区域背景扣减不均匀的缺点,同时会使1%~5%的点产生无意义的负值。
也可利用芯片最低信号强度的点(代表非特异性的样本与探针结合值)或综合整个芯片非杂交点背景所得的平均值做为背景。
Brown等提出利用整个芯片杂交点外的平均吸光度值作为背景的best-fit方法,使该问题得到较好的解决,并有效地提高了处理数据的质量。
背景处理之后,我们可以将芯片数据以矩阵的格式输出。
数据筛选经过背景校正后的芯片数据中可能会产生负值,显然负值是没有生物学意义的。
数据集中还可能包括一些单个异常大(或小)的峰(谷)信号,它们被认为是随机噪声。
另外,对于负值和噪声信号,通常的处理方法就是将其去除。
然而,数据的缺失(除了上述原因会造成数据缺失以外,扫描的过程中也可能会产生缺失)对后续的统计分析(尤其是层式聚类和主成分分析)有致命的影响,所以在进行分析前需要数据筛选。
数据筛选的步骤是先筛选点样,然后是数据标准化、截断异常值,最后筛选基因。
1 点样筛选点样筛选指在单独芯片上对点样进行筛选,主要用于质量控制目的,以去除“坏”点样。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
五、基因表达仓库 Gene Expression Omnibus,GEO
六、斯坦福微阵列数据库 The Stanford Microarray
Database,SMD
第二节 基因芯片数据预处理
(General Microarray Data Type and Database )
一、基因芯片数据提取与过滤
(2)比较R与定义的阈值Tau(小的正值,默 认值为0.015 ).
(3) 单侧的Wilcoxon’s Signed Rank test产生p值,根据p值定义定量信号 值 Present call Marginal call Absent call
2、提取定量信号 (1)分析步骤 获取探针水平数据 背景值效正 标准化处理 探针特异背景值效正 探针集信号的汇总
为什么 一张芯片的不同区域运用不同的点样针点样,从 而引入点样针带来的系统误差。
method
(4) 尺度调整(Scale adjustment) 为什么
调整不同栅格(grids)间的数据离散度 方法:计算不同栅格的尺度因子
2、片间标化(Multiple-slide normalization)
二、数据补缺
(一)数据缺失类型
非随机缺失 基因表达丰度过高或过低
随机缺失 与基因表达丰度无关,数据 补缺主要针对随机缺失情况
(二)数据补缺方法
1、简单补缺法
missing values = 0 expression missing values = 1 expression (arbitrary signal) missing values = row (gene) average missing values = column (array) average
假设: R=k*G 方法:
C=log2k:中值或均值
(2) 荧光强度依赖的标化(Intensity dependent normalization)
为什么 方法: scatter-plot smoother lowess拟
合
c(A) 为M vs A的拟合函数
标化后的数据
(3) 点样针依赖的标化(Within-print-tip-group normalization)
3、染色互换实验(dye-swap experiment ) 的标化
芯片1 芯片2
实验组 cy5(R) cy3(G)
对照组 cy3(G’) cy5(R’)
前提假设:c︽c’ 方法:
(四) Affymetrix芯片数据标准化
1、 提取定性信号
(1)对每个探针对计算R R = (PM - MM) / (PM + MM)
SS 组间 ni (xi x)2
i
MS组内
SS组内 v组内
2
SS组内
(xij xi )
ij
F MS组间 MS组内
2、K近邻法
选择与具有缺失值基因的 k个邻居基因
用邻居基因的加权平均估 计缺失值
参数: 邻居个数 距离函数
3、回归法
三、数据标准化
(一)为什么要进行数据标准化
存在不同来源的系统误差 1. 染料物理特性差异(热和光敏感性,半衰期等) 2. 染料连接效能 3. 点样针差异 4. 数据收集过程中扫描设施 5. 不同芯片差异 6. 实验条件差异
(一) cDNA微阵列芯片
Ratio (CH1I CH1B) /(CH 2I CH 2B)
(二) Affymetrix公司的原位合成芯片
定性信息提取:P/A/M(Present/Absent/Marginal) 定量信息提取:基于探针集汇总后的基因水平的荧光信号强度值
数据过滤
数据过滤的目的是去除表达水平是负值或很小的 数据、或者明显的噪声数据。 过闪耀现象 物理因素导致的信号污染 杂交效能低 点样问题 其它
一、倍数法
实验条件下的表达值
对照条件下的表达值
通常以2倍差异为阈值,判断基因是否差异表达
二、统计学方法
1、t检验法
t
x1 x2
s12 / n1 s22 / n2
运用t检验法可以判断基因在两不同条
件下的表达差异是否具有显著性
2、方差分析
2
SS 总
(xij x)
ij
组间
SS组间 v组间
线性标化法(Linear scaling methods) 与芯片内标化的尺度调整(Scale adjustment) 方 法类似
非线性标化法(non-linear methods) 分位数标化法(Quantile normalization)
两张芯片的表达数据的分位数标化至相同,即分布 于对角线上。
(二)运用哪些基因进行标准化处理
芯片上大部分基因(假设芯片上大部分基因在不同 条件下表达量相同)
不同条件间稳定表达的基因(如持家基因) 控制序列(spiked control )
合成DNA序列或外源的DNA序列,在不同条件下 表达水平相同。
(三) cDNA芯片数据标准化处理
1、片内标化(Within-slide normalization) (1) 全局标化(Global normalization)
第七章 基因芯片数据分析
Microarray Data Analysis
第一节 芯片平台及数据库
(General Microarray Platform and Database )
一、cDNA微阵列芯片
二、寡核苷酸芯片
寡核苷酸芯片类似于cDNA芯片,但是在探 针的设计上优于cDNA芯片,它的探针并不 是来源于cDNA克隆,而是预先设计并合成 的代表每个基因特异片段的约50mer左右长 度的序列,然后将其点样到特定的基质上 制备成芯片,从而克服了探针序列太长导 致的非特异性交叉杂交和由于探针杂交条 件变化巨大导致的数据结果的不可靠。
(2)分析方法
log2 (R / G)
log2 RG
M = log2R - log2G A = (log2R + log2G)/2
前面提及的标准化方 法仅效正了数据分布的 中心,在不同的栅格间 log-Ratios 的方差也 不同。
第三节 差异表达分析
(Analysis of Differentially Expression Gene )