生物信息学讲义——基因芯片数据分析资料
生物信息学讲义——基因芯片数据分析
生物信息学讲义——基因芯片数据分析生物信息学是指运用计算机技术和统计学方法来解析和理解生物领域的大规模生物数据的学科。
基因芯片数据分析是生物信息学研究的一个重要方向,通过对基因芯片数据进行分析,可以揭示基因在生物过程中的功能和调节机制。
本讲义将介绍基因芯片数据的分析方法和应用。
一、基因芯片数据的获取与处理基因芯片是一种用于检测和测量基因表达水平的高通量技术,可以同时检测上千个基因的表达情况。
获取基因芯片数据的第一步是进行基因芯片实验,如DNA芯片实验或RNA芯片实验。
实验得到的数据一般为原始强度值或信号强度值。
接下来,需要对这些原始数据进行预处理,包括背景校正、归一化和过滤噪声等步骤,以消除实验误差和提高数据质量。
二、基因表达分析基因芯片数据的最主要应用之一是进行基因表达分析。
基因表达分析可以揭示在不同条件下基因的表达模式和差异表达基因。
常用的基因表达分析方法包括差异表达分析、聚类分析和差异共表达网络分析等。
差异表达分析常用来寻找在不同条件下表达差异显著的基因,如差异表达基因的筛选和注释;聚类分析可以将表达模式相似的基因分为一组,如聚类分析可以将不同样本中的基因按照表达模式进行分类;差异共表达网络分析可以找到一组在差异表达样本中共同表达的基因,揭示潜在的功能模块。
三、功能富集分析对差异表达基因进行功能富集分析可以帮助我们理解这些基因的生物学功能和参与的生物过程。
功能富集分析可以通过对差异表达基因进行GO(Gene Ontology)注释,找到在特定条件下富集的生物学过程、分子功能和细胞组分等。
另外,功能富集分析还可以进行KEGG(Kyoto Encyclopedia of Genes and Genomes)富集分析,找到差异表达基因在代谢通路和信号传导通路中的富集情况。
四、基因调控网络分析基因调控网络分析可以帮助我们揭示基因间的调控关系和寻找关键调控基因。
基因调控网络是基于差异表达数据构建的,它可以包括转录因子-靶基因调控网络和miRNA-mRNA调控网络等。
生物芯片数据分析简介
一、基因芯片与基因表达 二、基因表达谱统计与分类分析 三、Ontology与基因功能注释 四、基于芯片数据的pathway分析
一、基因芯片与基因表达
什么是生物芯片?
一块指甲大小(1cm3 )的有多聚赖氨酸包被的硅片或其 它固体支持物(如玻璃片、硅片、聚丙烯膜、硝酸纤维 素膜、尼龙膜等 )。 生物芯片通过微加工和微流体系 统将生化分析中的样品制备、生 化反应、及结果检测有机地结合 集成在一起 。 具有高速度、分析自动化、及高 度并行处理能力 。
Subcellular components where a gene-product is found. Encompasses subcellular structures, locations, and macromolecular complexes
GO example
(Browser at /cgi-bin/go.cgi)
cDNA microarray
microRNA Chip
Biological question
Experimental design Microarray experiment
Image analysis
Normalization
Estimation
Testing
Clustering
Discrimination
13,601 Genes
Signal Transduction Ligand Binding or Carrier Motor Protein
GO Analysis—目标基因群显著性、靶向性基因功能分析。 Go Analysis对目标基因(差异基因等)进行GO分类,而后 对GO进行基于离散分布的显著性分析、误判率分析、富集度 分析,得出与实验目的有显著联系的、低误判率的、靶向性 的基因功能分类,该分类即导致样本性状差异的最重要的功 能差别,其所属基因是进一步验证的重要目标基因。 数据要求:标有上调和下调比值的差异基因列表。
免疫学中基因芯片的应用及数据分析方法
免疫学中基因芯片的应用及数据分析方法基因芯片是一种新型的生物技术工具,它被广泛运用于生物学研究、医学诊断以及农业等领域。
在免疫学研究中,基因芯片可以用来分析基因表达,研究免疫系统的生物学和病理生理学,以及开发新的免疫疗法。
本文将探讨免疫学中基因芯片的应用及数据分析方法。
一、基因芯片在免疫学研究中的应用基因芯片技术基于DNA序列互补的原理,可以同时探测几千个基因在不同生理和病理条件下的表达水平。
在免疫学研究中,基因芯片技术可以用来研究免疫系统中与疾病相关的基因表达变化,为免疫治疗的开发提供重要的信息。
1. 免疫系统基因表达谱的分析免疫系统是一种复杂的网络,包括免疫细胞、激素和细胞因子等多种成分。
在不同生理和病理条件下,免疫系统中的基因表达模式会发生变化,这些变化与多种疾病的发生和发展密切相关。
利用基因芯片技术可以对免疫系统中的基因表达谱进行全面的分析,从而发现与免疫系统相关的新的治疗靶点。
2. 免疫治疗的监测免疫治疗是一种新兴的治疗模式,包括肿瘤免疫治疗、自身免疫病治疗以及感染病治疗等。
基因芯片技术可以用来监测免疫治疗的效果,并评估治疗的预后。
例如,利用基因芯片技术可以分析免疫治疗后T细胞的基因表达谱,从而预测治疗是否成功。
3. 病原体识别和分析免疫系统的主要功能是识别和清除病原体,基因芯片技术可以用来识别和分析各种病原体的基因表达模式,从而发现新的病原体治疗靶点,为针对性治疗提供依据。
二、基因芯片数据分析方法基因芯片技术可以同时测量成千上万个基因的表达水平,产生的数据量很大,数据分析也是一个复杂的过程。
一般情况下,基因芯片数据分析包括数据预处理、差异基因筛选、聚类分析、生物学意义的解释等几个步骤。
1. 数据预处理数据预处理指的是原始的基因芯片数据清洗与归一化的过程,这是数据分析的关键步骤。
数据预处理的目的是剔除芯片噪声、基准样本处理、将不同芯片数据进行标准化处理,提高数据质量和可靠性,为后续分析打下基础。
生物信息学和基因芯片PPT讲稿
• 基因芯片的制备中支持物有多种,如玻片、硅片、聚
丙烯膜、硝酸纤维素膜、尼龙膜等。
片基
钢性片基如玻片、半 导体硅片等
薄膜片基如 NC、 Nylon 膜等
探针固定方式
原位合成(in situ synthesis)
预先合成后点样 (off-chip synthesis)
四、基因芯片的应用
• (一)疾病的诊断与治疗
• 1、遗传病相关基因的定位
• HGP使得许多遗传病的基因得以定位,因此,可以应
用基因芯片技术筛查遗传病,且方便可靠。
• 2、肿瘤诊断
• 已用基因芯片可检测人鼻咽癌、肺癌基因表达谱、肿瘤原
癌基因和抑癌基因的定位。
• 例:人类恶性肿瘤中,约有60%与人类P53抑癌基因的
突变有关,现研究人员研制成功了可检测P53基因所有 编码区错位突变和单碱基缺失突变的基因芯片。
2022/2/26
19
当前你正在浏览到的事第十九页PPTT,共二十九页。
• 3、感染性疾病的诊断
• 利用基因芯片对一些感染性的疾病疾病如HIV的诊断现
已成为事实。
• 4、耐药菌株和药敏检测
• 例:据WHO报告,全球每年约有800万的结核病患者,
2022/2/26
2
当前你正在浏览到的事第二页PPTT,共二十九页。
• 根据芯片上固定的探针不同,生物芯片包括:
基因芯片、蛋白质芯片、细胞芯片、组织芯 片,根据原理还有元件型微阵列芯片、通道 型微阵列芯片、生物传感芯片等新型生物芯 片。
2022/2/26
3
当前你正在浏览到的事第三页PPTT,共二十九页。
生物信息学和基因芯片课件
基因芯片小知识(二)数据分析
基因芯片小知识(二)数据分析提取生物样品的mRNA并反转录成cDNA,同时用荧光素或同位素标记。
在液相中与基因芯片上的探针杂交,经洗膜后用图像扫描仪捕获芯片上的荧光或同位素信号,由此获得的图像就是基因芯片的原始数据(raw data),也叫探针水平数据。
获取探针水平的数据是芯片数据处理的第一步,然后需要对其进行预处理(pre-processing),以获得基因表达数据(gene expression data)。
基因表达数据通常用矩阵形式表示,称为基因表达矩阵。
基因表达矩阵的每一行代表一个基因的表达量,一列代表一个样本的所有基因的表达情况。
一背景(background)处理背景处理即过滤芯片杂交信号中属于非特异性的背景噪音部分。
一般以图像处理软件对芯片划格后,每个杂交点周围区域各像素吸光度的平均值作为背景。
但此法存在芯片不同区域背景扣减不均匀的缺点,同时会使1%~5%的点产生无意义的负值。
也可利用芯片最低信号强度的点(代表非特异性的样本与探针结合值)或综合整个芯片非杂交点背景所得的平均值做为背景。
Brown等提出利用整个芯片杂交点外的平均吸光度值作为背景的best-fit方法,使该问题得到较好的解决,并有效地提高了处理数据的质量。
背景处理之后,我们可以将芯片数据以矩阵的格式输出。
数据筛选经过背景校正后的芯片数据中可能会产生负值,显然负值是没有生物学意义的。
数据集中还可能包括一些单个异常大(或小)的峰(谷)信号,它们被认为是随机噪声。
另外,对于负值和噪声信号,通常的处理方法就是将其去除。
然而,数据的缺失(除了上述原因会造成数据缺失以外,扫描的过程中也可能会产生缺失)对后续的统计分析(尤其是层式聚类和主成分分析)有致命的影响,所以在进行分析前需要数据筛选。
数据筛选的步骤是先筛选点样,然后是数据标准化、截断异常值,最后筛选基因。
1 点样筛选点样筛选指在单独芯片上对点样进行筛选,主要用于质量控制目的,以去除“坏”点样。
生物信息学讲义——基因芯片数据分析资料
生物信息学讲义——基因芯片数据分析资料基因芯片是一种高通量的技术,可以用于同时检测和量化数以千计的基因在一个样本中的表达水平。
通过分析基因芯片数据,我们可以获得大量的基因表达信息,并进一步了解基因在不同条件和疾病状态下的调控和功能。
下面是一份关于基因芯片数据分析的讲义。
一、基因芯片数据的处理与预处理1.数据获取与质控-从基因芯片实验中获取原始数据(CEL文件)。
-进行质控,包括检查芯片质量、样本质量和数据质量。
2.数据预处理-背景校正:去除背景信号,减小非特异性杂音。
-样本标准化:对样本间进行标准化处理,消除技术变异和样本间差异。
-基因过滤:去除低表达和不变的基因,减少多重检验问题。
二、差异基因分析1.统计分析-基于统计学的差异表达分析方法,如t检验、方差分析(ANOVA)等。
-根据差异分析结果,获取差异表达的基因列表。
2.功能注释与生物学解释-对差异表达的基因进行功能注释,包括富集分析、通路分析和基因功能类别分析等。
-通过生物学数据库查询和文献阅读,解释差异表达基因的生物学意义和可能的调控机制。
三、基因共表达网络分析1.相关性分析-计算基因间的相关系数,筛选出相关性较高的基因对。
-构建基因共表达网络,通过网络可视化方式展示基因间的关系。
2.模块发现和功能注释-使用聚类算法将基因分组成不同的模块,每个模块表示一组具有相似表达模式的基因。
-对每个模块进行功能注释,了解模块内基因的共同功能或通路。
四、基因云图和热图分析1.基因云图-使用基因注释信息和基因表达水平,绘制基因表达的云图。
-通过颜色和大小表示基因的表达水平、功能注释等信息。
2.热图分析-根据基因表达水平计算基因间的相似性,将相似性转换为颜色,绘制热图。
-热图可用于显示基因表达模式的相似性和差异。
五、整合分析与生物信息学工具1.基因集富集分析-将差异表达的基因列表输入基因富集分析工具,寻找与特定通路、功能或疾病相关的基因集。
2.数据可视化工具- 使用生物信息学工具和软件,如R、Bioconductor、Cytoscape等,进行数据可视化和交互式分析。
基因芯片原理及数据分析01
基因芯片数据分析流程
生物学问题 实验设计 芯片实验 图像采集和处理(图像分析) 预处理和标准化 聚类分析 差异表达基因分析 判别分析 基因网络分析
生物学解释和验证
基因芯片数据分析
基因芯片数据的预处理是一个十分关键的步
骤,通过数据过滤获取需要的数据、数据转 换满足正态分布的分析要求、缺失值的估计 弥补不完整的数据、数据归一化纠正系统误 差等处理为后续分析工作做准备,预处理分 析的重要性并不亚于基因芯片的后续分析, 它将直接影响后续分析是否能得到预期的结 果 ,Arraytools
基因芯片原理及数据分析
杨德印 生物信息学系
参考教材和资料
《基因芯片数据分析与处理》李瑶 化学工业出版社 2006年 《生物芯片分析》 [美]M.谢纳 著 科学出版社 《DNA芯片技术的方法与应用》 马文丽 郑文岭 广东科 技出版社 《生物芯片技术》 邢婉丽 程京 清华大学出版社 《生物芯片技术》 陈忠斌 化学工业出版社 《基因芯片与功能基因组》 李瑶 化学工业出版社 Google,ncbi,endnote:网络资源,文章(Paper) 相关关键词microarray,gene chip,gene expression
数据
数据表示:常用矩阵表示,即行列表示
含义 主要基因芯片数据库 smd,Geo(www.ncbi,/geo),EBI ArrayExpress
Outline
得到矩阵后?
芯片数据:众多基因的时空表达情况 基因表达模式------聚类 差异表达基因筛选(疾病相关基因筛选) 疾病类型识别 网络分析:通过芯片数据找出基因之间的 相互作用 基因注释 其他
内容
基因芯片技术(概念、制作过程、应用等) 基因芯片数据分析一般流程和主要内容
基因芯片及其数据分析
Page 3
2.基因芯片发展历史
Southern & Northern Blot
Dot Blot
Macroarray
Microarray
3.基因芯片癿杂交原理
如图,在一块基片表面固定了序列已知癿八核苷酸癿探针。当溶液中带有荧 光标记癿核酸序列TATGCAATCTAG,不基因芯片上对应位置癿核酸探针产 生互补匹配时,通过确定荧光强度最强癿探针位置,获得一组序列完全互补 癿探针序列。据此可重组出靶核酸癿序列。
Page 6
5.制备基因芯片癿固定方法
目前已有多种方法可以将寡核苷酸或短肽固定到固相支持 物上。这些方法总体上有两种,即原位合成( in situ synthesis )不合成点样两种。支持物有多种如玻璃片、 硅片、聚丙烯膜、硝酸纤维素膜、尼龙膜等,但需经特殊 处理。 作原位合成癿支持物在聚合反应前要先使其表面衍生出羟 基或氨基(视所要固定癿分子为核酸或寡肽而定)幵不保 护基建立共价连接;作点样用癿支持物为使其表面带上正 电荷以吸附带负电荷癿探针分子,通常需包被以氨基硅烷 或多聚赖氨酸等。
Page 7
6.基因芯片癿合成原理
基因芯片在片合成原理图 美国Affymetrix公司制备癿基因芯片产品在1.28*1.28cm2表面上可包含 300,000个20至25mer寡核苷酸探针,每个探针单元癿大小为10um X 10um。 其实验室芯片癿阵列数已超过到1,000,000个探针。
Page 8
Page 10
光纤微珠芯片癿组装
Page 11
光纤微珠芯片癿优点
光纤微珠芯片是利用独特癿微珠阵列(BeadArray)技术生产 癿芯片,具有高密度、高重复性、高灵敏度、低上样量、 定制灵活等特点,兊服了传统芯片癿多个技术瓶颈,丌仅 检测筛选速度很高,也显著降低了研究成本。光纤微珠芯 片有可能成为以后基因芯片癿发展方向。
基因芯片技术PPT课件
处理 电信号
生物信息
?
•DNA芯片
基因芯片
荧光标记的样品 共聚焦显微镜
获取荧光图象
杂交
探针设计
杂交结果分析
蛋白芯片(Protein Chips)
抗原——抗体、蛋白相互作用
组织芯片
将数十个甚至数千 个不同个体的组织 标本集成在一张固 相载体上所形成的 组织微阵列。
芯片实验室 (Lab-on-chip)
Detector 2
Scanner
图像处理
Detector 1
Detector 2
False-color differential image
图像分析
(1) find spots (2) quantitate spot intensities
图像分析
(3)calculate ratios
[cy3] [cy5]
杂交结果的聚类分析
表达谱聚类分析软件 Treeview
肿瘤基因表达谱分析与 肿瘤的分子分型
Molecular Classification of Cancer: Class Discovery and Class Prediction by Gene
Expression Monitoring
Golub T R, Slonim D K, Tamayo P, et al.
Probes Adhesion layer Substrate
二、样品的准备
• 样品的分离纯化
• 样品的扩增、标记:
反转录标记 随机引物延伸标记 PCR标记
基因表达谱Hale Waihona Puke 色标记Sample cells
1) 2)
Labeled RNA or DNA (Sample )
八章生物信息学在基因芯片中的应用
第二节 基因芯片设计
1、基因芯片设计的一般性原则 • 基因芯片设计主要包括两个方面: • (1)探针的设计
• 指如何选择芯片上的探针 • (2)探针在芯片上的布局
• 指如何将探针排布在芯片上。
第16页/共56页
• 确定芯片所要检测的目标对象
• 查询生物分子数据库
取得相应的DNA序列数据
第41页/共56页
第五节 基因芯片检测结果的分析
1、荧光检测图像处理 • 基因芯片与样本杂交以后,用图像扫描仪器捕获芯片上的荧光图像。在计算机中,一幅图像由二维象素点
所组成,通常用一个8-bit的整数存贮象素点的灰度值,取值范围为[0,255],其中0代表“黑”,255代表 “白”。
第42页/共56页
第3页/共56页
• 根据探针的类型和长度,基因芯片可分为两类。 • 其中一类是较长的DNA探针(100mer)芯片
• 这类芯片的探针往往是PCR的产物,通过点样方法将探针固定在芯片上, 主要用于RNA的表达分析。
• 另一类是短的寡核苷酸探针芯片 • 其探针长度为25 mer左右,一般通过在片(原位)合成方法得到,这类 芯片既可用于RNA的表达监控,也可以用于核酸序列分析。
第4页/共56页
原理 -- 通过杂交检测信息
一组寡核苷酸探针
ATACGTTA
TACGTTAG
由杂交位置确定的一组 核酸探针序列
ATACGTTA
TACGTTAG ACGTTAGA CGTTAGAT GTTAGATC
杂交探针组
ACGTTAGACGTTAGAT GTTAGATC
ATACGTTAGATC
—TATGCAATCTAG
第40页/共56页
基因芯片数据分析
(1) cDNA microarrays
cDNA clones
载玻片
差异表达基因的筛选
Treatment / control Normal / tumor tissue Brain / liver …
荧光标记的靶基因
(2) DNA chips
DNA chips的制备:Affymetrix photolitography
探针长度:25 bp 每个基因:22-40个探针 Perfect Match (PM) vs.
MisMatch (MM) probes
A. 选择硅片、玻璃片、瓷片或聚丙烯膜、尼龙膜等支持物 B. 采用光导化学合成和照相平板印刷技术在硅片等表面合成寡核苷酸探 针; 或者通过液相化学合成寡核苷酸链探针,或PCR技术扩增基因序列, 由阵列复制器,或阵列机及电脑控制的机器人,将不同探针样品定量点 样于带正电荷的尼龙膜或硅片等相应位置上 C. 紫外线交联固定后即得到DNA微阵列或芯片
基因芯片数据分析
1. 基因芯片(Microarray) 2. 图像处理与数据标准化 3. 基因芯片的数据分析
1. 基因芯片简介
基因芯片 (1987): 固定有寡核苷酸、DNA或cDNA等 的生物芯片。利用这类芯片与标记生物样品进行杂 交,可对样品基因表达谱生物信息进行快速定性和 定量分析。
高通量、点阵以及Northern杂交 同时测定细胞内数千个基因的表达情况 将mRNA反转录成cDNA与芯片上的探针杂交
芯片的体积非常小:微量样品的检测 基因表达情况的定量分析
生物芯片的基本要点
基因芯片数据功能分析
生物信息学在基因芯片数据功能分析中的应用2009-4-29随着人类基因组计划(Human Genome Project)即全部核苷酸测序的即将完成,人类基因组研究的重心逐渐进入后基因组时代(PostgenomeEra),向基因的功能及基因的多样性倾斜。
通过对个体在不同生长发育阶段或不同生理状态下大量基因表达的平行分析,研究相应基因在生物体内的功能,阐明不同层次多基因协同作用的机理,进而在人类重大疾病如癌症、心血管疾病的发病机理、诊断治疗、药物开发等方面的研究发挥巨大的作用。
它将大大推动人类结构基因组及功能基因组的各项基因组研究计划。
生物信息学在基因组学中发挥着重大的作用,而另一项崭新的技术——基因芯片已经成为大规模探索和提取生物分子信息的强有力手段,将在后基因组研究中发挥突出的作用。
基因芯片与生物信息学是相辅相成的,基因芯片技术本身是为了解决如何快速获得庞大遗传信息而发展起来的,可以为生物信息学研究提供必需的数据库,同时基因芯片的数据分析也极大地依赖于生物信息学,因此两者的结合给分子生物学研究提供了一条快捷通道。
本文介绍了几种常用的基因功能分析方法和工具:一、GO基因本体论分类法最先出现的芯片数据基因功能分析法是GO分类法。
Gene Ontology(GO,即基因本体论)数据库是一个较大的公开的生物分类学网络资源的一部分,它包含38675个Entrez Gene注释基因中的17348个,并把它们的功能分为三类:分子功能,生物学过程和细胞组分。
在每一个分类中,都提供一个描述功能信息的分级结构。
这样,GO中每一个分类术语都以一种被称为定向非循环图表(DAGs)的结构组织起来。
研究者可以通过GO分类号和各种GO数据库相关分析工具将分类与具体基因联系起来,从而对这个基因的功能进行描述。
在芯片的数据分析中,研究者可以找出哪些变化基因属于一个共同的GO功能分支,并用统计学方法检定结果是否具有统计学意义,从而得出变化基因主要参与了哪些生物功能。
第七章生物信息学与生物芯片技术详解演示文稿
第十三页,共44页。
14 mRNA表达谱芯片服务内容:39个物种
第十四页,共44页。
15
上海伯豪生物
/
第十五页,共44页。
二、基因芯片工作基本步骤
16
(一)基因芯片设计
• 提出基因芯片要解决的问题,确定研究目标。
• 根据所选择的基因序列,设计探针阵列,确定 每个探针以及探针在芯片上的排列。
第二十七页,共44页。
28
(六)研究领域
1 测定未知序列
一组寡核苷酸探针
ATACGTTA
TACGTTAG
由杂交位置确定的一组 核酸探针序列
ATACGTTA
TACGTTAG ACGTTAGA CGTTAGAT GTTAGATC
杂交探针组
ACGTTAGACGTTAGAT GTTAGATC
ATACGTTAGATC
昂飞是生物芯片产业的先驱,公司长期与美国国立卫生研究院、 斯坦福大学、麻省理工、哈佛、耶鲁、加州大学伯克利等世界 知名院校和研究所合作,在生物芯片行业中始终处于国际领先地 位。
第十一页,共44页。
第十二页公司
科学家正着手于将生物芯片技术应用于亲子鉴定中,应用生物芯 片后,鉴定精度将大幅提高。
第二十六页,共44页。
27 (五)现代农业
基因芯片技术可以用来筛选农作物的基因突变, 并寻找高产量、抗病虫、抗干旱、抗冷尚待开发。
白质表达谱的分析、蛋白质功能及蛋白质-蛋白质间相互 作用的研究、临床疾病(如肿瘤等) 的诊断和疗效评价、 药物新靶点的筛选和新药的研制等各个领域。
Patrick O. Brown. Quantitative Monitoring of Gene Expression Patterns with a Complementary DNA
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一、基因芯片数据提取
(一) cDNA微阵列芯片
Ratio (CH1I CH1B) /(CH 2I CH 2B)
(二) 原位合成芯片
定性信息提取:P/A/M(Present/Absent/Marginal) 定量信息提取:基于探针集汇总后的基因水平的荧光信号强度值
2. k近邻法
选择与具有缺失值基因的 k个邻居基因 用邻居基因的加权平均估 计缺失值
参数: 邻居个数 距离函数
3. 回归法
4. 其他方法
五、数据标准化
(一)为什么要进行数据标准化
存在不同来源的系统误差 1. 染料物理特性差异(热光敏感性,半衰期等) 2. 染料的结合效率 3. 点样针差异 4. 数据收集过程中的扫描设施 5. 不同芯片间的差异 6. 实验条件差异
第七章 基因芯片数据分析
Microarray Data Analysis
第一节 引言
Introduction
基因芯片(DNA微阵列)是上世纪 九十年代,随着计算机技术和基因组测 序技术的发展而发展起来的一种新型的 生物技术,它能够平行、高通量地监测 成千上万基因转录本的表达水平,从而 为系统地监测细胞内mRNA分子的表达 状态进而推测细胞的功能状态提供了可 能。
c(A) 为M 对A 的拟合函数 标化后的数据
(3) 点样针依赖的标化(within-print-tip-group
normalization)为什么 一张芯片的不同区域运用不同的点样针点样,从 而引入点样针带来的系统误差。
method
(4) 尺度调整(scale adjustment)
(1) 全局标化(global normalization)
假设: R=k*G 方法:
c=log2k:中值或均值
(2) 荧光强度依赖的标化(intensity dependent normalization)
为什么 方法: scatter-plot smoother lowess拟 合
(二)数据补缺方法
1. 简单补缺法
missing values = 0 expression missing values = 1 expression (arbitrary signal) missing values = row (gene) average missing values = column (array) average
(二)运用哪些基因进行标准化处理
芯片上大部分基因(假设芯片上大部分基因在不同 条件下表达量相同) 不同条件间稳定表达的基因(如持家基因) 控制序列(spiked control) 在不同条件下表达水平相同的合成DNA序列或外源 的DNA序列。
(三) cDNA芯片数据标准化处理
1. 片内标化(within-slide normalization)
第四节 差异表达分析
3. 染色互换实验(dye-swap experiment ) 的标化
芯片1 芯片2
实验组 cy5(R) cy3(G)
对照组 cy3(G’) cy5(R’)
前提假设:c︽c’ 方法:
(四) 芯片数据标准化
1. 提取定性信号
(1)对每个探针对计算R R = (PM – MM ) / (PM + MM ) (2)比较R与定义的阈值Tau(小的正值,默 认值为0.015 ). (3) 单侧的Wilcoxon’s Signed Rank test产生p值,根据p值定义定量信号值 Present call Marginal call Absent call
三、原位合成芯片
四、光纤微珠芯片(Bead Array)
五、基因表达仓库 Gene Expression Omnibus,GEO 六、斯坦福微阵列数据库 The Stanford Microarray Database,SMD 七、其他常用基因表达数据库 ArrayExpress、CGED
第三节 基因芯片数据预处理
为什么 调整不同栅格(grids)间的数据离散度 方法:计算不同栅格的尺度因子
2. 片间标化(multiple-slide normalization)
线性标化法(linear scaling methods) 与芯片内标化的尺度调整(scale adjustment) 方法类似 非线性标化法(non-linear methods) 分位数标化法(quantile normalization) 两张芯片的表达数据的分位数标化至相同,即分 布于对角线上
2. 提取定量信号 (1)分析步骤 获取探针水平数据 背景值效正 标准化处理 探针特异背景值效正 探针集信号的汇总
(2)分析方法
log2 ( R / G)
log2 RG
M = log2R - log2G A = (log2R + log2G)/2
前面提及的标准化方 法仅效正了数据分布的 中心,在不同的栅格间 log-Ratios 的方差也 不同。
二、对数转换
对芯片数据做对数化转换后,数据可近似正态分布
三、数据过滤
数据过滤的目的是去除表达水平是负值或很小的 数据或者明显的噪声数据。 过闪耀现象 物理因素导致的信号污染 杂交效能低 点样问题 其他
四、补缺失值
(一)数据缺失类型
非随机缺失 基因表达丰度过高或过低 随机缺失 与基因表达丰度无关,数据 补缺主要针对随机缺失情况
第二节 芯片平台及数据库
General Microarray Platform and Database
一、cDNA微阵列芯片
二、寡核苷酸芯片
寡核苷酸芯片类似于cDNA芯片,但是 在探针的设计上优于cDNA芯片,它的探针 并不是来源于cDNA克隆,而是预先设计并 合成的代表每个基因特异片段的约 50mer 左右长度的序列,然后将其点样到特定的 基质上制备成芯片,从而克服了探针序列 太长导致的非特异性交叉杂交和由于探针 杂交条件变化巨大导致的数据结果的不可 靠 。