基因芯片差异表达和聚类分析

合集下载

基因芯片的数据分析

基因芯片的数据分析

基因表达谱芯片的数据分析基因芯片数据分析就是对从基因芯片高密度杂交点阵图中提取的杂交点荧光强度信号进行的定量分析,通过有效数据的筛选和相关基因表达谱的聚类,最终整合杂交点的生物学信息,发现基因的表达谱与功能可能存在的联系。

然而每次实验都产生海量数据,如何解读芯片上成千上万个基因点的杂交信息,将无机的信息数据与有机的生命活动联系起来,阐释生命特征和规律以及基因的功能,是生物信息学研究的重要课题[1]。

基因芯片的数据分析方法从机器学习的角度可分为监督分析和非监督分析,假如分类还没有形成,非监督分析和聚类方法是恰当的分析方法;假如分类已经存在,则监督分析和判别方法就比非监督分析和聚类方法更有效率。

根据研究目的的不同[2,3],我们对基因芯片数据分析方法分类如下。

(1)差异基因表达分析:基因芯片可用于监测基因在不同组织样品中的表达差异,例如在正常细胞和肿瘤细胞中;(2)聚类分析:分析基因或样本之间的相互关系,使用的统计方法主要是聚类分析;(3)判别分析:以某些在不同样品中表达差异显著的基因作为模版,通过判别分析就可建立有效的疾病诊断方法。

1 差异基因表达分析(difference expression, DE)对于使用参照实验设计进行的重复实验,可以对2样本的基因表达数据进行差异基因表达分析,具体方法包括倍数分析、t检验、方差分析等。

1.1倍数变化(fold change, FC)倍数分析是最早应用于基因芯片数据分析的方法[4],该方法是通过对基因芯片的ratio值从大到小排序,ratio 是cy3/cy5的比值,又称R/G值。

一般0.5-2.0范围内的基因不存在显著表达差异,该范围之外则认为基因的表达出现显著改变。

由于实验条件的不同,此阈值范围会根据可信区间应有所调整[5,6]。

处理后得到的信息再根据不同要求以各种形式输出,如柱形图、饼形图、点图等。

该方法的优点是需要的芯片少,节约研究成本;缺点是结论过于简单,很难发现更高层次功能的线索;除了有非常显著的倍数变化的基因外,其它变化小的基因的可靠性就值得怀疑了;这种方法对于预实验或实验初筛是可行的[7]。

差异表达基因分析技术及基因芯片在血液学研究中的应用

差异表达基因分析技术及基因芯片在血液学研究中的应用
1.6 基 因 确 认 整 合 步 骤 法 (integrated procedure for gene identification,IPGI)
IPGI 综合运用了 SSH 与基因表达连续分析法的原理,是一种 SSH 的 改良法;含相同接头的双链 cDNA 由于两端有长序列的反向重复,可互 补形成“锅-柄”结构而不能扩增;而含不同接头的双链 cDNA 能与引物 配对而扩增。扩增后的 PCR 产物即可直接插入载体,经测序后与基因
断芯片,如肝癌及糖尿病诊断芯片;检测芯片,如商品检疫和病原检 测芯片。根据芯片上核苷酸的长度不同又可分为寡核苷酸芯片(oligo— chip)、cDNA 芯片(cDNA chip)和基因组芯片(genomic chip)。
基因芯片技术是在传统的 Southern blot 和 Northern blot 分析方法基 础上发展起来的,优越性在于可自动、定量、快速检测目的材料中成 千上万个基因的表达情况,在基因诊断、表达、突变和发现新基因、 多态性检测、基因组作图及各种病原体的诊断等生物医学领域中具有 重大应用价值,已应用于许多疾病的研究。近来有文献报道应用此技 术对白血病、恶性淋巴瘤等进行了基因表达研究[110,111],现就 DNA 芯 片技术在恶性血液系统疾病研究中的应用进行简要介绍。
认整合步骤法及目前最为有效的基因芯片技术等。这些研究方法根据
其原理大体上分为 3 大类[106](表 2-1)。
表 l 差异表达基因研究方法
杂交的技术
PCR 的技术方法 测序的方法
Northen 斑点杂交 差异显示
表达序列标签
RNA 酶保护实验 代表性差异显示 基因表达系列分析
减数克隆
抑制性消减杂交 DNA 测序芯片
1 差异表达基因的分析技术

基因芯片数据挖掘分析表达差异基因

基因芯片数据挖掘分析表达差异基因

基因芯片数据挖掘分析表达差异基因基因芯片(genechip)(又称DNA芯片、生物芯片)的原型是80年代中期提出的。

基因芯片的测序原理是杂交测序方法,即通过与一组已知序列的核酸探针杂交进行核酸序列测定的方法,在一块基片表面固定了序列已知的靶核苷酸的探针。

当溶液中带有荧光标记的核酸序列TATGCAATCTAG,与基因芯片上对应位置的核酸探针产生互补匹配时,通过确定荧光强度最强的探针位置,获得一组序列完全互补的探针序列。

据此可重组出靶核酸的序列。

目前已有许多数据库,包括NCBI的GEO数据库(/geo/),ArrayExpress数据库(/arrayexpress/),和TCGA数据库(/)等等,记录和储存着大量芯片相关的数据,其中GEO数据库是目前最大最全的数据库,可供科研人员查询和下载相关数据。

下面和大家分享一下基因芯片数据的预处理方法。

1)分析前需要对数据进行背景信号处理:背景处理即过滤芯片杂交信号中属于非特异性的背景噪音部分。

一般以图像处理软件对芯片划格后,每个杂交点周围区域各像素吸光度的平均值作为背景,但此法存在芯片不同区域背景扣减不均匀的缺点。

也可利用芯片最低信号强度的点(代表非特异性的样本与探针结合值)或综合整个芯片非杂交点背景所得的平均吸光值做为背景。

其中,各字母的意义如下:N:条件数;G:基因数目(一般情况下,G>>N);行向量mi=(mi1,mi2,…,miN)表示基因i在N个条件下的表达水平(这里指绝对表达水平,亦即荧光强度值);列向量mj=(m1j,m2j,…,mGj)表示在第j个条件下各基因的表达水平(即一张芯片的数据);元素mij表示第基因i在第j个条件下(绝对)基因表达数据。

m可以是R(红色,Cy5,代表样品组)。

也可以是G(绿色,Cy3,代表对照组)。

2)芯片数据清理:经过背景校正后的芯片数据中可能会产生负值,还有一些单个异常大(或小)的峰(谷)信号(随机噪声)。

生物芯片数据分析方法_聚类和分类分析

生物芯片数据分析方法_聚类和分类分析
生物芯片数据分析方法
聚类和分类分析
聚类
一、引言
• 物以类聚,人以群分。
1.相似性指标
基于物体的相似性将 物体分成不同的组
2.聚类算法
二、基因表达谱数据的聚类分析
• 聚类分析是基因表达数据分析最常 用的多变量技术。
• 在没有关于数据的先验知识时,对 不同的样本或实验间的相似性进行 研究。
• 机器学习:无监督学习。
• 绝对距离(q=1 )
曼哈顿距离
• 欧氏距离(q=2 )
• 切比雪夫距离(q=∞)
p
dij (1) X ik X jk k 1
p
dij (2) (
X ik X jk )2 1/ 2
k 1
dij
()

max
1k p
X ik

X jk
明氏距离的不足之处及解决办法:
① 明氏距离没有考虑指标的数量级水平及 量纲。当各变量数量级相差悬殊且量纲 不同时,采用明氏距离并不合理。
则由初等几何可知这个中线的平方为:
Dk2r

1 2
Dk2p

1 2
Dk2q

1 4
Dp2q
• 由于此公式中出现的全是距离的平方,所 以为了计算的方便,距离矩阵的元素也可 以都为平方。
• 上述八种系统聚类法的步骤完全一样,只是距离的 递推公式不同。兰斯(Lance)和威廉姆斯 (Williams)于1967年给出了一个统一的公式,即 将Gp和Gq合并为新类Gr,类Gk与新并类Gr的距离 公式为:
5.明考夫斯基距离(Minkowski distance)
• 令dij 表示向量Xi与Xj的距离,则明考夫斯基
的距离公d式ij (q为) :( p X ik X jk )q 1/ q k 1

基因表达数据分析及相关统计算法研究

基因表达数据分析及相关统计算法研究

基因表达数据分析及相关统计算法研究随着生物技术的飞速发展,越来越多的基因表达数据被生成和积累。

这些数据提供了宝贵的信息,可以帮助我们更好地了解基因的功能、调控机制以及与疾病相关的变化。

然而,对于海量的基因表达数据如何进行有效的分析和挖掘,仍然是一个具有挑战性的问题。

本文将介绍基因表达数据分析的基本概念和涉及的相关统计算法的研究进展。

基因表达数据是指在细胞或组织中,基因在特定条件下的转录水平的测量值。

常用的基因表达数据包括基因芯片数据和基因测序数据。

基因芯片技术是最早应用于基因表达数据分析的方法之一,它通过测量RNA分子与特定基因探针的配对情况来反映基因的表达水平。

而基因测序技术则可以提供更详细的基因表达信息,可以测量到具体的转录本和外显子的表达。

基因表达数据的分析涉及的主要任务包括差异表达基因分析、基因表达聚类分析以及功能富集分析等。

差异表达基因分析旨在识别在不同条件下表达水平存在显著差异的基因。

这一任务可以帮助我们理解基因在不同生物过程或疾病状态下的特定功能。

基因表达聚类分析是指将基因或样本根据其表达模式进行分类,寻找共同调控或具有相似表达模式的基因。

功能富集分析则是通过比较差异表达基因集合与已知的功能注释数据库中的基因集合,来发现具有富集功能的基因集合。

为了解决这些基因表达数据分析的问题,研究人员提出了许多统计算法和机器学习方法。

其中最常用的方法之一是差异表达分析中的t检验和方差分析。

t检验可以用于比较两组样本间的表达差异,而方差分析可以用于同时比较多组样本间的表达差异。

除了传统的统计方法,还有基于机器学习的方法,如支持向量机(SVM)和随机森林(Random Forest)等。

这些机器学习算法可以通过构建分类模型来预测基因是否差异表达或进行样本分类。

近年来,随着单细胞测序技术的发展,单细胞基因表达数据的分析也成为了热点研究领域。

单细胞测序可以提供单个细胞的基因表达信息,揭示细胞间的表型差异和功能特化。

基因芯片数据分析中的标准化算法和聚类算法

基因芯片数据分析中的标准化算法和聚类算法

基因芯片数据分析中的标准化算法和聚类算法北京大学生命科学院 生物信息专业王向峰 学号:10211058摘要:基因芯片技术已经广泛的应用于各种模式生物的功能基因组的研究中,应用芯片技术可以高效,高通量的检测基因表达行为。

芯片数据分析中的标准化主要分为芯片内标准化和芯片间标准化,芯片内标准化根据目的不同可分为消除染色偏差的Lowess Normalization ,消除点样针头引起的空间差异的Print-tip Normalization 。

常用的芯片间标准化有Quantile Normalization ,Global Normalization 。

芯片数据分析中常见的聚类算法有分层聚类(Hierarchical clustering)、K 均值聚类(K-means clustering)、自组织图谱SOM (self organizing map)、PCA (principle component analysis)等等。

所有的聚类方法归结为有监督的学习和无监督的学习两种方法。

第一部分 基因芯片的数据标准化(Normalization)对基因芯片数据的标准化处理,主要目的是消除由于实验技术所导致的表达量(Intensity)的变化,并且使各个样本(sample)和平行实验的数据处于相同的水平,从而使我们可以得到具有生物学意义的基因表达量的变化。

标准化的方法根据芯片的种类、数据处理的阶段和目的不同而有所差异。

这里主要讨论一下双荧光染色(Red and Green Chip)的cDNA 微列阵(cDNA microarray)的标准化方法。

一、实验数据的预处理(data transformation )的细胞进行培养(Cultured Cell),以保证绝大部分的基因可以表达。

样本基因是根据试验设计的目的从不同组织,不同发育阶段,不同条件下培养的细胞中提取的cDNA 样本。

通过样本基因对参照基因的比值,而判断不同条件下的基因表达量的变化。

用基因芯片寻找差异表达基因

用基因芯片寻找差异表达基因

性,即个人遗传基因的特点,在药品选用和用量、配伍等方面必须实行个体化治疗,方可提高用药的准确性,减少毒副作用。

中医经常采用同病异治的法则,中医治疗常需因人、因地制宜,方药不尽相同。

基因组学研究表明,由于基因的多态性,即使同一种癌,如同样为乳癌,其临床症状大不相同,治疗方案及用量亦就酌情变化。

中药的化学实体是活性物质群,具有多靶点、多效性的特点,作用的基本形式是调整,而肿瘤是多因素、多阶段形成的,药病相合,能抑制其发生、发展,尤其是在改变机体生癌环境,抗肿瘤复发、转移中可发挥化疗药物不可替代的作用。

其具体表现在,可诱导癌细胞向正常细胞逆转;促进癌细胞凋亡;调节信息传递,抑制肿瘤的生长与发展;可抗多药耐药,从而增加癌细胞对阿霉素、长春花碱、长春新碱等抗癌药物的敏感性;调节生物反应,活化巨噬细胞,促使B细胞产生抗体,调节T细胞亚群,提高NK、L A K细胞的活性,诱导IL-2、IN F,抑杀靶细胞;并可直接攻击、杀伤癌细胞。

针刺介导下基因表达的研究进展吴学飞上海市针灸经络研究所 200030 近年来有关针刺对基因表达的影响几乎完全集中于动物实验方面,主要涉及疼痛、癫痫、老年性痴呆、神经系统再生与修复、免疫系统及内分泌系统等一些疑难及重大疾病,并且研究方向已触及到凋亡、信号转导及神经再生及发育等热门领域,所采用的方法有免疫组化、P CR、原位杂交、点杂交、No rt hem blot.So ut hem blot等分子生物学技术。

应该说所有这些研究都为我们在目前正发生的基因革命时代进一步深入研究经络腧穴及针刺感传和效应打下了良好的基础。

但是在这些研究中仍然存在这一些不可忽视的问题,如在观察结果与结论之间往往缺乏可靠的依据,也就是说在有些研究中还存在如下的模式,A指标在针刺下发生变化而出现效应,B就可以推导出效应,B的出现就是在针刺诱导下,A指标的变化所致;但是,我们应该承认针刺具有广泛的生理调节效应,也许效应B的出现主要是由于针刺介导下C、D或者E等指标发生变化所致,而指标A在针刺下发生变化也许主要与效应F、G或者H等有关。

基因芯片数据分析

基因芯片数据分析
(2). DNA chips: 将寡核苷酸探针 (20~80-mer) 合成到 芯片上。Affymetrix开发设计,通常为单通道, 一次检验一种状态 。
(1) cDNA microarrays
cDNA clones
载玻片
差异表达基因的筛选
Treatment / control Normal / tumor tissue Brain / liver …
荧光标记的靶基因
(2) DNA chips
DNA chips的制备:Affymetrix photolitography
探针长度:25 bp 每个基因:22-40个探针 Perfect Match (PM) vs.
MisMatch (MM) probes
A. 选择硅片、玻璃片、瓷片或聚丙烯膜、尼龙膜等支持物 B. 采用光导化学合成和照相平板印刷技术在硅片等表面合成寡核苷酸探 针; 或者通过液相化学合成寡核苷酸链探针,或PCR技术扩增基因序列, 由阵列复制器,或阵列机及电脑控制的机器人,将不同探针样品定量点 样于带正电荷的尼龙膜或硅片等相应位置上 C. 紫外线交联固定后即得到DNA微阵列或芯片
基因芯片数据分析
1. 基因芯片(Microarray) 2. 图像处理与数据标准化 3. 基因芯片的数据分析
1. 基因芯片简介
基因芯片 (1987): 固定有寡核苷酸、DNA或cDNA等 的生物芯片。利用这类芯片与标记生物样品进行杂 交,可对样品基因表达谱生物信息进行快速定性和 定量分析。
高通量、点阵以及Northern杂交 同时测定细胞内数千个基因的表达情况 将mRNA反转录成cDNA与芯片上的探针杂交
芯片的体积非常小:微量样品的检测 基因表达情况的定量分析
生物芯片的基本要点

基因表达数据分析方法及其应用研究共3篇

基因表达数据分析方法及其应用研究共3篇

基因表达数据分析方法及其应用研究共3篇基因表达数据分析方法及其应用研究1随着技术的不断发展,基因表达数据分析在生命科学研究中扮演着越来越重要的角色。

基因表达数据分析是研究基因功能的关键一步,它使得科学家可以了解基因在特定情况下的表达水平。

在本文中,我们将讨论基因表达数据分析的方法及其应用。

1.基因表达数据的来源和类型基因表达数据是通过分析转录组和基因芯片等数据获得的。

转录组技术通过测量RNA浓度,包括RNA-seq和microarray。

而基因芯片就是一种将成千上万的基因测量并呈现的芯片。

基因表达数据存在多种类型,包括原始数据、表达矩阵、差异表达矩阵、注释文件和元数据等等。

2. 基因表达数据分析的方法(1)数据清理数据清理是数据分析过程中的第一步。

它包括数据预处理、去除冗余数据、去除噪声和填补数据空缺等操作。

(2)正则化正则化的目的是调整不同基因表达数据之间的差异,消除数据中的计量误差和探测效率的误差。

几种正则化方法包括平滑、归一化和标准化。

(3)差异分析差异分析是研究基因表达数据中各基因在不同样品之间差异的方法。

常用的差异分析方法包括t-test、ANOVA、FDR和q值等。

(4)聚类分析聚类分析是将数据根据观察指标相似度进行分类的方法。

在基因表达数据上,它通常用于发现不同条件下的基因表达模式。

(5)变异分析变异分析是一种寻找表达值变异的基因的方法。

通常,基因的变异程度与其在癌症和其他疾病中的作用有关。

(6)功能注释功能注释是将基因表达数据与已知基因功能相结合的方法,从而获得数据更深层次的信息。

它通常用于解释基因表达数据的生物学意义,如基因表达数据和肿瘤发展的相关性等。

3.应用研究基因表达数据分析可应用于许多研究领域,包括基因表达和调控、单细胞分析和肿瘤生物学等。

(1)基因表达和调控基因表达数据分析可用于挖掘基因之间的相互关系以及调控通路。

这些信息可以在理解细胞生物学、发育及疾病发生机制的过程中发挥重要作用。

基因芯片数据分析中的标准化算法和聚类算法

基因芯片数据分析中的标准化算法和聚类算法

基因芯片数据分析中的标准化算法和聚类算法北京大学生命科学院 生物信息专业王向峰 学号:10211058摘要:基因芯片技术已经广泛的应用于各种模式生物的功能基因组的研究中,应用芯片技术可以高效,高通量的检测基因表达行为。

芯片数据分析中的标准化主要分为芯片内标准化和芯片间标准化,芯片内标准化根据目的不同可分为消除染色偏差的Lowess Normalization ,消除点样针头引起的空间差异的Print-tip Normalization 。

常用的芯片间标准化有Quantile Normalization ,Global Normalization 。

芯片数据分析中常见的聚类算法有分层聚类(Hierarchical clustering)、K 均值聚类(K-means clustering)、自组织图谱SOM (self organizing map)、PCA (principle component analysis)等等。

所有的聚类方法归结为有监督的学习和无监督的学习两种方法。

第一部分 基因芯片的数据标准化(Normalization)对基因芯片数据的标准化处理,主要目的是消除由于实验技术所导致的表达量(Intensity)的变化,并且使各个样本(sample)和平行实验的数据处于相同的水平,从而使我们可以得到具有生物学意义的基因表达量的变化。

标准化的方法根据芯片的种类、数据处理的阶段和目的不同而有所差异。

这里主要讨论一下双荧光染色(Red and Green Chip)的cDNA 微列阵(cDNA microarray)的标准化方法。

一、实验数据的预处理(data transformation )双色cDNA 芯片(two-color cDNA microarray),指对参照基因(reference gene)和样本基 因(sample gene)标上绿色和红色荧光标记。

参照基因的制备主要是提取不同组织的不同时期的细胞进行培养(Cultured Cell),以保证绝大部分的基因可以表达。

基因芯片技术利用基因芯片进行差异表达基因分析解析

基因芯片技术利用基因芯片进行差异表达基因分析解析
通常采用基因在实验组和对照组中信号的比值作为 衡量基因在两种状态下基因的表达差异。
在双色荧光系统中,用Cy5/Cy3的比值来衡量基因的 表达差异,也称表达差异值。
差异表达基因分析
在Affymetrix等短的寡核苷酸芯片中,采用单色荧 光标记的方式,实验组和对照组分别用两张芯片进 行检测,表达差异值即为两张芯片的信号比值。
数据矩阵具体形式
数据形式
对任意一个基因来说,样本值是特征值,数据的维数是M 对任意一个样本来说,基因值是特征值,数据的维数是N 数据矩阵,基因数远大于样品数。 聚类时,考查基因间的相似性,从数学上讲就是看对应的M维 数据之间的相似性。
Cluster&Treeview软件
Cluster&Treeview软件
主成分分析
本章小结:
确定两个基因表达是否有差异,需要确定一个阈值, 超过这个值,两个基因表达就有差异。阈值的确定需 要依赖很多数学算法,常用的有:倍数法、Z值法、排 秩统计量法等。
对于重复芯片的差异基因表达分析,常用方法有:M值 法、T值排序法、P值检验等。
聚类的目的是发现一些未知的细胞状态、疾病的亚型 以及一些能识别这些样本状态的基因,或者说发现一 类功能相似的基因或者一类有共同调控机制的基因。 其中最常用的方法是层级聚类,Cluster&Treeview是 最常用的聚类分析软件之一。
未观测点
若后续的统计分析要求数据满足完整性,如特征基因 提取的奇异值分解、某些基因的聚类分析方法等,则 需要对含有缺失值的数据进行处理
删除含有缺失值的整条记录,这种方法操作简单,但 却因为个别值的缺失而删除整个记录,可能丢失大量 有价值的信息
填充或修补缺失数据
缺失数据的处理

生物信息学讲解——基因芯片数据分析

生物信息学讲解——基因芯片数据分析
第七章 基因芯片数据分析
Microarray Data Analysis
第一节 引言
Introduction
基因芯片(DNA微阵列)是上世纪 九十年代,随着计算机技术和基因组测 序技术的发展而发展起来的一种新型的 生物技术,它能够平行、高通量地监测 成千上万基因转录本的表达水平,从而 为系统地监测细胞内mRNA分子的表达 状态进而推测细胞的功能状态提供了可 能。
三、方差分析
SS 总 ( xij x)
i j 2
MS组间
SS 组间 v组间
SS 组间 ni ( xi x)
i


ห้องสมุดไป่ตู้

2
MS组内
2
SS 组内 v组内
SS组内 ( xij xi )
i j
F
MS组间 MS组内
方差分析可用于基因在两种或多种条件间的表达量的比较, 它将基因在样本之间的总变异分解为组间变异和组内变异两 部分。通过方差分析的假设检验判断组间变异是否存在,如 果存在则表明基因在不同条件下的表达有差异。
(四)双向聚类
双向聚类就是识 别基因表达谱矩 阵中同质的子矩 阵,运用特定的 基因子类识别样 本子类。
第六节 基因芯片数据的 分类分析
Classification of Microarray Data
一、线性判别分类器
0, L1 g ( x) w x b 0, L2
T
二、k 近邻分类法 基本思想
General Microarray Data Type and Database
一、基因芯片数据提取
(一) cDNA微阵列芯片
Ratio (CH1I CH1B) /(CH 2I CH 2B)

基因芯片数据分析

基因芯片数据分析

第三步:模型评估
第7次课 基因芯片数据分析
研究现状与最新进展
内容提要
1. 数据预处理 2. 寻找差异基因 3. 聚类分析 4. 分类分析 5. 通路与功能分析 6. 基因调控网络构建
1. 数据预处理
校正前后的芯片MA散点图
2. 寻找差异基因
根据p值和变化倍数确定差异表达基因
3. 聚类分析
目的: 基于相似性或者差异程度,对基因/样品进行划分, 每一个分组称为一个“cluster” 划分多少组:生物学背景,用户定义
自组织映射神经网络
优点是自动提取样本数据中的信息,是一种全局 的决策方法,能避免陷入局部最小。具有更稳健 更准确的特点,对噪声稳定,一般不依赖于数据 分布的形状。
缺点在于必须实现人为设定类的数目与学习参数, 而且学习时间较长
(四)双向聚类
双向聚类:识别基 因表达谱矩阵中同 质的子矩阵,运用 特定的基因子类识 别样本子类。
层次聚类方法
目前运用在芯片数据分析中最多的聚类方法, 得到类似于进化分析的系统树图。
其主要思想是先计算n个样本类间的距离,再 将相似性最高的两类合并为一个新类,得到n1类的矩阵,不断重复这个过程直至所有的基 因融合成为一个大类。
层次聚类
乳腺癌亚型分类研究
乳腺癌亚型:根据浸润性乳腺癌基因表达情况分类 采用层次聚类法
基因芯片聚类分析举例
例1. 酵母新陈代谢的时序基因芯片数据分析 例2. 芯片数据的基因本体富集性分析
聚类方法的问题
问题:下面的情况有用吗?
距离度量问题:怎样定义? 更复杂的方法: manifold clustering
5. 芯片数据的分类分析
线性判别分析(LDA):找边界 K临近(KNN):和“朋友”保持一致 机器学习方法:
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1. 数据归一化 2. 缺失值处理 3. 野值剔除
芯片数据的低层次处理
1. 数据归一化 等处理过程
消除芯片系统误差、试验平台偏差
cDNA芯片片内归一化的主要目的是减小由于两种颜色 染色效率差异导致的系统误差。
基本假设(cDNA芯片):在测试样本与对照样本间大 多数的基因是没有显著差异表达的。
芯片数据的高层分析
经过低层处理,从芯片原 始数据获得可靠的基因表 达值。
一张基因芯片得到的数据 成为一个列向量,维数就 是芯片上基因的个数。
将一次实验的多张芯片数 据放到一起就形成一个矩 阵。
矩阵中的数值表示基因在 样本中的表达值。
芯片数据的高层分析
高层分析通常指在得到 基因表达值后对以下方 面的研究:
基因表达:把储存在DNA中的遗传信息经过转录和翻 译,转变为具有生物活性的蛋白质分子。
根据目前的认识,人类基因组中编码蛋白质产物的基 因的总数大约在20000~30000之间或者更多。
基因的表达具有时空性,基因在人体内不同组织的细 胞中、在细胞不同的发育阶段有着不同的表达量,即 所转录出的mRNA的丰度。
1. Perfect Match (PM)
2. Mismatch (MM) PM-MM探针:提高特异性和灵敏度,更适合检测低丰度表达的基因。
寡核苷酸芯片
不需要对照样品,而只对 待测试的样品进行杂交和 检测;
从测试样品提取到mRNA 经反转录标记后与芯片杂 交;
杂交后的芯片经洗涤后通 过扫描得到图像;
寻找差异表达基因
1. 倍数法
f

xI xC
f值估计每个基因在实验条件下较之对照条件下表达量 的倍数差异值。
一般比值在2以上或1/2以下时,判断该基因在两种条 件下表达有差异。
目前通常被用于基因的大规模初筛。
寻找差异表达基因

多重假设检验问题
若芯片检测了n个基因,整个差异基因筛选过程需要做n次假设检 验。
Correlation
相关性距离关心的两个基因在表达变化上的一致性。 由于共表达通常是指表达的变化趋势,因此在实际分
析中关联距离使用的频率更高一些。
Pearson相关系数
(x, y)
n
(xi x)(yi y)
i 1
n
n
(xi x)2
( yi y)2
i 1
图像是单色的,每个探针 在图像上的亮度反映了该 探针检测到的mRNA的表 达水平。
寡核苷酸芯片
每根探针都有一个相应的 基因表达值,但最终每个 靶基因的表达值要通过独 特的统计学运算才能得到 。
芯片数据的低层次处理
指在得到图像处理数据之后如何更好地计算基 因表达值的问题。目的是消除实验过程中产生 的系统误差、实验误差等影响因素。
1. 首先将每个数据对象(基因或样本)作 为单独的一个类簇(cluster);
2. 将距离最近的两个类簇合并形成一个较 大的类簇;
3. 重复步骤2直到所有数据对象都在一个 类簇中。
层次聚类
层次聚类
树状图:一种树形结构用来 表示层次聚类的过程。
每个节点代表一个类簇;
绿色:探针对应的基因在测 试样本中相对低表达
黄色:表达相当
黑色:均不表达
红绿颜色的相对强度反 映出了基因在两种样品 中表达的数量之比。
寡核苷酸芯片
寡核苷酸芯片技术最 早是由美国昂飞( Affymetrix)公司发 明的。
寡核苷酸芯片是在公 司里以工业化的形式 生产出来的,因此可 以进行质量控制,有 利于不同实验室之间 数据的比较。
(2) 寡核苷酸芯片(oligonucleotide microarray)
cDNA芯片
cDNA是从mRNA通 过反转录过程得到的 DNA。
cDNA芯片以反转录 的cDNA片断作为探 针。
cD从实验材料中提取将要研究的基因的 mRNA,将它们反转录成cDNA,然后酶 切成不同片段并克隆到载体里)
基因芯片的基本原理
基因芯片原理的基础是DNA的碱基 配对原理: 腺嘌呤(A) 胸腺嘧啶(T) 鸟嘌呤(G) 胞嘧啶(C)
A和T、G和C分别能形成紧密的配 对,这也是生物体内使得DNA能够 复制和转录的基本机制。
这种配对的形成过程称为杂交 (hybridization)。
利用杂交这一原理,基因芯片采用一段已知序列的核酸 作探针(probe)来检测与之配对的核酸序列的存在及其 丰度。
在具体应用中可按照相似的表达谱对基因进行 聚类,从而预测组内未知基因的功能。
What is clustering?
聚类(clustering):将不同数据对象按照彼此相似性 的大小或按照一定的规则进行组织或者分类。
聚类是对整个数据集的划分; 聚类的依据是“样本间的相似程度”。
What is clustering?
对整个数据集进行 划分的结果是得到K 个类簇(cluster);
在同一个类簇中, 数据对象是相似的;
在不同类之间的数 据对象是不相似的。
聚类是一种无监督 学习:没有预定义 的类簇。
Why cluster?
Cluster genes = rows
测量基因在多个时间点,不同条件下的表达水平; 基本假设:若基因具有相似的表达模式,则它们可
例如,我们对20个不同的基因依次进行统计检验,假设������=0.05, 表示一次检验中发生一类错误(e.g. 假阳性错误)的概率是0.05。
多重假设检验问题

������������������ = ������ < 0.05
������
聚类在基因芯片数据分析中的应用
基因之间存在共表达 (co-expressed genes); 共表达的基因可能具有相似的生物功能; 从具有相似表技术进行扩增 和纯化,得到所需要 的各个基因的探针
通过机械手将探针滴 加到基片上,从而完 成芯片的制备
cDNA芯片
成本相对低廉;
探针可以根据生物学 家的需要自行设计和 提取,是一种可以实 验室“自制”的基因 芯片。
cDNA芯片
需要准备测试样品和 对照样品;
Experiment 2
Gene 2
Experiment
Gene 1
Genes
Experiment 1
How do we define “similarity”?
距离度量:用来衡量两个数据对象(基因/样 本向量)之间的相似程度。
距离度量是聚类方法的核心。 常用的距离度量有: 欧氏距离(Euclidean distance) 关联距离(Pearson distance)
因此芯片上所有基因的相对表达量应该是以0为中心的 分布。
cDNA芯片的M-A图。
M log2(GR )
A log2(RG )
R:红色信号强度 G:绿色信号强度 MA图反应的是基
因在对比的样品 中表达差异随基 因信号强度变化 的分布。
归一化就是通过 适当的运算,将M 调整为以0为中心
基因芯片差异表达和聚类分析
2017/10/30
概要
1. 什么是基因芯片 2. 基因芯片数据的低层次处理 3. 基因芯片数据的高层次分析 4. 常用的基因表达数据库 5. 用R和Bioconductor进行基因芯片数据分

中心法则提出(Crick,1958)
分子生物学的中心法则:细胞中的基因最主要是通过 从DNA转录到RNA(mRNA)、再翻译成蛋白质来发挥 作用的。
Number of genes (when clustering samples)
deuc=0.5846
deuc=1.1345
deuc=2.6115
欧氏距离关心的是表达 量,即两个基因在表达 水平之间的相似程度。
deuc=1.41
deuc=1.22
What might be going on with the expression profiles on the left? On the right?
疾病的分类 基因的差异表达 基因间的相关性 基因的关系网络 ……
利用生物信息学方法分析基因芯片数据
最常用的方法有: 基因表达差异分析 聚类分析
寻找差异表达基因
差异表达分析的目的:
识别两个条件下表达差异显著的基因,即一个 基因在两个条件中的表达水平,在排除各种偏差后, 其差异具有统计学意义。
的分布。
芯片数据的低层次处理
2.缺失值处理(由于杂交效能低、物理 刮伤、指纹、灰尘、图像污染等)
1)直接去掉含有缺失值的基因; 2)将缺失值置零; 3)采用最近邻,用和缺失值所在基因表达模式相近的
其他基因的数据,对缺失值进行估计。 3. 野值剔除
设置一定的基因表达值的上限和下限,高于上限和低 于下限的数值都被认为是超出了仪器可信范围而被分 别设置为上限值和下限值。
1. 固定大量的DNA探 针在一张面积很小的芯 片上; 2.使样品中的核苷酸片 断与相应的探针杂交; 3. 通过荧光成像获得 每个探针上杂交的分子 的浓度; 4. 再通过后期的处理 即可获得相应的基因表 达量。
根ห้องสมุดไป่ตู้探针制备和固定技术的不同,基因 芯片主要分为:
(1) cDNA芯片(printed cDNA microarray)
寡核苷酸芯片
寡聚核苷酸原位光刻 专利技术---是生产高 密度寡核苷酸基因芯 片的核心关键技术
Affymetrix的原位合 成技术可制作的点阵 密度高达1061010/cm2
Affymetrix基因芯片上一般每一个基因(或EST)都是由一个探针组( probe set)组成;
相关文档
最新文档