基因芯片差异表达和聚类分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
因此芯片上所有基因的相对表达量应该是以0为中心的 分布。
cDNA芯片的M-A图。
M log2(GR )
A log2(RG )
R:红色信号强度 G:绿色信号强度 MA图反应的是基
因在对比的样品 中表达差异随基 因信号强度变化 的分布。
归一化就是通过 适当的运算,将M 调整为以0为中心
寡核苷酸芯片
寡聚核苷酸原位光刻 专利技术---是生产高 密度寡核苷酸基因芯 片的核心关键技术
Affymetrix的原位合 成技术可制作的点阵 密度高达1061010/cm2
Affymetrix基因芯片上一般每一个基因(或EST)都是由一个探针组( probe set)组成;
每组探针组由11-20对25mer的探针对(probe pair)组成:
绿色:探针对应的基因在测 试样本中相对低表达
黄色:表达相当
黑色:均不表达
红绿颜色的相对强度反 映出了基因在两种样品 中表达的数量之比。
寡核苷酸芯片
寡核苷酸芯片技术最 早是由美国昂飞( Affymetrix)公司发 明的。
寡核苷酸芯片是在公 司里以工业化的形式 生产出来的,因此可 以进行质量控制,有 利于不同实验室之间 数据的比较。
(2) 寡核苷酸芯片(oligonucleotide microarray)
cDNA芯片
cDNA是从mRNA通 过反转录过程得到的 DNA。
cDNA芯片以反转录 的cDNA片断作为探 针。
cDNA芯片
首先需要构建cDNA 文库(cDNA library)
(即从实验材料中提取将要研究的基因的 mRNA,将它们反转录成cDNA,然后酶 切成不同片段并克隆到载体里)
寻找差异表达基因
1. 倍数法
f
xI xC
f值估计每个基因在实验条件下较之对照条件下表达量 的倍数差异值。
一般比值在2以上或1/2以下时,判断该基因在两种条 件下表达有差异。
目前通常被用于基因的大规模初筛。
寻找差异表达基因
多重假设检验问题
若芯片检测了n个基因,整个差异基因筛选过程需要做n次假设检 验。
基因表达:把储存在DNA中的遗传信息经过转录和翻 译,转变为具有生物活性的蛋白质分子。
根据目前的认识,人类基因组中编码蛋白质产物的基 因的总数大约在20000~30000之间或者更多。
基因的表达具有时空性,基因在人体内不同组织的细 胞中、在细胞不同的发育阶段有着不同的表达量,即 所转录出的mRNA的丰度。
Number of genes (when clustering samples)
deuc=0.5846
deuc=1.1345
deuc=2.6115
欧氏距离关心的是表达 量,即两个基因在表达 水平之间的相似程度。
deuc=1.41
deuc=1.22
What might be going on with the expression profiles on the left? On the right?
1. 数据归一化 2. 缺失值处理 3. 野值剔除
芯片数据的低层次处理
1. 数据归一化 等处理过程
消除芯片系统误差、试验平台偏差
cDNA芯片片内归一化的主要目的是减小由于两种颜色 染色效率差异导致的系统误差。
基本假设(cDNA芯片):在测试样本与对照样本间大 多数的基因是没有显著差异表达的。
Experiment 2
Gene 2
Experiment
Gene 1
Genes
Experiment 1
How do we define “similarity”?
距离度量:用来衡量两个数据对象(基因/样 本向量)之间的相似程度。
距离度量是聚类方法的核心。 常用的距离度量有: 欧氏距离(Euclidean distance) 关联距离(Pearson distance)
从测试样品和对照样 品中分别提取出 mRNA,经过反转录 得到cDNA,并进行 荧光标记;
对照样品:绿色(Cy3)
测试样品:红色(Cy5)
cDNA芯片
标记后的对照样品和测 试样品经等量混合后与 cDNA芯片上的探针竞争 杂交;
将杂交后的芯片洗涤、 扫描后可以得到对应荧 光强度的图像;
红色:探针对应的基因在测 试样本中相对高表达
疾病的分类 基因的差异表达 基因间的相关性 基因的关系网络 ……
利用生物信息学方法分析基因芯片数据
最常用的方法有: 基因表达差异分析 聚类分析
寻找差异表达基因
差异表达分析的目的:
识别两个条件下表达差异显著的基因,即一个 基因在两个条件中的表达水平,在排除各种偏差后, 其差异具有统计学意义。
Correlation
相关性距离关心的两个基因在表达变化上的一致性。 由于共表达通常是指表达的变化趋势,因此在实际分
析中关联距离使用的频率更高一些。
Pearson相关系数
(x, y)
n
(xi x)(yi y)
i 1
n
n
(xi x)2
( yi y)2
i 1
Euclidean distance
n
deuc(x, y)
(xi yi )2
i 1
Here n is the number of dimensions in the
data vector. For instance:
Number of time-points/conditions (when clustering genes)
基因芯片的基本原理
基因芯片原理的基础是DNA的碱基 配对原理: 腺嘌呤(A) 胸腺嘧啶(T) 鸟嘌呤(G) 胞嘧啶(C)
A和T、G和C分别能形成紧密的配 对,这也是生物体内使得DNA能够 复制和转录的基本机制。
这种配对Hale Waihona Puke Baidu形成过程称为杂交 (hybridization)。
利用杂交这一原理,基因芯片采用一段已知序列的核酸 作探针(probe)来检测与之配对的核酸序列的存在及其 丰度。
在具体应用中可按照相似的表达谱对基因进行 聚类,从而预测组内未知基因的功能。
What is clustering?
聚类(clustering):将不同数据对象按照彼此相似性 的大小或按照一定的规则进行组织或者分类。
聚类是对整个数据集的划分; 聚类的依据是“样本间的相似程度”。
What is clustering?
例如,我们对20个不同的基因依次进行统计检验,假设������=0.05, 表示一次检验中发生一类错误(e.g. 假阳性错误)的概率是0.05。
多重假设检验问题
������������������ = ������ < 0.05
������
聚类在基因芯片数据分析中的应用
基因之间存在共表达 (co-expressed genes); 共表达的基因可能具有相似的生物功能; 从具有相似表达谱的基因去推测其功能。
基因芯片差异表达和聚类分析
2017/10/30
概要
1. 什么是基因芯片 2. 基因芯片数据的低层次处理 3. 基因芯片数据的高层次分析 4. 常用的基因表达数据库 5. 用R和Bioconductor进行基因芯片数据分
析
中心法则提出(Crick,1958)
分子生物学的中心法则:细胞中的基因最主要是通过 从DNA转录到RNA(mRNA)、再翻译成蛋白质来发挥 作用的。
的分布。
芯片数据的低层次处理
2.缺失值处理(由于杂交效能低、物理 刮伤、指纹、灰尘、图像污染等)
1)直接去掉含有缺失值的基因; 2)将缺失值置零; 3)采用最近邻,用和缺失值所在基因表达模式相近的
其他基因的数据,对缺失值进行估计。 3. 野值剔除
设置一定的基因表达值的上限和下限,高于上限和低 于下限的数值都被认为是超出了仪器可信范围而被分 别设置为上限值和下限值。
生物关系。
Clustering Expression Data
Cluster Experiments
Group by similar expression profiles
Cluster Genes
Group by similar expression in different conditions
1. 固定大量的DNA探 针在一张面积很小的芯 片上; 2.使样品中的核苷酸片 断与相应的探针杂交; 3. 通过荧光成像获得 每个探针上杂交的分子 的浓度; 4. 再通过后期的处理 即可获得相应的基因表 达量。
根据探针制备和固定技术的不同,基因 芯片主要分为:
(1) cDNA芯片(printed cDNA microarray)
i 1
x 1
n
n i
xi
y 1
n
n i
yi
将Pearson相关系数转 换成Pearson距离:
dp
1
(x, y)
2
Pearson相关系数
Pearson相关系数取值在–1和+1之间 (完全负相关和完 全正相关)
层次聚类(Hierarchical Clustering )
对整个数据集进行 划分的结果是得到K 个类簇(cluster);
在同一个类簇中, 数据对象是相似的;
在不同类之间的数 据对象是不相似的。
聚类是一种无监督 学习:没有预定义 的类簇。
Why cluster?
Cluster genes = rows
测量基因在多个时间点,不同条件下的表达水平; 基本假设:若基因具有相似的表达模式,则它们可
1. Perfect Match (PM)
2. Mismatch (MM) PM-MM探针:提高特异性和灵敏度,更适合检测低丰度表达的基因。
寡核苷酸芯片
不需要对照样品,而只对 待测试的样品进行杂交和 检测;
从测试样品提取到mRNA 经反转录标记后与芯片杂 交;
杂交后的芯片经洗涤后通 过扫描得到图像;
芯片数据的高层分析
经过低层处理,从芯片原 始数据获得可靠的基因表 达值。
一张基因芯片得到的数据 成为一个列向量,维数就 是芯片上基因的个数。
将一次实验的多张芯片数 据放到一起就形成一个矩 阵。
矩阵中的数值表示基因在 样本中的表达值。
芯片数据的高层分析
高层分析通常指在得到 基因表达值后对以下方 面的研究:
1. 首先将每个数据对象(基因或样本)作 为单独的一个类簇(cluster);
2. 将距离最近的两个类簇合并形成一个较 大的类簇;
3. 重复步骤2直到所有数据对象都在一个 类簇中。
层次聚类
层次聚类
树状图:一种树形结构用来 表示层次聚类的过程。
每个节点代表一个类簇;
能具有相似的功能 (例如受共同的转录因子调控的基因,或
者产物构成同一个蛋白复合体的基因,或者参与相同调控路径的基
因); 可以按照相似的表达谱对基因进行聚类,从而预测
组内未知基因的功能。
Cluster samples = columns
e.g., 测量几千个基因在不同肿瘤样品中的表达水平 若样品具有相似的表达模式,则它们可能存在某种
图像是单色的,每个探针 在图像上的亮度反映了该 探针检测到的mRNA的表 达水平。
寡核苷酸芯片
每根探针都有一个相应的 基因表达值,但最终每个 靶基因的表达值要通过独 特的统计学运算才能得到 。
芯片数据的低层次处理
指在得到图像处理数据之后如何更好地计算基 因表达值的问题。目的是消除实验过程中产生 的系统误差、实验误差等影响因素。
应用基因芯片可以直接检测mRNA的种类和丰度,是研 究基因表达的有力工具。
研究基因表达的实验方法
1. Northern-Blotting技术 仅适用于单 个或较少几个基因。
2. 基因芯片(又称DNA微阵列Microarray) 能够在一个几平方厘米的芯片上放
置对应于成千上万个基因的DNA探针,从而 同时测定这些基因在样品中的表达。
然后从文库中选取特 定的cDNA片断,利 用PCR技术进行扩增 和纯化,得到所需要 的各个基因的探针
通过机械手将探针滴 加到基片上,从而完 成芯片的制备
cDNA芯片
成本相对低廉;
探针可以根据生物学 家的需要自行设计和 提取,是一种可以实 验室“自制”的基因 芯片。
cDNA芯片
需要准备测试样品和 对照样品;