基因芯片数据分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第三步:模型评估
第7次课 基因芯片数据分析
研究现状与最新进展
内容提要
1. 数据预处理 2. 寻找差异基因 3. 聚类分析 4. 分类分析 5. 通路与功能分析 6. 基因调控网络构建
1. 数据预处理
校正前后的芯片MA散点图
2. 寻找差异基因
根据p值和变化倍数确定差异表达基因
3. 聚类分析
目的: 基于相似性或者差异程度,对基因/样品进行划分, 每一个分组称为一个“cluster” 划分多少组:生物学背景,用户定义
自组织映射神经网络
优点是自动提取样本数据中的信息,是一种全局 的决策方法,能避免陷入局部最小。具有更稳健 更准确的特点,对噪声稳定,一般不依赖于数据 分布的形状。
缺点在于必须实现人为设定类的数目与学习参数, 而且学习时间较长
(四)双向聚类
双向聚类:识别基 因表达谱矩阵中同 质的子矩阵,运用 特定的基因子类识 别样本子类。
层次聚类方法
目前运用在芯片数据分析中最多的聚类方法, 得到类似于进化分析的系统树图。
其主要思想是先计算n个样本类间的距离,再 将相似性最高的两类合并为一个新类,得到n1类的矩阵,不断重复这个过程直至所有的基 因融合成为一个大类。
层次聚类
乳腺癌亚型分类研究
乳腺癌亚型:根据浸润性乳腺癌基因表达情况分类 采用层次聚类法
基因芯片聚类分析举例
例1. 酵母新陈代谢的时序基因芯片数据分析 例2. 芯片数据的基因本体富集性分析
聚类方法的问题
问题:下面的情况有用吗?
距离度量问题:怎样定义? 更复杂的方法: manifold clustering
5. 芯片数据的分类分析
线性判别分析(LDA):找边界 K临近(KNN):和“朋友”保持一致 机器学习方法:
步骤2: 采用欧氏距离划分每个点的归属 步骤3: 计算新的聚类中心
x
x x
K=3
K均值聚类
步骤4: 根据就近原则,划分每个数据点的归属(迭代)
步骤5: 计算新的聚类中心(迭代)
迭代:直到数 据中心不变化
K=3
层次聚类结果
K均值聚类结果
(三)自组织映射聚类
基本思想:在不断的 学习过程中,输出层 的神经元根据输入样 本的特点进行权重调 整,最后拓朴结构发 生了改变
聚类分析的意义
以基因作为输入样本,根据实验条件作为特征进 行分类,或者以实验条件作为样本,根据基因作 为特征进行分类。
将具有相同表达模式的基因归为一类,这些基因 具有相似的生物功能、相似的细胞起源或者相似 的调节作用。可用于推导未知基因的功能注释, 了解基因之间的调控关系。
判别细胞所处状态或组织类型,对临床医学的诊 断治疗都有实际意义。
支持向量机 神经网络
芯片数据的分类分析
定义
依据样本的基因表达特性,判别样本所属的类型
步骤
在已有数据的基础上建立分类器,根据分类器对 未知样品的功能或状态进行预测
意义
推断未知样本所属的物种、部位、发育阶段或者 肿瘤的类型等
疾病亚型分类举例
Golub et al., 分子水平的癌症分类
ALL
芯片数据的聚类分析
(1)距离函数 (2)聚类方法 (3)应用举例
(1)距离函数
几何距离 线性相关系数 非线性相关系数 互信息 其他
距离函数用于发现共表达关系
欧氏距离、相关系数可以反映基因之间的共表达 关系,两个基因表达谱间的距离小于给定的阈值 或相关系数大于某个给定的阈值,可认为它们之 间是共表达的。
MI X ,Y H X H Y H X ,Y
m
H X pxi log 2 pxi i 1
(2)聚类算法
层次聚类 K均值聚类 自组织映射 双向聚类
(一)层次聚类
层次聚类算法将研究对象按照它们的相似性关系 用树形图进行呈现,进行层次聚类时不需要预先 设定类别个数,树状的聚类结构可以展示嵌套式 的类别关系。
AML
AML –急性髓性白血病(acute myeloid leukemia)
中 高 表 达
白血病亚型分类
样本:38个白血病病人的骨髓样本(27个ALL, 11个AML),
技术:采用Affiymetrix芯片记录了6817个基因在 所有样本中的表达信息。
目标:不使用任何先验知识,仅利用基因芯片数 据建立一套能用于确定白血病类型的预测系统, 以区分急性淋巴细胞性白血病(ALL)和急性髓 性白血病(AML)。
距离函数举例
由距离度量推断调控关系
log2(cy5/cy3)
2
0
-2 来自某转录因子的转录本 作用靶标1的转录本 作用靶标2的转录本
Pearson 距离
欧氏距离
互信息
基因的行为是复杂的,它们之间存在调控和被调 控的关系,或者存在调控链,例如基因A调控B, B调控C,调控还有正性调控和负性调控之分。对 于这些调控关系,它们的表达谱往往是不相似的, 或者存在时延、或者存在反相,而基因表达的幅 度也可能不相等。如何从数据中发现这些复杂的 基因关系呢?
Sorlie T, et al. Proc Natl Acad Sci U S A. 2001
ERBB2
整 个
未知类别
芯
片 的
基底乳腺癌细胞
层
次 聚
正常乳腺
类
管腔上皮细胞
(二)K均值聚类
基于划分或者找中心的算法
步骤1: 定义类别数目K,初始化类别中心
x
x x
K=3
脑中表达水平
肝脏中表达水平
K均值聚类
Molecular classification of cancer:
class discovery and by gene expression
class prediction monitoring.
中 高
Science 1999.
表
ALL –急性淋巴细胞性白血病(acute 达
lymphoblastic leukemia)
第一步:特征提取
首先,寻找与两种类别显著相关的基因,即在一 个类中显著高表达,在另一类中显著低表达,共 发现1100个基因与AML-A然后,以每个基因与类别的相关系数为权重,采用有权 重投票方法,预测未知样本的所属类别。即计算一个样 本中所有信息基因与AML和ALL的相关系数,分别取均 值,如果与AML的平均相关系数更高,则认为该样本属 于AML,否则属于ALL。