精品课件-生物信息学中的数据挖掘

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。


(e)
ci
:聚类Ci 的基因在情形e的平均表达

m个情形轮流作为校验情形 总FOM越小越好
m1
FOeoM (kk)FO(eM ,k) e0
由上图可知:B方法优于A方法 聚类质量与聚类数有关 对给定数据集预先不能确定最佳聚类数
小结
本质为评价分类器的精确度 并假设对象的标签 轮流隐藏每个对象的标签 用分类器统计对象的标签

计算分析的步骤
Step 1 聚类表达数据 Step 2 发现序列模式 Step 3 发现显著性阈值,其中会重复Step 2 Step 4 模式选择 Step 5 模式分组 Step 6 评价发现的模式
结论
基因表达分析方法处于初级阶段 使用粗糙
未系统地研究合适的相似性度量方法 评估度量质量的方法 来自不同平台的数据的比较
基因表达分析举例
1.发现某些基因的表达与某癌症相关 2.探索哪些情况影响这些基因的表达 探索哪些基因有相似的表达模式 3.调查哪些化合物(潜在的药物)能降低
这些基因的表达
基因表达矩阵分析
不同基因的表达模式比较:行比较 不同情形的表达模式比较:列比较 以上两种结合(前提:数据规范化)
FOM
情形0,1,…,(e-1),(e+1),…,(m-1)被用于聚类
情形e用于评估
产生K个聚类C1,C2,…,CK

聚类大小为S1,S2,…,SK
k
si n
i 1
R(i,j)表示基因i在情形j的表达
FOM(e,k):e情形验证K个聚类的FOM
FO (e ,k )M 1 n ik 1 x c i(R (x ,e )c i(e )2
发展方向
分析方法大量涌现 可靠的相似表达分析方法 度量方法的研究 聚类结果的评价方法 系统化分析基因的方法 逐基因分析方法被网络式分析取代 结合生物知识深入分析
基因表达数据聚类分析算法的评价
系统、定量地评估聚类算法的结果
方法
将某个聚类算法作用于各实验数据中,保 留一种情况,用于评价算法预测能力
用相似性分组 可看作维规约 层次聚集、k-means、自组织图 桶方法 专用方法:如在图中发现近似系的方法
聚集结果中一个聚集的可视化表示

K-means方法:3000基因15个时间点, 聚为30 类
层次聚类:8600基因80次实验,10个类
选择有趣的基因
比较两个或多个情形,得到表达变化的基 因
传统方法:用生物学知识可视化 地评价(2)
将计算作用于模拟数据集
结果可视化
左图:原数据聚集结果 右图:模拟数据聚集结果
之前无系统的数据驱动的方法定量地评估
提出一种定量的数据驱动的方法评估与比 较不同聚类算法的算法
相似矩阵
预聚类 将两个基因表达原始序列归约为一个值: 对相似数
聚类算法评价的历史方法
外部标准分析
将聚类结果与已知的“金”标准比较
内部标准分析
用给定数据集内的信息评价
问题描述
n个基因,m个实验 共调控基因的表达水平相似 比较聚类算法A与算法B的结果
方法
用m-1个实验聚类 用剩余的1个实验评估算法的预测能力 同一聚类的基因在此实验中表达是否相似 优良指数FOM(figure of menz)
双路(two-way)聚类-基于分片 的聚类
行聚类与列聚类结合
哪些基因在列聚类中做重要
如:6500个基因,40肿瘤,20正常组织
有监督分析:构造分类器
线性识别 决策树 支持向量机(SVM) 邻居分析
有监督分析-优化
属性(基因)多于对象(情形) 不限制分类器的复杂度也可找到优良的识
作者提出的算法
不预先假设任何基因的信息 用FOM评估 可用于任意聚类算法与相似矩阵
实验用算法
CAST、重复算法、K-means 随机聚类算法
FO 2(e,kM )1 n i k1x ci(R (x,e)ci(e)2)
三个聚类算法:平均连接层次聚类、 CAST、自组织图
三个公共数据库
传统方法:用生物学知识可视化 地评价(1)
构建模拟数据集D(i,j)
αi:基因I的平均表达水平 βj:每个情形(实验)j的平均表达水平 态di分j:布用αi + βj为均值,1为参数的标准正
所以模拟数据集无本质的模式。

相似性(距离)的度量
无如何选择最佳距离度量的理论 最合适距离度量方法不一定存在 选择依赖于具体问题 已知的共调控基因标准集和基因调控网络
模型可能有助于发现潜在的相似性度量
矩阵分析
无监督方法:聚集 有监督方法:构造分类器
有其他信息,如功能分类,作为行或 列标签
无监督分析:聚集
比较-发现相似或不同
行比较:
两行相似意味两基因共调控或功能相关
列比较:
哪些基因的表达变化了
相似性(距离)的度量
将对象(行或列)作为n维空间的点或n维 向量
计算点间距离 欧几里德距离:结果明显但非最佳பைடு நூலகம் 将n维向量作为随机变量用相关系数计算
( 与n维向量间的角度有关) 将n维向量长度规范化为1,则以上两种相
别器 可以构造简单的分类器,满足简单性与分
类精确性
一个新算法
用无监督聚类得到表达模式空间的层次结 构
用有监督方法发现与聚类结构相关的最佳 阈值
发现调控因素 从聚类中发现基因功能 原理:
识别推定的调控信号方法
1 基于选定的度量聚类基因 2 在聚类的基因中提取推定的激发序列 3 在过表达的聚类中发现序列模式 4 用统计显著性标准评价发现的模式的质
生物信息学中的数据挖掘
后基因组时代的研究方向
基因组怎样产生功能的 主要问题: 不同基因,不同细胞过程中的功能
基因调控方式 基因与基因产物的互作用方式 以上2种网络
基因表达水平在不同细胞类型和状态下的 不同
基因芯片
建立基因表达模式:基因表达矩阵
基因为行 情形为列
相关文档
最新文档