基因表达谱聚类
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基因表达谱聚类分析
[ 文章来源:| 文章作者:| 发布时间:2006-12-21| 字体:[大中小] 学习过程可以采用从全局到局部的策略。采取这种策略时,学习初期可设定较大的交互作用半径R ,随着学习过程的不断推进,逐步减小R ,直至不考虑对邻近单元的影响。邻域的形状可以是正方形或者圆形。
KFM 的聚类结果与K 均值相似,它的优点是自动提取样本数据中的信息,同时也是一种全局的决策方法,能避免陷入局部最小,缺点在于必须实现人为设定类的数目与学习参数,而且学习时间较长。KFM 方法克服了K- 均值聚类的一些缺点:它应用类间的全局关系,能提供大数据集内相似性关系的综合看法,便于研究数据变量值的分布及发现类结构。而且,它具有更稳健更准确的特点,对噪声稳定,一般不依赖于数据分布的形状。
8.4.2.5 其它聚类方法
聚类方法是数据挖掘中的基本方法,数据挖掘的方法很多,在基因表达谱的分析中,除了以上常用方法外,还有一些其它的方法。由于对聚类结果尚没有一种有效的方法进行评价,尤其是对聚类结果的进一步生物学知识发现尚没有新的分析思路和成功应用,因此,科学家们在不断地研究一些新方法。这些方法有不同的原理,能够提取不同数据特征,有可能对具体的数据得到更有意义的结果,发现更多的生物学知识。这里,简单介绍这些方法的原理,更详细的介绍请参看相关文献。
(1)模糊聚类分析方法:这是一种模拟人类的思维方法,通过隶属度函数来反映某一对象属于某一类的程度。基本思路是计算两两基因表达谱之间的相似性程度,构建模糊相似矩阵,利用模糊数学中的传递闭包计算方法得到模糊等价矩阵,选择不同的置信水平从模糊等价矩阵中构建动态聚类图。对于特定的置信水平,可以实现对基因表达谱的分类。该方法的优点是利用了模糊数学中的隶属度概念,能够更好的反映基因表达谱之间的相互关系,而且它是一种全局的优化方法,与向量的顺序无关。
(2)模糊C均值算法:该方法同样将模糊数学中的隶属度概念引入到常用的K 均值聚类方法中。对于K 均值算法,一个基因表达谱所属的类只有一个,因此,它与各类别的关系要么是 1 ,要么是0 ,即属于或不属于某一类。而对于模糊 C 均值法,一个基因表达谱是否属于某一类,是以隶属度来确定第i 个样本属于第j 类的可能性。最终的聚类结果取决于分析的目的,可以根据最大隶属度来确定基因表达谱的分类,即一个基因表达谱只属于一类;但往往是确定隶属度的阈值,只要大于该阈值,就可以将基因表达谱划分为该类,这样的划分结果是一个基因表达谱可以属于多个类,这也是可以被生物学家接受的。模糊 C 均值法与K 均值法的实现过程基本相同,所不同的是对于
模糊 C 均值法并不是直接将样本向量归类,而是计算属于各类别的隶属度;同样它没有一个明确的类界限,在计算聚类中心时,需要考虑所有的样本向量,根据隶属度μ来计算聚类中心。
(3)谱聚类:K 均值聚类对于聚类中心相距较远的数据样本具有很好的聚类效果,而对于具有同心圆特征的数据样本很难得到好的分类效果,而谱聚类(Spectral clustering )能够很好的对具有这种特征的样本进行聚类。谱聚类是一种基于矩阵特征向量的方法,也是一种能根据顶点之间的权值对图进行划分的方法。用图表示基因表达谱矩阵,基因表达谱可以看作是一组顶点,连接顶点的边的权值反映了两个表达谱之间的相似性,这样就得到有权无向图G(V ,
A) ,聚类过程等价于将G 划分为不连接的子集,这可以通过简单地删除连接边来实现。聚类过程包括两个步骤:第
1 步是将表达谱空间转化为相似度矩阵的特征向量空间;第
2 步是应用简单的K 均值法对特征向量空间的特征向量进行聚类,得到的结果就对应了基因表达谱的聚类结果。该方法可以根据特征值自动确定分类数目。谱聚类在聚类过程中进行了特征空间的转换,可以将大的空间转化为较小的空间,从而可以更快速地处理大规模的数据。
(4)超顺磁性聚类:超顺磁性聚类(superparamagnetic clustering )是一种基于模拟非均匀铁磁物质的物理特性的聚类方法,将数据聚类问题视为检验不均匀Potts 模型的平衡特性。根据表达谱向量之间的距离矩阵构建图,顶点是数据点,如果两个点之间的距离满足K-mutual-neighbor 准则,则称为邻居。数据点的聚类等价于有权图的划分。给每一数据点分配一个Potts 自旋子,相邻数据点间引入强度随距离下降的相互作用函数。非均匀Potts 模型系统随温度变化表现出三相:在低温下,所有自旋子呈现完全有序的排列,系统为铁磁相;随着温度的升高,小区域自旋子形成磁化“颗粒”,附属于同一“颗粒”者相互间产生强耦合,而无关者间相互作用很弱,不同“颗粒”的排列呈无序状态,为超顺磁相;在高温下,系统不表现任何有序性,为顺磁相。在超顺磁相的转换温度下,磁化率表现出显著的峰值。原则上,超顺磁相可以有一系列的转换点。随着温度的升高,系统可以首先分裂为两类,其中每一类又可以分裂为更多的子类,这样,数据就分层组织为类。超顺磁性聚类算法的优点是对噪声及初始化不敏感,因为类由系统的综合性质产生。由磁化率的峰值很容易鉴别主要的分界,从而能清楚显示类的构成和分界,并且在每一个分辨率上能自动确定类数。
(5)双向聚类法:以上所述方法主要是对基因表达谱进行聚类,或针对基因表达矩阵的行进行聚类分析,将具有相似模式的基因表达谱分为一组,这是在应用中要解决的主要问题。基因表达数据矩阵中的列表示了实验条件,可以是时间序列,也可以是不同的肿瘤样本或病人样本。从生物学应用的角度,针对列的聚类可以发现各实验条件之间的相互关系,例如,同一肿瘤类型的样本可以聚成一类,它们具有相似的基因表达模式,这样就可以基于表达谱对肿瘤进行分类。从数学的角度,数据矩阵中的每一列对基因表达谱的行聚类结果有着不同的影响,挑选部分列进行聚类的结果与选择所有列进行聚类的结果是不同的。将两者结合起来,就称为双向聚类法,在行和列两个方向上进行聚类分析,
通常采用贪婪迭代检索的方法来发现子矩阵或稳定的类,这些子矩阵中感兴趣的模式具有特定的生物学意义。在应用中,可以根据具体的目的,确定以降低基因维数还是以降低样本维数为主,通过迭代得到稳定的若干样本分类或基因分组。
8.4.3 基于模型的聚类方法
在基因表达数据显著性分析时,我们提到贝叶斯方法的应用,它分别对两种条件下的数据构建模型,通过比较它们的模型参数来确定表达差异的显著性。同样,基因表达谱分析也可以引入建模的方法,假定每一个基因表达谱是由一种内在的概率模型产生的,它满足一定概率分布或者分布的有限组合,例如多元正态分布,而所有的基因表达谱是由若干个概率模型混合产生的,这样就可以通过确定这些概率模型,来实现对基因表达谱聚类的目的。高斯混合模型是该聚类方法中的常用模型。与上面所述的各种启发式聚类算法比较,基于模型的方法具有的最大优点是,不需要使用严格的方法来确定类的数目或最佳的聚类方法,但是不足是计算量非常大,对于大量数据的分析比较困难。
基于混合模型的聚类,首先假设数据中蕴含的每一类样本由一种内在的概率分布混合产生,例如高斯混合模型,独
立多元观测y1,y2,… ,y n组成的数据Y中每一元素y k由参数为u k(均值向量)和Σk(协方差矩阵)的多元正态分布模拟,
(8-24)
式中的det是求矩阵行列式值的函数。算法的目标是由数据预测参数u k和Σk并确定相应于这些参数预测的类。为了便于参数预测,对Σk进行特征值分解:,D 为特征向量组成的正交矩阵,确定模型的取向,A为对角矩阵,元素与Σk的特征值成正比,确定模型的形状λ为标量,确定模型的体积。约束和改变部分参数,可以得到这一概率框架下的一组模型,如, 等体积球模型(EI :,I 为单位矩阵)、不等体积球模型(VI: ) 等,以适应数据特征的变化。模型参数可以通过EM (期望最大化)方法估计。每一种协方差矩阵与类数组合情况相应于不同的概率模型,由贝叶斯信息准则(BIC) 估计每一种模型下数据被观测到的概率,计算模型的BIC 得分,最后选择BIC 得分最大的模型和参数对该样本进行分类。
8.4.4 支持向量机
如上所述,对于基因表达谱数据矩阵M,在对行或列向量进行聚类分析时很少或根本没有用到生物学知识,所得到