近似谱聚类算法描述
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
二、近似谱聚类算法描述
本节论文阐述基于相似矩阵稀疏化方法稀疏化后离群点的优化处理,并将该处理步骤应用于谱聚类算法中。基于上述分析近似谱聚类算法整体流程总结描述如表3.2所示。
表3.2 近似谱聚类算法(ASCA)
算法:近似谱聚类算法(ASCA)
输入:数据点,待聚类数目
输出:聚类
1. 使用公式,(其中,是的个最近邻按距离排序后第个邻居,同理,),构建相似矩阵;
2. 使用稀疏化矩阵获得半正定矩阵,找出矩阵对称位置不一致的相似度,并将对称元素设置为0,调整为对称半正定矩阵;
3. 使用优化公式对矩阵进行离群点调优;
4. 计算对称半正定拉普拉斯矩阵;
5. 计算的特征向量分解,找出第k个最小非零特征特征量,并按列排列k个特征向量构建特征向量矩阵;
6. 计算标准化矩阵();
7. 使用粗糙集模型选择k-means初始化聚类中心位置并对矩阵进行k-means聚类,把其聚类成k组()。
基于近似谱聚类算法整体步骤描述,为进行近似谱聚类算法Matlab辅助实验铺垫,绘制近似谱聚类算法流程示意图如图3.1所示。Matlab辅助实验主要是将示意图3.1中的所示的算法与正交化Nyström低阶子矩阵抽样近似相似矩阵谱聚类算法(ONSP: Orthogonalization Nyström Spectral Clustering)和最近邻稀疏化近似相似矩阵谱聚类算法(tNNSC: Spectral Clustering)进行对比,并验证其聚类效果。
图3.1 近似谱聚类算法流程示意图
三、近似谱聚类算法时间复杂度分析
现对基于相似矩阵稀疏化方法离群点优化的近似谱聚类算法时间复杂度简单分析,步骤1:使用高斯函数公式构建相似矩阵的时间复杂度是,其中表示数据点数目、表示数据维数,计算数据点和之间的相似度的时间复杂度是,则计算整个数据集的时间复杂度是;步骤2:使用稀疏化矩阵获得半正定矩阵并调整为对称半正定矩阵借助于最大堆,其时间复杂度是,其中是最近邻数;步骤3:优化离群点步骤是非确定性多项式困难问题NP-hard (Non deterministic Ploynomial Hard)问题,其时间复杂度随近似相似度矩阵维数按指数增长;步骤4与步骤5:计算对称半正定拉普拉斯矩阵并找出k个最小非零特征值的特征向量的时间复杂度在论文第二章第二节中已经详细分析过,即;步骤6:计算标准化矩阵的时间复杂度是;步骤7:执行k-means聚类时间复杂度是:,其中表示k-means聚类过程迭代的次数,指待聚类数目。
第三节近似谱聚类算法实验分析
一、近似谱聚类算法辅助实验
(1)Matlab辅助实验环境描述
为验证表3.2所示近似谱聚类算法与正交化Nyström低阶子矩阵抽样近似相似矩阵谱聚类算法和最近邻稀疏化近似相似矩阵谱聚类算法的性能,鉴于Hadoop MapReduce并行实验对
比的工作量过大,故仅设计基于Matlab的对比性实验。Matlab辅助实验环境:近似谱聚类算法(ASC)的Matlab辅助性验证以及其与正交化Nyström低阶子矩阵抽样近似相似矩阵谱聚类算法和最近邻稀疏化近似相似矩阵谱聚类算法的对比。实验所使用的Matlab版本是:Matlab R2011a,运行Matlab的服务器是:Windows Server 2008 R2 Datacenter,系统处理器:Intel(R) CPU E5-260 0 @ 2.30GHz (2处理器),其内存(RAM)32.0GB,系统类型:64位操作系统。
(2)Matlab辅助实验数据集描述
辅助性实验使用的经典文本分类数据集是路透社语料库卷I :RCV1(Reuters Corpus Volume I)[64],其具体描述见表3.3所示。
表3.3 实验数据集描述
数据集类别数样本数特征维数数据集规模是否归一化来自领域
RCV1 103 193844 144 1.23MB 是工业界术语(ECAT)
(3)ASC Matlab实验和对比实验
本实验主要是验证所提出的基于稀疏相似矩阵优化的谱聚类算法(ASC),图3.2显示分别构造RCV1数据集的稀疏化相似矩阵(t=10,20,30,40,50,100,200,300,400,500),计算相似矩阵离群点优化时间、ASC算法计算总时间、SVD计算时间和k-means计算时间,以及聚类质量(包括NMI 得分和聚类精确值,聚类精确值计算介绍参见论文第五章第三节实验评估标准),NMI标准化交互信息量(Normalized Mutual Information),NMI是主要的聚类质量评估标准,NMI值越大,表明近似谱聚类算法质量越高。其用于实际的聚类标识CA T(Category label)与实验结果获得的聚类标识CLS(Cluster label),定义如下:
(3.8)
(3.9)
其中,与熵分别表示CA T与CLS的交互信息量、标准化在范围内。、与分别表示实际的聚类的数据点数、实验结果获得的聚类的数据点数和既属于实际的聚类又属于实验结果获得的聚类的数据点数。
图3.2 ASC计算时间和聚类质量
图3.2中可以得出论文提出的ASC算法在优化相似矩阵离群点上的计算时间最耗时,但使用RCV1数据集实验所得的聚类精确度非常高,基于这样的原因,本文研究设计并实现基于Hadoop MapReduce并行近似谱聚类算法。
图3.3 ONSC计算时间和聚类质量
图3.3展示论文第二章第三节所介绍的Nyström低阶子矩阵抽样法近似谱聚类算法实验结果,目的是作为参照与所提出的ASC谱聚类实验进对比。该实验构建相似矩阵所使用的最近邻分别是t=20,30,40,50,100,200,300,400,500,1000,1500,2000,图中分别显示计算Euclidean距离矩阵与构建相似矩阵的时间,以及SVD计算时间、k-means计算时间和ONSC计算的总时间,相对于所提出的ASC聚类,ONSC计算的总时间要小很多,但是其聚类精确度不高。
图3.4 tNNSC计算时间和聚类质量
图3.4描述论文第二章第三节所介绍的稀疏化矩阵法近似谱聚类算法实验结果,目的也是作为参照与所提出的ASC谱聚类实验进行对比。该实验构建相似矩阵所使用的最近邻分别是t=5,15,30,40,50,100,150,200,250,300,350,400,450,500,图中分别显示计算Euclidean