小波聚类算法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
小波聚类(DPWaveCluster)算法
根据信号分析理论,信号的高频部分对应特征空间中数据点的快速变化部分,此即可作为我们聚类的边界。而信号的低频部分对应特征空间中数据点较集中的部分,此即是我们所要的聚类本身。
小波聚类(DPWaveClus-ter)算法核心思想是:对原始待分析的数据集先量化到特征空间中,对特征空间实施小波变换,在小波变换后的空间内寻找连接在一起的部分,即为聚类,并为每个聚类添加标签,然后通过算法提供的映射表确定原始数据集中各数据点所属的聚类,这样就可以根据用户需求从各聚类中取适当的数据点以形成简化的数据集。
小波聚类(DPWaveCluster)算法描述如下:输入为初始数据集;输出为简化后的数据集。
1)量化特征空间。即将初始数据集中每个数据点对应转换到量化空间中去;
2)对量化后的特征空间应用小波变换;
3)在经小波变换后的特征空间不同层次中找出连接在一起的部分(即为聚类);
4)给每个量化单元添加聚类标识;
5)形成查找表;
6)将数据集中各数据点映射到各聚类中;
7)按照用户要求选出每个聚类中适当数目的数据点以形成简化后的数据集。
具体每一步的讲解:
(1)量化
算法第一步是量化特征空间。假设d维特征空间中每一维i都被等分为mi 个小区间,且所有维中mi=m,那么特征空间中将有md个单元,然后数据集中的所有数据点将被映射到量化空间中去。数学描述如下:初始数据集中任一点Ok在量化空间中的值为Fk=(f1,f2,…,fd),而vi(1≤vi≤mi,1≤i≤d)是量化单元在特征空间中Xi轴上的位置。假定si是每个量化单元在轴Xi上的大小,如果对所有i值,有(vi-1)×si≤fi≤vi×si,1≤i≤d,那么数据点对应的量化值Fk=(f1,f2,…,fd)就被定义到单元mj=(v1,v2,…,vd)上,其中,1≤j≤md。这些单元数目的确定对聚类性能的影
响很大。对应小波变换的多分辨分析特性,我们可把数据点在不同单元大小上的映射看作不同尺度下的小波变换。
(2)小波变换
算法第二步对量化特征空间实施小波变换。对单元mj实施小波变换形成新的单元Tk,从单元Tk所组成的集合中,算法检测其连接在一起的部分,并将其视为一个聚类。考察小波变换的每一个不同分辨率r,将会有一组聚类Cr,并且通常在较粗分辨率下,聚类数目较少。
(3)给出聚类标识并形成查找表
对每个聚类c,c∈Cr都有一个聚类序号Cn。算法第四步中,给特征空间中的每个单元标上它所在聚类的序号,也即:对任意的c和Tk,Tk∈c※fTk=Cn,c∈Cr,此处,fTk即为单元Tk的标号。我们所找到的聚类都是在以小波系数为基础的特征空间中找到的,不能直接用来定义原始数据集中的聚类。WaveCluster算法生成了一个查找表LT来给出量化空间中的单元和原始数据集中的数据之间的映射关系,这样从LT表可以容易地确定出原始数据集中的数据的聚类标识,这样聚类就确定下来了。实验中,synthetic dat数据集共有六个聚类,topo数据集共有四个聚类能很好反映原始数据集的特点。
(4)形成简化后的数据集
确定聚类后,DPWaveCluster算法可以按照用户需求从各聚类中选取适当数量的数据点以形成简化后的数据集。实验中,我们取synthetic dat数据集,其中共有600×60个数据,topo数据集共有180×360个数据,经简化后,synthetic dat数据集还剩360个数据并且能很好反映原始数据集的特点,to-po数据集还剩180个数据并且能很好反映原始数据集的特点。