第六章 聚类分析(1)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

距离度量标准的算式:
1.欧氏距离:
d 2 ( xi , x j ) ( ( xik x jk ) 2 )1/ 2
k 1
m
2.L1距离或城区距离: 3.明考斯基距离:
d1 ( xi , x j ) xik Biblioteka Baidu x jk
k 1
m
m
d p ( xi , x j ) ( ( xik x jk ) p )1/ p
Pj可以是二元类型,整型,实数,或某一特
征的一组分类。 例如Pj是一组颜色: Pj ={白, 黑,红,蓝,绿}。 由于相似度是定义一个聚类的基础,因此在 聚类分析中有必要建立同一特征空间中的两 种模式的相似度的度量标准。而且聚类分析 过程的质量取决于对度量标准的选择。 一般地,不是计算两个样本间的相似度,而 是用特征空间中的距离作为度量标准计算两 个样本间的相异度。
k 1
显然,p=1时(3)与(2)距离一样;p=2时(3)
与(1)距离一样。
欧氏
n维空间模型不仅给出了欧氏距离,还 给出另外的相似度度量标准,余弦相关就是 其中之一:
scos ( xi , x j ) [ ( xik x jk )] /[ x
k 1 k 1 m m 2 ik
上面数据可以分类三个类也可以分为四个类,
类的数量的任意性是聚类过程中的主要问题。 另一方面,上面的类是能够直接观察到的。 对于高维欧几里得空间里的一组点,就无法 从视觉上观察到。 聚类分析输入可以用一组有序数对(X,s)或 (X,d)表示。聚类系统的输出是一个分区 ∧={G1,G2,…,GN},其中Gk(k=1,…,N)是 X的子集。 G1,G2,…,GN称为类,每一个类用一些特征 描述。聚类结果是类和它的特征或描述。
聚类中的“相似度”意味着当x和x’是两个相似样本 时,s(x,x’)的取值是很大的,当x和x’不相似时, s(x,x’)的取值是很小的。而且,相似度的度量标准S 具有自反性: s(x.x’)=s(x.x’) 对于大多数聚类方法,相似度的度量可以标准化为: 0≤s(x,x’)≤1 相异度的度量标准用d(x,x’)来表示。通常称相异度为距 离。当x和x’相似时,d很小,当x和x’不相似时,d很 大。而且d>0,d(x,x’)=d(x’,x), d(x,x’’)≤d(x,x’)+d(x’,x’’)
x
k 1
m
2 1/ 2 jk
]
则有:当xi=λ · xj,λ >0时 scos(xi,xj)=1;
当xi=λ · xj,λ <0时 scos(xi,xj)=-1 例如:对于一个四维向量 x1={1,0,1,0},x2={2,1,-3,-1} scos(xi,xj)=(2+0+3+0)/(21/2· 151/2)=-0.18。
由于样本中的特征可能包含一些或全部
不连续值,这种情况不可能采用上面距 离度量标准。实际上,对于异类样本的 不同特征使用不同的距离度量标准。下 面介绍一个可行的二元类型数据的距离 度量标准。 假定,每一个样本都由n维向量xi表示,该 向量xi由一个二类型数值组成。两个样 本xi和xj间的距离量度标准计算方法是:
聚类分析是依据样本间关联的量度标
准将其自动分成几个群组,且使同一 群组内的样本相似,而属于不同群组 的样本相异的一组方法。聚类分析的 一个附加的结果是对每个类的综合描 述,这种结果对于更进一步深入分析 数据集的特征是尤其重要。
6.1 聚类概念
聚类的样本是用度量指标的一个向量表示,或
更正式的说法是,用多维空间的一个点来表示。 同类中的样本比属于不同类的样本彼此具有 更高的相似性。聚类方法尤其适合用来探讨 样本间的相互关联关系从而对一个样本结构 做一个初步的评价。人们能够对一维、二维 或三维的样本进行聚类分析,但是大多数现 实问题涉及到更高维的聚类。
6.2 相似度的度量
为了规范化相似度的度量标准,我们有如下
约定:在样本空间X的聚类算法中,用一个 数据向量表示一个样本x(或特征向量,观察 值)。假定每一个样本xi∈X,i=1,…,n都用向 量xi={xi1,xi2,…xim}来表示,m的值是样本 的维数(特征),n是一个样本数。 如果某个样本xi的单个分量xij是一个特征或 属性值,那么每一组成xij,j=1,..,m是一个 域Pj。则每一个特征的值的取值范围。
值得注意的是:没有哪一种聚类技术对揭示
多维数据集中的构造种类是普遍适用的。使 用者对问题的理解和与其相应的数据类型是 选择合适方法的最好标准,大多数聚类算法 基于下面两种常见方法: 1.层次聚类 2.迭代的平方误差分区聚类 层次方法按群组的嵌套顺序组织数据,以树 状图或树形结构来表示。 平方误差分区算法试图得到一个使类内分散 最小而类间分散最大的分区。它是非层次的。
例如:下表是一个简单聚类例子,包含了9个
顾客的信息,分三类,两个特征值(数量,价 格) 类1:购少量高价商品,类2:购大量的高价品, 类3:购小量的低价商品。
聚类是一个非常难的问题,因为在一个n维的
样本空间数据可以以不同的形状和大小揭示 类。 下面基于欧几里得二维空间的聚类过程的一 个示例。
分层聚类法是由不同层次的分割聚类
组成,层次之间的分割具有嵌套关系。 分层聚类法不必事先输入聚类块数K, 基于模糊相似关系的模糊聚类属于这 种聚类法。 密度聚类法是利用数据密度函数进行 聚类。 网格聚法利用空间量子化方法把数据 分到有限个单元进行聚类,这种方法 效率高,与数据大小无关,仅与单元 数有关。
规范化的描述有以下几种图式:
1.通过它们的重心或类中关系远的(边界) 点表示n维空间的一类点。 2. 使用聚类树中节点图形化地表示一个类。 3.使用样本属性的逻辑表达式表示类。
现有的用于数据挖掘的聚类方法分为
四类:分割法,分层法,密度法和网格法。 分割聚类法一般是通过优化一个评价 函数把数据分割成K个部分,主要有两 种方法:K-means聚类法和Kmedoid聚类法.K-means法在处理海 量数据库方面很有效,特别是对数值 属性处理。K-prototypes是结合Kmeans和K-modiod的优点,可以同 时处理数值与符号属性和聚类法
相关文档
最新文档