第12章 聚类分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

P10
《数据仓库与数据挖掘》
P11
相异度矩阵(Dissimilarity Matrix)
按n个对象两两间的相异度构建n阶矩阵(因为相异度矩阵 是对称的,只需写出上三角或下三角即可):
⎜⎛ 0
⎜ d (2,1)
⎜ ⎜
d
(3, 1)
⎜#
⎜ ⎝
d
( n,
1)
⎟⎞
0

d (3, 2) 0
⎟ ⎟
#
#

d (n, 2)
。而且它对于“噪声”和孤立点数据是敏感的,少量的该类数据能够 对平均值产生极大的影响。
《数据仓库与数据挖掘》
P22
k-均值算法
K-平均方法有很多衍生算法。它们可能在初始K个质心的选择、相异度 和聚类平均值的计算策略上略有不同。
• K-平均算法的一个变体是K-模方法,它扩展了K-平均方法,用模来代替类 的平均值,采用新的相异性度量方法来处理分类对象,采用基于频率的方 法来修改聚类的模。
划分方法满足两个条件: • (1)每个分组至少包含一个对象; • (2)每个对象必属于且仅属于某一个分组。
常见的划分方法 • k-均值方法:每个簇用该簇中对象的平均值来表示。 • k-中心点方法:每个簇用接近聚类中心的一个对象来表
示。 • 其他方法大都是这两种方法的变形
《数据仓库与数据挖掘》
《数据仓库与数据挖掘》
P8
应用聚类分析的例子
市场销售 • 帮助市场人员发现客户中的不同群体,然后用这些知识来开展一个
目标明确的市场计划;
土地使用 • 在一个陆地观察数据库中标识那些土地使用相似的地区;
保险 • 对购买了汽车保险的客户,标识那些有较高平均赔偿成本的客户;
城市规划 • 根据类型、价格、地理位置等来划分不同类型的住宅;
0 1 2 3 4 5 6 7 8 9 10
reassign
10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10
《数据仓库与数据挖掘》
P21
k-均值算法
算法尝试找出使平方误差函数值最小的K个划分。当结果簇 是密集的,而簇与簇之间区别明显时,它的效果较好。
对处理大数据集,该算法是相对可伸缩的和高效率的,因 为它的复杂度是O(nkt),其中,n是所有对象的数目,k 是簇的数目,t是迭代的次数。通常,k<n,这个算法经常 以局部最优结束。

…0
⎟ ⎠
其中d (i, j)表示对象i与j的相异度,它是一个非负的数值。 当对象i和j越相似或“接近”时,d (i, j)值越接近0;而对象i 和j越不相同或相距“越远”时,d (i, j)值越大。显然,d (i, j)=d (j, i),d (i, i)=0。相异度矩阵是对象-对象结构的一种
{Ci| 1,2,..., k} Ci⊆V Ci∩ Cj=φ ∪Ci=V (i=1…k) 则该过程称为聚类。Ci称为簇。 一个好的聚类方法要能产生高质量的聚类结果—簇 ,这些簇要具备以下两个特点: • 高的簇内相似性 • 低的簇间相异性
《数据仓库与数据挖掘》
P4
统计学的观点-聚类分析
从统计学的观点看,聚类分析是通过数据建 模简化数据的一种方法。
第12章 聚类分析
12.1 聚类分析简介 12.2 聚类分析中的数据类型 12.3 主要聚类分析方法
聚类分析是数据分析中的一种重要技术,它 的应用极为广泛。许多领域中都会涉及聚类 分析方法的应用与研究工作,如数据挖掘、 统计学、机器学习、模式识别、生物学、空 间数据库技术、电子商务等。
《数据仓库与数据挖掘》
二元变量 • 一个二元变量只有两个状态:0或者1,0表示该变量为空,1表示该
变量存在。
标称型,序数型变量 • 标称变量(nominal)是二元变量的推广,它可以具有多于两个的
状态值。例如,map-color是一个标称变量,它可能有五个状态: 红色,黄色,绿色,粉红色和蓝色。 • 序数型变量:离散的多个状态以有意义的序列排序。
10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10
reassign
10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10
Update the cluster means
Update the cluster means
10 9 8 7 6 5 4 3 2 1 0
最小化为止。
《数据仓库与数据挖掘》
P19
3
k-均值算法
输入 期望得到的簇的数目k,n个对象的数据库。 输出 使得平方误差准则函数最小化的k个簇。 方法
• 选择k个对象作为初始的簇的质心; • repeat
– 计算对象与各个簇的质心的距离,将对象划分到距离其最近的簇 ;
– 重新计算每个新簇的均值;
(1)d(i,j) ≥ 0:距离是一个非负的数值。 (2)d(i,i) = 0:一个对象与自身的距离是0。 (3)d(i,j) = d(j,i):距离函数具有对称性。 (4)d(i,j) ≤ d(i,k) + d(k,j):从对象i到对象j的直接距离不会大于途径
任何其他对象h的距离(三角不等式)。
《数据仓库与数据挖掘》
数据挖掘领域主要研究面向大型数据库、数据仓库 的高效实用的聚类分析算法。
《数据仓库与数据挖掘》
P7
1
聚类的常规应用
模式识别 空间数据分析
• 在GIS中,通过聚类发现特征空间来建立主题索引; • 在空间数据挖掘中,检测并解释空间中的簇; 图象处理 经济学 (尤其是市场研究方面) WWW • 文档分类 • 分析WEB日志数据来发现相似的访问模式
P15
对象间距离的计算(续)
12.3 主要聚类方法
明考斯基距离:
基于划分的方法
d(i, j) = q (| xi1 − x j1 |q +| xi2 − x j2 |q +...+| xip − x jp |q )
其中 i = (xi1, xi2, …, xip) 和j = (xj1, xj2, …, xjp) 是两个p维的数据对象, q是一个正整数 。
K-平均方法有很多衍生算法。它们可能在初始K个质心的选 择、相异度和聚类平均值的计算策略上略有不同。
K-平均算法局限性 • K-平均算法只有在簇的平均值被定义的情况下才能使用。这可能不
适用于某些应用,例如涉及有分类属性的数据。 • 要求用户必须事先给出K(要生成的簇的数目)可以算是该方法的
一个缺陷。 • K-平均算法不适合于发现非凸面形状的簇,或者大小差别很大的簇
• 聚类就是把整个数据分成不同的组,并使组与组之间的差距尽可能 大,组内数据的差异尽可能小。
• 在许多应用中,可以将一个簇中的对象作为一个整体来对待。
典型应用 • 作为一个独立的分析工具,用于了解数据的分布; • 作为其它算法的一个数据预处理步骤。
《数据仓库与数据挖掘》
P3
聚类问题的数学描述
给定数据集合V,根据数据对象间的相似程度将数 据集合分成组,并满足:
地震研究 • 根据地质断层的特点把已观察到的地震中心分成不同的类;
《数据仓库与数据挖掘》
P9
12.2 聚类分析中的数据类型
聚类分析主要针对的数据类型包括区间标度 变量、二元变量、标称变量、序数型变量, 以及由这些变量类型构成的复合类型。
一些基于内存的聚类算法通常采用数据矩阵 和相异度矩阵两种典型的数据结构。
《数据仓库与数据挖掘》
P14Fra Baidu bibliotek
对象间距离的计算(续)
欧几里德距离:
d(i, j) = (| xi1 − x j1 |2 +| xi2 − x j2 |2 +...+| xip − x jp |2)
曼哈坦距离: d(i,j) = |xi1-xj1|+|xi2-xj2|+…+|xip-xjp|
上面的两种距离度量方法都满足对距离函数的如下数学要 求:
数据矩阵(Data Matrix)
设有n个对象,可用p个变量(属性)描述每个对 象,则n×p矩阵
⎜⎛ x11 x12 … x1p ⎟⎞
⎜ ⎜
x21
x22

x2 p
⎟ ⎟
⎜… … … …⎟
⎜ ⎝
xn1
xn2

xnp
⎟ ⎠
称为数据矩阵。数据矩阵是对象-变量结构的数据 表达方式。
《数据仓库与数据挖掘》
P18
一、k-均值(K-Means)算法
k-均值聚类算法的核心思想是通过迭代把数 据对象划分到不同的簇中,以求目标函数最 小化,从而使生成的簇尽可能地紧凑和独立 。
• 首先,随机选取k个对象作为初始的k个簇的质
心;
• 然后,将其余对象根据其与各个簇质心的距离
分配到最近的簇;再求新形成的簇的质心。
• 这个迭代重定位过程不断重复,直到目标函数
聚类与分类区别: • 与分类不同,在开始聚集之前用户并不知道要把数据分成几组,也
不知分组的具体标准,聚类分析时数据集合的特征是未知的。 • 聚类根据一定的聚类规则,将具有某种相同特征的数据聚在一起,
是典型无监督学习;它不需要依赖预先定义的类或带类标记的训练 实例,需要由聚类学习算法自动确定样本标记。 • 分类用户则知道数据可分为几类,将要处理的数据按照分类器分入 不同的类别,是典型有监督学习;分类学习的实例或数据对象有类 别标记。
• until簇的质心不再变化。
《数据仓库与数据挖掘》
P20
K-均值算法
10 9 8 7 6 5 4 3 2 1 0
0 1 2 3 4 5 6 7 8 9 10
Assign each objects to most similar center
K=2
Arbitrarily choose K object as initial cluster center
传统的统计聚类分析方法包括系统聚类法、 分解法、加入法、动态聚类法、有序样品聚 类、有重叠聚类和模糊聚类等。
采用k-均值、k-中心点等算法的聚类分析工 具已被加入到许多著名的统计分析软件包中 ,如SPSS、SAS等。
《数据仓库与数据挖掘》
P5
机器学习的角度-聚类分析
从机器学习的角度讲,簇相当于隐藏模式,聚类是搜索簇 的无监督学习过程。 • 没有预先指定的类别
P2
12.1 聚类(Clustering)分析简介
聚类(Clustering)分析是对物理的或抽象的对象集合分 组的过程。
聚类是将数据对象分组成多个簇(Cluster),同一个簇内 部的任意两个对象之间具有较高的相似度,而属于不同簇 的两个对象间具有较高的相异度。相异度可以根据描述对 象的属性值计算,对象间的距离是最常采用的度量指标。
聚类是观察式学习,而不是示例式的学习。
《数据仓库与数据挖掘》
P6
应用角度-聚类分析
从实际应用的角度看,聚类分析是数据挖掘的主要 任务之一。
就数据挖掘功能而言,聚类能够作为一个独立的工 具获得数据的分布状况,观察每一簇数据的特征, 集中对特定的聚簇集合作进一步地分析。
聚类分析还可以作为其他数据挖掘任务(如分类、 关联规则)的预处理步骤。
数据表达方式。
《数据仓库与数据挖掘》
P12
聚类分析中的数据类型
区间标度变量 • 区间标度变量是一个粗略线性标度的连续度量。典型的例子包括重
量和高度等。 • 选择不同的度量单位(如“米”与英尺、“千克”与“磅”等)将直接影
响聚类分析的结果。一般而言,选用的度量单位越小,变量可能的 值将越大,对聚类分析结果的影响就越大。为了避免聚类分析对度 量单位的依赖性,数据需要进行标准化,然后再计算距离。
混合类型变量
《数据仓库与数据挖掘》
P13
2
对象间距离的计算
在标准化处理之后(或者在某些应用中不需要标准化), 便可计算对象之间的相异度。对象间的相异度(或相似度 )是基于对象间的距离来计算的。
最常用的距离度量方法: 设示两两个个p对维象向,量有i 多= (种xi形1, x式i2的,…距, x离ip度)和量j=可(x以j1,采xj用2,…。, xjp)分别表 • 欧几里得(Euclidean)距离 • 曼哈坦(Manhattan)距离 • 明考斯基(Minkowski)距离 • 切比雪夫(Chebyshev)距离 • 马哈拉诺比斯(Mahalanobis)距离
基于层次的方法 基于密度的方法 基于网格的方法 基于模型的方法
• 明考斯基距离是曼哈坦距离和欧几里德距离的
概化,即:
– 当q = 1时, d即为为曼哈坦距离
– 当q= 2时,d即为欧几里德距离。
《数据仓库与数据挖掘》
P16
《数据仓库与数据挖掘》
P17
12.3.1 划分方法简介
对于一个给定的n个对象或元组的数据库,采用目 标函数最小化的策略,通过迭代把数据分成k个划 分块,每个划分块为一个簇,这就是划分方法。
相关文档
最新文档