聚类分析法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
聚类分析是根据“物以类聚”的道理,对样本或指标
进行分类的一种多元统计分析方法,它们讨论的对象是大 量的样本,要求能合理地按各自的特性进行合理的分类, 没有任何模式可供参考或依循,即在没有先验知识的情况 下进行的。
01 概述
聚类分析的基本思路
基本思想是认为研究的样本或变量之间存在着程度不同的相似性
(亲疏关系)。根据一批样本的多个观测指标,找出一些能够度量样 本或变量之间相似程度的统计量,以这些统计量作为分类的依据,把 一些相似程度较大的样本(或指标)聚合为一类,把另外一些相似程 度较大的样本(或指标)聚合为一类,直到把所有的样本(或指标)
2. Pearson相关系数
02 聚类统计量
使用场合
在实际问题中:
对样品分类常用距离;
对指标分类常用相似系数。
03
PART THREE
系统聚类法
03 系统聚类法
01
系统聚类法的基本思想
先将每个研究对象(样品或指标)各自看成一类。 然后根据对象间的相似度量,将h类中最相似的两类合并,组成一个新类,这 样得到h-1类,再在这h-1类中找出最相似的两类合并,得到h-2类,如此下去,
2. 明氏距离的缺点
当长度=mm时:
02 定比变量的聚类统计量:距离统计量
2. 明氏距离的缺点
使用明氏距离一定要注意
一定要采用相同量纲的变量。如果各变量的量纲不同,或当各
变量的量纲相同但各变量的测量值相差悬殊时,不能直接采用 明氏距离。 需要先对数据进行标准化处理,然后再用标准化处理后的数据 计算距离。
03
类间距离度量方法
重心法——Centroid Clustering
类平均法——Between-groups Linkage
03 系统聚类法
03
类间距离度量方法
离差平方和法——Word’s Method
Word’s法的基本思想是来自于方差分析,如果分类正确,同类样品 的离差平方和应当较小,类与类的离差平方和应当较大。
G2
G3
G4
G5
0 0.5 0 3.125 1.123 0 18 12.5 6.125 32 24.5 12.125
0 2
0
04
PART FOUR
快速聚类法
04 快速聚类法(K-Means Cluster)
K-Means Cluster原理
首先,选择n个数值型变量参与聚类分析,最后要求的聚类数为k个; 其次,由系统选择k个(聚类的类数)观测量(也可由用户指定)作为聚 类的种子; 第三,按照距离这些类中心的距离最小的原则把所有观测量(样品)分 派到各类重心所在的类中去; 第四,这样每类中可能由若干个样品,计算每个类中各个变量的均值, 以此作为第二次迭代的中心; 第五,然后根据这个中心重复第三、第四步,直到中心的迭代标准达到 要求时,聚类过程结束。
不同的类。
02 定比变量的聚类统计量:距离统计量
1. 欧式(Euclidian )距离
x2 x12 ①
x22
x22- x12
x21- x11 x11
② x21 x1
02 定比变量的聚类统计量:距离统计量
2. 明氏(Minkowski )距离
当q=1, 当q=2,即为欧式距离 当q=∞,有 距离
为绝对值距离 , 称为切比雪夫(Chebychev)
03
04
请批评指正!
02 定比变量的聚类统计量:距离统计量
2. 明氏距离的缺点
标准化方法
02 定比变量的聚类统计量:距离统计量
2. 明氏距离的缺点
另一个缺点:它没有考虑到指标之间的相关性。 改进的方法是:采用马氏距离 马氏距离是1936年由印度数学家:马哈拉比斯由协方差矩阵计 算构造的距离。
02 定比变量的聚类统计量:距离统计量
一定额度和期限的免息透支服务! 赠送百盛的贵宾打折卡! 在他或她生日的时候送上一个小蛋糕!
01 概述
聚类分析应用领域
经济领域:
帮助市场分析人员从客户数据库中发现不同的客户群,并且用
购买模式来刻画不同的客户群的特征。
谁喜欢打国际长途,在什么时间,打到那里? 对住宅区进行聚类,确定自动提款机ATM的安放位置 股票市场板块分析,找出最具活力的板块龙头股 企业信用等级分类
……
01 概述
聚类分析应用领域
生物学领域
推导植物和动物的分类; 对基因分类,获得对种群的认识
数据挖掘领域
作为其他数学算法的预处理步骤,获得数据分布状况,集中对
特定的类做进一步的研究
02
PART TWO
聚类统计量
02 聚类统计量
如何聚类?
聚类分析就是要找出具有相近程度的点或类聚为一类;
步骤3:计算新类与当前各类的距离。
重复步骤2、3,直至合并成一类为止,形成谱系图
根据谱系图确定如何分类
03 系统聚类法
03
类间距离算法
正如样品之间的距离可以有不同的定义方法一样,类与类之间的
距离也有各种定义。 例如可以定义类与类之间的距离为两类之间最近样品的距离,或 者定义为两类之间最远样品的距离,也可以定义为两类重心之间 的距离等等。类与类之间用不同的方法定义距离,就产生了不同
05
PART FIVE
变量聚类法
05 变量聚类法
变量聚类法原理
首先,变量标准化—将变量当作“个体”; 其次,计算变量间相关系数并找到相关系数最高的聚为一类; 第三,计算类间相关系数并继续聚类; 第四,重复第三步直至为一个类。
06
PART SIX
小结
06 小结
01 02 聚类分析是一种分类技术,同一个问题可以做多种探索; 当个体数目很大时,文献中倾向于使用K-means快速聚类而不是使 用系统聚类法; 使用不同方法、不同距离定义,可能得到很不相同的结果; 最终要根据特定问题的理论和实践做判断。(实践是检验真理的唯 一标准)
如何衡量这个“相近程度”? 需要使用前文所提到的能够度量样本或变量之间相似程 度的统计量,我们称其为聚类统计量。
02 聚类统计量
如何聚类?
一种方法是将一个样品看作p维空间的一个点,并在空间定义距离,
距离越近的点归为一类,距离较远的点归为不同的类。 另一种方法是使用相似系数,性质越接近的样品,它们的相似系 数的绝对值越接近1,而彼此无关的样品,它们的相似系数的绝对 值越接近于零。比较相似的样品归为一类,不怎么相似的样品归为
具体方法:
先将n个样品各自成一类,然后每次缩小一类; 每缩小一类离差平方和就要增大,选择使离差平方和增加最小的两类
合并,直到所有的样品归为一类为止。
03 系统聚类法
03
类间距离度量方法
离差平方和法——Word’s Method
Gt中样品的离差平方和为
03 系统聚类法
03
类间距离度量方法
离差平方和法——Word’s Method
03
类间距离度量方法
最长距离法(furthest neighbor)
G1 G1 G2 G3 G4 G5 0 1 2.5 6 8
G2
G3
G4
G5 G6 G3 G4 G5 0
G6
G3
G4
G5
0 1.5 5 7
0 3.5 5.5
0 2
0 2.5 0 6 3.5 8 3. 5
0 3.5
0
03ຫໍສະໝຸດ Baidu系统聚类法
01 概述
聚类分析无处不在
挖掘有价值的客户,并制定相应的促销策略:
如,对经常购买酸奶的客户
对累计消费达到12个月的老客户
针对潜在客户派发广告,比在大街上乱发传单命中率更 高,成本更低!
01 概述
聚类分析无处不在
谁是银行信用卡的黄金客户?
利用储蓄额、刷卡消费金额、诚信度等变量对客户分类,找出 “黄金客户”! 这样银行可以…… 制定更具吸引力的服务,留住客户!比如:
02 定比变量的聚类统计量:距离统计量
2. 明氏距离的缺点
距离的大小与个指标的观测单位有关,具有一定的人为性。
例如:对体重和身高进行测量,采用不同单位,其距离测量的 结果不同。以欧氏距离为例。
02 定比变量的聚类统计量:距离统计量
2. 明氏距离的缺点
当长度=cm时:
02 定比变量的聚类统计量:距离统计量
直至将所有的对象并成一个大类为止。
当然,真的合并成一个类就失去了聚类的意义,所以上面的聚类过程应该在某 个类水平数(即未合并的类数)停下来,最终的类就取这些未合并的类。决定 聚类个数是一个很复杂的问题。
03 系统聚类法
02
系统聚类法的基本步骤
样本间距 类间距离
步骤1:将n个样品各作为一类,共n类:C1、 C2、…、 Cn。计算各类之间的 距离,构成距离矩阵:dcicj=dij 步骤2:找到距离最近的两类合并为一新类
《现代管理学》课程汇报
聚类分析法
汇报人:XXX
结构
structure
PART 01 PART 02 PART 03 PART 04 PART 05 PART 06
概述 聚类统计量 系统聚类法 快速聚类法 变量聚类法
小结
01
PART ONE
概述
01 概述
什么是聚类分析(Cluster Analysis)?
的系统聚类方法。
03 系统聚类法
03
类间距离度量方法
1.最短距离法(single linkage) 2.最长距离法(complete linkage) 3.中间距离法(median method)
4.类平均法(Between-groups Linkage)
5.可变类平均法(flexible-beta method) 6.重心法(Centroid Clustering) 7.Ward离差平方和法(Ward's minimum-variance method)
使用配合距离。
02 定比变量的聚类统计量:相似系数统计量
1. 夹角余弦(Cosine)
夹角余弦—cosine 尽管图中 AB 和 CD 长度不一样,但形状相似。当长度不是 主要矛盾时,就可利用夹角余弦这样的 相似系数。
02 定比变量的聚类统计量:相似系数统计量
1. 夹角余弦(Cosine)
02 定比变量的聚类统计量:相似系数统计量
• 如有五个样品:1, 2, 3.5, 7, 9
• 第一步:将五个样品各自分成一类,显然这时的类内 离差平方和S=0;
• 第二步:将一切可能的任意两样品合并,计算所增加 的离差平方和: •如
03 系统聚类法
03
类间距离度量方法
离差平方和法——Word’s Method
G1
G1 G2 G3 G4 G5
都聚合完毕,形成一个由小到大的分类系统。
01 概述
聚类分析无处不在
谁经常光顾商店,谁买什么东西,买多少?
按会员卡记录的光临次数、光临时间、性别、年龄、职 业、购物种类、金额等变量分类
这样商店可以…… 识别顾客购买模式(如喜欢一大早来买酸奶和鲜肉,习 惯周末时一次性大采购) 刻画不同的客户群的特征
03 系统聚类法
03
类间距离度量方法
1.最短距离法(nearest neighbor) 2.最长距离法(furthest neighbor) 3.中间距离法(median method)
4.类平均法(average linkage)
5.可变类平均法(flexible-beta method) 6.重心法(centroid method) 7.Ward离差平方和法(Ward's minimum-variance method)
03 系统聚类法
03
类间距离度量方法
最短距离法(single linkage)
G1 G1 G2 G3 G4 G5 0 1 2.5 6 8
G2
G3
G4
G5 G6 G3 G4 G5 0
G6
G3
G4
G5
0 1.5 5 7
0 3.5 5.5
0 2
0 1.5 0 5 3.5 7 3. 5
0 3.5
0
03 系统聚类法
3. 马氏(Mahalanobis) 距离
02 定比变量的聚类统计量:距离统计量
4. 兰氏(Lance) 距离
该距离与变量单位无关,对大的异常值不敏感,适用 于较大变异的数据,同样未考虑变量的相关性。
02 定比变量的聚类统计量:距离统计量
5. 配合距离
前几类距离多用于定 距和定比尺度数据,对
于定类和定序变量则可