聚类分析
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
生物学领域
推导植物和动物的分类; 推导植物和动物的分类; 对基因分类, 对基因分类,获得对种群的认识
数据挖掘领域
作为其他数学算法的预处理步骤,获得数据分布状况, 作为其他数学算法的预处理步骤,获得数据分布状况,集中对特定 的类做进一步的研究
7
位应聘者做智能检验。 项指标 项指标X, 例 对10位应聘者做智能检验。3项指标 ,Y 位应聘者做智能检验 分别表示数学推理能力、 和Z分别表示数学推理能力、空间想象能力和语 分别表示数学推理能力 言理解能力。 得分如下, 言理解能力 。 得分如下 , 选择合适的统计方法 对应聘者进行分类。 对应聘者进行分类。
1. 相关系数
rij =
∑ (x
k =1 n k =1
n
ki
− xi )( xkj − x j )
2
∑ ( xki − xi )
n
( xkj − x j ) 2 ∑
k =1
n
2. 夹角余弦
Cij =
∑x
k =1 n
ki kj n 1 2
x
2 2 ∑ xki ∑ xkj k =1 k =1
18
计数变量(Count)(离散变量)的聚类统计量 (离散变量) 计数变量 对于计数变量或离散变量, 对于计数变量或离散变量 , 可用于度量样本 或变量) ( 或变量 ) 之间的相似性或不相似性程度的 统计量主要有卡方测度(Chi-square measure) 统计量主要有卡方测度( ) 方测度( 和Phi方测度(Phi-square measure)。 方测度 )
一定额度和期限的免息透支服务! 一定额度和期限的免息透支服务! 赠送百盛的贵宾打折卡! 赠送百盛的贵宾打折卡! 在他或她生日的时候送上一个小蛋糕! 在他或她生日的时候送上一个小蛋糕!
6
聚类的应用领域
经济领域: 经济领域:
帮助市场分析人员从客户数据库中发现不同的客户群, 帮助市场分析人员从客户数据库中发现不同的客户群,并且用购买 模式来刻画不同的客户群的特征。 模式来刻画不同的客户群的特征。 谁喜欢打国际长途,在什么时间,打到那里? 谁喜欢打国际长途,在什么时间,打到那里? 对住宅区进行聚类,确定自动提款机ATM的安放位置 对住宅区进行聚类,确定自动提款机 的安放位置 股票市场板块分析, 股票市场板块分析,找出最具活力的板块龙头股 企业信用等级分类 ……
应聘者 X Y Z 1 28 29 28 2 18 23 18 3 11 22 16 4 21 23 22 5 26 29 26 6 20 23 22 7 16 22 22 8 14 23 24 9 24 29 24 10 22 27 24
8
9
10
聚类分析根据一批样本的许多观 测指标, 测指标 , 按照一定的数学公式具体地 计算一些样本或一些指标的相似程度, 计算一些样本或一些指标的相似程度 , 把相似的样本或指标归为一类, 把相似的样本或指标归为一类 , 把不 相似的归为一类。 相似的归为一类。
聚类分析 Cluster Analysis
2012-1-9
1
什么是聚类分析?
聚类分析是根据“物以类聚”的道理, 聚类分析是根据“物以类聚”的道理,对样本或指 标进行分类的一种多元统计分析方法,它们讨论的 标进行分类的一种多元统计分析方法, 对象是大量的样本, 对象是大量的样本,要求能合理地按各自的特性进 行合理的分类,没有任何模式可供参考或依循, 行合理的分类,没有任何模式可供参考或依循,即 在没有先验知识的情况下进行的。 在没有先验知识的情况下进行的。
将两类个体合并为一类后, 将两类个体合并为一类后 , 以合并后类中所 有个体之间的平均距离作为类间距离。 有个体之间的平均距离作为类间距离。
32
组内平均连接法( 组内平均连接法(Within-group Linkage)
1 2
k =1
5. 马氏距离
′ d ij (M ) = (xi − x j ) S −1 (xi − x j )
6. 切比雪夫距离(Chebychev) 切比雪夫距离
d ij (∞) = max xik − x jk
1≤ k ≤ p
16
17
定比变量的聚类统计量: 定比变量的聚类统计量:相似系数统计量
12
设有n个样本单位,每个样本测得 项指标 设有 个样本单位,每个样本测得p项指标 个样本单位 变量),原始资料矩阵为: ),原始资料矩阵为 (变量),原始资料矩阵为:
x11 x 21 X= M xn1 x12 x22 M xn 2 L x1 p L x2 p M M L xnp
28
• x11• •
x21•
d12
• • •
•
29
组间平均连接法 (Between-group linkage)
以两类个体两两之间距离的平均数作为类间 距离。 距离。
30
组间平均连接法(Between-group Linkage)
• • •
• • •
d1 + d2 +L+ d9 9
31
组内平均连接法 (Within-group linkage)
5
聚类分析无处不在
谁是银行信用卡的黄金客户? 谁是银行信用卡的黄金客户?
利用储蓄额、 刷卡消费金额、诚信度等变量对客户分类, 利用储蓄额 、 刷卡消费金额 、 诚信度等变量对客户分类 , 找出“黄金客户” 找出“黄金客户”! 这样银行可以…… 这样银行可以 制定更具吸引力的服务,留住客户!比如: 制定更具吸引力的服务,留住客户!比如:
22
Hale Waihona Puke 层次聚类基本思想: 基本思想: 在聚类分析的开始, 每个样本( 或变量) 自成一类; 在聚类分析的开始 , 每个样本 ( 或变量 ) 自成一类 ; 然后,按照某种方法度量所有样本(或变量) 然后,按照某种方法度量所有样本(或变量)之间的亲疏程 度,并把最相似的样本(或变量)首先聚成一小类;接下来, 并把最相似的样本(或变量)首先聚成一小类;接下来, 度量剩余的样本(或变量)和小类间的亲疏程度, 度量剩余的样本(或变量)和小类间的亲疏程度,并将当前 最接近的样本(或变量)与小类聚成一类;再接下来, 最接近的样本(或变量)与小类聚成一类;再接下来,再度 量剩余的样本(或变量)和小类间的亲疏程度, 量剩余的样本(或变量)和小类间的亲疏程度,并将当前最 接近的样本(或变量)与小类聚成一类;如此反复, 接近的样本(或变量)与小类聚成一类;如此反复,直到所 有样本(或变量)聚成一类为止。 有样本(或变量)聚成一类为止。
3
聚类分析无处不在
谁经常光顾商店,谁买什么东西,买多少? 谁经常光顾商店,谁买什么东西,买多少? 按会员卡记录的光临次数、光临时间、性别、年龄、 按会员卡记录的光临次数、光临时间、性别、年龄、 职业、购物种类、 职业、购物种类、金额等变量分类 这样商店可以…… 这样商店可以…… 识别顾客购买模式(如喜欢一大早来买酸奶和鲜肉, 识别顾客购买模式(如喜欢一大早来买酸奶和鲜肉, 习惯周末时一次性大采购) 习惯周末时一次性大采购) 刻画不同的客户群的特征
19
二值(Binary)变量的聚类统计量 二值 变量的聚类统计量
20
聚类的类型
根据聚类对象的不同,分为Q型聚类和 型聚类和R型聚 根据聚类对象的不同,分为 型聚类和 型聚 类。 Q型聚类:样本之间的聚类即 型聚类分析, 型聚类:样本之间的聚类即Q型聚类分析 型聚类分析, 型聚类 则常用距离来测度样本之间的亲疏程度。 则常用距离来测度样本之间的亲疏程度。 距离来测度样本之间的亲疏程度 R型聚类:变量之间的聚类即 型聚类分析, 型聚类:变量之间的聚类即R型聚类分析 型聚类分析, 型聚类 常用相似系数来测度变量之间的亲疏程度。 相似系数来测度变量之间的亲疏程度 常用相似系数来测度变量之间的亲疏程度。
13
定比变量的聚类统计量:距离统计量 定比变量的聚类统计量:
绝对距离 欧式距离 明考斯基距离 兰氏距离 马氏距离 切氏距离
14
1. 绝对距离(Block距离) 绝对距离( 距离) 距离
d ij (1) = ∑ xik − x jk
k =1 p
2. 欧氏距离 欧氏距离(Euclidean distance)
25
最短距离法(Nearest Neighbor) 最短距离法
以两类中距离最近的两个个体之间的距离作 为类间距离。 为类间距离。
26
x11• x12•
d12
x21• x22•
27
最长距离法(Further Neighbor) 最长距离法
以两类中距离最远的两个个体之间的距离作 为类间距离。 为类间距离。
23
系统聚类法不仅需要度量个体与个体之间的 距离,还要度量类与类之间的距离。 距离,还要度量类与类之间的距离。类间距 离被度量出来之后, 离被度量出来之后,距离最小的两个小类将 首先被合并成为一类。 首先被合并成为一类。由类间距离定义的不 同产生了不同的系统聚类法。 同产生了不同的系统聚类法。
24
4
聚类分析无处不在
挖掘有价值的客户,并制定相应的促销策略: 挖掘有价值的客户 , 并制定相应的促销策略 :
如,对经常购买酸奶的客户 对累计消费达到12个月的老客户 对累计消费达到 个月的老客户
针对潜在客户派发广告, 针对潜在客户派发广告 , 比在大街上乱发传 单命中率更高,成本更低! 单命中率更高,成本更低!
2
聚类分析的基本思想
基本思想是认为研究的样本或变量之间存在着程度不同的相 似性(亲疏关系)。 似性(亲疏关系)。 根据一批样本的多个观测指标, 根据一批样本的多个观测指标,找出一些能够度量样本或变 量之间相似程度的统计量,以这些统计量作为分类的依据, 量之间相似程度的统计量,以这些统计量作为分类的依据, 把一些相似程度较大的样本(或指标)聚合为一类, 把一些相似程度较大的样本(或指标)聚合为一类,把另外 一些相似程度较大的样本(或指标)聚合为一类, 一些相似程度较大的样本(或指标)聚合为一类,直到把所 有的样本(或指标)都聚合完毕, 有的样本(或指标)都聚合完毕,形成一个由小到大的分类 系统。 系统。
2 d ij (2 ) = ∑ ( xik − x jk ) k =1
p 1 2
15
3. 明考斯基距离 明考斯基距离(Minkowski) 4. 兰氏距离
q d ij = ∑ ( xik − x jk ) k =1
p
1
q
d ij (L ) = ∑
p
xik − x jk xik + x jk
11
样本或变量间亲疏程度的测度
研究样本或变量的亲疏程度的数量指标有两种: 研究样本或变量的亲疏程度的数量指标有两种: 性质越接近的变量或样本, 一种叫 相似系数 , 性质越接近的变量或样本 , 它 们的相似系数越接近于1 或一l 们的相似系数越接近于 1 或一 l , 而彼此无关的变量 或样本它们的相似系数则越接近于0 相似的为一类, 或样本它们的相似系数则越接近于0,相似的为一类, 不相似的为不同类。 不相似的为不同类。 它是将每一个样本看作p 另一种叫 距离 , 它是将每一个样本看作 p 维空间的 一个点, 并用某种度量测量点与点之间的距离, 一个点 , 并用某种度量测量点与点之间的距离 , 距 离较近的归为一类, 距离较远的点应属于不同的类。 离较近的归为一类 , 距离较远的点应属于不同的类 。
21
聚类的类型
根据聚类方法的不同分为系统聚类和K均值 根据聚类方法的不同分为系统聚类和 均值 聚类。 聚类。 系统聚类: 又称为层次聚类( 系统聚类 : 又称为层次聚类 ( hierarchical cluster),是指聚类过程是按照一定层次进 ) 行的。 行的。 K均值聚类( K-means Cluster ) 均值聚类( 均值聚类
类间距离的度量方法
最短距离法(Nearest Neighbor) 最短距离法 最长距离法(Further Neighbor) 最长距离法 组间平均连接法(Between-group linkage) 组间平均连接法 组内平均连接法(Within-group linkage) 组内平均连接法 重心法(Centroid clustering) 重心法 中位数法(Median clustering) 中位数法 离差平方和法(Ward’s method) 离差平方和法