应用统计学聚类分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
cij 1, 对一切i,j;
cij c ji , 对一切i,j。
2013年11月30日星期六
重庆交通大学管理学院
22:22:43
(1)相关系数
设 x i xi1 , xi 2 , , xip 和 x j ( x j1 , x j 2 ,, x jp ) 是第 i 和 j 个样品的观测值,则二者之间的相似 p 测度为: ( xik xi )( x jk x j ) ij p k 1 p 2 [ ( xik xi ) ][ ( x jk x j ) 2 ]
22:22:43
第i个和第j个样品之间的距离 如下四个条件:
dij 0对一切的i和j成立;
dij 0当且仅当i j成立;
dij d ji 对一切的i和j成立;
dij dik d kj 对于一切的i和j成立.
2013年11月30日星期六
重庆交通大学管理学院
22:22:43
明氏距离、欧氏距离以及绝对距离主要有以下两个缺 点: ①距离的值与各指标的量纲有关。各指标计量单位的选 择有一定的人为性和随意性,任何一个变量计量单位 的改变都会使此距离的数值改变,从而使该距离的数 值依赖于各变量计量单位的选择。 ②距离的定义没有考虑各个变量之间的相关性和重要性 。他们把各个变量都同等看待,将两个样品在各个变 量上的离差简单地进行了综合。
重庆交通大学管理学院
22:22:43
(4)组间平均连接(Between-group Linkage)



• • •
为所有样本对间的平均距离。 d 利用了所有样本对距离的信息
1
d9 9
2013年11月30日星期六
重庆交通大学管理学院
22:22:43
(5)组内平均连接( Within-group Linkage)
2013年11月30日星期六
重庆交通大学管理学院
22:22:43
例、谁经常光顾商店,谁买什么东西,买 多少?
–按忠诚卡记录的光临次数、光临时间、性别、 年龄、职业、购物种类、金额等变量分类 –这样商店可以…. –识别顾客购买模式(如喜欢一大早来买酸奶和 鲜肉,习惯周末时一次性大采购) –刻画不同的客户群的特征(用变量来刻画,就 象刻画猫和狗的特征一样)
重庆交通大学管理学院
22:22:43
2、相似系数Similarity coefficients
相似系数(或其绝对值)越大,变量之间的相似性程 度越高;反之,越低。聚类时,比较相似的变量归为一 类,不太相似的变量归为不同的类。
变量 xi 与 x j的相似系数用cij 表示,满足以下三个条件:
cij 1,当且仅当xi ax j b, a( 0)和b是常数;
例:某高校举办一个培训班,从学员的资料中得到6个 x1 x2 变量:性别(),取值男和女;外语语种(),取值 x3 为英、日、俄;专业(),取值为统计、会计、金融 x4 x5 ;职业(),取值为教师和非教师;居住处(),取 x6 值为校内和校外;学历(),取值本科和本科以下。
2013年11月30日星期六
2013年11月30日星期六
重庆交通大学管理学院
22:22:43
为什么这样分类?(分类的好处)
–因为每一个类别里面的人消费方式都不一样, 需要针对不同的人群,制定不同的关系管理方 式,以提高客户对公司商业活动的参与率。 –挖掘有价值的客户,并制定相应的促销策略: 如,对经常购买酸奶的客户 对累计消费达到12个月的老客户 –针对潜在客户派发广告,比在大街上乱发传单 命中率更高,成本更低!
重庆交通大学管理学院
22:22:43
聚类分析的基本思想:
是根据一批样品的多个观测指标,具体地找出一 些能够度量样品或指标之间相似程度的统计量, 然后利用统计量将样品或指标进行归类。把相似
的样品或指标归为一类,把不相似的归为 其他类。直到把所有的样品(或指标)聚 合完毕. 相似样本或指标的集合称为类。
x
* ij

xij x j s jj

i 1,2,, n
j 1,2,, p
1 n 为第j个变量的样本均值; 其中 x x j ij n i 1 1 n s jj ( xij x j )2 为第j个变量的样本方差。 n 1 i 1
2013年11月30日星期六
2013年11月30日星期六
重庆交通大学管理学院
22:22:43
(1)重心法(Centroid method):均值点的 距离
2013年11月30日星期六
重庆交通大学管理学院

x1 , y1

x2 , y2
22:22:43
用两类的重心间的距离作为两类的距离
nl 2 nm 2 nl nm 2 D Dtl Dtm Dlm nr nr nr nr
聚类分析依据聚类对象可分为两种类型: 对样本分类,称为Q型聚类分析 对变量分类,称为R型聚类分析 Q型聚类是对样本进行聚类,它使具有相似性特征 的样本聚集在一起,使差异性大的样本分离开来。 R型聚类是对变量进行聚类,它使具有相似性的变 量聚集在一起,差异性大的变量分离开来,可在相似 变量中选择少数具有代表性的变量参与其他分析,实 现减少变量个数,达到变量降维的目的。
2013年11月30日星期六
ቤተ መጻሕፍቲ ባይዱ
重庆交通大学管理学院
22:22:43
每个样本都可以看成p维空间中的一点,n 个样本就是p维空间中的n个点。 第i个样本与第j个样本之间的距离记为d ij 聚类过程中,相距较近的点归为一类,相 距较远的点归为不同的类。
2013年11月30日星期六
重庆交通大学管理学院
k 1 k 1
(2)夹角余弦
cij cos ij
k 1 n 2 n ki k 1 k 1

n
xki xkj
2 xkj
2 2 dij 1 Cij
x
2013年11月30日星期六
重庆交通大学管理学院
22:22:43
名义变量的相似性度量:简单匹配系数(simple matching)=不配合的变量个数(配合与不配合变量 个数和)
2 tr
nl nm nr
Gr
Gt
2013年11月30日星期六
重庆交通大学管理学院
22:22:43
(2)、最短距离(Nearest Neighbor or Single Linkage)
x11• x12•
d13
x22•
x21•
类Gp与类Gq之间的距离Dpq (d(xi,xj)表示点xi∈ Gp和xj ∈ Gq之间的距离)
d1 d 2 d3 d 4 d5 d 6 6
• • • •
对所有样本对的距离求平均值,包括小类之间的样本对、 小类内的样本对.
2013年11月30日星期六
重庆交通大学管理学院
22:22:43
(6)离差平方和法连接(Ward’s method )
2013年11月30日星期六
重庆交通大学管理学院
22:22:43
聚类分析的方法: 系统聚类(层次聚类) 非系统聚类(非层次聚类)
系统聚类法包括:凝聚方式聚类、分解方 式聚类 非系统聚类法包括:K-均值法(快速聚类 法)等
2013年11月30日星期六
重庆交通大学管理学院
22:22:43
系统聚类过程
2013年11月30日星期六
重庆交通大学管理学院
22:22:43
1、 Distance
设有n个样本单位,每个样本测有p个指标( 变量),原始资料阵为:
x11 x12 x1 p x x x 2p 21 22 X xn1 xn 2 xnp
重庆交通大学管理学院
22:22:43
若x2用mm作单位,x1单位不变,则A坐标为(0,50), C坐标为(0,100)
AB 502 102 2600
CD 1002 12 10001
2013年11月30日星期六
重庆交通大学管理学院
22:22:43
当各变量的单位不同或测量值范围相差很大时,不应直接 采用明氏距离、欧氏距离和绝对距离,而应先对各变量的 数据作标准化处理,然后用标准化后的数据计算距离。常 用的标准化处理:
2013年11月30日星期六
重庆交通大学管理学院
22:22:43
例:横轴 x 代表重量(单位:kg),纵轴 x 代表长
1 2
度(单位:cm)。有四个点A,B,C,D,见图。
x2
10 5
C
AB 52 102 125 CD 102 12 101
B
5 10
x1
A D 1
2013年11月30日星期六
聚类分析 Cluster analysis
聚类分析 是根据“物以类聚”的道理,对样品或指标进行 分类的一种多元统计分析方法。 将个体或对象分类,使得同一类中的对象之间的 相似性比与其他类的对象的相似性更强。 聚类分析的目的 使类内对象的同质性最大化和类间对象的异质性 最大化。
2013年11月30日星期六
2013年11月30日星期六
重庆交通大学管理学院
22:22:43
四、系统聚类(又称‘层次聚类’) Hierarchical Clustering
(一)类与类之间距离测量方法:
Centroid method(重心法) Single-linkage method (nearest-neighbor)(最近距离法) – groups the objects according to the distance between their nearest members Complete linkage method (farthest-neighbor)(最远距离法) – groups the objects according to the distance between their farthest members Average linkage method(平均距离法:组间、组内) – uses the average distance between pairs of members in the respective sets Ward’s method(离差平方和法)
Dpq min d ( xi , x j )
2013年11月30日星期六
重庆交通大学管理学院
22:22:43
(3)最长距离(Furthest Linkage )
• x11• •
Neighbor
or
Complete
x21•
d12
• • •

Dpq max d ( xi , x j )
2013年11月30日星期六
2013年11月30日星期六
重庆交通大学管理学院
22:22:43
分类步骤
确定待研究的问题
选择聚类用的距离或相似系数
1.所选的方法与所选的 距离是有关的 2.小样本与大样本 3.两者的串联使用 1.相关的理论或实践上的 需要 2.系统聚类法 3.非系统聚类法 1.先确定待研究的问题 和待分类的对象 1.聚类时多采用距 离统计量 2.变量聚类时多采 用相似系数统计量 3.不同度量单位的 影响
重庆交通大学管理学院
22:22:43
现有学员i和学员j:
i=(男,英,统计,非教师,校外,本科) j=(女,英,金融,教师,校外,本科以下)
二者的距离:
不匹配变量个数 4 dij = 匹配与不匹配变量个数和 6
2013年11月30日星期六
重庆交通大学管理学院
22:22:43
三、聚类方法(Clustering Methods)
选择聚类方法
确定类别的个数
评估聚类分析的效果
解释聚类分析的结果
2013年11月30日星期六
透过比较各类别的中心, 来识别各个类别的意义, 从而给各个类别命名
22:22:43
重庆交通大学管理学院
二、相似性度量(Similarity Measure)
样本或变量的相似性程度的数量指标: (1)相似系数 性质越接近的变量或样品,它们 的相似系数越接近于1或一l,而彼此无关的变量或样 品它们的相似系数则越接近于0,相似的为一类,不 相似的为不同类; (2)距离 它是将每一个样品看作p维空间的一个 点,并用某种度量方法测量点与点之间的距离,距离 较近的归为一类,距离较远的点应属于不同的类。 样本分类(Q型聚类)常以距离刻画相似性 指标分类(R型聚类)常以相似系数刻画相似性
相关文档
最新文档