多元统计分析--聚类分析 ppt课件
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
➢ f is numeric: use the normalized distance
➢ f is ordinal
✓ Compute ranks rif and ✓ Treat zif as interval-scaled
z Mr if
if 1 f 1
规范数值数据
Z-score:
➢ X: 需标准化的原始数值, μ: 总体均值, σ: 标准差
相似性和相异性
Similarity
➢ 数值测量两个数据对象类似程度 ➢ 目标越相似时值越大 ➢ 通常介于 [0,1]
Dissimilarity (e.g., 距离distance)
➢ 数值测量两个数据对象差异程度 ➢ Lower when objects are more alike ➢ Minimum dissimilarity is often 0 ➢ Upper limit varies
:
::
d (n,1) d (n,2) ... ... 0
例: 数据矩阵和相异度矩阵
Data Matrix
point attribute1 attribute2
x1
1
2
x2
3
5
x3
2
0
x4
4
5
Dissimilarity Matrix
(with Euclidean Distance)
x1 x2 x3 x4
邻近度Proximity refers to a similarity or dissimilarity
数据矩阵和相异度矩阵
Data matrix
➢ n data points with p dimensions
Dissimilarity matrix
➢ n data points, but registers only the distance
x1
0
x2 3.61 0
x3 5.1 5.1 0
x4 4.24 1 5.39 0
第二节 相似性的量度
一 样品相似性的度量 二 变量相似性的度量
含名义变量样本相似性度量
例: 学员资料包含六个属性:性别(男或女);外语语种 (英、日或俄);专业(统计、会计或金融);职业(教师 或非教师);居住处(校内或校外);学历(本科或本科以 下)
➢ A triangular matrix
x 11 ...
... ...
x 1f ...
x i1
...
x if
... ... ...
x
n1
...
x nf
... ...
x 1p ...
...
x ip
... ...
...
x np
0
Baidu Nhomakorabea
d(2,1)
0
d(3,1 ) d (3,2) 0
➢ Nominal, symmetric binary, asymmetric binary, numeric, ordinal
可以用加权法计算合并的影响
➢ f is binary or nominal:
d(i,j)pf 1
d (f) (f)
ij ij
p (f) f 1 ij
dij(f) = 0 if xif = xjf , or dij(f) = 1 otherwise
z
x
➢ 在标准偏差单位下,原始分数和总体均值之间的距离
➢ “-”, “+”
另一种方法: Calculate the mean absolute deviation
s f 1 n ( x 1 f| m f| |x 2 f m f| . | . x n . m ff|) 其中
m f1 n (1fx x 2f .. .x n).f ➢ standardized measure (z-score):
第五章 聚类分析
第一节 引言 第二节 相似性的量度 第三节 系统聚类分析法 第四节 K均值聚类分析 第五节 K中心点聚类 第六节 R codes
第一节 引言
“物以类聚,人以群分” 无监督分类聚类分析 分析如何对样品(或变量)进行量化分类的
问题 ➢Q型聚类—对样品进行分类 ➢R型聚类—对变量进行分类
二进制属性的相异度量
Example
Name Gender Fever CoughTest-1 Test-2 Test-3 Test-4 Jack M Y N P N N N M ary F Y N P N P N Jim M Y P N N N N
➢ 性别是对称属性 ➢ The remaining attributes are asymmetric binary ➢ 令Y and P 值为1, 且N值为0
二进制属性的邻近度量
二进制数据的列联表 contingency table
Object i
对称二元变量的距离侧度:
Object j
不对称二元变量的距离侧度: Jaccard系数(不对称二元变量
的相似性侧度):
Note: Jaccard coefficient is the same as “coherence”:
d ( jack , mary ) 0 1 0.33 2 01
d ( jack , jim) 1 1 0.67 111
d ( jim, mary ) 1 2 0.75 11 2
有序变量Ordinal Variables
一个序变量可以离散的或连续的
Order is important, e.g., rank
Can be treated like interval-scaled
➢ 用他们的序代替xif rif {1,..M .,f}
➢ 映射每一个变量的范围于[0,1],用如下值代替第f-th变量
的i-th对象
zif
rif 1 M f 1
混合型属性
A database may contain all attribute types
x m
zif
if
s
f
f
使用平均绝对偏差比使用标准差更稳健
一、样品相似性的度量
Q型聚类分析,常用距离来测度样品之间的相似程 度
每个样品有p个指标(变量)从不同方面描述其性 质,形成一个p维的向量。如果把n个样品看成p维 空间中的n个点,则两个样品间相似程度就可用p维 空间中的两点距离公式来度量。
➢ 现有两名学员: X1=(男,英,统计,非教师,校外,本科)′ X2=(女,英,金融,教师,校外,本科以下)′
➢ 对应变量取值相同称为配合的,否则称为不配合的 ➢ 记 的配距合离的可变定量义数为为m1,不配合的变量数为m2,则样本之间
d12
m2 m1 m2
➢ 本例中X1 与X2 之间的距离为2/3