聚类分析中的数据类型
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
聚类分析中的数据类型
1. Interval-scaled variables:区间标度变量 1.1 什么是区间标度变量?
区间标度变量是一个线性标度的连续变量。典型的例子包括重量和高度,经度和纬度坐标,以及大气温度。
1.2 怎样将一个变量的数据标准化?
为了避免对度量单位选择的依赖,数据应当标准化。
为了实现度量值的标准化,一种方法是将原来的度量值转换为无单位的值。 1.3 度量值变换
给定一个变量f 的度量值,可以进行如下的变换:
1)计算平均的绝对偏差(mean absolute deviation )sf :
nf f f f nf f f f f n f f f f
f x x x n
m f mf n f x x x m x m x m x n s
2121211,,1
的平均值,即是个度量值,的是这里的 2)计算标准化的度量值,z-score :
f
f
f i if s m x z -
1.4 举例
Age: 18; 22; 25; 42; 28; 43; 33; 35;56; 28
6
.08
.833286
.28.83356,2.08.83335,08.833331
.18.83343,6.08.83328,0.18.833429
.08.83325,25.18.83322,7.18.833188.83328335633353333334333283342332533223318101332856353343284225221810
1
10987654321
z z z z z z z z z z s m age age
2. Binary variables:二进制变量 2.1 二进制数据的列联表
2.2 简单匹配系数(simple matching coefficient ):
不变的,如果二进制变量是对称的。
d
c b a c
b j i d
,
2.3 Jaccard 系数:
非不变的,如果二进制变量是非对称的。
c
b a c
b j i d
,
1) Gender 是对称属性,其它属性都是非对称属性 2) 设Y 、P 为1,N 为0。
求解:Jack 与Mary 、Jack 与Jim 和Jim 与Mary 的相似度。
解:因为Gender 是对称属性,而其他属性都是非对称的,所以构建列联表时忽略Gender 属性。
构建Jack 与Mary 的列联表 考虑 Name Fever Cough Test-1 Test-2 Test-3 Test-4
Jack Y N P N N N Mary Y N P N P N 即 Name Fever Cough Test-1 Test-2 Test-3 Test-4 Jack 1 0 1 0 0 0 Mary
1
1
1
a 标记为红色,d 标记为蓝色,c 标记为绿色,构建列联表如下:
根据Jaccard 系数的计算公式得
33.03
1
10210,
c b a c b Mary Jack d
构建Jack 与Mary 的列联表 考虑 Name Fever Cough Test-1 Test-2 Test-3 Test-4 Jack Y N P N N N Jim Y
P
N
N
N
N
得 Name Fever Cough Test-1 Test-2 Test-3 Test-4 Jack 1 0 1 0 0 0 Mary
1
1
a 标记为红色,d 标记为蓝色,c 标记为绿色,
b 标记为黄色,构建列联表如下:
根据Jaccard 系数的计算公式得
67.03
2
11111,
c b a c b Jim Jack d
构建Jack 与Mary 的列联表 考虑 Name Fever Cough Test-1 Test-2 Test-3 Test-4 Jim Y P N N N N Mary Y N P N P N 即 Name Fever Cough Test-1 Test-2 Test-3 Test-4 Jim 1 1 0 0 0 0 Mary
1
1
1
a 标记为红色,d 标记为蓝色,c 标记为绿色,
b 标记为黄色,构建列联表如下:
根据Jaccard 系数的计算公式得
75.04
3
21121,
c b a c b Mary Jim d
3. Nominal variables :定类变量(名义变量)
二进制变量的一般形式,可以处理超过2个的情况。例如Red ,Yellow ,Blue ,Green 。 3.1 方法1:简单匹配 属性的个数匹配的个数;::,,p m p
m
p j i d 3.1.1 举例 Color1 Color2 Color3 Color4 Color5 A Red Red Yellow Blue Blue
B
Red
Green
Green
Green
Blue
红色标记匹配项,即m=2,蓝色标记属性个数,即p=5 根据公式得
6.05
3
525,
p m p B A d 3.2 方法2:大二元变量
以3.1.1中例子来说明创建新的二进制变量