聚类分析中的数据类型

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

聚类分析中的数据类型

1. Interval-scaled variables:区间标度变量 1.1 什么是区间标度变量?

区间标度变量是一个线性标度的连续变量。典型的例子包括重量和高度,经度和纬度坐标,以及大气温度。

1.2 怎样将一个变量的数据标准化?

为了避免对度量单位选择的依赖,数据应当标准化。

为了实现度量值的标准化,一种方法是将原来的度量值转换为无单位的值。 1.3 度量值变换

给定一个变量f 的度量值,可以进行如下的变换:

1)计算平均的绝对偏差(mean absolute deviation )sf :

nf f f f nf f f f f n f f f f

f x x x n

m f mf n f x x x m x m x m x n s

2121211,,1

的平均值,即是个度量值,的是这里的 2)计算标准化的度量值,z-score :

f

f

f i if s m x z -

1.4 举例

Age: 18; 22; 25; 42; 28; 43; 33; 35;56; 28

6

.08

.833286

.28.83356,2.08.83335,08.833331

.18.83343,6.08.83328,0.18.833429

.08.83325,25.18.83322,7.18.833188.83328335633353333334333283342332533223318101332856353343284225221810

1

10987654321

z z z z z z z z z z s m age age

2. Binary variables:二进制变量 2.1 二进制数据的列联表

2.2 简单匹配系数(simple matching coefficient ):

不变的,如果二进制变量是对称的。

d

c b a c

b j i d

,

2.3 Jaccard 系数:

非不变的,如果二进制变量是非对称的。

c

b a c

b j i d

,

1) Gender 是对称属性,其它属性都是非对称属性 2) 设Y 、P 为1,N 为0。

求解:Jack 与Mary 、Jack 与Jim 和Jim 与Mary 的相似度。

解:因为Gender 是对称属性,而其他属性都是非对称的,所以构建列联表时忽略Gender 属性。

构建Jack 与Mary 的列联表 考虑 Name Fever Cough Test-1 Test-2 Test-3 Test-4

Jack Y N P N N N Mary Y N P N P N 即 Name Fever Cough Test-1 Test-2 Test-3 Test-4 Jack 1 0 1 0 0 0 Mary

1

1

1

a 标记为红色,d 标记为蓝色,c 标记为绿色,构建列联表如下:

根据Jaccard 系数的计算公式得

33.03

1

10210,

c b a c b Mary Jack d

构建Jack 与Mary 的列联表 考虑 Name Fever Cough Test-1 Test-2 Test-3 Test-4 Jack Y N P N N N Jim Y

P

N

N

N

N

得 Name Fever Cough Test-1 Test-2 Test-3 Test-4 Jack 1 0 1 0 0 0 Mary

1

1

a 标记为红色,d 标记为蓝色,c 标记为绿色,

b 标记为黄色,构建列联表如下:

根据Jaccard 系数的计算公式得

67.03

2

11111,

c b a c b Jim Jack d

构建Jack 与Mary 的列联表 考虑 Name Fever Cough Test-1 Test-2 Test-3 Test-4 Jim Y P N N N N Mary Y N P N P N 即 Name Fever Cough Test-1 Test-2 Test-3 Test-4 Jim 1 1 0 0 0 0 Mary

1

1

1

a 标记为红色,d 标记为蓝色,c 标记为绿色,

b 标记为黄色,构建列联表如下:

根据Jaccard 系数的计算公式得

75.04

3

21121,

c b a c b Mary Jim d

3. Nominal variables :定类变量(名义变量)

二进制变量的一般形式,可以处理超过2个的情况。例如Red ,Yellow ,Blue ,Green 。 3.1 方法1:简单匹配 属性的个数匹配的个数;::,,p m p

m

p j i d 3.1.1 举例 Color1 Color2 Color3 Color4 Color5 A Red Red Yellow Blue Blue

B

Red

Green

Green

Green

Blue

红色标记匹配项,即m=2,蓝色标记属性个数,即p=5 根据公式得

6.05

3

525,

p m p B A d 3.2 方法2:大二元变量

以3.1.1中例子来说明创建新的二进制变量

相关文档
最新文档