第10章-SPSS的聚类分析教学内容

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Phi方(Phi-Square measure)距离
2020/6/27
第10章 SPSS的聚类分析
6
3、二值(Binary)变量个体间距离的计 算方式
– 简单匹配系数(Simple Matching) – 雅科比系数(Jaccard)
1
个体i
0
个体j
10
a
b
c
d
2020/6/27
d(i,j) bc abcd
(张三,王五):a=1 b=2 c=0 d=0 d(x,y)=2/(1+2)=2/3
张三距李四近
2020/6/27
第10章 SPSS的聚类分析
8
• 品质型个体间的距离
– 根据临床表现研究病人是否有类似的病
姓名 张三 李四 王五 ……..
性别 男 女 男
发烧 咳嗽 检查1 检查2 检查3 检查4
10 10 0
201
101
d(李,王 四)五 12 0.75结论:张三和李四最有可能得类似
112
的病;李四和王五不太有可能
2020/6/27
第10章 SPSS的聚类分析
12
注:聚类分析的几点说明
➢ 所选择的变量应符合聚类的要求:所选变量应能够从不同 的侧面反映我们研究的目的;
➢ 各变量的变量值不应有数量级上的差异(对数据进行标准 化处理):聚类分析是以各种距离来度量个体间的“亲疏” 程度的,从上述各种距离的定义看,数量级将对距离产生 较大的影响,并影响最终的聚类结果。
第10章-SPSS的聚类分析
例如,学校里有些同学经常在一起,关
系比较密切,而他们与另一些同学却很少来 往,关系比较疏远。究其原因可能会发现, 经常在一起的同学的家庭情况、性格、学习 成绩、课余爱好等方面有许多共同之处,而 关系比较疏远的同学在这些方面有较大的差 异性。为了研究家庭情况、性格、学习成绩、 课余爱好等是否会成为划分学生小群体的主 要决定因素,可以从有关这些方面的数据入 手,进行客观分组,然后比较所得的分组是 否与实际相吻合。对学生的客观分组就可采 用聚类分析方法。
5
2、计数变量个体间距离的计算方式
卡方(Chi-Square measure)距离
姓名
选修课门数 (期望频数)
专业课门数 (期望频数)
得优门数 (期望频数)
合计
张三
9(8.5)
6(6)
4(4.5)
19
李四
8(8.5)
6(6)
5(4.5)
19
合计
17
12
9
38
( ( 9 8 .5 ) 2 ( 6 6 ) 2 ( 4 4 .5 ) 2 ) ( 8 8 .5 ) 2 ( 6 6 ) 2 ( 5 4 .5 ) 2 ) 4 .12 8 .5 6 4 .5 8 .5 6 4 .5
• 为定义个体间的距离应先将每个样本数据看成k 维空间的一个点,通常,点与点之间的距离越 小,意味着他们越“亲密”,越有可能聚成一 类,点与点之间的距离越大,意味着他们越 “疏远”,越有可能分别属于不同的类。
2020/6/27
第10章 SPSS的聚类分析
3
• 例:下表是同一批客户对经常光顾的五座商场在购 物环境和服务质量两方面的平均得分,现希望根据
11
• 品质型个体间的距离
– Jaccard系数举例:根据临床表现研究病人是否有类似的病
姓名 性别 发烧 咳嗽 检查1 检查2 检查3 检查4
张三 男 1 0 1 0 0
0
李四 女 1 0 1 0 1
0
王五 男 1 1 0 0 0
0
……..
d(张,李 三)四 01 0.33d(张,王 三)五 11 0.67
2020/6/27
第10章 SPSS的聚类分析
10
品质型个体间的距离
雅科比(Jaccard)系数:适用二值变量
姓名 授课方式 上机时间 选某门课程
张三
1 (0)
1(0)
1(0)
李四
1 (0)
1(0)
0(1)
王五
0 (1)
0(1)
1(0)
(张三,李四) 1: a=2 b=1 c=0 d=0 d(x,y)=1/(1+2)=1/3
2020/6/27
第10章 SPSS的聚类分析
2
10.1.2 聚类分析中“亲疏程度”的度量方法
• 聚类分析中,个体之间的“亲疏程度”是极为 重要的,它将直接影响最终的聚类结果。对 “亲疏”程度的测度一般有两个角度:第一, 个体间的相似程度;第二,个体间的差异程度。 衡量个体间的相似程度通常可采用简单相关系 数等,个体间的差异程度通常通过某种距离来 测度。
– 平方欧式距离(Squared Euclidean distance ) – 切比雪夫(Chebychev)距离
m a x x i y i m a x (7 3 6 6 ,6 8 6 4 )
k
– Block距离 xiyi 73666864 i1
2020/6/27
第10章 SPSS的聚类分析
0
10 10 1
0
11 00 0
0
2020/6/27
第10章 SPSS的聚类分析
9
• 雅科比(Jaccard)系数:适用二值变量
个体i 1 0
个体j
10 ab cd
J(i, j) bc abc
a为个体i与个体j在所有变量 上同时取1的个数;d为同时 取0的个数
特点:排除同时不拥有某特 征的情况;取1的状态比取0 更有意义(如:临床检验中的 阳性特征);编码方案会引 起系数的变化
(张三,李四) 2: a=0 b=0 c=1 d=2 d(x,y)=1/(1+2)=1/3 (相同)
(张三,李四) 1: a=2 b=1 c=0 d=0 J(x,y)=1/(1+2)=1/3
(张三,李四) 2: a=0 b=0 c=1 d=2 J(x,y)=1/1=1 (不相同)
2020/6/27
第10章 SPSS的聚类分析
这批数据将五座商场分类。
编号ห้องสมุดไป่ตู้
购物环境 服务质量
A商场
73
68
B商场
66
64
C商场
84
82
D商场
91
88
E商场
94
90
2020/6/27
第10章 SPSS的聚类分析
4
1、定距型变量个体间距离的计算方式
– 欧式距离(Euclidean distance)
k
(xiyi)2(7366)2(6864)2 i1
a为个体i与个体j在所有变量上同 时取1的个数;d为同时取0的个 数
特点:排除同时拥有或同时不拥
有某特征的情况;取0和1地位等
价,编码方案的变化不会引起系
第1数0章的S变PS化S的。聚类分析
7
姓名 授课方式 上机时间 选某门课程
张三
1
1
1
李四
1
1
0
王五
0
0
1
(张三,李四):a=2 b=1 c=0 d=0 d(x,y)=1/(1+2)=1/3
相关文档
最新文档