《数理统计》上机四聚类分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
《数理统计》
课程实验报告(四)
1 实验内容
聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。
聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。
从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如SPSS 、SAS 等。聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析所使用方法的不同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致。
请将‘聚类分析数据.xlsx ’中四川省主要城市设施水平的数据用合适的聚类
分析方法进行聚类,将四川省主要城市进行分类,并说明理由。
2 实验主要步骤
(1) 对数据标准化处理
利用公式
(min)
(max)(min)
j j j ij ij x x x x x --=
'
(i=1,2,…..n,j=1,2,…m )
其中(max)和(max)j j x x 分别为第j 个变量的最大和最小值。显然,10≤'≤ij x 。
(2) 计算距离系数阵
q m
k q jk ik ij
x x d 1
1⎥⎦
⎤⎢⎣⎡
-=∑= (3) 计算相似系数统计量
2
2
22
12
2
22
11
......cos jm
j j im i i m
k
jk
ik ij x x x x x x x x +++⋅+++⋅=
∑=θ
(4) 计算系数统计量
相关系数概念 D(Y)
D(X)Y)cov(X,XY =
γ
相关系数 ∑∑∑===⋅
=
n
1
i 2
s is
n
1
i 2t it
n
1
i s is t it
ts )x -(x
)x -(x
)
x -)(x x -(x
γ
3 程序代码
4实验结果
(可用文字描述和贴图等方式表现实验结果)
………………….