数据分析实验报告

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据分析课程实验报告

学院:理学院

专业:信息与计算科学

班级:

姓名:

学号:

一、实验题目

所做实验属于哪一部分的内容。例如:一元线形回归及其在SPSS中的实现。二、实验目的

1、加深对聚类分析原理的理解;

2、理解聚类分析中变量聚类的原理;

3、运用SPASS软件解决关于聚类分析方面具体的问题;

三、实验原理

聚类分析也称群分析、点群分析,他是研究分类的一种多元统计方法。

例如,我们可以根据学校的师资、设备、学生的情况,将大学分成一流大学,二流大学等;国家之间根据其发展水平可以划分为发达国家、发展中国家;

自然界生物可以分为动物和植物等等。这些就是一些分类。

那么分类根据什么分呢?

聚类分析的基本思想是在样品之间定义距离,在样品之间定义相似系数,距离或相似系数代表样品或者变量之间的相似程度。按相似程度的大小,将样品(或变量)逐一归类,关系密切的类聚集到一个小的分类单位,然后逐步扩大,使得关系疏远的聚合到一个大的分类单位,直到所有的样品(或变量)都聚集完毕,形成一个表示亲疏关系的谱系图,依次按照某些要求对样品(或变量)进行分类。根据分类对象不同分为样品聚类和变量聚类,样品聚类在统计学中又称为Q型聚类,它是根据被观测的对象的各种特征即反映被观测对象的特征的各变量值进行分类;变量聚类在统计学中有称为R 型聚类,它反映事物特点的变量有很多,我们往往根据所研究的问题选择部分变量对事物的某一方面进行研究。依据聚类方式的不同我们可以有很多种聚类如:快速聚类法,谱系聚类法等等。

R型聚类分析的主要作用是:

1、不但可以了解个别变量之间的关系的亲疏程度,而且可以了解各个变

量组合之间的亲疏程度。

2、根据变量的分类结果以及它们之间的关系,可以选择主要变量进行回

归分析或Q 型聚类分析。

Q 型聚类分析的优点是:

1、可以综合利用多个变量的信息对样本进行分类;

2、分类结果是直观的,聚类谱系图非常清楚地表现其数值分类结果;

3、聚类分析所得到的结果比传统分类方法更细致、全面、合理。 变量聚类的基本原理

变量聚类在实际中也是广泛应用,一方面,通过变量聚类可以发现某些变量之间的一些共性,以有利于分析问题和解决问题;另一方面,变量聚类也可作为某些数据分析的中间过程,例如,在回归分析中,若涉及的自编来那个很多,则可以先考虑用变量聚类,再在每一类变量中进行主成分分析,选取各类中的某些主成分作为新的自变量,这样不但可以消除变量间的复共线性,而且也可以达到降低自变量维数的目的。

设对p 个变量p X X X ,,,21 个观测了n 次,得到的观测数据向量为变量的观测向量()i x 与()j x 间的相似性可以用相似系数度量。设

()T ni i i i x x x x ),,(21 =()T nj j j j x x x x ),,(21 =则()i x 与()j x 的相似系数是

∑∑∑====

n

k n

k kj

ki n

k kj

ki

ij x

x x x

r 1

1

22

1显见,.1,,1==≤ii ji ij ij r r r r 若将()i x 与()j x 看作n 维空间向

量,则ij r 是它们的夹角余弦。变量观测向量()()()p x x x ,,21两两间的相似系数

构成相似系数矩阵 ()p

p ij p p p p r r r r r r r R *2

1

221

112111=⎥⎥

⎥⎥⎥⎦

⎢⎢⎢⎢

⎢⎣⎡=

显然,对于标准化数据,R 即原观察数据的相关系数矩阵,这时ij r 的大小反应了两个变量i X 与j X 线性关系的强弱。

从R 出发,关于变量的谱系聚类过程与从距离矩阵出发,关于样品的谱

系聚类过程类似,只是由于ij r 越大,表明i X 与j X 越相似,因此,每次应选取相似矩阵或更新的相似矩阵中主对角线以外的最大元素所对应的两个变量或两个类合并。类与类之间的相似性度量可类似于前述的定义。需要指出的是,在SAS 系统的proc cluster 过程中,总是从不相似度量的距离矩阵出发进行巨雷,因此看,若利用此过程对变量聚类,应先将相似矩阵R 变化为不相似度量的距离矩阵()

p

p ij

d D *=,再从出D 发,按照样品的谱系聚类法对变量角力。通

常的变换有ij ij r d -=1 或 2

1ij ij r d -=, p j i ,2,1,=若R 为相关系数矩阵,且我们一变量的线性关系强弱作为相似性的度量,这时可令

ij ij r d -=1 p j i ,2,1,=.

样品间的距离

1、距离定义:设满足下面的三个条件

(1)0),(≥y x d 且0),(≡y x d 当且仅当y x ≡时; (2)),(),(x y d y x d ≡; (3)),(),(),(y z d z x d y x d +≤; 距离定义有很多种,常见的有: (1)欧氏距离(Euclidean distance)

()∑=-=

p

k k k y x y x d 1

2

),( (2)绝对距离(Block 距离) ∑=-=p

k k k y x y x d 1),(

(3)切比雪夫距离(Chebychev) k k p

k y x y x d -=≤≤m ax 1),(

2、我们主要用到快速聚类,因此我们讲述一下快速聚类的步骤: (1)选择聚点,得到初始聚点的集合,可以假定聚类中采用距离是欧氏距离,即上面的式子。

相关文档
最新文档