聚类分析与单因素方差分析简介

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

整理课件
15
构造关系矩阵的常用测度
1. Euclidean distance:欧氏距离 (二阶Minkowski距离)
d( x, y) ( xi yi )2
i
用途:聚类分析中用得最广泛的距离
但与各变量的量纲有关,未考虑指标间
的相关性,也未考虑各变量方差的不同
**Squared Eucidean distance:平方欧氏距离
方法简述:两类合并为一类后,合并后的类中 所有项之间的平均距离最小,包括两个类之间的 样本对以及两个类内的样本对。
整理课件
28
f) Ward’s method 离差平方和法
方法简述:基于方差分析思想,如果分类合理, 则同类样品间离差平方和应当较小,类与类间 离差平方和应当较大。
特点:实际应用中分类效果较好,应用较广; 要求样品间的距离必须是欧氏距离。
把测度最小的两个类合并; c) 然后按照某种聚类方法计算类间的距离,
再按最小距离准则并类; d) 这样每次减少一类,持续下去直到所有
样品都归为一类为止。 聚类过程可做成聚类谱系图(Hierarchical diagram)。
整理课件
22
常见类间距离的计算方法
用D(p,q)表示类p和类q之间的距离
a) Between-groups linkage 组间平均距离连接法
整理课件
25
c) Furthest neighbor 最远邻法(最长距离法)
方法简述:用两类之间最远点的距离代表两类 之间的距离,也称之为完全连接法。
d) Median clustering 中位数法
方法简述:以用两类中所有样本对的距离中位 数作为两类间的距离。
特点:图形将出现递转,谱系树状图很难跟踪, 因而这个方法几乎不被人们采用。来自xij min xij
xi*j
1in
Rj
0.5
若 Rj 0
若 Rj 0
i 1,2,, n j 1,2,, m
作用:变换后的数据最小为0,最大为1,其 余在区间[0,1]内,极差为1,无量纲。
整理课件
13
3、聚类过程与方法 1 数据预处理 标准化
2 构造关系矩阵 亲疏关系的描述
3
聚类
数据差异
条件误差 误差分解 随机误差
整理课件
42
2、单因素方差分析
只考察一个因素的变化对试验指标的影响,称 为单因素方差分析。
通常,在单因子试验中,记因子为 A, 设其有s
个水平,记为A1, A2,…, As。 在每一水平下考察的指标可以看成一个总体 ,
现有 s 个水平,故有 s个总体, 假定:
① 每一总体均为正态总体,记为 N(i , i 2),i=
聚类分析与 方差分析
整理课件
1
一、聚类分析
(cluster analysis)
整理课件
2
1、聚类分析(Cluster Analysis)简介
聚类分析是直接比较各事物之间的性质,将 性质相近的归为一类,将性质差别较大的归 入不同的类的分析技术。
现实 情形
朋友,同学 QQ分组 网友… 衣物放置
有助于 快速判
思考:除了用平均值作为特征值外,还 可采用什么特征值?
整理课件
24
b) Nearest neighbor 最近邻法(最短距离法)
方法简述:用两类中所有样本对的距离的最小 值作为两类的距离,合并最近或最相似的两项。
特点:样品有链接聚合的趋势,这是其缺点, 不适合一般数据的分类处理,除去特殊数据外, 不提倡用这种方法。
3. Cosine:夹角余弦(相似性测度)
cos(x, y)
xi yi
i
xi2 yi2
i
i
用途:计算两个向量在原点处的夹角余弦。 当两夹角为0o时,取值为1,说明极相似; 当夹角为90o时,取值为0,说明两者不 相关。取值范围:0~1
整理课件
18
构造关系矩阵的常用测度
4. Pearson correlation:皮尔逊相关系数 (简单相关系数)
整理课件
33
类似进行下去,可得聚类谱系图(树状图)
整理课件
34
3、聚类过程与方法 1 数据预处理 标准化
2 构造关系矩阵 亲疏关系的描述
3
聚类
根据不同方法进行分类
4 确定最佳分类 类别数
整理课件
35
(4)谱系分类的确定
经过系统聚类法处理后,得到聚类树状谱系 图,Demirmen(1972)提出了应根据研究的 目的来确定适当的分类方法,并提出了一些 根据谱系图来分类的准则: A. 任何类都必须在临近各类中是突出的,
根据不同方法进行分类
4 确定最佳分类 类别数
整理课件
14
(2)构造关系矩阵
描述变量或样本的亲疏程度的数量指标有 两种: •相似系数——性质越接近的样品,相似系 数越接近于1或-1;彼此无关的样品相似系 数则接近于0,聚类时相似的样品聚为一类 •距离——将每一个样品看作m维空间的一 个点,在这m维空间中定义距离,距离较近 的点归为一类。 •相似系数与距离有40多种,但常用的只是 少数
下面给出两种常见数据预处理方法。
① Z Scores:标准化变换
xi*j
xij Sj
xj
0
若Sj 0 若Sj 0
i j
1,2,, n 1,2,, m
整理课件
12
作用:变换后的数据均值为0,标准差为1, 消去了量纲的影响;当抽样样本改变时,它 仍能保持相对稳定性。这是最常用的方法。
② Range 0 to 1(极差正规化变换 / 规格化变换)
思考2:如何衡量样本的相似性?
为简化,取两个 指标,做平面图
直观:
• 距离
θ
• 夹角
夹角余弦
整理课件
9
思考2:如何衡量样本的相似性? 所有指标一起考虑,如何处理?
直观: • 相关系数 • 夹角余弦
分类思想: 距离(或相似度)相近的划分为同一类。
整理课件
10
为了便于后面的说明,作如下假设:
所有样本表示为
分类的一种方法是系统聚类法(又称谱系 聚类);另一种方法是调优法(如动态聚类 法就属于这种类型)。此外还有模糊聚类、 图论聚类、聚类预报等多种方法。
我们主要介绍系统聚类法(实际应用中使 用最多)。
整理课件
21
系统聚类法的基本思想
a) 令n个样品自成一类,计算出相似性测度; b) 此时类间距离与样品间距离是等价的,
A4 1510 1520 1530 1570 1600 1680
考察用不同的配料方案所生产的元件,其使用 寿命有没有显著差异?
方差分整理析课件 示例
39
思考1:这类分析有何作用? 找出影响较大的因素,进行优化。
思考2:如何找出影响因素? 可先尝试探索性分析,如下图
整理课件
40
思考3:产生数据差异的原因?
整理课件
26
e) Centroid clustering 重心聚类法
方法简述:两类间的距离定义为两类重心之间 的距离,对样品分类而言,每一类中心就是属 于该类样品的均值。
特点:该距离随聚类地进行不断缩小。该法的 谱系树状图很难跟踪,且符号改变频繁,计算 较烦。
整理课件
27
f) Within-groups linkage 组内平均连接法
类间距离——采用组间平均距离连接法
5.贵州
293.04
4.四川
6.云南
219.37
均值整2理5课6件.205
32
类间距离——采用组间平均距离连接法
图表阅读说明: 以stage 2为例
1. 地区5在stage 1中出现过;
2. stage 2这里的类,下一次将在第5步再
次参与聚类,衔接地区是地区4
即各类重心间距离必须极大 B. 确定的类中,各类所包含的元素都不要
过分地多 C. 分类的数目必须符合实用目的 D. 若采用几种不同的聚类方法处理,则在
各自的聚类图中应发现相同的类
整理课件
36
28个地区聚类图
整理课件
37
二、方差分析
(ANOVA) (Analysis of Variance)
整理课件
x11 x1m
X
xn1 xnm
均值表示为
x j
1 n
n i1
xij
标准差表示为
Sj
1n n 1 i1
xij x j
2
极差表示为
Rj
max
1 i n
xij
min
1 i n
xij
整理课件
11
(1)数据预处理
指标变量的量纲不同或数量级相差很大, 为了使这些数据能放到一起加以比较,常需 做变换。
n
xi xyi y
r
i1
n
n
xi x2 yi y2
i1
i1
用途:计算两个向量的皮尔逊相关系数。
整理课件
19
3、聚类过程与方法 1 数据预处理 标准化
2 构造关系矩阵 亲疏关系的描述
3
聚类
根据不同方法进行分类
4 确定最佳分类 类别数
整理课件
20
(3)选择聚类方法
确定了样品或变量间的距离或相似系数后, 就要对样品或变量进行分类。
整理课件
29
续例1、对1982年6个地区农民家庭收支情况, 进行聚类分析。
地区 食品 衣着 燃料 住房 生活用品 文化生活
北京 196 44 9.7 60.54 49.01
9.04
上海 221 39 13 115.65 50.82
5.89
广东 183 21 18 42
37
12
四川 138 21 11 18
住房 生活用品
60.54 49.01
115.65 50.82
42
37
18
16
14
12
14
16
文化生活 9.04 5.89 12 4.4 4.6 3
思考1:指标单位若不同,应如何处理?
思考2:如何衡量样本的相似性?
整理课件
8
思考1:指标单位若不同,应如何处理?
若指标单位不同,应消除量纲的影响 例如可采用办法:标准分数(z score)
方法简述:将两个类所有的样本对(样本对的 两个成员分属于不同的类)的平均距离作为两类 的距离,合并距离最近或相关系数最大的两类。 此方法利用了两个类中所有的样本信息。
整理课件
23
a) Between-groups linkage 组间平均距离连接法
1
D(
p, q)
i
j
iG p
d ij
jGq
特点:非最大距离,也非最小距离
整理课件
5
R型聚类:对指标(变量)进行分类
作用: 1. 了解变量间及变量组合间的亲疏关系; 2. 根据变量的聚类结果及它们之间的关 系,选择主要变量进行回归分析或Q 型聚类分析。
整理课件
6
3、聚类过程与方法 1 数据预处理 标准化
2 构造关系矩阵 亲疏关系的描述
3
聚类
根据不同方法进行分类
4 确定最佳分类 类别数
38
1、方差分析(ANOVA)引例
例2、某电器公司用四种不同配料方案生产出四 批元件,在每一批元件中取出若干个分别装在整 机中作寿命试验,得到如下数据(单位:小时)
A1 元 A2 件 A3
1600 1610 1650 1680 1700 1720 1800 1580 1640 1640 1700 1750 1460 1550 1600 1620 1640 1660 1740 1820
数据差异
配料不同 即 条件不同
思考4:同一配料方案下(条件相同),寿命仍有 差异的原因? 随机因素
数据差异
配料不同
随机因素
条件误差 误差分解 随机误差
整理课件
41
条件误差 随机误差 条件变化对考察指标(元件寿命)影响不显著
条件误差 随机误差 条件变化对考察指标(元件寿命)有 显著影响
方差分析的基本思想:
16
4.4
贵州 122 22 13 14
12
4.6
云南 124 20 8.9 14
16
3
这里6个变量都以元为单位,量纲相同且 数量级相差不大,可以不用做标准化处理。
整理课件
30
方法: 样本间距离——采用平方欧氏距离; 类间距离 ——采用组间平均距离连接法
此时,距离越小越相似!5、6最相似
整理课件
31
d( x, y) ( xi yi )2
i
整理课件
16
构造关系矩阵的常用测度 2. Block:绝对值距离(一阶Minkowski度量)
(又称Manhattan度量或网格度量、 马 氏距离、广义欧氏距离)
d1( x, y) xi yi
i
用途:计算两个向量的绝对值距离。
整理课件
17
构造关系矩阵的常用测度
整理课件
7
例1、下表给出了1982年全国28个省、市、自 治区农民家庭收支情况(这里节选6个地区, 全部数据见附1.), 有六个指标,利用调查资 料进行聚类分析,为经济发展决策提供依据。
地区 食品 衣着 燃料
北京 196 44 9.7 上海 221 39 13 广东 183 21 18 四川 138 21 11 贵州 122 22 13 云南 124 20 8.9

整理课件
3
2、聚类对象 聚类的目的 提取特征指标 分类
待分析对象 根据亲疏程度
两种 聚类
Q型聚类:对样本进行分类
R型聚类:对指标(变量)进行分类
整理课件
4
Q型聚类:对样本进行分类
作用: 1. 能利用多个变量对样本进行分类; 2. 分类结果直观,聚类谱系图能明确、 清楚地表达其数值分类结果; 3. 所得结果比传统的定性分类方法更细 致、全面、合理。
相关文档
最新文档