第三章、聚类分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

生活用品 文娱支出 49.01 9.04 36.49 3.94 22.81 2.8 18.17 3.25 23.99 3.27 39.09 3.47 25.29 5.22 21.75 6.04 50.82 5.89 27.3 5.74 34.35 5 18.18 6.39 21.75 6.73 15.97 4.94 33.77 3.85 20.5 4.3 20.95 6.23 18.06 6.04 36.97 11.68 20.66 3.85 16.49 4.39 12.18 4.57 15.53 3.03 18 3.29 12.36 4.49 8.78 5.93 22.92 2.53 17.77 5.75
(二)系统聚类分析
系统聚类分析( 系统聚类分析(Hierarchical Cluster Analysis)是聚类分析中应用最广泛的一种,凡是 Analysis)是聚类分析中应用最广泛的一种, 具有数值特征的变量和样本都可以采用系统聚类分 析,选择不同的距离和聚类方法可以获得满意的数 值分类效果. 值分类效果.
地区(序号) 北京1 天津2 河北3 山西4 内蒙5 辽宁6 吉林7 黑龙江8 上海9 江苏10 浙江11 安徽12 福建13 江西14 山东15 河南16 湖北17 湖南18 广东19 广西20 四川21 贵州22 云南23 陕西24 甘肃25 青海26 宁夏27 新疆28
食品 190.33 135.2 95.21 104.78 128.41 145.68 159.37 116.22 221.11 144.98 169.92 153.11 144.92 140.54 115.84 101.18 140.64 164.02 182.55 139.08 137.8 121.67 124.27 106.02 95.65 107.12 113.74 123.24
聚类分析的数学解释 二,聚类分析的数学解释
(一)聚类分析 当确定了样品或变量间的距离或相似系数后, 当确定了样品或变量间的距离或相似系数后,就要对 样本或变量进行分类. 样本或变量进行分类. 系统聚类: 1,系统聚类:一类是在样品距离的基础上定义类与类 之间的距离,即首先将n个样本自成一类, 之间的距离,即首先将n个样本自成一类,然后每次将具有 最小距离的两类合并, 最小距离的两类合并,合并后重新计算类与类之间的距离 这个过程直到所有的样本归为一类为止, 这个过程直到所有的样本归为一类为止,将这一过程作成 称为聚类谱系图( Diagram); 图,称为聚类谱系图(Hierarchical Diagram); 动态聚类: 个样本初步分类, 2,动态聚类:将n个样本初步分类,然后根据分类函 数尽可能小的原则,对已分类别进行调整, 数尽可能小的原则,对已分类别进行调整,直到分类合理 为止,这一过程称为调优法,如动态聚类等. 为止,这一过程称为调优法,如动态聚类等.
聚类分析的经济背景 一,聚类分析的经济背景
(一)单指标分类:单指标排序 单指标分类: 多指标分类: (二)多指标分类:现实经济问题的描述往往是 多指标的, 各地区农民消费指标:食品, 多指标的,如各地区农民消费指标:食品,衣 燃料,住房,生活用品及其它,文娱服务, 着,燃料,住房,生活用品及其它,文娱服务, 28个样本中那一些最接近 个样本中那一些最接近? 28个样本中那一些最接近? 聚类分析的功能: (三)聚类分析的功能: 建立一种分类方法, 建立一种分类方法,将一批样本或变量按照 它们在性质上的亲疏程度进行分类. 亲疏程度进行分类 它们在性质上的亲疏程度进行分类.
聚类分析的经济背景 一,聚类分析的经济背景
描述亲疏程度的途径: (四)描述亲疏程度的途径:
对样品进行分类:把每个样本看成是m 1,对样品进行分类:把每个样本看成是m维(变量 的个数)空间的一个点, 维坐标系中, 的个数)空间的一个点,在m维坐标系中,定义点与 点之间的某种距离,距离越近,其亲密程度越好; 点之间的某种距离,距离越近,其亲密程度越好; 对变量进行分类:定义某种相似系数, 2,对变量进行分类:定义某种相似系数,性质越 接近的变量,他们之间的相似系数越接近于1 接近的变量,他们之间的相似系数越接近于1(-1), 彼此无关的变量,它们之间的相似系数越接近于0 彼此无关的变量,它们之间的相似系数越接近于0.
5,聚类方法
(4)重心法(Centroid clustering): 重心法( clustering): 将两类的距离定义为两类重心之间的距离. 将两类的距离定义为两类重心之间的距离. 类平均法( linkage): (5)类平均法(within group linkage): 将两类的距离定义为两类元素两两之间的平均平方距离. 将两类的距离定义为两类元素两两之间的平均平方距离. 可变类平均法( linkage): (6)可变类平均法(Between group linkage): 将类平均法和中间距离法进行组合,得到一个组合的距离. 将类平均法和中间距离法进行组合,得到一个组合的距离. 离差平方和法(Ward's method): (7)离差平方和法(Ward s method): 利用方差分析的思想:如果类分得合理, 利用方差分析的思想:如果类分得合理,则同类样本之间 的离差平方和应当较小,类与类之间的离差平方和应当较大. 的离差平方和应当较小,类与类之间的离差平方和应当较大.
设c 表示变量y 与y 间的相似系数,则c 应满足如下关系:
ij j i ij
(1)c = ±1 y = ay
ij i
j
( 2) c ≤ 1
ij
(3)c = c
ij
ji
(1)夹角余弦(Co sin e): cosa =
ij
∑x x
k =1 ki n 2 k =1 ki
n
kj 2
( ∑ x )(∑ x )
燃料 9.73 10.47 9.3 6.46 8.94 17.79 18.37 13.24 12.53 11.67 12.72 15.62 16.96 17.64 12.2 8.46 12.35 13.63 18.32 14.68 11.07 12.58 8.89 10.94 5.7 8.98 6.46 13.72
三,聚类分析在农经研究中的应用 聚类分析在农经研究中的应用
为了研究全国各地区农民家庭消 (一)为了研究全国各地区农民家庭消 费规律,对全国28个省, 28个省 费规律,对全国28个省,市,自治区的抽样 调查资料进行分析.抽样指标分别为:食品, 调查资料进行分析.抽样指标分别为:食品, 衣着,燃料,住房, 衣着,燃料,住房,生活用品及其它与文化 生活服务支出六项.具体数据如下表(1982 生活服务支出六项.具体数据如下表( 年):
第三章, 第三章,聚类分析
一,聚类分析的经济背景 二,聚类分析的数学解释 三,聚类分析在农业经济中的应用
数值分类的两种方法
判别分析—当前研究的类已知( 判别分析 当前研究的类已知(存在一 当前研究的类已知 个事先的分类), ),将某一未知的个体归 个事先的分类),将某一未知的个体归 属到其中某一类; 属到其中某一类; 聚类分析----不存在一个事先的分类, 聚类分析----不存在一个事先的分类, ----不存在一个事先的分类 而要进行数据分类. 而要进行数据分类.
1,系统聚类分析的步骤
(1)聚类前首先对数据进行变换处理(选择相关性小且贡 聚类前首先对数据进行变换处理( 变换处理 献大的指标); 献大的指标); (2)聚类分析时先分成n类,计算样本之间的距离,并将距 聚类分析时先分成n 计算样本之间的距离, 距离 离最近的两个样本并成一类; 离最近的两个样本并成一类; (3)选择并计算类与类之间的距离,并将距离最近的两类 选择并计算类与类之间的距离,并将距离最近的两类 合并,如果类的个数大于1 则继续, 合并,如果类的个数大于1,则继续,直到所有的样品并 为一类为止; 为一类为止; (4)最后绘制系统聚类谱系图. 最后绘制系统聚类谱系图.
m k =1
Minkowski )距离:
q
d ij ( q ) = [ ∑ x ik x jk ]1 / q ( 2)欧氏距离 ( Euclidean d ij ( 2 ) = [ ∑ x ik x jk ]1 / 2
k =1 m 2
Dis tan ce ):
( 3)绝对值距离 d ij (1) =
2 2 k =1 ki i k =1 kj j
n
n
当i = j时相关系数取值为1,说明i与j两指标相似; 当i ≠ j时,γ 的取值在0 1之间.
ij
5,聚类方法
常用的聚类方法有如下7 常用的聚类方法有如下7种: 最短距离法( Neighbor): (1)最短距离法(Nearest Neighbor): 两类的距离定义为一类的所有个体与另一类的所有个体 之间的距离最小者. 之间的距离最小者. 最长距离法( Neighbor): (2)最长距离法(Further Neighbor): 两类的距离定义为一类的所有个体与另一类的所有个 体之间的距离最大者. 体之间的距离最大者. 中间距离法( clustering): (3)中间距离法(Median clustering): 两类的距离定义采用界于最短距离和最长距离之间的 中间距离(取三角形的中线). 中间距离(取三角形的中线).
k =1 kj
n
当i = j时夹角为0,取值为1,说明i与j两指标相似; 当i与j正交时,夹角为90度,取值为0,说明两者不相关. (2)相关系数(Pearson Correlation) :
γ =
ij
∑ ( x x )( x x )
k =1 ki i kj j
n
(∑ ( x x ) (∑ ( x x ) )
m
( Block ):

k =1
x ik x jk ( Chebychev ):
( 4)切贝雪夫距离
d ij ( ∞ ) = max x ik x jk
Байду номын сангаас
4,相似系数
在对变量进行分类时, 在对变量进行分类时,通常采用相似系 数来表示变量之间的亲疏程度. 数来表示变量之间的亲疏程度. 相似系数定义如下: 相似系数定义如下:
住房 60.54 44.16 22.44 9.89 12.58 27.29 11.81 13.76 115.65 42.6 47.12 23.54 19.52 19.19 33.61 20.2 18.53 22.2 42.4 13.41 17.74 14.49 14.22 10.11 6.03 5.4 9.61 4.64
衣着 43.77 36.4 22.83 25.11 27.63 32.83 33.38 29.57 38.64 29.12 32.75 23.09 21.26 21.59 30.76 23.26 28.26 24.74 20.52 18.47 20.74 21.53 19.81 20.56 16.82 16.45 24.11 38
2,数据变换处理
中心化变换:先求出每个变量的样本均值, (1)中心化变换:先求出每个变量的样本均值,再 从原始数据中减去该变量的均值, 从原始数据中减去该变量的均值,得到中心化后的数 每列数据之和为0 据(每列数据之和为0); 极差正规化: (2)极差正规化:从变量的数据中找出最大和最小 其差称为极差. 值,其差称为极差.每一个原始数据减去变量的最小 再除以极差,则得到极差正规化数据(最大数为1 值,再除以极差,则得到极差正规化数据(最大数为1, 最小数为0 最小数为0); 标准化变换:先中心化,再除以标准差( (3)标准化变换:先中心化,再除以标准差(均值 为0,方差为1); 方差为1 对数变换: (4)对数变换:(将具有指数特征的数据转化为线 性数据结构). 性数据结构).
3,距离
x 表示i个样品的第j个指标,第j个指标的均值和标准差为
ij
x 和S ; 用d 表示i个样品和j个样品之间的距离.
j j ij
d 应满足如下条件:
ij
(1)d >= 0
ij
( 2) d = 0
ii
(3)d = d
ij ij
ji
(4)d <= d + d
ik
kj
常用的距离
(1)明科夫斯基(
相关文档
最新文档