数学建模聚类分析马莎莎
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
的距离来衡量各样本点之间的接近程度。
(1)
每个样本 x i 可看成是 p 维空间的一个点。于是, 可用各点之间 样本 x i 和 x j 之间的距离 d ( xi , x j ), 一般应满足如下条件: (ⅰ) d ( xi , x j ) 0 , 且 d ( xi , x j ) 0 时当且仅当 xi x j ; ;
选择适用的距离 在聚类分析中通常要结合实际问题来选择适用的 距离, 有时应根据实际问题定义新的距离,
显然,本例无法直接用上述公式来计算距离。但
可以发现前三种文字(英、挪、丹)很相似, 特别是每个单词的第一个字母。可以用10个数词 中第一个字母不同的个数来定义两种语言之间的距离。 例如:英语和挪威语中只有1和8的第一个字母不同, 则它们之间的距离为2。
2 Dpq ( X p X q )( X p X q )
(5.17)
设将 G p 和 Gq 合并为 Gr , 则 Gr 内样品个数为 nr n p nq , 它的重心是 X r 1 (n p X p nq X q ) ,类 Gk 的重心是 X k , nr 那么依据(5.17)式它与新类 Gr 的距离为
的分类系统。再把整个分类系统画成一张分群图(又 称谱系图), 用它把所有样本(或指标)间的亲疏关系 表示出来。
二、聚类对象:样本、变量
一个事物常常需要用多个变量来刻画,如果对于一 群有待分类的样本点需用p个变量描述,则这个样本点
可以看成是 R 空间中的一个点。
聚类分析根据分类对象的不同可分为Q型和R型两大类 Q型是对样本进行分类处理,其作用在于:
x11• x12•
d12
x22•
x21•
G p 与Gq 中最近的两个样本的距 即定义G p 与Gq 之间的距离为
离。
D pq D (G p , Gq ) min d ij i G p , j Gq
最短距离法进行聚类分析的步骤如下:
(1)定义样品之间距离,计算样品的两两距离,得一距离 阵记为D(0) ,开始每个样品自成一类,显然这时Dij = dij。 (2)找出距离最小元素,设为Dpq,则将Gp和Gq合并成一个 新类,记为Gr,即Gr = {Gp,Gq}。 (3)按(5.12)计算新类与其它类的距离。 (4)重复(2)、(3)两步,直到所有元素。并成一类为 止。如果某一步距离最小的元素不止一个,则对应这些 最小元素的类可以同时合并。
dij
dij , max dij }
max{
X i Gk , X j G pj
max
xi Gk , x j Gq
max{Dkp , Dkq }
( 5.14)
再找距离最小两类并类,直至所有的样品全归为一类为止。
可以看出最长距离法与最短距离法只有两点不同:
一是类与类之间的距离定义不同; 另一是计算新类与其它类的距离所用的公式不同。
D pq
X i G p , X j Gq
max
dij
(5.13)
最长距离法与最短距离法的并类步骤完全一样,也是将 各样品先自成一类,然后将距离最小的两类合并。将类 G p 与 Gq 合并为 Gr ,则任一类 Gk 与 Gr 的类间距离公 式为
Dkr
X i Gk , X j Gr
max
G7 G3 G4 G8
G7 0 3 5 7
G3 0 2 4
G4
G8
0 2 0
表2
(3)在D(1)中最小值是D34=D48=2,由于G4与G3合并, 又与G8合并,因此G3、G4、G8合并成一个新类G9,其与其 它类的距离D(2) ,见表3
G7 G7 G9 0 3
G9 0
表3
(4)最后将G7和G9合并成G10,这时所有的六个样品聚为一 类,其过程终止。 上述聚类的可视化过程见图1所示,横坐标的刻度表示并类 的距离。这里我们应该注意,聚类的个数要以实际情况所定, 其详细内容将在后面讨论。
1 k p
以上距离与各变量的量纲有关,为了消除量纲的
影响,可对数据标准化。
5.数据的标准化
xij
xij x j Sj
其中xj和S j是第j个指标的均值和样本标准差
6.马氏距离
d (M ) ( x(i ) x( j ) )' S ( x(i ) x( j ) )
2 ij
1
0 8 0
Q型类与类间的“相似性”度量
首先定义类与类之间的距离,由类间距离的定义
不同产生不同的系统聚类分析。常见的类间的距离有
8种之多,与之相应的系统聚类分析也有8种之多、
分别为最短距离法、最长距离法、中间距离法、重心 法、类平均法、可变类平均法、可变法和离差平方和 法。它们的归类步骤基本是一致的。
q dij ( xik x jk ) k 1
p
1
q
dij xik x jk
k 1
p
2 d ij ( xik x jk ) k 1 4、切比雪夫距离(Chebychev)
p
1
2
dij () max xik x jk
D
2 kr
np nr
D
2 kp
nq nr
D
2 kq
n p nq n
2 r
2 Dpq
(5.18)
这里我们应该注意, 实际上 (5.18) 式表示的类 Gk 与新类 Gr 的距离为:
2 Dkr ( X k X r )( X k X r )
1 1 [ X k (n p X p nq X q )][ X k (n p X p nq X q )] nr nr
度量样本或指标之间的相似程度的统计量。
(2)以这些统计量为分类的依据, 把一些相似程度 较大的样本(或指标)聚合为一类。
基本思想
按相似程度的大小 把关系密切的样本聚合到一个小的分类单位, 关系疏远的样本聚合到一个大的分类单位, 直到把所有的样本(或指标)都聚合完毕。
把不同的类型一一划分出来, 形成一个由小到大
3. 重心法 重心法定义类间距离为两类重心(各类样品的均值)的距 离。重心指标对类有很好的代表性,但利用各样本的信息 不充分。 nq 个, 设 G p 与 Gq 分别有样品 n p , 其重心分别为 X p 和 X q , 则 G p 与 Gq 之间的距离定义为 X p 和 X q 之间的距离,这里 我们用欧氏距离来表示,即
p
1. 具有共同特点的样本聚在一起
2. 所得结果比传统的定性分类方法更细致、全面、 合理
R型是对变量进行分类处理,其作用在于:
1. 可以了解变量间及变量组合间的亲疏关系 2. 可以根据变量的聚类结果及它们之间的关系, 选择主要变量进行回归分析或Q型聚类分析
相似性度量
进行“相关性”或“相似性”度量。在相似性
英语 (E) one two three four five six seven eight nine ten 挪威语 (N) en to tre fire fem seks sju atte ni ti 丹麦语 (Da) en to tre fire fem seks syv otte ni ni 荷兰语 (Du) een twee drie vier vijf zex zeven acht negen tien 德语 (G) ein zwei drei vier funf sechs sieben acht neun zehn 法语 (Fr) un deux trios quatre cinq six sept huit neuf dix 西班牙语 (S) uno dos tres cuatro cinco seix siete ocho nueve diez 意大利语 (I) uno duc tre quattro cinque sei sette otto nove dieci 波兰语 (P) jeden dwa trzy cztery piec szesc sieden osiem dziewiec dziesiec 匈牙利语 (H) egy ketto harom negy ot hat het nyolc kilenc tiz 芬兰语 (Fi) yksi kaksi kolme neua viisi huusi seitseman kahdeksan yhdeksan kymmenen
【例2】设有六个样品,每个只测量一个指标,分别是1,2,
5,7,9,10,试用最短距离法将它们分类。 (1)样品采用绝对值距离,计算样品间的距离阵D(0) ,见 表1
G1 0 1 4 6 8 9 G2 0 3 5 7 8 0 2 4 5 0 2 3 0 1 0 G3 G4 G5 G6
G1 G2 G3 G4 G5 G6
表1
D(0) G1 G1 G2 G3 G4 G5 G6 0 1 4 6 8 9 G2 0 3 5 7 8 G3 G4 G5 G6
0 2 4 5
0 2 2
源自文库
0 1
0
(2)D(0)中最小的元素是D12=D56=1,于是将G1和G2合 并成G7,G5和G6合并成G8,并利用(5.12)式计算新类与其 它类的距离D(1) ,见表2
例1
欧洲各国的语言有许多相似之处,有的十分
相似。为了研究这些语言的历史关系,也许通过比较 丹麦语,荷兰语,德语,法语,西班牙语,意大利语, 波兰语,匈牙利语和芬兰语的1,2,…,10的拼法,希望 计算这11种语言之间的语言的距离.
他们数字的表达式比较恰当。表格列举出英语,挪威语,
11种欧洲语言的数词
聚 类 分 析
一、聚类分析(Cluster Analysis)简介
聚类分析是直接比较各事物之间的性质,将性质相 近的归为一类,将性质差别较大的归入不同的类的分析 技术。
基本思想
聚类分析的基本思想: 所研究的样品或指标(变 量)之间存在着程度不同的相似性(或亲疏关系)。 (1)根据一批样本的多个指标, 具体找出一些能够
度量中常常包含有许多主观上的考虑,但是最重要
的是考虑指标性质或观测的尺度。 对样本进行聚类时,“靠近”往往是距离。 对指标进行聚类时,根据相关系数或某种关联性 度量来聚类。
Q型样本间的“相似性”度量—距离
设每个样本有 p 个指标, 观察值记为
xi ( x1i , x2i ,, x pi )T , i 1,2,, n
图1 最短距离聚类法的过程
G1={1}
G7
G2={2}
G3={5} G4={7} G9 G8 G10
G5={9}
G6={10}
1
2
3
D
2.最长距离(Furthest Neighbor )
• x11• •
x21•
d 12
• • •
•
2. 最长距离法 定义类 Gi 与 G j 之间的距离为两类最远样品的距离,即 为
说明:
x i 与 x j 之间的距离, 用 G p 与 G 表示两个类, 所包含的样本数分别为 n p nq q G p 与 Gq 之间的距离用 D(G p , Gq ) 表示。下面给出四种最常
用 i , j 表示样本 xi , x j 。用 d ij 表示
用的类与类之间距离的定义。
1 、最短距离(Nearest Neighbor)
E N Da Du G Fr Sp I P H Fi
E 0 2 2 7 6 6 6 6 7 9 9
N Da Du G 0 1
Fr Sp
I
P
H
Fi
0 0 5 9 9 9 10 8 9 0 7 0 7 2 0 7 1 1 0 8 5 3 4 0 9 10 10 10 10 9 9 9 9 9
5 6 4 5 6 6 6 5 6 5 7 6 8 8 9 9
(ⅱ) d ( xi , x j ) d ( x j , xi );
(ⅲ) d ( xi , x j ) d ( xi , xk ) d ( xk , x j ) 离。常用的距离有如下几种: 有时所用的距离不满足(ⅲ), 但在广义的角度上仍称为距
1、闵氏距离(Minkowski)
2、绝对距离(Block距离) 3、欧氏距离(Euclidean distance)
Xk 2 Xk
np nr
Xp 2 Xk
nq nr
Xq Xk
1 2 2 2 (n p X X 2 n n X X n p p p q p q q Xq Xq) nr
Xk 利用 X k
1 X k nq X k X k ) 代入上式,有 (n p X k nr
(1)
每个样本 x i 可看成是 p 维空间的一个点。于是, 可用各点之间 样本 x i 和 x j 之间的距离 d ( xi , x j ), 一般应满足如下条件: (ⅰ) d ( xi , x j ) 0 , 且 d ( xi , x j ) 0 时当且仅当 xi x j ; ;
选择适用的距离 在聚类分析中通常要结合实际问题来选择适用的 距离, 有时应根据实际问题定义新的距离,
显然,本例无法直接用上述公式来计算距离。但
可以发现前三种文字(英、挪、丹)很相似, 特别是每个单词的第一个字母。可以用10个数词 中第一个字母不同的个数来定义两种语言之间的距离。 例如:英语和挪威语中只有1和8的第一个字母不同, 则它们之间的距离为2。
2 Dpq ( X p X q )( X p X q )
(5.17)
设将 G p 和 Gq 合并为 Gr , 则 Gr 内样品个数为 nr n p nq , 它的重心是 X r 1 (n p X p nq X q ) ,类 Gk 的重心是 X k , nr 那么依据(5.17)式它与新类 Gr 的距离为
的分类系统。再把整个分类系统画成一张分群图(又 称谱系图), 用它把所有样本(或指标)间的亲疏关系 表示出来。
二、聚类对象:样本、变量
一个事物常常需要用多个变量来刻画,如果对于一 群有待分类的样本点需用p个变量描述,则这个样本点
可以看成是 R 空间中的一个点。
聚类分析根据分类对象的不同可分为Q型和R型两大类 Q型是对样本进行分类处理,其作用在于:
x11• x12•
d12
x22•
x21•
G p 与Gq 中最近的两个样本的距 即定义G p 与Gq 之间的距离为
离。
D pq D (G p , Gq ) min d ij i G p , j Gq
最短距离法进行聚类分析的步骤如下:
(1)定义样品之间距离,计算样品的两两距离,得一距离 阵记为D(0) ,开始每个样品自成一类,显然这时Dij = dij。 (2)找出距离最小元素,设为Dpq,则将Gp和Gq合并成一个 新类,记为Gr,即Gr = {Gp,Gq}。 (3)按(5.12)计算新类与其它类的距离。 (4)重复(2)、(3)两步,直到所有元素。并成一类为 止。如果某一步距离最小的元素不止一个,则对应这些 最小元素的类可以同时合并。
dij
dij , max dij }
max{
X i Gk , X j G pj
max
xi Gk , x j Gq
max{Dkp , Dkq }
( 5.14)
再找距离最小两类并类,直至所有的样品全归为一类为止。
可以看出最长距离法与最短距离法只有两点不同:
一是类与类之间的距离定义不同; 另一是计算新类与其它类的距离所用的公式不同。
D pq
X i G p , X j Gq
max
dij
(5.13)
最长距离法与最短距离法的并类步骤完全一样,也是将 各样品先自成一类,然后将距离最小的两类合并。将类 G p 与 Gq 合并为 Gr ,则任一类 Gk 与 Gr 的类间距离公 式为
Dkr
X i Gk , X j Gr
max
G7 G3 G4 G8
G7 0 3 5 7
G3 0 2 4
G4
G8
0 2 0
表2
(3)在D(1)中最小值是D34=D48=2,由于G4与G3合并, 又与G8合并,因此G3、G4、G8合并成一个新类G9,其与其 它类的距离D(2) ,见表3
G7 G7 G9 0 3
G9 0
表3
(4)最后将G7和G9合并成G10,这时所有的六个样品聚为一 类,其过程终止。 上述聚类的可视化过程见图1所示,横坐标的刻度表示并类 的距离。这里我们应该注意,聚类的个数要以实际情况所定, 其详细内容将在后面讨论。
1 k p
以上距离与各变量的量纲有关,为了消除量纲的
影响,可对数据标准化。
5.数据的标准化
xij
xij x j Sj
其中xj和S j是第j个指标的均值和样本标准差
6.马氏距离
d (M ) ( x(i ) x( j ) )' S ( x(i ) x( j ) )
2 ij
1
0 8 0
Q型类与类间的“相似性”度量
首先定义类与类之间的距离,由类间距离的定义
不同产生不同的系统聚类分析。常见的类间的距离有
8种之多,与之相应的系统聚类分析也有8种之多、
分别为最短距离法、最长距离法、中间距离法、重心 法、类平均法、可变类平均法、可变法和离差平方和 法。它们的归类步骤基本是一致的。
q dij ( xik x jk ) k 1
p
1
q
dij xik x jk
k 1
p
2 d ij ( xik x jk ) k 1 4、切比雪夫距离(Chebychev)
p
1
2
dij () max xik x jk
D
2 kr
np nr
D
2 kp
nq nr
D
2 kq
n p nq n
2 r
2 Dpq
(5.18)
这里我们应该注意, 实际上 (5.18) 式表示的类 Gk 与新类 Gr 的距离为:
2 Dkr ( X k X r )( X k X r )
1 1 [ X k (n p X p nq X q )][ X k (n p X p nq X q )] nr nr
度量样本或指标之间的相似程度的统计量。
(2)以这些统计量为分类的依据, 把一些相似程度 较大的样本(或指标)聚合为一类。
基本思想
按相似程度的大小 把关系密切的样本聚合到一个小的分类单位, 关系疏远的样本聚合到一个大的分类单位, 直到把所有的样本(或指标)都聚合完毕。
把不同的类型一一划分出来, 形成一个由小到大
3. 重心法 重心法定义类间距离为两类重心(各类样品的均值)的距 离。重心指标对类有很好的代表性,但利用各样本的信息 不充分。 nq 个, 设 G p 与 Gq 分别有样品 n p , 其重心分别为 X p 和 X q , 则 G p 与 Gq 之间的距离定义为 X p 和 X q 之间的距离,这里 我们用欧氏距离来表示,即
p
1. 具有共同特点的样本聚在一起
2. 所得结果比传统的定性分类方法更细致、全面、 合理
R型是对变量进行分类处理,其作用在于:
1. 可以了解变量间及变量组合间的亲疏关系 2. 可以根据变量的聚类结果及它们之间的关系, 选择主要变量进行回归分析或Q型聚类分析
相似性度量
进行“相关性”或“相似性”度量。在相似性
英语 (E) one two three four five six seven eight nine ten 挪威语 (N) en to tre fire fem seks sju atte ni ti 丹麦语 (Da) en to tre fire fem seks syv otte ni ni 荷兰语 (Du) een twee drie vier vijf zex zeven acht negen tien 德语 (G) ein zwei drei vier funf sechs sieben acht neun zehn 法语 (Fr) un deux trios quatre cinq six sept huit neuf dix 西班牙语 (S) uno dos tres cuatro cinco seix siete ocho nueve diez 意大利语 (I) uno duc tre quattro cinque sei sette otto nove dieci 波兰语 (P) jeden dwa trzy cztery piec szesc sieden osiem dziewiec dziesiec 匈牙利语 (H) egy ketto harom negy ot hat het nyolc kilenc tiz 芬兰语 (Fi) yksi kaksi kolme neua viisi huusi seitseman kahdeksan yhdeksan kymmenen
【例2】设有六个样品,每个只测量一个指标,分别是1,2,
5,7,9,10,试用最短距离法将它们分类。 (1)样品采用绝对值距离,计算样品间的距离阵D(0) ,见 表1
G1 0 1 4 6 8 9 G2 0 3 5 7 8 0 2 4 5 0 2 3 0 1 0 G3 G4 G5 G6
G1 G2 G3 G4 G5 G6
表1
D(0) G1 G1 G2 G3 G4 G5 G6 0 1 4 6 8 9 G2 0 3 5 7 8 G3 G4 G5 G6
0 2 4 5
0 2 2
源自文库
0 1
0
(2)D(0)中最小的元素是D12=D56=1,于是将G1和G2合 并成G7,G5和G6合并成G8,并利用(5.12)式计算新类与其 它类的距离D(1) ,见表2
例1
欧洲各国的语言有许多相似之处,有的十分
相似。为了研究这些语言的历史关系,也许通过比较 丹麦语,荷兰语,德语,法语,西班牙语,意大利语, 波兰语,匈牙利语和芬兰语的1,2,…,10的拼法,希望 计算这11种语言之间的语言的距离.
他们数字的表达式比较恰当。表格列举出英语,挪威语,
11种欧洲语言的数词
聚 类 分 析
一、聚类分析(Cluster Analysis)简介
聚类分析是直接比较各事物之间的性质,将性质相 近的归为一类,将性质差别较大的归入不同的类的分析 技术。
基本思想
聚类分析的基本思想: 所研究的样品或指标(变 量)之间存在着程度不同的相似性(或亲疏关系)。 (1)根据一批样本的多个指标, 具体找出一些能够
度量中常常包含有许多主观上的考虑,但是最重要
的是考虑指标性质或观测的尺度。 对样本进行聚类时,“靠近”往往是距离。 对指标进行聚类时,根据相关系数或某种关联性 度量来聚类。
Q型样本间的“相似性”度量—距离
设每个样本有 p 个指标, 观察值记为
xi ( x1i , x2i ,, x pi )T , i 1,2,, n
图1 最短距离聚类法的过程
G1={1}
G7
G2={2}
G3={5} G4={7} G9 G8 G10
G5={9}
G6={10}
1
2
3
D
2.最长距离(Furthest Neighbor )
• x11• •
x21•
d 12
• • •
•
2. 最长距离法 定义类 Gi 与 G j 之间的距离为两类最远样品的距离,即 为
说明:
x i 与 x j 之间的距离, 用 G p 与 G 表示两个类, 所包含的样本数分别为 n p nq q G p 与 Gq 之间的距离用 D(G p , Gq ) 表示。下面给出四种最常
用 i , j 表示样本 xi , x j 。用 d ij 表示
用的类与类之间距离的定义。
1 、最短距离(Nearest Neighbor)
E N Da Du G Fr Sp I P H Fi
E 0 2 2 7 6 6 6 6 7 9 9
N Da Du G 0 1
Fr Sp
I
P
H
Fi
0 0 5 9 9 9 10 8 9 0 7 0 7 2 0 7 1 1 0 8 5 3 4 0 9 10 10 10 10 9 9 9 9 9
5 6 4 5 6 6 6 5 6 5 7 6 8 8 9 9
(ⅱ) d ( xi , x j ) d ( x j , xi );
(ⅲ) d ( xi , x j ) d ( xi , xk ) d ( xk , x j ) 离。常用的距离有如下几种: 有时所用的距离不满足(ⅲ), 但在广义的角度上仍称为距
1、闵氏距离(Minkowski)
2、绝对距离(Block距离) 3、欧氏距离(Euclidean distance)
Xk 2 Xk
np nr
Xp 2 Xk
nq nr
Xq Xk
1 2 2 2 (n p X X 2 n n X X n p p p q p q q Xq Xq) nr
Xk 利用 X k
1 X k nq X k X k ) 代入上式,有 (n p X k nr