多元统计分析知识点多元统计分析课件精品

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

多元统计分析知识点多元统计分析课件精品
多元统计分析(1)题目:多元统计分析知识点
目录
第一章绪论 (1)
§1.1什么是多元统计分析 ............................ 1 §1.2多元统计分析能解决哪些实际问题 .... 2 §1.3主要内容安排 ........................................ 2 第二章多元正态分布 .. (2)
§2.1基本概念 ................................................ 2 §2.2多元正态分布的定义及基本性质 .. (8)
1.(多元正态分布)定义 ..................... 9
2.多元正态变量的基本性质 ............... 10 §2.3多元正态分布的参数估计1
2
(,,
,)p X X X X '
= (11)
1.多元样本的概念及表示法 ............... 12
2. 多元样本的数值特征 ..................... 12
3.μ和 ∑的最大似然估计及基本性质
.............................................................. 15 4.Wishart 分布 (17)
第五章 聚类分析 (18)
§5.1什么是聚类分析 .................................. 18 §5.2距离和相似系数 . (19)
1.Q —型聚类分析常用的距离和相似
系数 (20)
2.R型聚类分析常用的距离和相似系数
(25)
§5.3八种系统聚类方法 (26)
1.最短距离法 (27)
2.最长距离法 (30)
3.中间距离法 (32)
4.重心法 (35)
5.类平均法 (37)
6.可变类平均法 (38)
7.可变法 (38)
8.离差平方和法(Word方法) (38)
第六章判别分析 (39)
§6.1什么是判别分析 (39)
§6.2距离判别法 (40)
1、两个总体的距离判别法 (40)
2.多总体的距离判别法 (45)
§6.3费歇(Fisher)判别法 (46)
1.不等协方差矩阵两总体Fisher判别
法 (46)
2.多总体费歇(Fisher)判别法 (51)
§6.4贝叶斯(Bayes)判别法 (58)
1.基本思想 (58)
2.多元正态总体的Bayes判别法 (59)
§6.5逐步判别法 (61)
1.基本思想
(61)
2.引入和剔除变量所用的检验统计量
(62)
3.Bartlett近似公式 (63)
第一章绪论
§1.1什么是多元统计分析
在自然科学、社会科学以及经济领域中,常常需要同时观察多个指标。

例如,要衡量一个地区的经济发展,需要观测的指标有:
总产值(X1)、利润(X2)、效益(X3)、劳动生产率(X4)、万元生产值能耗(X5)、固定资产(X6)、流动资金周转率(X7)、物价(X8)、信贷(X9)及税收(X10)也就是说一个地区的经济发展,受多种指标共同作用的影响,我们把每一个指标看成一个随机变量,可以单独研究每个随机变量,但这只能揭示该地区经济发展的一个方面,更多的时候需要把把这诸个随机变量一起研究揭示多个随机变量对该地区经济发展的共同影响,以及揭示这些随机变量内在变化规律。

例如,研究某公司的经营状况,需要观测公司的财务指标有:
每股净资产(X1)、净资产收益率(X2)、每股收益(X3)、每股现金流(X4)、负债率(X5)、流动比率(X6)及速动比率(X7)。

可以单独研究每个随机变量,更多的时候需要把这诸个随机变量一起研究,揭示这些随机变量内在变化规律。

多元统计分析——研究多个随机变量之间相互依赖关系以及内在统计规律性的一门统计学科。

多元统计分析包括的主要内容:多元(正态)总体的参数估计和假设检验、聚类分析、判别分析、主成分分析、因子分析、对应分析、
典型相关分析、多重多元回归分析等。

介绍多元统计分析方法时,需要的时候增加一些线性代数的知识。

§1.2多元统计分析能解决哪些实际问题
⑴经济学:对我国32个省市自治区的社会情况进行分析。

⑵工业:服装厂生产服装。

为了适应大多数顾客的需要,如何确定服装的主要指标及分类的型号。

指标:身长、袖长、胸围、腰围、肩宽、肩厚等十几个指标(主要指标:长度、胖瘦)
⑶投资组合:
§1.3主要内容安排
多元(正态)总体的参数估计、聚类分析、判别分析、主成分分析、因子分析、典型相关分析等。

上机操作。

第二章多元正态分布
§2.1基本概念
1.随机向量的概率分布
定义1 将p 个随机变量12,,,p X X X 的整体称为p 维随机向量,记为12(,,,)p X X X X '=
在多元统计分析中,仍然将所研究对象的全体称为总体。

一元总体分布函数和分别密度定义:
()()F x P X x =≤为随机变量X 的概率分布,记为()X X
F x 。

离散型:
()k k P X x p == k=1,2,3,…
⑴()0k k P X x p ==≥; ⑵1k k
p =∑
连续型:
()()()x
F x P X x f t dt -∞=≤=

⑴ ()0f t ≥; ⑵()1f t dt +∞
-∞
=⎰
定义2 设12(,,,)p X X X X '=是p 维随机向量,它的多元分别函数定义为
111122()=(,,
,)(,,
,)p p p F x F x x x P X x X x X x =≤≤≤
记为()X X
F x ,其中记为12=(,,,)R p p x x x x '∈。

定义3 设12(,,,)p X X X X '=是p 维随机向量,若存在有限个或可列个p 维数向量1x ,2x ,3x ,…,记()k k P X x p == (k=1,2,3,…),且满足
()0k k P X x p ==≥,1k k
p =∑,
则称X 为离散型随机向量,称()k k P X x p ==(k=1,2,3,…)为X 的概率分布。

设p 维随机向量()X X
F x ,11()=(,,
,)p F x F x x x ,若存在一个非负
函数12(,,,)p f x x x ,使得对一切12=(,,,)R p p x x x x '∈,有
12
121212
()(,,,)(,,,)p
x x x p p p F x F x x x f t t t dt dt dt -∞-∞
-∞
==
⎰⎰⎰
则称X 为连续随机向量,称12(,,,)X p f x x x 为分布密度函数,易见

12(,,
,)0p f x x x ≥, ⑵
1212
(,,,)1p p f t t t dt dt dt ∞∞

-∞-∞
-∞
=⎰⎰⎰
例1试证函数
12()
12120,0
(,)0
x x e x x f x x -+⎧≥≥=⎨
⎩其它
为随机向量12X X X ⎛⎫
= ⎪⎝⎭
的密度函数。

证:(1)易见12(,)0f x x ≥
(2)12()
1212120
0(,)x x f x x dt dt e
dx dx +∞+∞
+∞+∞
-+-∞-∞=


⎰⎰ 1
2
1
22
122
00
20
()()1x x x x x e dx e dx e e dx e dx +∞+∞
+∞+∞----+∞
-==
-=
=⎰⎰⎰

定义4 设12(,,,)p X X X X '=是p 维随机向量,称由q (<p )个分量组成的子向量1
2
()(,,,)q
i i i i X X X X '=的分布为X 的边缘(或边际)分
布(通过变换X 中各分量的次序,总可以假定(1)X 正好是X 的前q 个分量,其余p-q 个分量为(2)
X
),即(1)(2)X X X ⎛⎫= ⎪⎝⎭
,相应的取值也可以分成
两部分(1)(2)x x x ⎛⎫
= ⎪⎝⎭。

(1)X 的边缘分布函数为
(1)11221122112212212()(,,,)
(,,,,)
(,,,,,,,)(,,,,,,)
q q X q q q q q q q q F x p X x X x X x p X x X x X x p X x X x X x X X X F x x x +++=≤≤≤=≤≤≤=≤≤≤≤∞≤∞≤∞=∞∞
当X 有分布密度12(,,,)X p f x x x 时,则(1)X 的分布密度为
12111(,,,),,(,,,,,,),,X q X q q p q p f x x x f x x x x dx dx +∞
+∞
++-∞
-∞
=
⎰⎰
例2 对例1中的12X X X ⎛⎫
= ⎪⎝⎭
求边缘密度函数。

解:当10x ≥时
121
()1122220
()(,)0x x x f x f x x dx dx e dx e +∞
+∞
-+--∞
-∞
=
=
+
=⎰
⎰⎰ 当10x <时
11222
()(,)0f x f x x dx dx
+∞
+∞
-∞
-∞
=
=
=⎰
⎰0
从而有
1
1110
()0
x e x f x x -⎧≥=⎨
<⎩ 同理可得到
2
2220
()0
x e x f x x -⎧≥=⎨
<⎩ 定义5 若p 维随机向量12(,,,)p X X X X '=的联合分布等于各自边缘分布的乘积,则称12,,,p X X X 是相互独立的
11(,,
,)p F x x x 1212()(),,()p X X X p F x F x F x =
一切12(,,,)p p x x x x R '=∈ 对于连续型随机变量,有
12312(,,,,)()(),,()X p p P x x x x P x P x P x = 一切12(,,,)p p x x x x R '=∈
(有时候根据几何图形判断概率,根据试验的背景判断独立性) 例3 例2中的1X 与2X 是否相互独立?
解:例1中密度函数12()12120,0
(,)0
x x e x x f x x no
-+⎧≥≥=⎨
⎩ 例2中求得的边缘分布
1
1110
()0
0x e x f x x -⎧≥=⎨
<⎩ 及22220
()0
x e x f x x -⎧≥=⎨<⎩
所以有1
2
1212(,)()()X X f x x f x f x =,即1X 与2X 相互独立。

如果12,,,p X X X 相互独立,则任何i X 与()j X i j ≠独立,反之不真。

2.随机向量的数字特征
定义6设12(,,,)p X X X X '=,若1EX (i=1,2,3,…)存在,则称
123(,,,,)P EX EX EX EX EX '=为X 的均值(向量)或期望,也记为
1122p p EX EX EX EX μμμμ⎛⎫⎛⎫
⎪ ⎪ ⎪ ⎪=== ⎪ ⎪ ⎪ ⎪ ⎪ ⎪
⎝⎭⎝⎭
均值向量性质: ⑴()()E AX AE X = ⑵()()E AXB AE X B =
⑶()()()E AX BY AE X BE Y +=+其中X 、Y 为随机向量,A 、B 为常数矩阵。

定义7 设12p X X X X ⎛⎫ ⎪ ⎪= ⎪ ⎪ ⎪⎝⎭, 12q Y Y Y Y ⎛⎫
⎪ ⎪= ⎪ ⎪ ⎪⎝⎭
称 ()[()()]D X E X EX X EX '=--
=111212122212(,)(,)
(,)(,)(,)(,)(,)(,)
(,)p p p p p p p p
Cov X X Cov X X Cov X X Cov X X Cov X X Cov X X Cov X X Cov X X Cov X X ⨯⎛⎫


⎪ ⎪
⎪⎝⎭ 为X 的方差矩阵或协方差矩阵,有时简记为
()
()[()()]
p p ij p p
D X
E X EX X EX V σ⨯⨯'=--===∑
称随机向量X 和Y 的协方差矩阵为
(,)[()()]Cov X Y E X EX Y EY '=--
=111212122212(,)(,)(,)(,)(,)(,)(,)(,)
(,)q q p p p q p q
Cov X Y Cov X Y Cov X Y Cov X Y Cov X Y Cov X Y Cov X Y Cov X Y Cov X Y ⨯⎛⎫


⎪ ⎪
⎪⎝
⎭ 若X 的协方差矩阵存在,且每个分量的方差大于零,则X 的相关系数矩阵为
()
ij p p
R r ⨯=
其中
(,)
ij
ij ii jj
Cov X X r σσσ== (i,j=1,2,3,…,p )
为i X 与j X 的相关系数。

记标准离差矩阵
1
2P P
V ⨯⎫⎪ ⎪=
⎪ ⎪ ⎝
则有
112
2
V
RV =∑ , 112
2
R V
V
-
-
=∑
易见0,0R V ≥≥。

实际上,对于任意非零向量()12
p a a a a '=≥,
a a a Da
''=∑
2[()()]()()[()()][()]0
a E X EX X EX a
Ea X EX X EX a E a X EX a X EX E a X EX ''=--''''''=--=--''=-≥
,R V 为半正定矩阵。

例4 设
1112132122233132334121912116σσσσσσσσσ⎛⎫⎛⎫
⎪ ⎪
==- ⎪ ⎪ ⎪ ⎪-⎝⎭⎝⎭∑,则可得
12
02000
003000400
V ⎫⎛⎫⎪ ⎪== ⎪ ⎪
⎪ ⎝⎭⎝

1
11
22
10021()003100
4V V
-
-⎛⎫ ⎪ ⎪ ⎪== ⎪ ⎪ ⎪ ⎪⎝

容易验证112
2
1116411163121114
12
R V
V
-
-
⎛⎫ ⎪ ⎪ ⎪===- ⎪ ⎪ ⎪- ⎪⎝⎭

若(,)p q Cov X Y O ⨯=,称X 与Y 不相关。

若X 与Y 独立,则X 与Y 不相关,反之不成立。

(正态分布反之成立)
协方差矩阵性质: ⑴()0D X ≥; ⑵()()D X a D X +=; ⑶()()D AX AD X A '=; ⑷(,)(,)Cov AX BY ACov X Y B '=。

§2.2多元正态分布的定义及基本性质
多元正态分布在多元统计分析中所处的地位,如同一元统计分析中一元正态分布所处的地位一样重要,多元统计分析中的许多理论和方法都是直接或间接建立在正态分布的基础上,多元正态分布是多元统计分析的基础。

另外,在实用中遇到的随机向量常常是服从或近似
服从正态分布。

因此,现实世界中许多实际问题的解决办法都是以总体服从正态分布或近似正态分布为前提。

1.(多元正态分布)定义
定义8 若p 维随机向量12(,,,)p X X X X '=的密度函数为
12(,,
,)X p f x x x 12
2
11exp ()()2(2)
p
p X X μμπ-⎧⎫
'=
---⎨⎬⎩⎭
∑∑
其中12(,,,)p x x x x '=,而12(,,,)p μμμμ'=是p 为常数向量,∑是p 阶正定矩阵,则称X 服从p 元正态分布,也称X 为p 维正态随机向量,简记为X ~(,)p N μ∑。

(∑是退化矩阵时,用特征函数的方法定义)
当p=1时,记为一元正态分布密度函数。

当p=2时,有
1122()EX E X EX μμμ⎛⎫⎛⎫=== ⎪ ⎪
⎝⎭⎝⎭,11122122()D X σσσσ⎛⎫== ⎪⎝⎭∑
,1221ρρ== , 2
22
12112212
11221122121122
(1)(1)σσσσσσσσρσσ=-=-=-∑
二元正态分布密度函数可以写成
12(,)
f x
x 11221211222211122112212112(1)X X X X μσσμμσσμσσρ⎧
⎫'---⎛⎫
⎛⎫⎛⎫⎪⎪
=-⎨⎬ ⎪ ⎪⎪----⎝⎭⎝⎭⎝⎭⎪⎪


221122122121122()()122(1)X X μμρρσσ⎧⎫⎡⎤⎡⎤--⎪⎪=--+⎨⎬⎢⎥⎢⎥-⎣⎦⎣⎦⎪⎪⎩⎭
2.多元正态变量的基本性质
⑴若X ~(,)p N μ∑,当∑是p 阶对角矩阵时,12,,,p X X X 相互独立;
⑵若X ~(,)p N μ∑,s p A ⨯为常数矩阵,d 为s 维常数向量,则 AX+d ~(,)s N A d A A μ'+∑
⑶若X ~(,)p N μ∑,将X ,,μ∑作如下划分:
(1)(2)X X X ⎛⎫= ⎪⎝⎭, 11
1221
22
⎛⎫
⎪= ⎪⎝⎭
∑∑
∑∑∑
, (1)
(2)μμμ⎛⎫= ⎪⎝⎭ 则(1)X ~(1)11(,)q N μ∑,(2)X ~(2)22(,)q N μ∑。

说明:
⑴多元正态分布的任何边缘分布为正态分布,反之不真。

⑵协方差矩阵(1)(2)12(,)Cov X X O ==∑(表明不相关)的充分必要条件是(1)X 与(2)X 独立。

例5 123(,,)X X X X '=~3(,)N μ∑,其中
123μμμμ⎛⎫ ⎪= ⎪ ⎪⎝⎭,111213212223313233σσσσσσσσσ⎛⎫

= ⎪ ⎪⎝⎭
∑ 设(001)a '=,100001A ⎛⎫
= ⎪-⎝⎭

⑴()1233001X a X X X X ⎛⎫
⎪'== ⎪ ⎪⎝⎭
~(,)N a a a μ''∑,其中
()1233001a μμμμμ⎛⎫ ⎪'== ⎪ ⎪⎝⎭,()11121321222333313233000101a a σσσσσσσσσσ⎛⎫⎛⎫ ⎪⎪
'== ⎪⎪ ⎪⎪⎝⎭⎝⎭

即3X ~333(,)N μσ。

⑵11233100001X X AX X X X ⎛⎫
⎛⎫
⎛⎫ ⎪== ⎪ ⎪ ⎪--⎝⎭⎝⎭
⎪⎝⎭~2(,)N A A A μ'∑,其中
11233100001A μμμμμμ⎛⎫
⎛⎫⎛⎫ ⎪== ⎪ ⎪ ⎪--⎝⎭⎝⎭
⎪⎝⎭
, 11121311
1321222331
33313233101000000101A A σσσσσσσσσσσσσ⎛⎫⎛⎫
-⎛⎫
⎛⎫ ⎪⎪'== ⎪ ⎪ ⎪⎪
--⎝⎭⎝⎭
⎪⎪-⎝⎭⎝⎭
∑ ⑶记(分块矩阵)1(1)
2X X
X ⎛⎫= ⎪⎝⎭,1(1)
2μμμ⎛⎫= ⎪⎝⎭,1112112122σσσσ⎛⎫= ⎪⎝⎭
∑,则 1(1)2X X X ⎛⎫
= ⎪⎝⎭
~(1)211(,)N μ∑
多元统计中的很多统计方法,大都假定数据来自多元正态总体。

但是要判断已有的数据是否来自多元正态总体不是一件容易的事,不过要肯定数据不是来自多元正态总体,有一些简易的方法,例如
12(,,
,)p X X X X '=服从p 元正态分布,则它的每一个分量必须服从一
元正态分布,因此把某个分量的n 个样本作成直方图,如果断定不呈正态分布,则可以断定12(,,,)p X X X X '=也不服从p 元正态分布。

§2.3多元正态分布的参数估计12(,,,)p X X X X '=
在实际应用中,多元正态总体中均值向量μ和协方差矩阵∑通常是未知的,需由样本来估计,而参数的估计方法有很多,这里用常
见的极大似然估计给出其估计量。

1.多元样本的概念及表示法
设(1)(2)(),,,n X X X 是p 元总体X 中抽取的相互独立的随机样本,简称为样本,每个()12(,,,)(1,2,,)p X x x x n ααααα'==称为一个样品。

其中j X α为第α个样品对第j 个指标的观测值。

11121(1)
21222(2)1
2
()p p n p
n n np n n p
x x x X x x x X X x x x X ⨯⨯'⎛⎫⎛⎫ ⎪ ⎪' ⎪ ⎪= ⎪ ⎪ ⎪ ⎪ ⎪ ⎪'⎝⎭⎝⎭
每一行都是总体的简单随机样本。

⑴每个样本各分量之间有相关关系,不同样本之间一定相互独立;
⑵多元统计中样本常常是横截面数据,不同于时间序列中样本数据(纵向数据)。

2. 多元样本的数值特征
定义设(1)(2)(),,,n X X X 为来自p 元总体的样本,其中
()12(,,
,)(1,2,
,)p X x x x n ααααα'==。

⑴ 样本均值向量定义为
⑵ 1121112222()
1
1211n n
n p p np x x x x x x X X n n x x x αα=⎡⎤
⎛⎫⎛⎫⎛⎫⎢⎥ ⎪ ⎪ ⎪⎢⎥ ⎪ ⎪
⎪=++
+
⎢⎥ ⎪
⎪ ⎪⎢⎥ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪⎢⎥⎝⎭⎝⎭
⎝⎭⎣⎦

11213111222322()
1
132333312311n n
n n p p p np x x x x x x x x X X x x x x n n x x x x αα=⎡⎤⎛⎫⎛⎫⎛⎫⎛⎫⎢⎥ ⎪ ⎪ ⎪ ⎪⎢⎥
⎪ ⎪ ⎪ ⎪==+++
⎢⎥ ⎪ ⎪ ⎪ ⎪⎢⎥ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪⎢⎥⎝⎭⎝⎭⎝⎭⎝⎭⎣
⎦∑ 112111122222121n n p p np p x x x x x x x x n x x x x +++⎛⎫⎛⎫
⎪ ⎪+++ ⎪ ⎪
==
⎪ ⎪ ⎪ ⎪ ⎪ ⎪+++⎝⎭⎝⎭
⑵ 样本离差矩阵定义为
()()()()1()n
p p ij p p S X X X X s ααα⨯⨯='=--=∑
其中()()1
(,1,2,3,)n
ij i i j j s X X X X i j p ααα==--=∑
()()()()1
n
p p S X X X X ααα⨯='
=--∑
()1122112233
133n p p p
p x x x x x x x x x x x x x x x x ααααααααα=⎡⎤
-⎛⎫
⎢⎥ ⎪-⎢⎥ ⎪=----⎢⎥ ⎪-⎢⎥ ⎪ ⎪
-⎢⎥⎝⎭⎣⎦
∑ 211112211331122211222233222331133223333112()()()()()()()()()()()()()()()()()()()()()()()()(p p p p p p p p p p x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x ααααααααααααααααααααααααα--------------=----------12233)()()()n p p p p x X X X X x x αααα=⎡⎤
⎢⎥⎢⎥⎢⎥⎢⎥----⎢⎥⎣⎦

()ij p p s ⨯=
⑶ 样本协方差矩阵定义为
()()()()1111
()()n p p
ij p p ij p p V S X X X X s v n n n
ααα⨯⨯⨯='==--==∑ ⑷ 样本相关系数矩阵定义为
()p p ij p p
R r ⨯⨯=
其中ij v s r =
=
样本均值向量和离差矩阵也可以用样本资料矩阵n p X ⨯表示。


111111n n ⨯⨯⎛⎫
⎪ ⎪= ⎪ ⎪⎝⎭, 则11211122221121n n p p p
np x x x x x x X n x x x ⨯+++⎛⎫
⎪+++ ⎪
=
⎪ ⎪ ⎪+++⎝⎭
()()(1)
(2)
()1
111
1n n n X X X X n n
αα⨯===∑11
1n X n
⨯'=
⨯ ()()()()
()()()()11
n
n
p p
S X X X X X X X X αααααα⨯=='''=--=--∑∑
()()()()()1
n X X XX X X XX ααααα=''''=--+∑
()()()()1
1
1
n n n
X X XX X X nXX ααααααα===''''=--+∑∑∑
由于
()()()111111
()(1)(1)n
n
n
p n n p n n XX X X X X X X nX X nXX n αααααα⨯⨯⨯⨯===''''''''=====∑∑∑ ()()11
()n
n
X X XX nXX αααα==''''==∑∑
()1
()n X X nXX nXX αα
=''''==∑ ()(1)
(2)(1)
(2)
()()p n n p n n X X X X X X X X ⨯⨯'⎛⎫ ⎪' ⎪'= ⎪ ⎪ ⎪'⎝⎭
(1)(1)
(2)(2)()()
n n X X X X X X '''=+++
()()1
n
X X ααα='=∑
所以
p p p n n p S X X nXX ⨯⨯⨯''=- 11
111111(11)n n n n n X X X X X I X n n
⨯⨯⨯⨯'''''=-
=- 3.μ和

的最大似然估计及基本性质
均值向量μ和协方差矩阵∑的最大似然估计及基本性质 设(1)(2)(3),,,X X X …(),n X 为来自p 元正态总体(,
)p N μ∑
的容量为n
的样本,每个样本()12(,,,)(1,2,,)p X x x x n ααααα'==,样本资料矩阵为
11
121(1)
21222(2)1
2
()p p n p
n n np n n p x x x X x x x X X x x x X ⨯⨯'⎛⎫⎛⎫ ⎪ ⎪' ⎪ ⎪== ⎪ ⎪ ⎪ ⎪ ⎪ ⎪'⎝⎭⎝⎭
μ和∑的最大似然估计为
11111ˆˆ,(11)p p n n n
X V S X I X n n n
μ⨯⨯⨯''===-
μ和∑的估计量的性质:
⑴ ()E X μ=,即X 是μ的无偏估计;
11()p p n E S n n ⨯-=∑,即1
p p S n
⨯不是∑的无偏估计。

111()()()111p p p p p p n n E S E S E S n n n n n ⨯⨯⨯=⨯=--- 11n n n n -=⨯=-∑∑,即1
1
p p S n ⨯-是∑的无偏估计。

⑵ 1
,1X S n -分别是,μ∑ 的有效估计;(最小方差无偏估计) ⑶ 1,X S n (或1,1
X S n -)分别是,μ∑ 的一致估计量(相合估计量)。

设12ˆˆ(,,,)n
X X X θθ=为参数θ的估计量,若对于任意θ∈Θ,当
n →∞时,12
ˆ(,,,)n X X X θ以概率收敛到θ,则称ˆθ
是θ的一致估计量。

由于
()()nE X X μμ⎡⎤'--⎢⎥⎣⎦1111[()()]n n
i i i i E X n X n n n n μμ=='=--==∑∑∑∑ ()()()()()()1
1
n
n
X X X X ααααμμμμ==''
--=---∑∑
()()()()111n n X n X n X n X n ααααμμμμ==⎡⎤⎡⎤''=---=---⎢⎥⎢⎥⎣⎦⎣⎦
∑∑
()()n X X μμ'=---
()()()()1()n p p E S E X X X X ααα⨯=⎡⎤
'=--⎢⎥
⎣⎦
∑()()()()()()1n E X X X X αααμμμμ=⎧⎫'⎡⎤⎡⎤=-+--+-⎨⎬⎣⎦⎣⎦
⎩⎭
∑ ()()()()()()()()()112n n E X X nE X X nE X X αααααμμμμμμ==⎡⎤⎡⎤⎡⎤'''=-----+--⎢⎥⎢⎥⎢⎥⎣⎦⎣⎦⎣⎦∑∑
()()()()()()()()12n E X X nE X X nE X X αααμμμμμμ=⎡⎤⎡⎤⎡⎤
'''=-----+--⎢⎥⎢⎥⎢⎥⎣⎦⎣⎦⎣⎦∑
()()()()()()1n E X X nE X X αααμμμμ=⎡⎤⎡⎤
''=-----⎢⎥⎢⎥⎣⎦⎣⎦

(1)n n =-=-∑∑∑
定理(P27)设,X S 分别是正态总体(,)p N μ∑
的样本均值和离
差矩阵,则
⑴ X ~1
(,
)p N n
μ∑; ⑵离差矩阵S 可以写为:
1
1n S Z Z αα
α-='=∑ 其中,121,,,n Z Z Z -独立同服从分布(0,
)p N ∑

⑶X 与S 相互独立;
⑷S 为正定矩阵的充要条件是n p >。

4.Wishart 分布
在实际应用中,常采用1
,1
X S n -分别作为,μ∑
的估计。

定义 设()11(,,,)(1,2,
,)p X x x x n ααααα'==~(,
)p N μ∑,
且相互独立,则由()X α组成的随机矩阵
()()1n
p p W X X ααα⨯='=∑(1,2,
,)n α=
的分布称为非中心Wishart 分布,记为(,,)p W Z μ∑,其中1
n
Z αα
αμμ='=∑;当全部αμ=0时,称为中心Wishart 分布,记为(,)p W n ∑,密度函数见书P28。

当21,p σ==∑时,密度函数就是22()n σχ的分布密度,Wishart 分布是克方分布在p 为正态情况下的推广。

基本性质: ⑴ 设()X α~(,
)p N μ∑(1,2,
,)n α=且相互独立,则样本离差矩阵
()()()()1
n
p p
S X X X X ααα⨯='=--∑~(1,)p W n -∑,其中()11n X X n αα==∑。

⑵ i S ~(,)p i W n ∑(1,2,,)i k =且相互独立,则
12n S S S S =++
+~12(,)p k W n n n ++
+∑
⑶若p p X ⨯~(,)p W n ∑,p p C ⨯为非奇异矩阵,则
CXC '~(,)p W n C C '∑。

第五章聚类分析
§5.1什么是聚类分析
聚类分析又称为群分析,它是数理统计中研究“物以类聚”的一种统计分析方法。

在数值分类方面,可以分为两大类问题,一类是已知研究对象的分类情况,将某些未知个体归属其中某一类(判企业归宿),这是判别分析所要解决的问题;另一类问题不存在一个事前分类的情况下,而进行数据结构的分类,这就是本章聚类分析所要解决的问题(怎么把企业聚类)。

聚类分析起源于分类学,在考古的分类学中,人们主要依靠经验和专业知识来实现分类。

随着生产技术和科学的发展,人类的认知不断加深,分类越来越细,要求也越来越高,有时光凭经验和专业知识是不能进行确切分类的,往往需要定性和定量分析结合起来去分类,于是数学工具逐渐被引进分类学中,形成了数值分类学。

随着多元分析的引进,聚类分析又逐渐从数值分类学中分离出来而形成一个相对独立的分支。

在社会经济领域存在大量分类问题:例如,⑴根据某些经济指标将全国32个省市自治区分类;⑵根据上市公司总股本、流通股本、每股收益等指标,将2400多家上市公司分类;⑶根据N个国家的森林面积、森林覆盖面积、林木积蓄量及草原面积把N个国家进行科学分类;⑷学生按各科考试成绩分类;⑸酒分成好、中、次分析;⑹将杭州市所有企业按经济类型、生产规模分类。

这些都属于聚类问题。

聚类问题内容丰富,有系统聚类法、动态聚类法、模糊聚类法、图论,其中系统聚类法是目前国内外应用最为广泛的一种方法,本章仅介绍此种方法聚类法。

§5.2距离和相似系数
变量(—在不同的个体上取不同的值,这个量称为变量)类型:
①间隔尺度(数值尺度)—变量是用数值来表示的(⑴—⑶); ②有序尺度—变量度量时没有明显数量关系,有次序关系(⑸); ③名义尺度—变量度量时既无数量关系又无次序关系,只是用特征和状态来描述(⑹)。

主要研究具有间隔尺度的变量。

设()12(,,,)(1,2,,)p X X X X n ααααα'==是p 项指标(p 维随机向量)
12(,,
,)p X X X X '=中抽取的n 个样本数据,有资料矩阵 1
2
p X X X
11
121(1)
21222(2)1
2
()p p n p
n n np n n p x x x X x x x X X x x x X ⨯⨯'⎛⎫⎛⎫ ⎪ ⎪' ⎪ ⎪== ⎪ ⎪ ⎪ ⎪ ⎪ ⎪'⎝⎭⎝⎭
12p x x x 1
2
p s s s
其中ij x 为第i 个样品对第j 个指标的观测值。

第i 个样本()i X 为矩阵的n p X ⨯的第i 行,所以第i 个样本()i X 与第j 个样本()j X 的相似性可用n p X ⨯中的第i 行()i X '与第j 行()j X '的相似性来描述;两个变量i X 与j
X
的相似性,可以通过第i 列与第j 列来描述。

为了将样本或变量分类,就需要研究样本(变量)之间的关系:一种研究方法是将每个样本(变量)看成p (n )维空间的一个点,在p (n )维空间定义两点之间的距离,距离较近的点归为一类,距离较远的点归为不同的类;另一种方法是用相似系数,定义的相似系数应该使性质越接近的变量(样本)相似系数的绝对值越接近1,而彼此无关系或关系甚微的变量(样本)的相似系数接近0,我们把性质比较接近的变量(样本)归为一类,不怎么接近归为不同的类。

1.Q —型聚类分析常用的距离和相似系数
对样本分类(Q —型聚类分析)常用的距离和相似系数 ⑴距离
ⅰ)明氏(Minkowski )距离
1
1()p
q
q ij i j d q x x ααα=⎛
⎫=- ⎪⎝⎭

当q=1时,是绝对值距离
1(1)p
ij i j d x x ααα==-∑
当q=2时,是欧氏距离
(2)ij d =
当q=∞时,是切比雪夫距离
1()max ij i j p
d x x ααα≤≤∞=-
欧氏距离平方
221
(2)()p
ij
i j d x x ααα==-∑
明氏距离的缺点:与个分量的量纲有关。

例 向量()1234X x x x x '=有4个样本
如果用绝对值距离,那么
12(1)11221722300320d =-+-+-+-=25
14(1)d =17,24(1)d =34 241214(1)(1)(1)d d d >>
变量的差异很大,第四个分量要比第一、三个分量大几十倍到近
百倍。

(1)
X '与(4)X '的第一、三个分量虽然只相差1或2个单位,但想对它们的第四个分量的差别而言要大得多;(1)
X '与(2)X '的第一、三个分量相等,第二、四个分量来讲相差不大。

这些说明(1)
X '与(2)X '的距离应该比(1)
X '与(4)X '的距离大,可与结果不一致。

既然第四个分量比第一、三个分量大近百倍,我们可以让第三个分量的量纲不变,而让第四个分量缩小100倍,仍用绝对值距离,则有
241214(1) 4.3(1) 5.2(1)7.1d d d =>=>=
总之,此例说明,在计算距离或相似系数之前,应先对数据进行
适当的变换。

标准化变换 令*(1,2,3,,;
1,2,3,,)ij j ij
jj
x x X i n j p s -=
==
12
21111,(),(1,2,3,,)n
n
j j jj j j x x s x x j p n n αααα==⎡⎤=
=-=⎢⎥⎣⎦
∑∑、
此时,第k 个样本()k X 与第l 个样本()l X 的标准化形式为
11112222()
k k k kp p pp x x s x x s X x x s -⎛⎫ ⎪ ⎪ ⎪- ⎪= ⎪ ⎪ ⎪- ⎪ ⎪⎝⎭, 11112222()l l l lp p pp x x s
x x s X x x s
-⎛⎫
⎪ ⎪ ⎪-
⎪= ⎪ ⎪ ⎪- ⎪ ⎪⎝

欧氏距离为
2
(2)kl pp
d s
=++
极差标准化变换
*(1,2,3,,;
1,2,3,,)max()min()
ij j
ij ij ij i
i
x x X i n j p x x -=
==-
正规化变换
*min()
(1,2,3,,;
1,2,3,,)max()min()
ij ij i
ij
ij ij i
i
x x X i n j p x x -=
==-
ⅱ)马氏(Mahalanobis )距离 样本()i X 与样本()j X 的马氏距离为
1
2()()()()()()()ij i j i j d M X X X X -'=--∑
其中向量X 的协方差矩阵()ij p p σ⨯=∑常用样本协方差矩阵1
p p V S n
⨯=估
计,
1
1()()1n
ij i i j j x x x x n ααασ==---∑
(,1,2,,)
i j p =,
1
1n
i i x x n αα==∑(1,2,
,)
i p =
样本()i X 到总体的马斯距离定义为
1
2()()()(,)()()i i i d X M X X μμ-'=--∑
其中μ是总体的均值向量,()ij p p σ⨯=∑是协方差矩阵。

马氏距离既排除了变量之间的相关性干扰,而且还不受各指标量纲的影响,用马氏距离时不需对原始数据变换。

ⅲ)兰氏(Canberra )距离(0ij X >)
11()p i j ij i j x x d L p x x ααααα
=-=+∑ (,1,2,
,)i j n =
如果把任何两个样本的距离ij d 计算出来后,可得到距离矩阵(0)D
1112
12122212
n n n n nn n n
d d d d d d D d d d ⨯⎛⎫
⎪ ⎪
= ⎪
⎪⎝⎭ 其中主对角线上元素均为零。

(2012.10.9)
(0)D 是一个是对称矩阵,只需计算上(或下)三角形矩阵,矩阵
中的元素较小的,说明两样本点的距离近,否则较远。

也可以对非数值尺度变量之间定义距离,举例说明。

⑵相似系数 ⅰ)夹角余弦
cos 1cos 1p
i
j
ij ij x x ααθθ=
-≤≤∑ (,1,2,
,)i j n =
当cos ij θ=1时,说明两个样本()i X 与()j X 完全相似; 当cos ij θ≈1时,说明两个样本()i X 与()j X 相似密切; 当cos ij θ=0时,说明两个样本()i X 与()j X 完全不一样; 当cos ij θ≈0时,说明两个样本()i X 与()j X 差别大。

把所有的相似系数都算出来,可以排成相似系数矩阵
1112
12122
212
cos cos cos cos cos cos cos cos cos n n n n nn n n
θθθθθθθθθ⨯⎛⎫


Θ= ⎪
⎪⎝⎭ 其中主对角线上元素均为1。

应把相似的归为一类,不相似的归为不同的类。

ⅱ)相关系数
()()11p
i
i
j
j
ij ij x x x x r r αα--=
-≤≤∑ (,1,2,
,)i j n =
这里
11p i i x x p αα==∑, 1
1p
j j x x p αα==∑ (,1,2,
,)i j n =(行平均数)
样本相关系数矩阵
111212122212
n n n n nn n n
r r r r r r R r r r ⨯⎛⎫
⎪ ⎪
= ⎪
⎪⎝⎭ 其中主对角线上元素均为1。

2.R 型聚类分析常用的距离和相似系数
对指标分类(R —型聚类分析)常用的距离和相似系数
令ij d 表示变量()12i i i
ni X x x x '=与变量()12j j
j
nj X x x x '
=之间的距离(第i 列与第j 列)
ⅰ)明氏距离(第i 个变量i X 与第j 个变量j X 的)
1
1()n
q
q ij i j d q x x ααα=⎛
⎫=- ⎪⎝⎭

ⅱ)马氏距离(第i 个变量i X 与第j 个变量j X 的马氏距离为)
1
2()()()ij i j i j d M X X X X -'=--∑
其中协方差矩阵()ij p p σ⨯=∑,而
11()()1p ij i i j j x x x x p ααασ==---∑,1
1(1,2,3,,)
p i i x x i n p αα===∑
(1,2,,)
i n =
ⅲ)兰氏(Canberra )距离(0ij X >)
11()n i j ij i j
x x d L p x x ααααα=-=+∑ (,1,2,
,)i j p =
⑵相似系数 ⅰ)夹角余弦
cos cos 1n
i j
ij ij x x ααθθ=
≤≤∑ (,1,2,
,)i j p =
此时的相似系数矩阵
111212122212cos cos cos cos cos cos cos cos cos p p p p pp p p
θθθθθθθθθ⨯⎛⎫
⎪ ⎪
Θ= ⎪ ⎪ ⎪⎝⎭ 其中主对角线上元素均为1。

根据Θ中元素对p 个变量进行分类。

ⅱ)相关系数
()()
11n
i
i j j ij ij x x x x r r αα--=
-≤≤∑ (,1,2,
,)i j p =
这里1
1n
i i
x x n αα==∑
(1,2,
,)i p =
变量的相关系数矩阵
11121212221
2
()p p ij p p pp p p
r r r r r r R r r r r ⨯⎛⎫ ⎪ ⎪
== ⎪ ⎪ ⎪⎝⎭ §5.3八种系统聚类方法
讨论系统聚类分析方法之前,先说明一个事实,令
22
1ij ij
d C =- 那么任何相似系数都可以转化为距离,下面只讨论距离。

系统聚类分析法的基本思想:把n 个样本(或p 个变量)各自看成一类,规定样本(或变量)之间的距离以及类与类之间的距离,选择距离最小的一对聚成一个新类,计算新类与其它类的距离,再将距离最小的两类合并,每次并类至少减少一个类,直至所有的样本(或变量)都聚成一类为止。

当样本(变量)之间的距离选定后,还必须规定类与类之间的距离,对于类与类之间的距离可以定义两类中最近两点的距离,也可以定义最远两点的距离,还可以定义中心之间的距离,…,不同定义方式产生不同的系统聚类分析法。

以下用ij d (或2ij d )表示样本()i X 与()j X 之间的距离(变量i X 与变量j X 的距离),用ij D (或2ij D )表示类i G 与类j G 之间的距离。

1.最短距离法
类i G 与类j G 之间的距离定义为
()(),min
{}i i j j
ij ij X G X G D d ∈∈=
设类p G 与类q G 合并成一个新类r G ,则任意一类k G 与新类r G 的距离是
()()()()()()()(),,,,min
{}min {
min
(),
min
()}min{,}
i k j r
i k j r i k j p
i k j q
kr ij X G X G ij ij X G X G X G X G X G X G kp kq D d d d D D ∈∈∈∈∈∈∈∈=
=
=
最短距离法聚类步骤:
(1)定义样本之间的距离,得一距离矩阵(0)D
主对角线上元素均为0.
(2)找出(0)D 非主对角线最小元素,设其为pq D ,则将p G 和q G 合并成为新类,记为r G ,即{,}r p q G G G =。

(3)给出计算新类与其它类的距离公式:
min{,}kr kp kq D D D =
将(0)D 中第p 、q 行及p 、q 列用上面的公式并成一个新行新列,新行新列对应r G ,所得矩阵记为(1)D (有可能同时并为两个新类或三类并成一个新类)。

(4)对(1)D 重复上述对(0)D 的(2)、(3)两步的(2)D ;如此下去,直到所有的元素并成一类为止。

例1 五个样本:(1)X =1、(2)X =2、(3)X =3.5、(4)X =7和(5)X =9,试用最短距离法对五个样本进行分类。

(1)样本之间采用绝对值距离,得距离矩阵(0)D
(2)最小元素12121D d ==,新类612{1,2}G G G =⋃= (3)新类612{1,2}G G G =⋃=与其它类的距离,按公式
612min{,}
(3,4,5)i i i D D D i ==
363132min{,}min{2.5,1.5} 1.5D D D ===,464142min{,}min{6,5}5D D D ===
565152min{,}min{8,7}7D D D ===
得距离矩阵(1)D
(4)(1)D 中非主对角线最小元素是1.5,则将相应的两类3G 和6
G 合并成新类736312(){3.5,1,2}G G G G G G =⋃=⋃⋃=,再按公式计算各类与7G 的距离,得距离矩阵(2)D
(5)距离矩阵(3)D (845G G G =⋃)
978G G G =⋃
(作树枝图或聚类图)
5个样本分成两类比较合理,第一类{1,2,3.5};第二类{7,9}。

在实际应用中,有时给出一个阈值T ,要求类与类之间的距离小
于T ,因此有些样本可能归不了类,这样的样本常称为孤立点。

最短距离法也可以用于指标(变量)分类,分类时可以用距离,也可以用相似系数,用相似系数时把公式
min{,}kr kp kq D D D =换成公式
max{,}kr kp kq D R R = (22
1kr kr D R =-)
2.最长距离法
定义类i G 与类j G 之间的距离为两类最远样本的距离,即
()(),max
{}i i j j
ij ij X G X G D d ∈∈=
最长距离法与最短距离法的并类步骤完全一样,也是将各样本先各自看成一类,然后合并距离最近的两类。

设类p G 与类q G 合并成一个新类r G ,则任意一类k G 与新类r G 的距离是
()()()()()()()(),,,,max
{}max {
max
(),
max
()}max{,}
i k j r
i k j r i k j p
i k j q
kr ij X G X G ij ij X G X G X G X G X G X G kp kq D d d d D D ∈∈∈∈∈∈∈∈=
=
=
再找非主对角线上最小元素的两类合并,直至所有的样本全归为一类为止。

最长距离法与最短距离法有两点不同:一是类与类之间的距离不同;二是新类与其它类的距离计算所用的公式不同。

聚类策略完全一样。

将例1应用最长距离法按步骤聚类。

(1)样本之间采用绝对值距离,得距离矩阵(0)D
(2)最小元素12121D d ==,新类612{1,2}G G G =⋃= (3)新类612{1,2}G G G =⋃=与其它类的距离,按公式
612max{,}
(3,4,5)i i i D D D i ==
363132max{,}max{2.5,1.5} 2.5D D D ===; 464142max{,}max{6,5}6D D D ===;
565152max{,}max{8,7}8D D D ===
得距离矩阵(1)D
(4)(1)D 中非主对角线最小元素是2,则将相应的两类4G 和5G 合并成新类745{7,9}G G G =⋃=,再按公式计算各类与7G 的距离
764656max{,}max{6,8}8D D D === 734353max{,}max{3.5,5.5} 5.5D D D ===
得距离矩阵(2)D
(5)距离矩阵(3)D (863{1,2,3.5}G G G =⋃=)
787673max{,}max{8,5.5}8D D D ===
978G G G =⋃
(作树枝图或聚类图) 3.中间距离法
类与类之间既不采用两类之间最近的距离,也不采用两类之间最远的距离,二是采用介于两者之间的距离,所以称为中间距离法
p G pq D q G x
kp D ke D kq D
y
p G
222kp D x y =+ (1)
2
222222
2112414
kr
pq pq pq
kp pq pq
D x D y x y xD D D xD D ⎛⎫
=++=+++ ⎪⎝⎭=++ (2)
()2
22222
2222kq
pq pq pq kp pq pq
D x D y x y xD D D xD D
=++=+++=++ (3)
(2)两边乘以2,有
22
212222
kr kp pq pq
D D xD D =++ (4) (4)-(3),
222
2122
kr kq kp pq
D D D D -=- 得新类r p q G G G =⋃与任意一类k G 的距离公式
2222
111224
kr kq kp pq D D D D =
+- 这是p G 与q G 连线中点与k G 的距离计算公式。

一般有
2
222
111
(0)224
kr kq kp pq D D D D ββ=
++-≤≤ 例 将例1用中间距离法分类(用2ij d 代替ij d ,用2(0)D 代替(0)D ) (1)样本之间采用欧氏距离平方,得距离矩阵2(0)D
(2)最小元素2212
121D d ==,新类612{1,2}G G G =⋃= 2
22236313212111111
6.25 2.2514224224D D D D =
+-=⨯+⨯-⨯= 2
222464142121111113625130.25224224D D D D =+-=⨯+⨯-⨯=
2
222565152121111116449156.25224224
D D D D =+-=⨯+⨯-⨯=
得距离矩阵2(1)D
(4)2(1)D 中非主对角线最小元素是22
36
454D D ==,则将相应的两类3G 和6G 合并成新类736{1,2,3.5}G G G =⋃=,将相应的两类4G 和5G 合并成新类845{7,9}G G G =⋃=,再按公式计算7G 与8G 的距离
2
222
7838683622
2222234354564654536
111224
111111111()()222422244
111111111(12.2530.254)(30.2556.254)422242224430.25
D D D D D D D D D D D =
+-=+-++--=⨯+⨯-⨯+⨯+⨯-⨯-⨯= (5)距离矩阵2(2)D
(作聚类图) 4.重心法
定义类与类之间的距离时,为了体现出每类包含的样本的个数,给出重心法。

设类p G 和q G 的重心(即该类样本的均值)分别是p x 和q x ,则p G 与
q G 之间的距离是22
p q
pq x
x D d =,p G 与q G 分别有样本p n 、q n 个,将p G 与q G 合并成新类r G ,则r G 有p q n n n =+个样本,r G 的重心1
()r p p q q r
x n x n x n =+,任意一类k G 的重心为k x ,r G 与k G 的距离为
()()
2222211()()r k rk x x k r k r k p p q q r k p p q q r r r p q p q kp kq pq
r r r r
D d x x x x x n x n x x n x n x n n n n n n D D D n n n n '==--'⎡⎤⎡⎤=-+-+⎢⎥⎢⎥
⎣⎦⎣⎦=+-⨯
2
222p q p q rk
kp
kq
pq
r
r
r r
n n n n D D D D n n n n =
+
-
当p q n n =时,即为中间距离法公式。

(2012.10.16)
例 五个样本:(1)X =1、(2)X =2、(3)X =3.5、(4)X =7和(5)X =9,试用重心法对五个样本进行分类。

(1)(用2ij d 代替ij d ,用2(0)D 代替(0)D )得到五个样本的距离矩阵
2(0)D
(2)最小元素2212
121D d ==,新类612{1,2}G G G =⋃= (3)新类612{1,2}G G G =⋃=与(其它)类3G 的距离,此时11p n n ==、
21q n n ==、611112r p q n n n n n n ==+=+=+=、31k n n ==,按公式计算,有
2
2
2
2
2222
1212633132126666
p q p q rk kp kq pq
r
r
r
r
n n n n D D D D n n n n n n n n D D D D n n n n =
+
-

=
+-⨯
2
6311116.25 2.251
42222D =⨯+⨯-⨯⨯=
2
6411113625130.252222D =⨯+⨯-⨯⨯=
2
6511116449156.252222
D =⨯+⨯-⨯⨯=
得距离矩阵2(1)D (4)2(1)D 中非主对角线最小元素是22
36
454D D ==,则将相应的两
类3G 和6G 合并成新类736{1,2,3.5}G G G =⋃=(73k n n ==),将相应的两类4G 和5G 合并成新类845{7,9}G G G =⋃=(82r n n ==),再按公式计算7G 与8G 的距离
22222
222
5544874757458888
p q p q rk
kp
kq
pq
r
r
r
r
n n n n D D D D n n n n n n n n D D D D n n n n =
+
-

=+-⨯2247572222223636363643463653563677777777111142222
11122112111121112.2530.25430.2556.25412333323333D D n n n n n n n n D D D D D D n n n n n n n n =
+-⨯⨯⎛⎫⎛⎫=+-++-- ⎪ ⎪⎝⎭⎝⎭⎛⎫⎛⎫=⨯+⨯-⨯⨯+⨯+⨯-⨯⨯- ⎪ ⎪⎝⎭⎝⎭34.0278234.03=≈
(5)距离矩阵2(2)D
778{1,2,3.57,9}G G G =⋃=
(作聚类图) 5.类平均法
类平均法—两类元素两两之间距离平方的平均。

()()221
i p j q
pq ij
x G x G p q
D d n n ∈∈=
∑∑
r p q G G G =⋃与任意一类k G 的距离为
()()()()()()()()()()()2222
22
2222
1
111i k j r
i k j p i k j q
i k j p i k j q kr ij
x G x G k r
ij ij x G x G x G x G k r k p k q ij ij x G x G x G x G k r k p k q k p kp k q kq k r p q kp kq
r
r
D d n n d d n n n n n n d d n n n n n n n n D n n D n n n n D D n n ∈∈∈∈∈∈∈∈∈∈=
⎛⎫=+ ⎪ ⎪⎝⎭
⎛⎫=⨯+⨯ ⎪ ⎪⎝⎭=+=+
∑∑
∑∑∑∑∑∑∑∑ 222p q kr
kp
kq
r
r
n n D D D n n =
+
6.可变类平均法
2
222
(1)(1)
p q kr
kp
kq pq
r
r
n n D D D D n n βββ=
-+-+ (其中β是可变的,β<1) 7.可变法
2222
1()2
kr kp kq pq
D D D D ββ-=
++ (β<1) 8.离差平方和法(Word 方法)
设有n 个样本分成k 类:12,,,k G G G ,用()t i x 表示t G 中的第i 个样本,t n 表示t G 中的样本个数,()t x 是t G 的重心,则t G 中样本的离差平方和为
()()()()1()()t
n t t t t t i i i S x x x x ='=--∑
离差平方和法的基本思想是来自于方差分析:同组方差小,异组方差大。

(举例说明思想)
Word 方法合并新类到任意一类的距离公式为
22
2
2
k p k q k kr kp kq pq
r k
r k
r k
n n n n n D D D D n n n n n n ++=
+
-
+++ 兰斯(Lance )和威廉姆斯(Williams ),在点之间采用欧氏距离时,得到八种系统聚类分析法的一个统一公式:
222222
kr p kp q kq pq kp kq
D D D D D D ααβγ=+-+- 将书P87—88表15。

各种方法的比较目前仍是值得研究的课题,在实际应用中,采用两种方法:一种办法是根据分类问题本身专业知识结合实际需要来选择分类方法,确定分类个数;另一中方法是多用几种分类方法,把结果中的共性取出来,将有争议的样本(或变量)用判别分析法去归类。

举书上的例
第六章判别分析
§6.1什么是判别分析
是判别分析——判别样本所属类型的一种统计方法。

在不知样本划分的类型时,通过对一部分样本聚类来划分类型,这是聚类分析的任务;而判别分析是在已知研究对象分成若干类的情况下,根据某些准则建立判别式,然后对未知样本进行判别分类。

常常判别分析与聚类分析联合起来使用。

按判别的组数区分为:两组判别分析和多组判别分析;按总体所用数学模型区分为:线性判别分析和非线性判别分析;按判别时所处理的变量方法不同分为:逐步判别和序贯判别。

判别分析可以从不同的角度提出问题,因此有不同的准则,如马氏距离最小准则、Fisher 准则、平均损失最小准则、最小平方准则、最大似然准则、最大概率(Bayes )准则。

本章主要介绍距离判别法、Fisher 判别法、Bayes 判别法。

§6.2距离判别法
基本思想:已知样本X 离哪一类重心的距离近,就判X 属于哪个类别。

1、两个总体的距离判别法
已知样本X 来自两个不同总体1G 、2G 之一,它们的分布分别为
(1)(1)
(,
)p N μ∑
和(2)(2)
(,
)p N μ∑。

要判别X 究竟来自哪一个总体,就看X 离哪一个总体的均值的距离近,可以定义样本到总体均值的距离(如绝对值距离、欧氏距离、欧氏距离的平方、马氏距离等)
样本到总体1G 、2G 的欧式距离定义为
12(,)(,)D X G D X G ⎧=⎪⎨=⎪⎩ 判别准则
1122
12(,)(,)
(,)(,)
X G D X G D X G X G D X G D X G ∈<⎧⎨
∈≥⎩(举例说明)。

相关文档
最新文档