数理统计11判别分析课件
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(2)自反性: D( X ,Y ) D(Y , X ); (3)三角不等式:对任意三个点 X ,Y及 Z 有
D( X , Z ) D( X ,Y ) D(Y , Z ).
2、两个总体的判别
设有两个总体为 G1和G2,对于给定的样品 X , 需要判断它来自哪个总体?
判别规则: 当 D2( X ,G1 ) D2( X ,G2 ) 时, 判定 X G1;否则判定 X G2。
f2( x) f2( x)
在实际使用Bayes判别法时,并不需要求出 集合 R1, 而只要将需判别的样品 X 代入
C12q1 f1( x) C21q2 f2 ( x) 若该不等式成立,则判定 X G1; 否则,判定 X G2 .
如果总体 G1和G2 分别服从协方差阵相同的
正态分布 N p (1,V )和N p (2 ,V ), 则Bayes判别
在实际应用中,参数 1, 2 及V 往往是未知的,
此时需要根据收集到的样本资料对参数作出估 计,然后将其相应的估计值代入线性判别函数 W ( X ) 中不再赘述。
(三) 多个总体的判别
设有 m 个总体 G1,G2 ,,Gm,其概率密度分 别为 f1( x), f2( x),, fm ( x), 且各个总体Gi出现 的先验概率为q1,q2 ,,qm , 错判造成的损失为 Cij C( j / i)(i, j 1,2,, m).
Y
1 n2 Yk
n2 k1
Vˆ1
1 n1 1 S1
1 n1 n1 1 k1 ( X k
X
)( X k
X )T
Vˆ2
n2
1
1
S2
1 n2
n2
1
(Yk
k 1
Y
)(Yk
Y
)T
将这些估计值代入上述判别法即可进行判别。
通常,为了初略了解所建立的判别方法的 误判率,需进行回报判别,即对已给的两个样 本逐个进行判别,可以计算出回报误判率。若 回报的误判率较大,则说明所建立的判别规则 不适用,分析其原因,重新建立恰当的判别规 则。 注:回报的误判率并不是错判概率,一般情形 下,前者比后者小,这种衡量标准仅供参考。
g(R) qir(i, R)
i 1
m
m
qi C( j / i)P( j / i, R)
i1 j1
m
qiCi Pi ( R)T
i 1
Bayes方法的原理是:寻求使平均损失(风险)
达到最小的规则 R (R1, R2 ,, Rm ),
这个判别规则称为Bayes判别法。
(二) 两个总体的判别
距离判别是定义样本到某个总体的“距离” 根据样本到各个总体的“距离”来就近判断样 本的归属。
用欧氏距离做判别有不合理的地方: 总体的各个分量为不同性质时,距离的 的含义解释不清,且距离大小与所采用的度 量单位有关。
1、马氏距离(马哈拉诺比斯,Mahalanobis)
定义1 设 X 和 Y 是总体G 中抽取的样品,G
损失 C12 C21时,有 d 0, 这说明在这种情况
下Bayes判别与距离判别等价。 其它情形下两
者并不等价。
当参数 1, 2及V 均已知时,定理8.3中的
Bayes判别法的所产生的错判概率为
P12
(
R)
P(2
/
1,
R)
d
2
P21( R)
P (1 /
2,
R)
1
d
2
其中 (1 2 )TV 1(1 2 ).
1、两个总体协方差阵相同的情形:
定理 1 当参数1, 2及V 已知时,判别准则
是: 当 aT ( X ) 0时判,定 X G1; 否则,
判定 X
G2
,其中 a
V
1 ( 1
2 ),
1
2
2
证明 因为
D2( X ,G2 ) D2( X ,G1 )
( X 2 )TV 1( X 2 ) ( X 1 )TV 1( X 1 )
当 D2( X ,G1 ) D2( X ,G2 ) 时,X G2 .
其中
D2 ( X
,G1 )
(
X
1
)T
V 1 1
(
X
1 )
D2(
X
,G2 )
(
X
2
)T
V 1 2
(
X
2
)
当参数 1, 2 ,V1及V2未知时,需用来自两个
总体的相互独立的样本来估计这些参数,即
ˆ1
X
1 n1
n1 k 1
Xk
ˆ 2
(三) 多个总体的判别
设有 m 个总体:G1,G2 ,,Gm , 其均值和
协方差阵分别为 1, 2 ,, m 及V1,V2 ,,Vm , 且
所有的 Vi 0 。 当这些参数都已知时,计算
D2 ( X ,Gi ) ( X i )T Vi 1( X i ), i 1,, m 若存在某个k 使得
的均值和协方差阵分别为和V (V 0), 称
( X Y )TV 1( X Y ) 为 X 与 Y之间的马氏距离,记为 D( X ,Y ),
称
D( X ,G) ( X )TV 1( X )
为X 与总体G 的马氏距离.
可以证明马氏距离 D( X ,Y ) 满足距离的三条 基本公理:
(1)非负性: D( X ,Y ) 0, 且当且仅当 X Y 时, D( X ,Y ) 0;
Pii (R) P(i / i, R) fi ( x)dx, i 1,, m
Ri
注意这里的积分是 p重积分。 因此有
m
Pij (R) 1, i 1,2,, m.
j1
这样在判别规则 R下,错判来自总体 Gi的个 体所造成的平均损失为
m
r(i, R) C( j / i)P( j / i, R)
X TV
1 X
2 X TV1 22TV来自1 2X TV
1 X
2 X TV
1 1
1TV
1 1
2X
TV
1 ( 1
2 )
2TV
1 2
1TV
1 1
2 X TV 1(1 2 ) (1 2 )TV 1(1 2 )
2( X )TV 1(1 2 )
令 W ( X ) ( X )TV 1(1 2 ) aT ( X ),
其中
Cii C(i / i) 0,
Cij C( j / i),
i, j 1,2,, m.
由于一个判别规则实质上是就是对 p 维空间
R p 划分成 m 个互不相交的部分 R1, R2 ,, Rm,
即满足 Ri Rj , i, j 1,2,, m, i j.
和
m
Ri
Rp.
故为了方便起见,可简记一个
假设 R (R1, R2 ,, Rm )为p 维空间R p 的一 个划分,则在规则R 下,错判的平均损失为
m
m
m
g(R) qir(i, R) qi C( j / i)P( j / i, R)
i 1
i1 j1
如何寻找一个划分R ,使g(R) 达到最小呢?
我们有如下的定理。
定理4 设有 m 个总体 G1,G2 ,,Gm,其概率 密度分别为 f1( x), f2( x),, fm ( x), 且各个总体 Gi 出现的先验概率为q1,q2 ,,qm , 错判造成的 损失为 Cij C( j / i)(i, j 1,2,, m), 则使 g(R)
此时需要根据收集到的样本资料对参数作出估 计,然后将其相应的估计值代入线性判别函数 W ( X ) 中。下面就给出参数的估计。
设 X1, X 2 ,, X n1 是来自总体 G1的样本, Y1,Y2 ,,Yn2是来自总体G2的样本,且两样本相 互独立,则样本平均值
ˆ1
X
1 n1
n1 k 1
Xk
ˆ 2
有 D2( X ,G2 ) D2( X ,G1 ) 2W ( X ), 所以当 W ( X ) 0时,判定 X G1;否则判定 X G2 .
由于函数 W ( X ) aT ( X )
是 X 的线性函数,故称W ( X )为 X 的线性判别 函数,称 a为判别系数。
在实际应用中,参数 1, 2 及V 往往是未知的,
j1, ji
m
C( j / i)P( j / i, R)
j1
m
Cij Pij ( R) Ci Pi ( R)T
j1
其中Ci表示损失矩阵的第 i 行元素, 而 Pi (R)
表示矩阵 P(R) (Pij (R)) 的第 i 行元素。
由于每个总体发生的概率为q1,q2 ,,qm , 所以通
过判别规则 R进行判别所造成的总平均损失为 m
第九章 判别分析与聚类分析
一、距离判别 二、Bayes判别 三、Fisher判别 四、聚类分析简介
判别分析
判别分析是数据挖掘、机器学习、模式 识别等应用领域的重要理论基础。
模式识别包括语音辨识、手写体辨识、 图像识别、指纹识别等先进技术。
例 对10位应聘者做智能检验。3项指标X,Y和Z 分别表示数学推理能力,空间想象能力和语言理 解能力。其得分如下,选择合适的统计方法对应 聘者进行分类 —— 聚类分析。
定理2 设有两个总体 G1,G2 , 其密度函数分 别为 f1( x), f2( x), 两个总体的先验概率为q1,q2 ,
损失函数矩阵为C . 则Bayes判别法 R (R1, R2 ) 具有如下形式
R1 R2
x x
: C12q1 : C12q1
f1( x) f1( x)
C q 21 2 C q 21 2
确定。 定义损失函数 C( j / i), 表示将本来属
于Gi 的样品错判为属于G j所造成的损失,规 定 C(i / i) 0. 显然应有
C( j / i) 0, i, j 1,2,, m
用损失矩阵表示,即
C11
C
C 21
Cm1
C12 C 22
Cm2
C1m C2m
Cmm
ni m i1
i 1
二、Bayes判别
(一) Bayes判别的基本概念 设有 m 个总体 G1,G2 ,,Gm,其概率密度分
别为 f1( x), f2( x),, fm ( x), 且是互不相同的。 进一步假设已知 m 个总体各自发生的概率为 q1,q2 ,,qm , 这个已知的概率称为先验概率, 可以由经验给出,也可由收集到的历史资料
法有更简便的形式,依定理形式给出如下。
定理3 设总体 G1和G2 分别服从协方差阵相
同的正态分布 N p (1,V )和N p (2 ,V ),且V 0.
则当参数 1, 2及V 均已知时, Bayes判别法
R (R1, R2 )具有如下形式
R1 R2
x x
:W :W
( (
x) x)
d d
i 1
判别规则为 R (R1, R2 ,, Rm ), 那么将属于 Gi
的样品判为属于G j的(错判概率)概率记为
P( j / i, R) 或 Pij (R), 即
Pij (R) P( j / i, R) fi ( x)dx,
Rj
i, j 1,2,, m, i j.
这时 P(i / i, R) 表示正确判别的概率,即
Y
1 n2
n2
Yk
k 1
分别是总体均值1和2 的一致最小方差无偏估
计。 这样 的估计可取为
V 的估计为
ˆ ˆ1 ˆ2
2
Vˆ
n1
1 n2
2 ( S1
S2 )
其中
n1
S1 ( X k X )( X k X )T
k 1
n2
S2 (Yk Y )(Yk Y )T
k 1
故当参数均未知时,判别函数为
W ( X ) aT ( X ˆ )
其中判别系数为
a Vˆ 1(ˆ1 ˆ2 )
注:距离判别法不必知道总体的分布。
2、两总体协差阵不等的情形:
设两个总体 G1和G2 的协方差阵为V1和V2, 且 V1 V2 , 所有的参数均已知,这时就直接用样 品到总体的马氏距离来判别,即判别规则为
当 D2( X ,G1 ) D2( X ,G2 ) 时,X G1;
D
2
(
X
,
Gk
)
min{
1 i m
D
2
(
X
,
Gi
)}
成立,则判别 X Gk。
同样, 当总体的参数未知时,应先利 用来自 m个总体的相互独立的样本给出所有未 知参数的估计,再利用上述判别法进行判别。
对同协方差阵的情形,可以由 m个样本给
出 V 的估计 Vˆ m 1
m
Si , 具体判别过程
不再赘述。
应聘者 1 2 3 4 5 6 7 8 9 10 X 28 18 11 21 26 20 16 14 24 22 Y 29 23 22 23 29 23 22 23 29 27 Z 28 18 16 22 26 22 22 24 24 24
对某应聘者的得分,排定他属于哪一类 —— 判别 分析。
3
一、距离判别
其中 W ( x) ( x )TV 1(1 2 ),
1
2
d ln K ,
2
K C q 21 2 . C12q1
注:从 W ( x)的表达式可知Bayes判别函数与
距离判别函数完全相同,只是临界值有所不
同,
当先验概率 q1
q2
1 2
,即任取一个样
品 X,它等可能地来自总体 G1或 G2, 且错判
D( X , Z ) D( X ,Y ) D(Y , Z ).
2、两个总体的判别
设有两个总体为 G1和G2,对于给定的样品 X , 需要判断它来自哪个总体?
判别规则: 当 D2( X ,G1 ) D2( X ,G2 ) 时, 判定 X G1;否则判定 X G2。
f2( x) f2( x)
在实际使用Bayes判别法时,并不需要求出 集合 R1, 而只要将需判别的样品 X 代入
C12q1 f1( x) C21q2 f2 ( x) 若该不等式成立,则判定 X G1; 否则,判定 X G2 .
如果总体 G1和G2 分别服从协方差阵相同的
正态分布 N p (1,V )和N p (2 ,V ), 则Bayes判别
在实际应用中,参数 1, 2 及V 往往是未知的,
此时需要根据收集到的样本资料对参数作出估 计,然后将其相应的估计值代入线性判别函数 W ( X ) 中不再赘述。
(三) 多个总体的判别
设有 m 个总体 G1,G2 ,,Gm,其概率密度分 别为 f1( x), f2( x),, fm ( x), 且各个总体Gi出现 的先验概率为q1,q2 ,,qm , 错判造成的损失为 Cij C( j / i)(i, j 1,2,, m).
Y
1 n2 Yk
n2 k1
Vˆ1
1 n1 1 S1
1 n1 n1 1 k1 ( X k
X
)( X k
X )T
Vˆ2
n2
1
1
S2
1 n2
n2
1
(Yk
k 1
Y
)(Yk
Y
)T
将这些估计值代入上述判别法即可进行判别。
通常,为了初略了解所建立的判别方法的 误判率,需进行回报判别,即对已给的两个样 本逐个进行判别,可以计算出回报误判率。若 回报的误判率较大,则说明所建立的判别规则 不适用,分析其原因,重新建立恰当的判别规 则。 注:回报的误判率并不是错判概率,一般情形 下,前者比后者小,这种衡量标准仅供参考。
g(R) qir(i, R)
i 1
m
m
qi C( j / i)P( j / i, R)
i1 j1
m
qiCi Pi ( R)T
i 1
Bayes方法的原理是:寻求使平均损失(风险)
达到最小的规则 R (R1, R2 ,, Rm ),
这个判别规则称为Bayes判别法。
(二) 两个总体的判别
距离判别是定义样本到某个总体的“距离” 根据样本到各个总体的“距离”来就近判断样 本的归属。
用欧氏距离做判别有不合理的地方: 总体的各个分量为不同性质时,距离的 的含义解释不清,且距离大小与所采用的度 量单位有关。
1、马氏距离(马哈拉诺比斯,Mahalanobis)
定义1 设 X 和 Y 是总体G 中抽取的样品,G
损失 C12 C21时,有 d 0, 这说明在这种情况
下Bayes判别与距离判别等价。 其它情形下两
者并不等价。
当参数 1, 2及V 均已知时,定理8.3中的
Bayes判别法的所产生的错判概率为
P12
(
R)
P(2
/
1,
R)
d
2
P21( R)
P (1 /
2,
R)
1
d
2
其中 (1 2 )TV 1(1 2 ).
1、两个总体协方差阵相同的情形:
定理 1 当参数1, 2及V 已知时,判别准则
是: 当 aT ( X ) 0时判,定 X G1; 否则,
判定 X
G2
,其中 a
V
1 ( 1
2 ),
1
2
2
证明 因为
D2( X ,G2 ) D2( X ,G1 )
( X 2 )TV 1( X 2 ) ( X 1 )TV 1( X 1 )
当 D2( X ,G1 ) D2( X ,G2 ) 时,X G2 .
其中
D2 ( X
,G1 )
(
X
1
)T
V 1 1
(
X
1 )
D2(
X
,G2 )
(
X
2
)T
V 1 2
(
X
2
)
当参数 1, 2 ,V1及V2未知时,需用来自两个
总体的相互独立的样本来估计这些参数,即
ˆ1
X
1 n1
n1 k 1
Xk
ˆ 2
(三) 多个总体的判别
设有 m 个总体:G1,G2 ,,Gm , 其均值和
协方差阵分别为 1, 2 ,, m 及V1,V2 ,,Vm , 且
所有的 Vi 0 。 当这些参数都已知时,计算
D2 ( X ,Gi ) ( X i )T Vi 1( X i ), i 1,, m 若存在某个k 使得
的均值和协方差阵分别为和V (V 0), 称
( X Y )TV 1( X Y ) 为 X 与 Y之间的马氏距离,记为 D( X ,Y ),
称
D( X ,G) ( X )TV 1( X )
为X 与总体G 的马氏距离.
可以证明马氏距离 D( X ,Y ) 满足距离的三条 基本公理:
(1)非负性: D( X ,Y ) 0, 且当且仅当 X Y 时, D( X ,Y ) 0;
Pii (R) P(i / i, R) fi ( x)dx, i 1,, m
Ri
注意这里的积分是 p重积分。 因此有
m
Pij (R) 1, i 1,2,, m.
j1
这样在判别规则 R下,错判来自总体 Gi的个 体所造成的平均损失为
m
r(i, R) C( j / i)P( j / i, R)
X TV
1 X
2 X TV1 22TV来自1 2X TV
1 X
2 X TV
1 1
1TV
1 1
2X
TV
1 ( 1
2 )
2TV
1 2
1TV
1 1
2 X TV 1(1 2 ) (1 2 )TV 1(1 2 )
2( X )TV 1(1 2 )
令 W ( X ) ( X )TV 1(1 2 ) aT ( X ),
其中
Cii C(i / i) 0,
Cij C( j / i),
i, j 1,2,, m.
由于一个判别规则实质上是就是对 p 维空间
R p 划分成 m 个互不相交的部分 R1, R2 ,, Rm,
即满足 Ri Rj , i, j 1,2,, m, i j.
和
m
Ri
Rp.
故为了方便起见,可简记一个
假设 R (R1, R2 ,, Rm )为p 维空间R p 的一 个划分,则在规则R 下,错判的平均损失为
m
m
m
g(R) qir(i, R) qi C( j / i)P( j / i, R)
i 1
i1 j1
如何寻找一个划分R ,使g(R) 达到最小呢?
我们有如下的定理。
定理4 设有 m 个总体 G1,G2 ,,Gm,其概率 密度分别为 f1( x), f2( x),, fm ( x), 且各个总体 Gi 出现的先验概率为q1,q2 ,,qm , 错判造成的 损失为 Cij C( j / i)(i, j 1,2,, m), 则使 g(R)
此时需要根据收集到的样本资料对参数作出估 计,然后将其相应的估计值代入线性判别函数 W ( X ) 中。下面就给出参数的估计。
设 X1, X 2 ,, X n1 是来自总体 G1的样本, Y1,Y2 ,,Yn2是来自总体G2的样本,且两样本相 互独立,则样本平均值
ˆ1
X
1 n1
n1 k 1
Xk
ˆ 2
有 D2( X ,G2 ) D2( X ,G1 ) 2W ( X ), 所以当 W ( X ) 0时,判定 X G1;否则判定 X G2 .
由于函数 W ( X ) aT ( X )
是 X 的线性函数,故称W ( X )为 X 的线性判别 函数,称 a为判别系数。
在实际应用中,参数 1, 2 及V 往往是未知的,
j1, ji
m
C( j / i)P( j / i, R)
j1
m
Cij Pij ( R) Ci Pi ( R)T
j1
其中Ci表示损失矩阵的第 i 行元素, 而 Pi (R)
表示矩阵 P(R) (Pij (R)) 的第 i 行元素。
由于每个总体发生的概率为q1,q2 ,,qm , 所以通
过判别规则 R进行判别所造成的总平均损失为 m
第九章 判别分析与聚类分析
一、距离判别 二、Bayes判别 三、Fisher判别 四、聚类分析简介
判别分析
判别分析是数据挖掘、机器学习、模式 识别等应用领域的重要理论基础。
模式识别包括语音辨识、手写体辨识、 图像识别、指纹识别等先进技术。
例 对10位应聘者做智能检验。3项指标X,Y和Z 分别表示数学推理能力,空间想象能力和语言理 解能力。其得分如下,选择合适的统计方法对应 聘者进行分类 —— 聚类分析。
定理2 设有两个总体 G1,G2 , 其密度函数分 别为 f1( x), f2( x), 两个总体的先验概率为q1,q2 ,
损失函数矩阵为C . 则Bayes判别法 R (R1, R2 ) 具有如下形式
R1 R2
x x
: C12q1 : C12q1
f1( x) f1( x)
C q 21 2 C q 21 2
确定。 定义损失函数 C( j / i), 表示将本来属
于Gi 的样品错判为属于G j所造成的损失,规 定 C(i / i) 0. 显然应有
C( j / i) 0, i, j 1,2,, m
用损失矩阵表示,即
C11
C
C 21
Cm1
C12 C 22
Cm2
C1m C2m
Cmm
ni m i1
i 1
二、Bayes判别
(一) Bayes判别的基本概念 设有 m 个总体 G1,G2 ,,Gm,其概率密度分
别为 f1( x), f2( x),, fm ( x), 且是互不相同的。 进一步假设已知 m 个总体各自发生的概率为 q1,q2 ,,qm , 这个已知的概率称为先验概率, 可以由经验给出,也可由收集到的历史资料
法有更简便的形式,依定理形式给出如下。
定理3 设总体 G1和G2 分别服从协方差阵相
同的正态分布 N p (1,V )和N p (2 ,V ),且V 0.
则当参数 1, 2及V 均已知时, Bayes判别法
R (R1, R2 )具有如下形式
R1 R2
x x
:W :W
( (
x) x)
d d
i 1
判别规则为 R (R1, R2 ,, Rm ), 那么将属于 Gi
的样品判为属于G j的(错判概率)概率记为
P( j / i, R) 或 Pij (R), 即
Pij (R) P( j / i, R) fi ( x)dx,
Rj
i, j 1,2,, m, i j.
这时 P(i / i, R) 表示正确判别的概率,即
Y
1 n2
n2
Yk
k 1
分别是总体均值1和2 的一致最小方差无偏估
计。 这样 的估计可取为
V 的估计为
ˆ ˆ1 ˆ2
2
Vˆ
n1
1 n2
2 ( S1
S2 )
其中
n1
S1 ( X k X )( X k X )T
k 1
n2
S2 (Yk Y )(Yk Y )T
k 1
故当参数均未知时,判别函数为
W ( X ) aT ( X ˆ )
其中判别系数为
a Vˆ 1(ˆ1 ˆ2 )
注:距离判别法不必知道总体的分布。
2、两总体协差阵不等的情形:
设两个总体 G1和G2 的协方差阵为V1和V2, 且 V1 V2 , 所有的参数均已知,这时就直接用样 品到总体的马氏距离来判别,即判别规则为
当 D2( X ,G1 ) D2( X ,G2 ) 时,X G1;
D
2
(
X
,
Gk
)
min{
1 i m
D
2
(
X
,
Gi
)}
成立,则判别 X Gk。
同样, 当总体的参数未知时,应先利 用来自 m个总体的相互独立的样本给出所有未 知参数的估计,再利用上述判别法进行判别。
对同协方差阵的情形,可以由 m个样本给
出 V 的估计 Vˆ m 1
m
Si , 具体判别过程
不再赘述。
应聘者 1 2 3 4 5 6 7 8 9 10 X 28 18 11 21 26 20 16 14 24 22 Y 29 23 22 23 29 23 22 23 29 27 Z 28 18 16 22 26 22 22 24 24 24
对某应聘者的得分,排定他属于哪一类 —— 判别 分析。
3
一、距离判别
其中 W ( x) ( x )TV 1(1 2 ),
1
2
d ln K ,
2
K C q 21 2 . C12q1
注:从 W ( x)的表达式可知Bayes判别函数与
距离判别函数完全相同,只是临界值有所不
同,
当先验概率 q1
q2
1 2
,即任取一个样
品 X,它等可能地来自总体 G1或 G2, 且错判