第六章 判别分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第6章 判别分析
在生产、科研和日常生活中,我们经常会遇到需要 对某一研究对象属于哪种情况作出判断。 例如,要根据这两天天气情况判断明天是否会下雨。
医生要根据病人的体温、白血球数目及其它症 状判断此病人是否患某种疾病
地质勘探中需要从岩石标本的多种特性去判断 该地区是否有某种矿
持股票者要根据某一种股票近期变化情况判断 此种股票是升还是降。
uj
及总体协方差Σj都为未
知,自然用样本平均值及样本协方差阵来代替。即从
Gj中抽取nj个样本单元来计算
xj
,
S
1 j
(
j
2,,m。) 这时
d
2
(
y,
G
j
)
(
y
x
j
)S
1 j
(
y
x
j
)
例6.1 在遥感技术的应用研究中,利用卫星磁带的 各波段光强度进行土地类型分类。首先将研究地区分 成m个类型,想象将各类型划分成大小相同的许多样 地,在每个类型中抽取一部分样地作为观测样地。测 定每个观测样地四个波段的光谱度(4,5,6,7四个 波段),用以估计各类型(总体)平均值和协方差阵。 然后依次判断各样地所属类型,从而达到将全部土地 进行分类的目的。
7 0.01006 0.00782 0.04611 0.08261
地 6 0.00039 -0.00015 0.00148
7 0.00024 0.00005 0.00095 0.00091
平均数 0.0728 0.0498 0.3261 0.4378
平均数 0.0583 0.0443 0.0255 0.0190
平均数 0.0503 0.0357 0.2490 0.3266
平均数 0.0351 0.0264 0.1624 0.2333
波段 4 5 6 7
波段 4 5 6 7
4 0.00091
竹 5
0.00143 0.00117
4 0.00094
水 5
-0.00015 0.00021
林 6 0.00656 0.00516 0.03606
d
2
(
y, G
j
)
(
y
u
j
)
1 j
(
y
u
j
)
距离判别的基本原则如下:
d2( y1,.G计j)算,y
与各总体Gj(j=1,…,m)的马氏距离
y 2.找出其中的最小值,若d2(
划入第k类。即若
dLeabharlann Baidu
2
(
y,
Gk
)
min
1 jm
d
2,G( yk,)G最j )小 ,,则则判将
y
定
y Gk。
注意:如果总体平均值
本例取自杭州附近某林区利用光谱进行土地分类 的研究材料。为了说明问题,材料是经显著简化了的。 这里只取了四个类型(纯针叶林,阔叶混交林,竹林, 水地),每个类型选取15块观测样地进行光强度测量。 然后算出了四个类型的离差矩阵和平均值,如表(6.1) 所示
波段 4 5 6 7
波段 4 5 6 7
表(6.1) 四种土地类型各波段的离差阵Q
正因为它有这样的特点,所以有些文献把判别分析 又叫做有监督分类。
解决这个问题可以有多种途径,我们只介绍其常用 的一些,如距离判别,贝叶斯判别,费歇判别等。
§6.1 距离判别
如果事先已有m类的知识,我们把每一类看成一
个向量总为体,u j,设协每方个差总矩体阵都为是Σpj(维j=变1,2量,…,,m第),j类Gj的平均 现有一个样本y ,要判断它属于哪一个总体,
0.041
0.048
6
0.238
0.210
0.352
0.187
0.389
0.319
0.355
0.241
0.223
0.183
0.122
0.143
0.040
0.029
0.019
0.029
7
0.299
0.266
0.466
0.261
0.520
0.442
0.494
0.335
0.300
0.253
阔
叶
林
4
5
6
7
0.00088
0.00061
0.00417
0.00521
0.00071
0.00531
0.00728
0.05360
0.07165
0.10233
4 0.00261
针叶 5
0.000231 0.000269
纯林 6
0.002130 0.002310 0.020779
7 0.002419 0.002720 0.023690 0.028887
(ⅱ)马氏(Mahalanobis)距离
印度统计学家Mahalanobis设计出了这种距离。
di2j xi x j S 1 xi x j
马氏距离与原始数据的测量单位无关。 马氏距离虽然与测量单位无关,但它
又会夸大缩小变量的作用,这是马氏距离在 实用中的不足。
马氏距离判别
待判样本到各类的马氏距离
现在要根据这些基础材料判别各样地属于哪一个类型,如 果将所研究地区的全部样地都判定了它属于哪个类型,也就达 到了划分土地类型的目的。为此只要测定各样地的四个波段光 强度,用判别分析的方法进行判定就可以了。
表(6.2) 对16个样本材料进行距离判别
样本号 波段
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
这些问题都是判别问题
判别分析是判别样品所属类型的一种统计方法。 例如,事先已知某地区土壤分类,分为G1,G2,…, Gm类,现在又取得了一个土样,需要判定这个土样属 于哪一类。
类似的问题还很多,如判断一株植物属于哪个种, 判断一个林分属于哪个类型,判断一个地区属于哪种 气候类型等。
这些问题有一共同特点,就是事先已有“类”的划 分,或事先已对某些已知样本分好了“类”,需要判 断那些还未分类的样本究竟属于哪一类。
16
4
0.052
0.054
0.056
0.041
0.092
0.065
0.076
0.067
0.050
0.048
0.030
0.033
0.053
0.061
0.062
0.068
5
0.034
0.034
0.046
0.029
0.064
0.042
0.052
0.043
0.034
0.028
0.021
0.026
0.044
0.039
即要将该样本进行归类。 一个最直观的想法,就是计算该样本到各总体
之间的距离,并且将其归入离它最近的那一类。
欧氏距离与马氏距离
(ⅰ)欧氏(Euchiled)距离
p
di2j (xi x j )2 (xi xj )(xi xj ) 1
欧氏距离虽然很有用,很也有明显的缺点。 例如,当改变测量单位时,算出的距离数值就不 相同。再则它将样本的不同属性(即各变量)之 间的差别等同看待,有时不能满足实际要求,因 为事物个体间不同属性的差异对于区别个体有着 不同的重要性。
在生产、科研和日常生活中,我们经常会遇到需要 对某一研究对象属于哪种情况作出判断。 例如,要根据这两天天气情况判断明天是否会下雨。
医生要根据病人的体温、白血球数目及其它症 状判断此病人是否患某种疾病
地质勘探中需要从岩石标本的多种特性去判断 该地区是否有某种矿
持股票者要根据某一种股票近期变化情况判断 此种股票是升还是降。
uj
及总体协方差Σj都为未
知,自然用样本平均值及样本协方差阵来代替。即从
Gj中抽取nj个样本单元来计算
xj
,
S
1 j
(
j
2,,m。) 这时
d
2
(
y,
G
j
)
(
y
x
j
)S
1 j
(
y
x
j
)
例6.1 在遥感技术的应用研究中,利用卫星磁带的 各波段光强度进行土地类型分类。首先将研究地区分 成m个类型,想象将各类型划分成大小相同的许多样 地,在每个类型中抽取一部分样地作为观测样地。测 定每个观测样地四个波段的光谱度(4,5,6,7四个 波段),用以估计各类型(总体)平均值和协方差阵。 然后依次判断各样地所属类型,从而达到将全部土地 进行分类的目的。
7 0.01006 0.00782 0.04611 0.08261
地 6 0.00039 -0.00015 0.00148
7 0.00024 0.00005 0.00095 0.00091
平均数 0.0728 0.0498 0.3261 0.4378
平均数 0.0583 0.0443 0.0255 0.0190
平均数 0.0503 0.0357 0.2490 0.3266
平均数 0.0351 0.0264 0.1624 0.2333
波段 4 5 6 7
波段 4 5 6 7
4 0.00091
竹 5
0.00143 0.00117
4 0.00094
水 5
-0.00015 0.00021
林 6 0.00656 0.00516 0.03606
d
2
(
y, G
j
)
(
y
u
j
)
1 j
(
y
u
j
)
距离判别的基本原则如下:
d2( y1,.G计j)算,y
与各总体Gj(j=1,…,m)的马氏距离
y 2.找出其中的最小值,若d2(
划入第k类。即若
dLeabharlann Baidu
2
(
y,
Gk
)
min
1 jm
d
2,G( yk,)G最j )小 ,,则则判将
y
定
y Gk。
注意:如果总体平均值
本例取自杭州附近某林区利用光谱进行土地分类 的研究材料。为了说明问题,材料是经显著简化了的。 这里只取了四个类型(纯针叶林,阔叶混交林,竹林, 水地),每个类型选取15块观测样地进行光强度测量。 然后算出了四个类型的离差矩阵和平均值,如表(6.1) 所示
波段 4 5 6 7
波段 4 5 6 7
表(6.1) 四种土地类型各波段的离差阵Q
正因为它有这样的特点,所以有些文献把判别分析 又叫做有监督分类。
解决这个问题可以有多种途径,我们只介绍其常用 的一些,如距离判别,贝叶斯判别,费歇判别等。
§6.1 距离判别
如果事先已有m类的知识,我们把每一类看成一
个向量总为体,u j,设协每方个差总矩体阵都为是Σpj(维j=变1,2量,…,,m第),j类Gj的平均 现有一个样本y ,要判断它属于哪一个总体,
0.041
0.048
6
0.238
0.210
0.352
0.187
0.389
0.319
0.355
0.241
0.223
0.183
0.122
0.143
0.040
0.029
0.019
0.029
7
0.299
0.266
0.466
0.261
0.520
0.442
0.494
0.335
0.300
0.253
阔
叶
林
4
5
6
7
0.00088
0.00061
0.00417
0.00521
0.00071
0.00531
0.00728
0.05360
0.07165
0.10233
4 0.00261
针叶 5
0.000231 0.000269
纯林 6
0.002130 0.002310 0.020779
7 0.002419 0.002720 0.023690 0.028887
(ⅱ)马氏(Mahalanobis)距离
印度统计学家Mahalanobis设计出了这种距离。
di2j xi x j S 1 xi x j
马氏距离与原始数据的测量单位无关。 马氏距离虽然与测量单位无关,但它
又会夸大缩小变量的作用,这是马氏距离在 实用中的不足。
马氏距离判别
待判样本到各类的马氏距离
现在要根据这些基础材料判别各样地属于哪一个类型,如 果将所研究地区的全部样地都判定了它属于哪个类型,也就达 到了划分土地类型的目的。为此只要测定各样地的四个波段光 强度,用判别分析的方法进行判定就可以了。
表(6.2) 对16个样本材料进行距离判别
样本号 波段
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
这些问题都是判别问题
判别分析是判别样品所属类型的一种统计方法。 例如,事先已知某地区土壤分类,分为G1,G2,…, Gm类,现在又取得了一个土样,需要判定这个土样属 于哪一类。
类似的问题还很多,如判断一株植物属于哪个种, 判断一个林分属于哪个类型,判断一个地区属于哪种 气候类型等。
这些问题有一共同特点,就是事先已有“类”的划 分,或事先已对某些已知样本分好了“类”,需要判 断那些还未分类的样本究竟属于哪一类。
16
4
0.052
0.054
0.056
0.041
0.092
0.065
0.076
0.067
0.050
0.048
0.030
0.033
0.053
0.061
0.062
0.068
5
0.034
0.034
0.046
0.029
0.064
0.042
0.052
0.043
0.034
0.028
0.021
0.026
0.044
0.039
即要将该样本进行归类。 一个最直观的想法,就是计算该样本到各总体
之间的距离,并且将其归入离它最近的那一类。
欧氏距离与马氏距离
(ⅰ)欧氏(Euchiled)距离
p
di2j (xi x j )2 (xi xj )(xi xj ) 1
欧氏距离虽然很有用,很也有明显的缺点。 例如,当改变测量单位时,算出的距离数值就不 相同。再则它将样本的不同属性(即各变量)之 间的差别等同看待,有时不能满足实际要求,因 为事物个体间不同属性的差异对于区别个体有着 不同的重要性。