第六章 判别分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
用判别分析方法处理问题时,通常要给出一个衡量新样品(样本点 )与已知组别接近程度的描述指标,即判别函数,同时也指定一种 判别规则,用来判定新样品的归属,判别规则可以是统计性的,决 定新样品所属类别时用的是显著性检验;也可以是确定性的,决定 样品归属时,只考虑判别函数值的大小。
判别分析按判别的组数来分有两组(两个总体)判别和多组(多个 总体)判别;按区分不同总体所用的数学模型来分有线性判别和非 线性判别等。
-7.182 -4.379 -2.144 -9.440 -6.573 -6.906 -4.245
原分类 1 1 1 1 1 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3
新分类 1 1 1 1 1 1 2 2 2 2 2 2 3 3 3 3 3 3 3 3
第二节 贝叶斯(Bayes)判别
新分类
1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2
二、多个总体的距离判别 (一)当协方差相等时,即
判别函数为 相应的判别规则为:
当均值和协方差矩阵未知时 (二)当
判别函数为
例6.2:在例6.1中,20种电视的13个畅销品种中,实际只有5种真正畅销,而有8种 是平销,另外7种滞销,其各项指标如表6-8。在销售状态中:1表示畅销,2表示 平销,3表示滞销。根据资料建立距离判别函数,并根据判别准则进行回判。假设 一家厂商生产的产品,其质量评分8.0,功能评分7.5,销售价格为65百元,该产品 的销售前景如何?
Sig. 0.000 0.000 0.000
建立判别函数,并进行回判
采用距离判别函数所得结果
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
5.174
1.349
3.078
0.662
2.260
2.553
-5.555
-1.535
-1.479
-5.858
其判别方法:距离判别法、 Fisher判别法、贝叶斯(Bayes)判别法.等。
X (x1, x2 , , xp )
第二节 距离判别
首先根据已知分类的数据,分别计算各类的重心,即各组(类)的均值 ,判别准则是对任给的一次观测,若它与第i类的重心距离最近,就认为 它来自第i组.
一、两个总体的距离判断法
例6.1:某地市场上销售的电视机有多种牌子,某商场从市场上随机抽取了 20种牌子的电视机进行调查,其中13种畅销,7种滞销。按电视机的质量评 分、功能评分和销售价格(单位:百元)搜集资料(见表),在销售状态中 :1表示畅销,2表示滞销,根据资料建立距离判别函数,并根据判别准则 进行回判。
20种电视Leabharlann Baidu的销售情况
编号
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
质量评分
8.3 9.5 8.0 7.4 8.8 9.0 7.0 9.2 8.0 7.6 7.2 6.4 7.3 6.0 6.4 6.8 5.2 5.8 5.5 6.0
功能评分
4.0 7.0 5.0 7.0 6.5 7.5 6.0 8.0 7.0 9.0 8.5 7.0 5.0 2.0 4.0 5.0 3.0 3.5 4.0 4.5
2.089 6
957.66 0.052
所以,判别在
下进行。
销售状态(组别)
1
质量评分
功能评分
销售价格
2
质量评分
功能评分
销售价格
mean
7.977 6.731 61.538 5.957 3.714 34.000
采用距离判别函数所得结果
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Wilks'
Lambda
F
df1
0.399
27.075
1
0.426
24.246
1
0.568
13.677
1
df2
Sig.
18
0.000
18
0.000
18
0.002
Box's Test of Equality of Covariance Matrices(a)
Box's M F df1 df2
Sig.
16.008
一、Bayes判别法的基本思想
假定对研究的对象已有一定的认识,常用先验概率分布来描述这种认识。然后取得一 个样本,用样本来修正已有的认识,得到后验概率分布,各种统计推断都通过后验概 率分布来进行。将贝叶斯思想用于判别分析就是贝叶斯判别。
设有k个总体
它们的先验概率为
各总体的密度函数分别是
在观测到一个样品x的情况下,可用Bayes公式计算它来自g
销售价格(百元) 29 68 39 50 55 58 75 82 67 90 86 53 48 20 39 48 29 32 34 36
销售状态(组别) 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2
质量评分 功能评分 销售价格
Tests of Equality of Group Means
的数值大小,但它并不是后验概率
因为
例6.2:在例6.1中,20种电视的13个畅销品种中,实际只有5种真正畅销,而有 8种是平销,另外7种滞销,其各项指标如表6-8。在销售状态中:1表示畅销, 2表示平销,3表示滞销。根据资料建立距离判别函数,并根据判别准则进行回 判。假设一家厂商生产的产品,其质量评分8.0,功能评分7.5,销售价格为65百 元,该产品的销售前景如何?
销售价格(百元)
29 68 39 50 55 58 75 82 67 90 86 53 48 20 39 48 29 32 34 36
销售状态(组别)
1 1 1 1 1 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
第六章 判别分析
第一节 什么是判别分析
在科学研究和日常生活中,往往会遇到这样的问题,即根据观测数据 对所研究的对象进行分类(组)判别。例如,在经济学中可根据人均 国内生产总值、人均消费水平等多种指标来判别一个国家的经济发展 程度所属类型;在气象学中,根据已有的气象资料(气温、气压、湿 度等)来判断明天是阴天还是晴天,有雨还是无雨等。以上各方面的 问题具有一个共同特点:就是事先已有“类”的划分,或事先已对某 些已知样品分好了“类”,需要判断那些还未分好的的样品究竟属于 哪一类。
待判
质量评分 8.3 9.5 8 7.4 8.8 9 7 9.2 8 7.6 7.2 6.4 7.3 6 6.4 6.8 5.2 5.8 5.5 6 8
功能评分 4 7 5 7 6.5 7.5 6 8 7 9 8.5 7 5 2 4 5 3 3.5 4 4.5 7.5
销售价格 29 68 39 50 55 58 75 82 67 90 86 53 48 20 39 48 29 32 34 36 65
总体的后验概率。
并且当
判x来自h总体。
二、多元正态总体的Bayes判别法
(一)判别函数的导出
P元正态分布密度函数为
把
代入
由于我们只关心寻找使
达到最大的
中的分母不论 为任何值都是常数,故只需要寻找
取对数,并去掉与g无关的项,记为:
(二)假定协差阵相等
(三)计算后验概率 作判别分类时,主要是根据判别函数
判别分析就是在研究对象用某种方法分好若干类(组)的情况下, 确定新样品属于已知类别中哪一类的多元统计分析方法。
判别分析和聚类分析不同,判别分析是在已知研究对象分成若干 类型(或 组别)并已取得各种类型的一批已知样品的观测数据 , 在此基础上根据某种准则建立判别函数式,然后对未知类型的样 品进行判别分类。而对于聚类分析,一批给定样品要划分的类型 事先并不知道,需要通过聚类分析来确定各样品所属的类型。所 以,判别分析和聚类分析往往结合起来运用。
、
-6.117
-1.947
-0.108
该厂商生产的产品,属于平销商品.
7.487 1.866 9.408 5.134 8.647 6.956 1.968 -0.164 -8.528 -3.748 -1.027 -7.879 -5.871 -5.446 -3.640
4.418 9.102 3.864 4.271 7.544
54.997 70.721 52.119 49.370 63.757 69.734 31.429 66.505 51.507 47.354 41.292 35.336 39.989 19.286 26.895 33.473 10.226 19.229 16.838 24.872 54.363
50.293 69.840 49.510 49.178 61.966 67.649 37.457 68.509 53.457 53.683 47.881 37.754 40.568 18.413 27.998 35.062 12.261 20.404 18.771 25.950 55.677
编号
质量评分
功能评分
销售价格(百元)
销售状态(组别)
1
8.3
4.0
29
1
2
9.5
7.0
68
1
3
8.0
5.0
39
1
4
7.4
7.0
50
1
5
8.8
6.5
55
1
6
9.0
7.5
58
2
7
7.0
6.0
75
2
8
9.2
8.0
82
2
9
8.0
7.0
67
2
10
7.6
9.0
90
2
11
7.2
8.5
86
2
12
6.4
7.0
53
2
13
7.3
5.0
48
2
14
6.0
2.0
20
3
15
6.4
4.0
39
3
16
6.8
5.0
48
3
17
5.2
3.0
29
3
18
5.8
3.5
32
3
19
5.5
4.0
34
3
20
6.0
4.5
36
3
Tests of Equality of Group Means
质量评分 功能评分 销售价格
Wilks' Lambda
F
df1
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
质量评分 8.3 9.5 8.0 7.4 8.8 9.0 7.0 9.2 8.0 7.6 7.2 6.4 7.3 6.0 6.4 6.8 5.2 5.8 5.5 6.0
功能评分 4.0 7.0 5.0 7.0 6.5 7.5 6.0 8.0 7.0 9.0 8.5 7.0 5.0 2.0 4.0 5.0 3.0 3.5 4.0 4.5
设有两个正态总体,
现有一个样品如图所示的A点,
A
距总体X的中心
远,距总体Y的中心
远
若按欧氏距离来度量,A点离总体X要比离总体Y近一些。但是,从概率论的
角度看,A点位于 点离总体Y近一些。
右侧的
而位于
左侧的
处,应该认为A
样品点x到
的马氏距离为:
(一)当
时
(二)当
时
虽然在两个总体有显著差异的条件下,误判概率很小,但当这种差异不很显 著时,误判的概率就很大。因此,只有当两个总体的均值有显著差异时,做 判别分析才有意义。
50.911 61.949 48.588 45.433 56.544 60.023 35.459 58.963 48.188 44.901 40.791 35.651 40.598 26.810 31.614 35.956 20.010 26.143 24.086 29.456 49.578
新分类 1 1 1 1 1 1 2 2 2 2 2 2 3 3 3 3 3 3 3 3 2
1.876 9.364 2.675 4.704 7.112 9.561 0.391 9.972 5.469 7.450 5.556 1.932 0.405 -7.873 -3.597 -0.910 -8.340 -5.873 -5.724 -3.472
原分类
1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2
设有两个总体(或称两类) 那么对于一个样品
它与哪一个总体最近。
两个总体的均值向量为
协方差矩阵分别为
要判断它来自哪一个总体,就应该看
首先计算 到
总体的距离,分别记为
准则判别归类,则判别规则可写成
按距离最近
如果距离定义采用欧氏距离,则可计算出: 按距离最近准则判别归类即可。
通常情况下我们所说的距离是指欧氏距离。但在统计学中,特别是在多元 分析中,有时用欧氏距离显得不是太合适。
df2
0.352
15.629
2
17
0.348
15.901
2
17
0.387
13.444
2
17
Box's Test of Equality of Covariance Matrices(a)
Box's M
F df1 df2 Sig.
25.468
1.518 12
886.161 0.112
判别分析就在
的条件下进行,而
判别分析按判别的组数来分有两组(两个总体)判别和多组(多个 总体)判别;按区分不同总体所用的数学模型来分有线性判别和非 线性判别等。
-7.182 -4.379 -2.144 -9.440 -6.573 -6.906 -4.245
原分类 1 1 1 1 1 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3
新分类 1 1 1 1 1 1 2 2 2 2 2 2 3 3 3 3 3 3 3 3
第二节 贝叶斯(Bayes)判别
新分类
1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2
二、多个总体的距离判别 (一)当协方差相等时,即
判别函数为 相应的判别规则为:
当均值和协方差矩阵未知时 (二)当
判别函数为
例6.2:在例6.1中,20种电视的13个畅销品种中,实际只有5种真正畅销,而有8种 是平销,另外7种滞销,其各项指标如表6-8。在销售状态中:1表示畅销,2表示 平销,3表示滞销。根据资料建立距离判别函数,并根据判别准则进行回判。假设 一家厂商生产的产品,其质量评分8.0,功能评分7.5,销售价格为65百元,该产品 的销售前景如何?
Sig. 0.000 0.000 0.000
建立判别函数,并进行回判
采用距离判别函数所得结果
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
5.174
1.349
3.078
0.662
2.260
2.553
-5.555
-1.535
-1.479
-5.858
其判别方法:距离判别法、 Fisher判别法、贝叶斯(Bayes)判别法.等。
X (x1, x2 , , xp )
第二节 距离判别
首先根据已知分类的数据,分别计算各类的重心,即各组(类)的均值 ,判别准则是对任给的一次观测,若它与第i类的重心距离最近,就认为 它来自第i组.
一、两个总体的距离判断法
例6.1:某地市场上销售的电视机有多种牌子,某商场从市场上随机抽取了 20种牌子的电视机进行调查,其中13种畅销,7种滞销。按电视机的质量评 分、功能评分和销售价格(单位:百元)搜集资料(见表),在销售状态中 :1表示畅销,2表示滞销,根据资料建立距离判别函数,并根据判别准则 进行回判。
20种电视Leabharlann Baidu的销售情况
编号
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
质量评分
8.3 9.5 8.0 7.4 8.8 9.0 7.0 9.2 8.0 7.6 7.2 6.4 7.3 6.0 6.4 6.8 5.2 5.8 5.5 6.0
功能评分
4.0 7.0 5.0 7.0 6.5 7.5 6.0 8.0 7.0 9.0 8.5 7.0 5.0 2.0 4.0 5.0 3.0 3.5 4.0 4.5
2.089 6
957.66 0.052
所以,判别在
下进行。
销售状态(组别)
1
质量评分
功能评分
销售价格
2
质量评分
功能评分
销售价格
mean
7.977 6.731 61.538 5.957 3.714 34.000
采用距离判别函数所得结果
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Wilks'
Lambda
F
df1
0.399
27.075
1
0.426
24.246
1
0.568
13.677
1
df2
Sig.
18
0.000
18
0.000
18
0.002
Box's Test of Equality of Covariance Matrices(a)
Box's M F df1 df2
Sig.
16.008
一、Bayes判别法的基本思想
假定对研究的对象已有一定的认识,常用先验概率分布来描述这种认识。然后取得一 个样本,用样本来修正已有的认识,得到后验概率分布,各种统计推断都通过后验概 率分布来进行。将贝叶斯思想用于判别分析就是贝叶斯判别。
设有k个总体
它们的先验概率为
各总体的密度函数分别是
在观测到一个样品x的情况下,可用Bayes公式计算它来自g
销售价格(百元) 29 68 39 50 55 58 75 82 67 90 86 53 48 20 39 48 29 32 34 36
销售状态(组别) 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2
质量评分 功能评分 销售价格
Tests of Equality of Group Means
的数值大小,但它并不是后验概率
因为
例6.2:在例6.1中,20种电视的13个畅销品种中,实际只有5种真正畅销,而有 8种是平销,另外7种滞销,其各项指标如表6-8。在销售状态中:1表示畅销, 2表示平销,3表示滞销。根据资料建立距离判别函数,并根据判别准则进行回 判。假设一家厂商生产的产品,其质量评分8.0,功能评分7.5,销售价格为65百 元,该产品的销售前景如何?
销售价格(百元)
29 68 39 50 55 58 75 82 67 90 86 53 48 20 39 48 29 32 34 36
销售状态(组别)
1 1 1 1 1 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
第六章 判别分析
第一节 什么是判别分析
在科学研究和日常生活中,往往会遇到这样的问题,即根据观测数据 对所研究的对象进行分类(组)判别。例如,在经济学中可根据人均 国内生产总值、人均消费水平等多种指标来判别一个国家的经济发展 程度所属类型;在气象学中,根据已有的气象资料(气温、气压、湿 度等)来判断明天是阴天还是晴天,有雨还是无雨等。以上各方面的 问题具有一个共同特点:就是事先已有“类”的划分,或事先已对某 些已知样品分好了“类”,需要判断那些还未分好的的样品究竟属于 哪一类。
待判
质量评分 8.3 9.5 8 7.4 8.8 9 7 9.2 8 7.6 7.2 6.4 7.3 6 6.4 6.8 5.2 5.8 5.5 6 8
功能评分 4 7 5 7 6.5 7.5 6 8 7 9 8.5 7 5 2 4 5 3 3.5 4 4.5 7.5
销售价格 29 68 39 50 55 58 75 82 67 90 86 53 48 20 39 48 29 32 34 36 65
总体的后验概率。
并且当
判x来自h总体。
二、多元正态总体的Bayes判别法
(一)判别函数的导出
P元正态分布密度函数为
把
代入
由于我们只关心寻找使
达到最大的
中的分母不论 为任何值都是常数,故只需要寻找
取对数,并去掉与g无关的项,记为:
(二)假定协差阵相等
(三)计算后验概率 作判别分类时,主要是根据判别函数
判别分析就是在研究对象用某种方法分好若干类(组)的情况下, 确定新样品属于已知类别中哪一类的多元统计分析方法。
判别分析和聚类分析不同,判别分析是在已知研究对象分成若干 类型(或 组别)并已取得各种类型的一批已知样品的观测数据 , 在此基础上根据某种准则建立判别函数式,然后对未知类型的样 品进行判别分类。而对于聚类分析,一批给定样品要划分的类型 事先并不知道,需要通过聚类分析来确定各样品所属的类型。所 以,判别分析和聚类分析往往结合起来运用。
、
-6.117
-1.947
-0.108
该厂商生产的产品,属于平销商品.
7.487 1.866 9.408 5.134 8.647 6.956 1.968 -0.164 -8.528 -3.748 -1.027 -7.879 -5.871 -5.446 -3.640
4.418 9.102 3.864 4.271 7.544
54.997 70.721 52.119 49.370 63.757 69.734 31.429 66.505 51.507 47.354 41.292 35.336 39.989 19.286 26.895 33.473 10.226 19.229 16.838 24.872 54.363
50.293 69.840 49.510 49.178 61.966 67.649 37.457 68.509 53.457 53.683 47.881 37.754 40.568 18.413 27.998 35.062 12.261 20.404 18.771 25.950 55.677
编号
质量评分
功能评分
销售价格(百元)
销售状态(组别)
1
8.3
4.0
29
1
2
9.5
7.0
68
1
3
8.0
5.0
39
1
4
7.4
7.0
50
1
5
8.8
6.5
55
1
6
9.0
7.5
58
2
7
7.0
6.0
75
2
8
9.2
8.0
82
2
9
8.0
7.0
67
2
10
7.6
9.0
90
2
11
7.2
8.5
86
2
12
6.4
7.0
53
2
13
7.3
5.0
48
2
14
6.0
2.0
20
3
15
6.4
4.0
39
3
16
6.8
5.0
48
3
17
5.2
3.0
29
3
18
5.8
3.5
32
3
19
5.5
4.0
34
3
20
6.0
4.5
36
3
Tests of Equality of Group Means
质量评分 功能评分 销售价格
Wilks' Lambda
F
df1
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
质量评分 8.3 9.5 8.0 7.4 8.8 9.0 7.0 9.2 8.0 7.6 7.2 6.4 7.3 6.0 6.4 6.8 5.2 5.8 5.5 6.0
功能评分 4.0 7.0 5.0 7.0 6.5 7.5 6.0 8.0 7.0 9.0 8.5 7.0 5.0 2.0 4.0 5.0 3.0 3.5 4.0 4.5
设有两个正态总体,
现有一个样品如图所示的A点,
A
距总体X的中心
远,距总体Y的中心
远
若按欧氏距离来度量,A点离总体X要比离总体Y近一些。但是,从概率论的
角度看,A点位于 点离总体Y近一些。
右侧的
而位于
左侧的
处,应该认为A
样品点x到
的马氏距离为:
(一)当
时
(二)当
时
虽然在两个总体有显著差异的条件下,误判概率很小,但当这种差异不很显 著时,误判的概率就很大。因此,只有当两个总体的均值有显著差异时,做 判别分析才有意义。
50.911 61.949 48.588 45.433 56.544 60.023 35.459 58.963 48.188 44.901 40.791 35.651 40.598 26.810 31.614 35.956 20.010 26.143 24.086 29.456 49.578
新分类 1 1 1 1 1 1 2 2 2 2 2 2 3 3 3 3 3 3 3 3 2
1.876 9.364 2.675 4.704 7.112 9.561 0.391 9.972 5.469 7.450 5.556 1.932 0.405 -7.873 -3.597 -0.910 -8.340 -5.873 -5.724 -3.472
原分类
1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2
设有两个总体(或称两类) 那么对于一个样品
它与哪一个总体最近。
两个总体的均值向量为
协方差矩阵分别为
要判断它来自哪一个总体,就应该看
首先计算 到
总体的距离,分别记为
准则判别归类,则判别规则可写成
按距离最近
如果距离定义采用欧氏距离,则可计算出: 按距离最近准则判别归类即可。
通常情况下我们所说的距离是指欧氏距离。但在统计学中,特别是在多元 分析中,有时用欧氏距离显得不是太合适。
df2
0.352
15.629
2
17
0.348
15.901
2
17
0.387
13.444
2
17
Box's Test of Equality of Covariance Matrices(a)
Box's M
F df1 df2 Sig.
25.468
1.518 12
886.161 0.112
判别分析就在
的条件下进行,而