应用概率统计之判别分析
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
假设m 个总体出现的先验概率分别为: 假设将属于Gi 的样品错判给 Gj 的损失记为C(j|i)。
显然有 C(i|i)=0 ,C(j|i)≥0 。 假设判别规则为: R=(R1, …,Rm )。则根据此规则
的错判概率为:
励志人生 好好学习
• 判别法则R把来自总体Gi 的个体错判给其它总体的 平均损失:
励志人生 好好学习
应用概率统计之判别分 析
励志人生 好好学习
第八章 判别分析
➢ 判别分析的含义:
➢ 根据给定的若干总体的观测资料,构造出一个 判别函数,并由此函数对于某一样品属于哪个总体 做出判断。
➢ 判别分析的主要方法:
➢ 距离判别(Distance Discrimination);
➢ Bayes 判别;Fisher判别等。
定义 x 和总体 G 之间的马氏距离为:
✓ 马氏距离满足距离的三条公理。 ✓ 当V=I 时,马氏距离即为通常的欧式距离。
励志人生 好好学习
若变量之间是相互无关的,则协方差矩阵为对角矩阵
励志人生 好好学习
励志人生 好好学习
二、两个总体的判别分析
1. 两个总体有相同的协方差阵:
❖ 直观的判别准则:
一、Fisher 线性判别函数 假设有m 个总体G1, …,Gm ,xi 表示来自总体Gi 的
样品。对任一给定的方向u, xi 在该方向上的投影为
记
励志人生 好好学习
在u 方向各总体之间的分离程度——组间离差
励志人生 好好学习
在u方向各总体内部的聚集程度——组内离差
Fisher判别的思想:选择u,B(u)/E(u) 达到最大。
Bayes 判别的基本概念 两个总体的判别 三群以上的判别
励志人生 好好学习
有三个箱子,分别编号为1,2,3,1号箱装有1个红 球4个白球,2号箱装有2红球3白球,3号箱装有3红 球. 某人从三箱中任取一箱,从中任意摸出一球, 发现是红球,求该球是取自1号箱的概率 .
?
1红4白
12 3
或等价地描述成:
励志人生 好好学习
励志人生 好好学习
❖ 判别函数: ❖令
,则有
Байду номын сангаас
W(x) 即为距离判别函数。
励志人生 好好学习
❖若 ❖ W(x) 为
已知,令
,则
称W (x) 为线性判别函数,a 为判别系数, 为判别 常数。
❖ 几何解释:总体G1、G2 的支撑之间存在重叠部分。 判别就是经判别函数W(x) 建立一个法则,样本空间通 过W(x) 划分为两个无公共部分的区域 R1、R2 。
励志人生 好好学习
定义:设p 维向量u0 满足
则对于任意观测值x , 性判别函数
称为Fisher线
励志人生 好好学习
➢二、 Fisher线性判别函数的建立——u 的得出 目标函数:
约束条件(保证u的唯一性): 由Lagrange乘数法得到:
励志人生 好好学习
进一步推出:
定理: Fisher线性判别函数中的u0 是E-1B 的最大 特征根所对应的特征向量。
将x判给Rj的风险密度
励志人生 好好学习
证明:
励志人生 好好学习
推论:若c(j|i)=1, c(i|i)=0, 则划分R=(R1, …,Rm ) 的 Bayes 解为
励志人生 好好学习
2. 多个正态总体的判别
当各总体的协方差阵相同时
励志人生 好好学习
§3 Fisher判别
➢ 基本思想:Fisher借助方差分析的思想来导出线 性判别函数。其思想是:找一个方向,在这个方 向上要使各总体内部尽可能“密集”;而各总体之 间尽可能“分开”。然后将观测值向这个方向投影 ,根据投影值的大小来进行判别。
3. 距离判别的计算步骤: • 列出样本观测阵 • 计算样本均值和离差矩阵:
• 计算协方差阵的无偏估计:
或
励志人生 好好学习
• 计算样本协方差阵的逆矩阵 • 计算回报的误判率:对原来的部分或全部样
品,分别计算到两个总体的马氏距离,并比较 大小,作出归类结论,记下错判的样品个数。 • 对新样品进行判别。
励志人生 好好学习
变量
均值向量 优秀 一般
资金利润率 13.5 5.4 劳动生产率 40.7 29.8
产品净值率 10.7 6.2
协方差矩阵
68.39 40.24 21.41
40.24 54.58 11.67
21.41 11.67 7.90
励志人生 好好学习
V={68.39 40.24 21.41, 40.24 54.58 11.67, 21.41 11.67 7.90};
则有
其中
励志人生 好好学习
❖ 距离判别与Bayes判别的比较
• q1=q2=1/2, c(2|1)=c(1|2)时, Bayes判别准则即 为距离判别准则;
• 距离判别不要求两个总体是正态总体,也不要 求两个总体具有相同的方差阵。
励志人生 好好学习
❖ 误判概率的计算 • W(x) 的条件分布
其中 证明:
• 用规则R进行判别的总平均损失:
• Bayes 法则:选择R,使总平均损失g(R) 达到最小。
励志人生
好好二学、习 两个总体的判别 ❖ 规则的导出
g(R) 最小当且仅当R2只包含全部满足下面条件的点x。
励志人生 好好学习
❖ Bayes 判别准则:R=(R1, R2)
❖ G1, G2 为两个正态总体时的Bayes 判别 ❖ 假设
励志人生 好好学习
两个总体的费歇(Fisher)判别法
u: 能使总体尽可能分开的方向
x:不能使总体尽可能分 开的方向
旋转坐标轴至总体单位尽可能分开的方向,此时 分类变量被简化为一个
励志人生 好好学习
,它们的均值向量和协
❖ 判别思想:将样本空间划分成互不相交的m 个部 分,每一部分对应于一个总体的“势力范围” Ri 。其 中
励志人生 好好学习
四、距离判别的优缺点
• 优点:计算简单,结论明确,很实用。 • 缺点:没有考虑两个总体各自出现的概率;
没有考虑错判以后造成的损失。
励志人生 好好学习
§2 Bayes 判别
励志人生 好好学习
例 在企业的考核中,可以根据企业的生产经营情
况把企业分为优秀企业和一般企业。考核企业经营状 况的指标有:
资金利润率=利润总额/资金占用总额
劳动生产率=总产值/职工平均人数
产品净值率=净产值/总产值
三个指标的均值向量和协方差矩阵如下。现有二个 企业,观测值分别为
(7.8,39.1,9.6)和(8.1,34.2,6.9),问这两 个企业应该属于哪一类?
mu1={13.5, 40.7, 10.7}; mu2={5.4, 29.8, 6.2}; mu=(mu1+mu2)/2; arfa=inv(V)*(mu1-mu2); c=t(arfa)*mu; print arfa c;
励志人生
好好学线习性判别函数:
励志人生 好好学习
三、多总体的判别
假设有m 个总体: 方差矩阵分别是
励志人生 好好学习 x2
R1
R2
G1 G2
x1
❖ 错判问题 ❖ 实践中的判别方法:将上述各公式中的总体均 值向量和协方差矩阵,用各自的样本估值来替代。
励志人生 好好学习
2. 两个总体的方差不相等
• 判别法则: 判别函数:
励志人生 好好学习
判别规则:
实践中分别用样本参数估计 总体中的参数
替代
励志人生 好好学习
励志人生 好好学习
该公式于1763年由贝叶斯 (Bayes) 给出. 它是在观 察到事件B已发生的条件下,寻找导致B发生的每个 原因的概率。建立在Bayes公式基础之上的判别方 法称为Bayes判别。
励志人生 好好学习
一、Bayes 判别的基本概念
假设有 m 个总体为 G1, …,Gm ,对应的概率密度 各不相同。
励志人生 好好学习
§1 距离判别
判别思想:
根据样品到各个总体的距离的比较,判别其归属 。
这里样品到总体的距离指的是样品到总体均值的 距离。
欧式距离的缺陷:
• 欧式距离是一种绝对距离,无法反映出概率上的差 异。
• 当分量的性质不同时,距离的大小与单位有关。
励志人生 好好学习
A
励志人生 好好学习
一、马氏(Mahalanobis)距离 设 x、y 是均值向量为μ、协方差矩阵为V 的总体G 中 抽取的两个样品,定义 x、y 之间的马氏距离为:
励志人生 好好学习
• 误判概率
励志人生 好好学习
❖ 实际应用问题 1. 判别函数:
2. 先验概率及损失:在无先验信息的情况下, 常取:
励志人生
好三好、学习m 个总体的判别
1. Bayes 判别的基本定理:假设有 m 个总体为G1, …,Gm ,对应的概率密度分别为
损失是{ c(j|i)}, 则划分R=(R1, …,Rm ) 的Bayes 解 为 其中
显然有 C(i|i)=0 ,C(j|i)≥0 。 假设判别规则为: R=(R1, …,Rm )。则根据此规则
的错判概率为:
励志人生 好好学习
• 判别法则R把来自总体Gi 的个体错判给其它总体的 平均损失:
励志人生 好好学习
应用概率统计之判别分 析
励志人生 好好学习
第八章 判别分析
➢ 判别分析的含义:
➢ 根据给定的若干总体的观测资料,构造出一个 判别函数,并由此函数对于某一样品属于哪个总体 做出判断。
➢ 判别分析的主要方法:
➢ 距离判别(Distance Discrimination);
➢ Bayes 判别;Fisher判别等。
定义 x 和总体 G 之间的马氏距离为:
✓ 马氏距离满足距离的三条公理。 ✓ 当V=I 时,马氏距离即为通常的欧式距离。
励志人生 好好学习
若变量之间是相互无关的,则协方差矩阵为对角矩阵
励志人生 好好学习
励志人生 好好学习
二、两个总体的判别分析
1. 两个总体有相同的协方差阵:
❖ 直观的判别准则:
一、Fisher 线性判别函数 假设有m 个总体G1, …,Gm ,xi 表示来自总体Gi 的
样品。对任一给定的方向u, xi 在该方向上的投影为
记
励志人生 好好学习
在u 方向各总体之间的分离程度——组间离差
励志人生 好好学习
在u方向各总体内部的聚集程度——组内离差
Fisher判别的思想:选择u,B(u)/E(u) 达到最大。
Bayes 判别的基本概念 两个总体的判别 三群以上的判别
励志人生 好好学习
有三个箱子,分别编号为1,2,3,1号箱装有1个红 球4个白球,2号箱装有2红球3白球,3号箱装有3红 球. 某人从三箱中任取一箱,从中任意摸出一球, 发现是红球,求该球是取自1号箱的概率 .
?
1红4白
12 3
或等价地描述成:
励志人生 好好学习
励志人生 好好学习
❖ 判别函数: ❖令
,则有
Байду номын сангаас
W(x) 即为距离判别函数。
励志人生 好好学习
❖若 ❖ W(x) 为
已知,令
,则
称W (x) 为线性判别函数,a 为判别系数, 为判别 常数。
❖ 几何解释:总体G1、G2 的支撑之间存在重叠部分。 判别就是经判别函数W(x) 建立一个法则,样本空间通 过W(x) 划分为两个无公共部分的区域 R1、R2 。
励志人生 好好学习
定义:设p 维向量u0 满足
则对于任意观测值x , 性判别函数
称为Fisher线
励志人生 好好学习
➢二、 Fisher线性判别函数的建立——u 的得出 目标函数:
约束条件(保证u的唯一性): 由Lagrange乘数法得到:
励志人生 好好学习
进一步推出:
定理: Fisher线性判别函数中的u0 是E-1B 的最大 特征根所对应的特征向量。
将x判给Rj的风险密度
励志人生 好好学习
证明:
励志人生 好好学习
推论:若c(j|i)=1, c(i|i)=0, 则划分R=(R1, …,Rm ) 的 Bayes 解为
励志人生 好好学习
2. 多个正态总体的判别
当各总体的协方差阵相同时
励志人生 好好学习
§3 Fisher判别
➢ 基本思想:Fisher借助方差分析的思想来导出线 性判别函数。其思想是:找一个方向,在这个方 向上要使各总体内部尽可能“密集”;而各总体之 间尽可能“分开”。然后将观测值向这个方向投影 ,根据投影值的大小来进行判别。
3. 距离判别的计算步骤: • 列出样本观测阵 • 计算样本均值和离差矩阵:
• 计算协方差阵的无偏估计:
或
励志人生 好好学习
• 计算样本协方差阵的逆矩阵 • 计算回报的误判率:对原来的部分或全部样
品,分别计算到两个总体的马氏距离,并比较 大小,作出归类结论,记下错判的样品个数。 • 对新样品进行判别。
励志人生 好好学习
变量
均值向量 优秀 一般
资金利润率 13.5 5.4 劳动生产率 40.7 29.8
产品净值率 10.7 6.2
协方差矩阵
68.39 40.24 21.41
40.24 54.58 11.67
21.41 11.67 7.90
励志人生 好好学习
V={68.39 40.24 21.41, 40.24 54.58 11.67, 21.41 11.67 7.90};
则有
其中
励志人生 好好学习
❖ 距离判别与Bayes判别的比较
• q1=q2=1/2, c(2|1)=c(1|2)时, Bayes判别准则即 为距离判别准则;
• 距离判别不要求两个总体是正态总体,也不要 求两个总体具有相同的方差阵。
励志人生 好好学习
❖ 误判概率的计算 • W(x) 的条件分布
其中 证明:
• 用规则R进行判别的总平均损失:
• Bayes 法则:选择R,使总平均损失g(R) 达到最小。
励志人生
好好二学、习 两个总体的判别 ❖ 规则的导出
g(R) 最小当且仅当R2只包含全部满足下面条件的点x。
励志人生 好好学习
❖ Bayes 判别准则:R=(R1, R2)
❖ G1, G2 为两个正态总体时的Bayes 判别 ❖ 假设
励志人生 好好学习
两个总体的费歇(Fisher)判别法
u: 能使总体尽可能分开的方向
x:不能使总体尽可能分 开的方向
旋转坐标轴至总体单位尽可能分开的方向,此时 分类变量被简化为一个
励志人生 好好学习
,它们的均值向量和协
❖ 判别思想:将样本空间划分成互不相交的m 个部 分,每一部分对应于一个总体的“势力范围” Ri 。其 中
励志人生 好好学习
四、距离判别的优缺点
• 优点:计算简单,结论明确,很实用。 • 缺点:没有考虑两个总体各自出现的概率;
没有考虑错判以后造成的损失。
励志人生 好好学习
§2 Bayes 判别
励志人生 好好学习
例 在企业的考核中,可以根据企业的生产经营情
况把企业分为优秀企业和一般企业。考核企业经营状 况的指标有:
资金利润率=利润总额/资金占用总额
劳动生产率=总产值/职工平均人数
产品净值率=净产值/总产值
三个指标的均值向量和协方差矩阵如下。现有二个 企业,观测值分别为
(7.8,39.1,9.6)和(8.1,34.2,6.9),问这两 个企业应该属于哪一类?
mu1={13.5, 40.7, 10.7}; mu2={5.4, 29.8, 6.2}; mu=(mu1+mu2)/2; arfa=inv(V)*(mu1-mu2); c=t(arfa)*mu; print arfa c;
励志人生
好好学线习性判别函数:
励志人生 好好学习
三、多总体的判别
假设有m 个总体: 方差矩阵分别是
励志人生 好好学习 x2
R1
R2
G1 G2
x1
❖ 错判问题 ❖ 实践中的判别方法:将上述各公式中的总体均 值向量和协方差矩阵,用各自的样本估值来替代。
励志人生 好好学习
2. 两个总体的方差不相等
• 判别法则: 判别函数:
励志人生 好好学习
判别规则:
实践中分别用样本参数估计 总体中的参数
替代
励志人生 好好学习
励志人生 好好学习
该公式于1763年由贝叶斯 (Bayes) 给出. 它是在观 察到事件B已发生的条件下,寻找导致B发生的每个 原因的概率。建立在Bayes公式基础之上的判别方 法称为Bayes判别。
励志人生 好好学习
一、Bayes 判别的基本概念
假设有 m 个总体为 G1, …,Gm ,对应的概率密度 各不相同。
励志人生 好好学习
§1 距离判别
判别思想:
根据样品到各个总体的距离的比较,判别其归属 。
这里样品到总体的距离指的是样品到总体均值的 距离。
欧式距离的缺陷:
• 欧式距离是一种绝对距离,无法反映出概率上的差 异。
• 当分量的性质不同时,距离的大小与单位有关。
励志人生 好好学习
A
励志人生 好好学习
一、马氏(Mahalanobis)距离 设 x、y 是均值向量为μ、协方差矩阵为V 的总体G 中 抽取的两个样品,定义 x、y 之间的马氏距离为:
励志人生 好好学习
• 误判概率
励志人生 好好学习
❖ 实际应用问题 1. 判别函数:
2. 先验概率及损失:在无先验信息的情况下, 常取:
励志人生
好三好、学习m 个总体的判别
1. Bayes 判别的基本定理:假设有 m 个总体为G1, …,Gm ,对应的概率密度分别为
损失是{ c(j|i)}, 则划分R=(R1, …,Rm ) 的Bayes 解 为 其中