距离判别分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
apf=[1.14,1.78; 1.18,1.96;1.20,1.86;1.26,2.;1.28,2;1.30,1.96]; 解: af=[1.24,1.72;1.36,1.74;1.38,1.64;1.38,1.82;1.38,1.90; 1.40,1.70;1.48,1.82;1.54,1.82;1.56,2.08];
第四章 判别分析 判别分析利用已知类别的样本为标准, 判别分析利用已知类别的样本为标准,对未 知样本进行判类的一种统计方法。 知样本进行判类的一种统计方法。它产生于本世 30年代 近年来,在自然科学、 年代。 纪30年代。近年来,在自然科学、社会学及经济 管理学科中都有广泛的应用。 管理学科中都有广泛的应用 。 判别分析的特点 是根据已掌握的、 是根据已掌握的、历史上每个类别的若干样本的 数据信息,总结出客观事物分类的规律性, 数据信息,总结出客观事物分类的规律性,建立 判别公式和判别准则。然后, 判别公式和判别准则。然后,当遇到新的样本点 只要根据总结出来的判别公式和判别准则, 时,只要根据总结出来的判别公式和判别准则, 就能判别该样本点所属的类别。 就能判别该样本点所属的类别。
如何解读计算主成分的数学表达式 我们设计算第一主成分的公式为: 我们设计算第一主成分的公式为:
Y1 = a 11 x 1 + a 12 x 2 + a 13 x 3 + a 14 x 4
的绝对值比较大, 若a11, a12 ,a14的绝对值比较大,表明第一主成 分主要提取了x1, x2 ,x4三个原始指标的信息; 三个原始指标的信息; 分主要提取了 如果此时再计算第二主成分, 如果此时再计算第二主成分,你会发现第二主 成分x 系数的绝对值就比x1, 系数的绝对 成分 3系数的绝对值就比 x2 ,x4系数的绝对 值要大, 值要大,也就是说第二主成分弥补了第一主成 分的不足. 分的不足
当两个总体的协方差矩阵不等时, 当两个总体的协方差矩阵不等时,我们 有如下判别方法
按照如下的判别准则: 按照如下的判别准则:
y G ,2 d ,1 ∈ 1, 如 (y G) <d (y G ), 2 2 y G d ,2 ,1 ∈ 2, 如 (y G ) <d (y G) 判 2 2 待 , 如 (y,G) =d (y,G) d 1 2
2.计算总体的协方差矩阵 计算总体的协方差矩阵 (n 1 − 1)S 1 + (n 2 − 1)S 2 其中 其中n1,n2分别为 分别为 S= 两个样本的容量. 两个样本的容量 n1 + n 2 − 2 3.计算未知样本 到A,B两类马氏距离之差 计算未知样本x到 计算未知样本 两类马氏距离之差 d=(x-ma)S-1(x-ma)’- (x-mb)S-1(x-mb)’
y G ,2 d ,1 ∈ 1, 如 (y G) <d (y G ), 2 2 y G d ,2 ,1 ∈ 2, 如 (y G ) <d (y G) 判 2 2 待 , 如 (y,G) =d (y,G) d 1 2
2 2
1. 两个总体协方差矩阵相等 由于实际问题中只能得到两个样本的协方 差矩阵S 差矩阵 1,S2,因此当两个总体协方差矩阵 因此当两个总体协方差矩阵 相等时如何确定总体的协方差矩阵S 相等时如何确定总体的协方差矩阵 ?
§1 距离判别 (一)马氏距离 距离判别的最直观的想法是计算样 品到第i类总体的平均数的距离, 品到第i类总体的平均数的距离,哪个 距离最小就将它判归哪个总体,所以, 距离最小就将它判归哪个总体,所以, 我们首先考虑的是是否能够构造一个恰 当的距离函数, 当的距离函数,通过样本与某类别之间 距离的大小, 距离的大小,判别其所属类别。
2 2
我们可以建立MATLAB的判别法如下: 的判别法如下: 我们可以建立 的判别法如下
y G mh l , 1 a a , 2, ∈ 1, 如 a a (y G ) <m h l(y G ) y G mh l , 2 aa ,1 ∈ 2, 如 a a (y G ) <m h l(y G ) 判 mh l , 1 aa 待 , 如 a a (y G ) =m h l(y,G ) 2
d (x, G ) = (x - µ)′Σ (x - µ)
2 -1
欧氏距离
d (x, G ) = (x - µ)′(x - µ)
2Βιβλιοθήκη Baidu
马氏距离有如下的特点: 马氏距离有如下的特点: 1、马氏距离不受计量单位的影响 马氏距离不受计量单位的影响; 马氏距离不受计量单位的影响 2、马氏距离是标准化后的变量的欧式距离 、
实际问题中如何应用主成分分析 如果遇到多目标决策问题,即有 个样品 个样品, 如果遇到多目标决策问题,即有n个样品, 每个样品有p个指标 要确定n个样品的排序就 个指标, 每个样品有 个指标,要确定 个样品的排序就 可以采取主成分分析.其思路就是将原有的 其思路就是将原有的p个 可以采取主成分分析 其思路就是将原有的 个 指标,换成k(k<p)个主成分,然后根据主成分 个主成分, 指标,换成 个主成分 的数值(又称主成分的得分)进行排序。 的数值(又称主成分的得分)进行排序。 若为利润型指标,则主成分得分大者排名靠前; 若为利润型指标,则主成分得分大者排名靠前; 若为成本型指标,则主成分得分小者排名靠前; 若为成本型指标,则主成分得分小者排名靠前 若只选第一主成分,则按其得分进行排名; 若只选第一主成分,则按其得分进行排名; 若选k个主成分 个主成分, 若选 个主成分,则按他们的加权平均进行排名 其中权向量就是k个特征值的归一化向量 个特征值的归一化向量. 其中权向量就是 个特征值的归一化向量
2 − 1
为X与Y之间的Mahalanobis距离平方 之间的Mahalanobis距离平方 Mahalanobis
样本X 样本X和G类之间的马氏距离平方定义为 类重心间的距离平方: X与G类重心间的距离平方:
d (x G =(x−µ)′Σ (x−µ) , )
2 − 1
注:重心即均值
马氏距离和欧式距离之间的差别 马氏距离
, 是从期望 , 设 x=(x1, x2,⋯xp)′和y =(y1, y2,⋯ yp)′ ′ 协方差阵Σ= σij , 为 µ =(µ ,µ2,⋯µp)、协方差阵 >0 1
( )
p ×p
的总体G抽得的两个观测值, 的总体 抽得的两个观测值,则称 抽得的两个观测值
d (x y =(x−y ′Σ (x−y , ) ) )
y=Σ
1 2
(x - µ)
-1 ′ - 1 y′y = Σ 2 ( x - µ ) Σ 2 ( x - µ ) 1 1 ′ Σ- 2 Σ- 2 ( x - µ ) = (x - µ)
= ( x - µ )′ Σ -1 ( x - µ )
3、若变量之间是相互无关的,则协方差 、若变量之间是相互无关的, 矩阵为对角矩阵
σ 11 σ 22 Σ= ⋱ σ pp
1 σ 11 Σ −1 =
1
σ 22
⋱ 1 σ pp
1 σ 11 2 ′ d (x, G ) = (x - µ)
4.若d<0,则x属于 类;若d>0,则x属于 类 属于A类 属于B类 则 属于 则 属于
上述公式可以化简为: 上述公式可以化简为: W(x)=(ma-mb)S-1(x-(ma+mb)/2)’ 属于G1;若W(x)<0,x属于 属于G2 若W(x)>0,x属于 , 属于 若 , 属于 注意: 注意: 1.此处 此处ma,mb都是行向量,与书中不同; 都是行向量, 此处 都是行向量 与书中不同; 2.当x是一个矩阵时,则用 当 是一个矩阵时 则用ones矩阵左乘 是一个矩阵时, 矩阵左乘 (ma+mb)/2以后,方可与x相减 以后,方可与 相减 相减. 以后
1
σ 22
(x - µ) ⋱ 1 σ pp
2
( x1 − µ1 ) =
σ 11
2
( x2 − µ2 ) +
σ 22
(x +⋯+
p
σ pp
− µp )
2
(二)两个总体距离判别法
先考虑两个总体的情况, 先考虑两个总体的情况,设有两个总体 G1 , G 2 对给定的样本 Y , 判别一个样本 Y 到底 对给定的样本Y 判别一个样本Y 是来自哪一个总体, 是来自哪一个总体 , 一个最直观的想法是计 算Y到两个总体的距离。故我们用马氏距离来 到两个总体的距离。 给定判别规则, 给定判别规则,有:
主成分分析可以有助于回归分析中自变量 的选择,如果原有 个自变量进行拟合效果 的选择,如果原有n个自变量进行拟合效果 不好,可考虑选择k个主成分为自变量进行 不好,可考虑选择 个主成分为自变量进行 拟合( 拟合(k<n),其原因在于原始的自变量之间 其原因在于原始的自变量之间 可能存在一定的相关性,而主成分之间彼 可能存在一定的相关性, 此不相关,可望消除多重共线性 此不相关,可望消除多重共线性.
解决实际问题有时采用协方差矩阵, 解决实际问题有时采用协方差矩阵,有 时采取相关系数矩阵, 时采取相关系数矩阵,究竟用那个矩阵要具 体问题具体分析,通常有以下准则: 体问题具体分析,通常有以下准则: 1. 若量纲不一样,应当先进行无量纲化,而相 若量纲不一样,应当先进行无量纲化, 关系数矩阵就是实现无量纲化的方法之一, 关系数矩阵就是实现无量纲化的方法之一,故 此时应采取相关系数矩阵计算; 此时应采取相关系数矩阵计算; 2. 用协方差矩阵与相关系数矩阵计算主成分 得分的公式不一样, 得分的公式不一样,协方差矩阵用原始数据 (统一趋势后 左乘特征值矩阵;相关系数矩阵 统一趋势后)左乘特征值矩阵 统一趋势后 左乘特征值矩阵; 用标准化以后的矩阵左乘特征值矩阵. 用标准化以后的矩阵左乘特征值矩阵
x= [1.24,1.8;1.28,1.84; 1.4,2.04]; m1=mean(apf);m2=mean(af);s1=cov(apf);s2=cov(af);
S=(5*s1+8*s2)/13; for i=1:3, D(i)=(x(i,:)-m1)*inv(S)*(x(i,:)-m1)' - (x(i,:)-m2)*inv(S)*(x(i,:)-m2)'; end D =-4.3279 故三个蠓虫均属Apf. 故三个蠓虫均属 -2.7137 -3.9604
(n 1 − 1)S 1 + (n 2 − 1)S 2 S= n1 + n 2 − 2
其中n 分别为两个样本的容量. 其中 1,n2分别为两个样本的容量
判别步骤: 判别步骤: 1.计算 、B两类的均值向量与协方差阵 计算A、 两类的均值向量与协方差阵 两类的均值向量与协方差阵; 计算
ma=mean(A),mb=mean(B),S1=cov(A),S2=cov(B)
现测得6只 蠓虫的触长,翅长数据 例1.现测得 只Apf和9只Af蠓虫的触长 翅长数据 现测得 和 只 蠓虫的触长 Apf:(1.14,1.78), (1.18,1.96), (1.20,1.86), : (1.26,2.00), (1.28,2.00), (1.30,1.96) Af:(1.24,1.72), (1.36,1.74), (1.38,1.64), : (1.38,1.82), (1.38,1.90), (1.40,1.70), (1.48,1.82),(1.54,1.82), (1.56,2.08) 若两类蠓虫协方差矩阵相等, 若两类蠓虫协方差矩阵相等,试判别以下 的三个蠓虫属于哪一类? 的三个蠓虫属于哪一类? (1.24,1.8),(1.28,1.84),( ,2.04) , ,(1.4, ,( )
2.两个总体协方差矩阵不相等 两个总体协方差矩阵不相等 在MATLAB中mahal 计算马氏距离平方 中
d = mahal(Y,X) 输入: 是要判别的 样本点, 输入:Y是要判别的 样本点,通常是矩阵 Ym×n X是已知总体的样本,通常是矩阵 X l ×n 是已知总体的样本, 是已知总体的样本 输出: 是 的每个行向量到总体 的每个行向量到总体X的马氏距离 输出:d是Y的每个行向量到总体 的马氏距离 的平方,是一个列向量(m行 的平方,是一个列向量 行)