第三章 判别分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
因此需要把判别函数值y转换成类别型。可以给出一个判别指标yc, 把y>yc和y<yc 定义为不同的类别。
判别函数的几何解释 还以二元判别(两个因子) 为例, 判别函数y=c1x1+c2x2 可以在三维空间中确定一个 平面,称为“判别平面”。
对于任意一对因子x1和x2,代入判别方程得到y值, 对应于判别平面上的一个点,平面y=yc把这些点 分割成两种类别。
拥有的资料——历史样本: m个因子,观测到容量为n的样本,该资料阵可记为X(m行n列)。 X的每一列称为一个“样品” 。
x11 x X = 21 xm1
x12 ... x1n x22 ... x2 n xm 2 ... xmn
根据对预报对象的历史观测,把这n个样品分成A、B两类,容量分别为n1和n2, 有n1+n2=n, 于是原资料阵X分成了2个资料阵X(A)和X(B): x11 (B) x12 (B) ... x1n2 (B) x11 (A) x12 (A) ... x1n1 (A) x21 (A) x22 (A) ... x2 n1 (A) X (B)= x21 (B) x22 (B) ... x2 n2 (B) X (A)= xm1 (A) xm 2 (A) ... xmn1 (A) xm1 (B) xm 2 (B) ... xmn2 (B)
任一个样品xj(矩阵中的第j列)可以代入判别函数,得到一个yj,yj=cTxj
于是,对于A类和B类,各有一个y向量,长度分别为n1和n2:
y (A) [ y1 (A), y2 (A), ... , yn1 (A)]T
其中:
y (B) [ y1 (B), y2 (B), ... , yn2 (B)]T
这两个因子都是数值型的数据,因此可以把现有的观测资料绘在二维的平面图上, 同时标注所属的类别(右图空心与实心圆点)。这种图称为“点聚图”。
判别分析的目的,就是希望利用这些已经观测到的数据 及其类别,确定出分类标准(如右图划定一条虚线将两 类隔开,称为“判别线”);对于未来观测到的任意一 对因子的数值,我们就可根据圆点与虚线的相对位置, 预测出未来预报量的“类别”。
但是用肉眼观察划定的判别线,太主观,具有随意性
能否找到一个客观的判定标准,确定出判别线?
点聚图
判别分析的基本模型 为了确定客观的判定标准,可先把两个因子的作用综合起来, 采用一种简单的线性组合的形式构造出另一新变量 y,即:
y=c1x1+c2x2
上式称为“判别方程”,y是x1和x2的函数,称为判别函数,c1 与c2称为判别系数。 如果c1和c2已知,那么对于任意一对x1和x2的观测值,代入上式可 以得到一个判别函数值。 注意: 判别方程中的因子x1和x2都是数值型变量,所以y也是 “数值”型变量,但是,预报对象却是“类别”型变量。
关于准则: 回归分析中,回归系数的确定准则是使得残差的平方和Q达最小,那么, 判别分析中,判别平面的确定需要采取什么准则?
Fisher准则
为了能让两种类别的圆点更好的区分开,我们希望判别平面上,两种类别 (晴天与雨天)所对应的圆点分开得越远越好, 这包含两个意思: (1)同一类别内部的判别函数值越集中越好,即:
=
[ y (A) y(B)]2
[ y (A) y(A)] [ y (B) y(B)]
2 t 1 t t 1 t
n1
n2
2
费史尔(Fisher)判别准则
下一步,在Fisher判别准则下,如何确定出判别系数?
判别系数的确定
问题:对于m个因子,要确定其判别函数:
y c1 x1 c2 x2 ... cm xm
[ y (A) y(A)] [ y (B) y(B)] 尽可能小
2 2 t 1 t t 1 t
n1
n2
(2)不同类别的散点之间的距离越远越好,即:
[ y(A) y(B)]2 尽可Fra Baidu bibliotek大
即:同一类别内部的差异要尽可能小,两种类别之间的差异要尽可能大。 将以上两条准则综合起来,要求下式达到最大:
别。
• 这时,预报的任务是要判定预报对象在未来某时刻属于哪种类 别,而不是估计它的具体数值。这就是“判别分析”的任务。
第三章1
二级判别
费史尔(Fisher)准则判别分析
预报对象只有两种类别的判别称为“二级判别”。例如“有雨”和“无雨”。
要想对预报对象的类别进行预测,也需要像回归分析那样寻找多个因子。 例如,要预报“晴”或“雨”,以两个因子为例,找到了24小时变压(x1)和温度露 点差(x2),都可能与晴雨有关。
判别平面上的点投影到平面x1Ox2上就是点聚图, y=yc与判别平面的交线为DH,DH在平面x1Ox2上 的投影D’H’ 就是“判别线” 。
判别分析的目的
判别分析的目的就是要找到一个最佳的判别线D’H’把实心点和空心点分隔开来, 也就是要找到一个最佳的判别平面( y=c1x1+c2x2 )并确定yc,让y=yc把判别平 面上的两类圆点分开。
第三章 判别分析
费史尔(Fisher)准则判别分析 贝叶斯(Bayes)准则判别分析
• 第二章的“回归分析”是通过寻找因子,组建回归方程,对预
报量的数值进行预报。
• 然而,有些预报量并非呈现具体的数值,而是分成若干级别或 类别。
如 降水预报可以只有“有雨”和“无雨”两类,或者更细分为暴雨、 大雨、中雨、小雨等;台风路径有西路、北路、西北、原地打转等几种类
m
yt (A) c1 x1t (A) c2 x2t (A) ... cm xmt (A)= ck xkt (A)
k 1 m
yt (B) c1 x1t (B) c2 x2t (B) ... cm xmt (B) ck xkt (B)
k 1
根据Fisher判别准则,想寻找一组判别系数c1,c2, …, cm, 使得: E 最大 F 由微分学极值原理知,要使λ达到最大值,必须满足: