第7章判别分析
多元统计分析及R语言建模(第五版)课件第六七章
系
(1)计算n个样品
统
两两间的距离
聚
类
法
过
(5)确定类的
程
个数和样品名称
(2)构造n个类, 每类包含1个样品
(4)绘制 系统聚类图
(3)合并距离 最近两类为新类
(4)计算新类与各 类距离,若类个数为 1,转到第5步,否则
回到第3步
例7-1数据的系统聚类 最短距离法(采用欧氏距离)
例7-1数据的系统聚类
以个体归属于某类的概率(或判别值)最大 或错判总平均损失最小为标准
6 判别分析及R使用
6.4.1 Bayes判别准则
一、概率判别 k个总体的先验概率 密度函数分别为
x来自第j类的后验概率为 (Bayes公式)
6 判别分析及R使用
6.4.1 Bayes判别准则 二、损失判别
x错判为第g总体的平均损失
6 判别分析及R使用
判别分析的种类
一、确定性判别:Fisher型判别 (1)线性型 (2)距离型 (3)非线性型
二、概率性判别:Bayes型判别 (1)概率型 (2)损失型
6 判别分析及R使用
6 判别分析及R使用
一、求Fisher线性判别函数
二、计算判别界值
三、建立判别标准
6 判别分析及R使用
7 聚类分析及R使用
7 聚类分析及R使用
距离矩阵 相关矩阵
判别分析的基本原理
判别分析的基本原理和模型
一、判别分析概述 (一)什么是判别分析
判别分析是多元统计中用于判别样品所属类型的一种统计分析方法,是一种在已知研究对象用某种方法已经分成若干类的情况下,确定新的样品属于哪一类的多元统计分析方法。
判别分析方法处理问题时,通常要给出用来衡量新样品与各已知组别的接近程度的指标,即判别函数,同时也指定一种判别准则,借以判定新样品的归属。所谓判别准则是用于衡量新样品与各已知组别接近程度的理论依据和方法准则。常用的有,距离准则、Fisher 准则、贝叶斯准则等。判别准则可以是统计性的,如决定新样品所属类别时用到数理统计的显著性检验,也可以是确定性的,如决定样品归属时,只考虑判别函数值的大小。判别函数是指基于一定的判别准则计算出的用于衡量新样品与各已知组别接近程度的函数式或描述指标。
(二)判别分析的种类
按照判别组数划分有两组判别分析和多组判别分析;按照区分不同总体的所用数学模型来分有线性判别分析和非线性判别分析;按照处理变量的方法不同有逐步判别、序贯判别等;按照判别准则来分有距离准则、费舍准则与贝叶斯判别准则。
二、判别分析方法 (一)距离判别法
1.基本思想:首先根据已知分类的数据,分别计算各类的重心,即分组(类)均值,距离判别准则是对于任给一新样品的观测值,若它与第i 类的重心距离最近,就认为它来自第i 类。因此,距离判别法又称为最邻近方法(nearest neighbor method )。距离判别法对各类总体的分布没有特定的要求,适用于任意分布的资料。
2.两组距离判别
商务数据分析习题答案
第一章
选择题
1、数据分析的第二个时期关注的重点是()。B
A.超大数据
B.大数据
C.小数据
D.数据
2、大数据帮助业务流程的()。C
A.程式化
B.巨大化
C.优化
D.理性化
3、大多数时候()就是大数据应用工具来帮助需要的人匹配合适的对象。A
A.交友网站
B.APP
C.通讯软件
D.联谊平台
4、对于(),能用Excel和PPT做出基本的图表和报告,能清楚的展示数据,就达到目标了。A
A.初级数据分析师
B.中级数据分析师
C.高级数据分析师
D.专业数据分析师
5、商务数据分析师岗位职责包括与业务产品团队、()、市场推广团队、内容团队密切配合,提供相关分析支持和决策支持。A
A.运营团队
B.业务运营团队
C.市场运营团队
D.市场运营团队
答案:B 、C 、A、A 、A、
简答题
1、商务数据分析的意义和作用
意义:(1)支持营销运营管、(2)推动智能管道运营
作用:(1)完整客观的反映企业情况(2)实行监督管理工作
(3)参与科学化决策(4)有利于数据深度利用
2、简述商务数据分析的发展历程
第一个时期数据仓库,数据仓库的兴起时期,在这个时期,企业中的客户信息和产生交易的信息都被存储到巨大的信息存储库中,存储之后再进分析。
第二个时期大数据,在这个时期所需要分析的数据越来越大,企业越来越多,各行各业的竞争也越来越大,各企业都需要一个新的分析方法,大数据也进入了大众的视野。
第三个时期数据产品的时期,但这个时期的数据分析还不够智能化,只能通过手动分析来得到结果。
第四个时期数据分析的时期,是在人工智能,机器学习大力发展的时候出现的,其实就是数据分析自动化时期,在这个时期的数据分析更多是通过很多的模型进行。
学习判别分析
学习判别分析
学习的⽬的有两个:1)介绍判别分析的内在性质、基本原理以及应⽤条件。2)举例说明这些⽅法的应⽤和结果的解释。
判别分析在主要⽬的是识别⼀个个体所属类别的情况下有着⼴泛的应⽤。潜在的应⽤包括预测新产品的成功或失败,决定⼀个学⽣是否被录取,按职业兴趣对学⽣分组、确定某⼈信⽤风险的种类或者预测⼀个公司是否成功。
百科全书的定义:由k个不同总体的样本来构造判别函数,利⽤它来决定新的未知类型的样品属于哪⼀类,这是判别分析所处理的问题。它在医疗诊断、天⽓预报、图像识别等⽅⾯有着⼴泛的应⽤。
⼀、判别分析的基本思想
当结局变量(被解释变量)是属性变量⽽解释变量是度量变量时,判别分析是合适的统计分析⽅法。在很多情况下,被解释变量包含两组或者两类,⽐如,雄性和雌性,⾼与低。当然也有多于两组的情况下,如低中⾼。
该分析的最基本要求是,分组类型在两组以上;每组案例的规模必须⾄少在⼀个以上;解释变量必须是可测量的,才能够计算其平均值和⽅差,使其能合理地应⽤于统计函数。
判别分析的假设条件:
1. 与其他多元线性统计模型类似,判别分析的假设之⼀是每⼀个判别变量(解释变量)不能是其他判别变量的线性组合。(避免多重共线性问题:如果变量之间的线性组合存在⾼度相关,参数估计的标准误将很⼤,以⾄于参数估计统计上不显著)
2. 假设之⼆,是各组变量的协⽅差矩阵相等。判别分析最简单和最常⽤的形式是采⽤线性判别函数,它们是判别变量的简单线性组合。在各组协⽅差矩阵相等的条件下,可以使⽤很简单的公式来计算判别函数和进⾏显著性检验。
(完整版)判别分析中Fisher判别法的应用
1 绪论
1.1课题背景
随着社会经济不断发展,科学技术的不断进步,人们已经进入了信息时代,要在大量的信息中获得有科学价值的结果,从而统计方法越来越成为人们必不可少的工具和手段。多元统计分析是近年来发展迅速的统计分析方法之一,应用于自然科学和社会各个领域,成为探索多元世界强有力的工具。
判别分析是统计分析中的典型代表,判别分析的主要目的是识别一个个体所属类别的情况下有着广泛的应用。潜在的应用包括预测一个公司是否成功;决定一个学生是否录取;在医疗诊断中,根据病人的多种检查指标判断此病人是否有某种疾病等等。它是在已知观测对象的分类结果和若干表明观测对象特征的变量值的情况下,建立一定的判别准则,使得利用判别准则对新的观测对象的类别进行判断时,出错的概率很小。而Fisher判别方法是多元统计分析中判别分析方法的常用方法之一,能在各领域得到应用。通常用来判别某观测量是属于哪种类型。在方法的具体实现上,采用国内广泛使用的统计软件SPSS
(Statistical Product and Service Solutions),它也是美国SPSS公司在20世纪80年代初开发的国际上最流行的视窗统计软件包之一
1.2 Fisher判别法的概述
根据判别标准不同,可以分为距离判别、Fisher判别、Bayes判别法等。Fisher 判别法是判别分析中的一种,其思想是投影,Fisher判别的基本思路就是投影,针对P维空间中的某点x=(x1,x2,x3,…,xp)寻找一个能使它降为一维数值的线性函数y(x):()j j x
判别分析方法
判别分析
距离判别分析
距离判别的最直观的想法是计算样品到第i类总体的平均数的距离,哪个跖离最小就将它判归哪个总体,所以,我们首先考虑的是是否能够构造一个恰当的距离函数,通过样本与某类别之间距离的大小,判别其所属类别。
设X=(s……以n)'和Y = O1,……,%)'是从期望为|1=(血,……川Q '和方差阵Y= (Ou)>0的总体G抽得的两个观测值,则称X与Y之间的马氏距离为:
y mxm
d2 =(X-Y)
样本X与G,之间的马氏距离定义为X与类重心间的距离,即:
9
护=(乂一地)丫7(乂一&)i = 1,2・・.・・.,k
附注:
1、马氏距离与欧式距离的关联:为=1,马氏距离转换为欧式距离;
2、马氏距离与欧式距离的差异:马氏距离不受计暈单位的影响,马氏距离是标准化的欧式距离两总体距离判别
先考虑两个总体的情况,设有两个协差阵E相同的p维正态总体,对给定的样本Y,判别一个样本Y到底是来自哪一个总体,一
个最直观的想法是计算Y到两个总体的距离。故我们用马氏距离来
给定判别规则,有:
如/(y, J2(y, G2),
<yeGp 如〃2(y, G2)<d2(y9 Gj
待判,如=
〃2(y,G2)沪(y,Gj
=(y 2)' "(y 2)(y J' L(y J
=y- 2y为一1角 + “;賞“2 -(y^1y-2y^1 + 冲?如) =2y 0一1 (" - 角)-("i + “2)尸(“i - “2)
= 2[y —丫》-“2)
2
令"=1虽« = Z_1(//1-//2) = (a1,a2,-.-,a p y
spss统计分析及应用教程-第7章-聚类分析与判断分析解析
max
1 k p
X ik
X
jk
2
距离
③马氏距离 设与是来自均值向量为,协方差为∑〔>0〕的总体G中的p维样品, 则两个样品间的马氏距离为:
d i j( M ) ( X i X j) ' 1 ( X i X j)
马氏距离考虑了观测变量之间的相关性以及观测变量之间的变异性, 不再受各指标量纲的影响。
试验一 系统聚类分析
❖ 试验内容 ❖ 某牙膏公司为了调查消费者购置牙膏时考
虑哪些因素,设计调查问卷进展调查,问 卷如下:
1.您购置牙膏时,认为防蛀功能重要程度如何? A特殊重要 B比较重要 C重要 D一般 E不重要 F比较不重要 G 特殊不重要
2.您购置牙膏时,认为亮泽牙齿功能重要程度如何? A特殊重要 B比较重要 C重要 D一般 E不重要 F比较不重要 G 特殊不重要
❖ 类群划分是更好地觉察特点,找出规律的一种常用方法。 通过对不同群体的比较分析可以更好地理解事物之间的 差异、规律和特点。
❖ 聚类分析可以解决的问题 ❖ 推断分析的根本思想 ❖ 聚类分析与推断分析的不同
试验一 系统聚类分析
❖ 试验目的 ❖ 明确聚类分析有关的概念; ❖ 理解系统聚类根本思想与原理; ❖ 娴熟把握系统聚类的过程; ❖ 能用SPSS软件进展系统聚类分析; ❖ 培育运用系统聚类方法解决身边实际
判别分析法
131例糖尿病患者各指标实测记录(前5例) ──────────────────────────────────── 例号 年龄 患病 血糖 视力 a波 a波 b波 b波 qp波 pq波 视网膜 年数 峰时 振幅 峰时 振幅 峰时 振幅 病变程度 ──────────────────────────────────── 1 49 2.00 191 1.5 12.25 235.40 52.50 417.57 78.5 27.43 A1 2 49 2.00 191 1.2 13.50 225.15 52.00 391.20 78.5 46.69 A1 3 63 4.00 200 1.0 14.25 318.92 53.25 616.35 77.5 35.38 A1 4 63 4.00 200 0.6 14.00 361.90 55.00 723.30 77.0 47.01 A1 5 54 10.00 137 0.6 13.75 269.59 55.50 451.27 78.0 33.70 A2 ────────────────────────────────────
(4)考核 该判别函数是否有实用价值还需要进行考核;如考核的 结果,其诊断符合率达到临床要求则可应用于实践。 回顾性考核(组内考核) 前瞻性考核(组外考核) 得到总符合率,特异性,敏感性,假阳性率和假阴性 率。
(5)实际应用 未知类别样品的判别归类。 如有某病人,用显微分光光度计对其细胞进行检测, 得到X1,X2和X3的值。将X1,X2,X3值,代入判别函数 Y=X1+10X2+10X3; 可得Y值,Y>100则判断为癌症,Y<100则判断为非癌症。
判别分析的概念距离判别法费歇尔判别法贝叶
设(1)、(2),(1)、(2)分别为G1、G2的均值向量与协方差。
利用马氏距离即是
D2 ( X , Gi)=(X (i) )((i))(1 X (i) )
这时判别准则可分为以下两种情况:
i 1,2
(1)当(1)=(2)=时
考察D2 ( X , G2)与D2 ( X , G1)的差有
W ( X ) D2 ( X , G2) D2 ( X , G1) ( X )1( (1) (2) ) 其中:= 1 ( (1)+ (2) )
聚类分析数据格式
k
判别分析数据格式
第二节 距离判别法
距离判别法就是根据已知分类的数 据,分别计算各类的重心即分组(类) 的均值,判别准则是对任给的一次观测, 若它与第i类的重心距离最近,就认为 它来自第i类。
距离判别法对各类(或总体)的分 布,并无特别的要求。
1、两个总体的距离判别法
设有两个总体G1、G2,村第一个总体中抽取n1个样品, 从第二个总体中抽取n2个样品,每个样品观测p个指标。 今取任一个样品,实测指标值为X=(x1, x2 , , xp ),问
2、多个总体的距离判别法
总体 G1、G的2观测数据
X (1) 1
X (1) 2
…
X (1) n1
均值
x1
x (1) 11
x (1) 21
…
多元统计分析课后练习答案
第1章 多元正态分布
1、在数据处理时,为什么通常要进行标准化处理
数据的标准化是将数据按比例缩放,使之落入一个小的特定区间;在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权;其中最典型的就是0-1标准化和Z 标准化;
2、欧氏距离与马氏距离的优缺点是什么
欧氏距离也称欧几里得度量、欧几里得度量,是一个通常采用的距离定义,它是在m 维空间中两个点之间的真实距离;在二维和三维空间中的欧氏距离的就是两点之间的距离;
缺点:就大部分统计问题而言,欧氏距离是不能令人满意的;每个坐标对欧氏距离的贡献是同等的;当坐标表示测量值时,它们往往带有大小不等的随机波动,在这种情况下,合理的方法是对坐标加权,使变化较大的坐标比变化较小的坐标有较小的权系数,这就产生了各种距离;当各个分量为不同性质的量时,“距离”的大小与指标的单位有关;它将样品的不同属性之间的差别等同看待,这一点有时不能满足实际要求;没有考虑到总体变异对距离远近的影响;
马氏距离表示数据的协方差距离;为两个服从同一分布并且其协方差矩阵为Σ的随机变量与的差异程度:如果协方差矩阵为单位矩阵,那么马氏距离就简化为欧氏距离,如果协方差矩阵为对角阵,则其也可称为正规化的欧氏距离;
优点:它不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关;由标准化数据和中心化数据计算出的二点之间的马氏距离相同;马氏距离还可以排除变量之间的相关性的干扰;
缺点:夸大了变化微小的变量的作用;受协方差矩阵不稳定的影响,马氏距离并不总是能顺利计算出;
g 第七章 判别分析
n
n
2
求满足使I最大的判别函数系数
I
( y ( A) y ( B)) 2
2 ( y ( A ) y ( A ) ) ( y ( B ) y ( B ) ) i i 2 i 1 i 1 n n
这两个重心首先是把两个组的p个指标的平 均值计算出来,将平均数代入到判别函数的表
达式中,因此,这里的I其实是p个判别函数系
数的多元方程,I的极大值可用求微分后等于
零的方程组解出来.同时得到这p个系数的取
值,得到判别函数.
y c1x1 c2 x2 ...... c p x p
于是,用A组中的重心与B组的重心的判别函
数值也就能够计算出来了.分别记为y(A)和y(B),
如果y(B)> y(AB),且对待判别样本(x1, x2, x3, …,xp)使 y > y(AB)成立,则该样本可 判属于B组(类);若y ≤ y(AB) ,则该样 本判属于A组(类)。
当然,上述判别有效性,还取决于原来的 分成2个类别的样品之间是否存在显著的差异。 或者说,如果此前将样品分成2类,但两类样 品的指标值没有显著差异,意味着没有理由分 成两类,后面的判别自然也就失去意义。因此 必须对两类样品指标值的差异显著性进行测验, 这需要用到多指标样本平均数的差异显著性测
采用新的准则,多组采用同一的判别函数。确
判别分析
实验六判别分析
(综合性实验 4学时)
1、目的要求:熟练掌握判别分析的基本步骤,对给出的样本建立判别函数,进行
判别分析。
2、实验内容:使用指定的数据按实验教材完成相关的操作。
3、主要仪器设备:计算机。
练习:
1、为研究舒张期血压和血浆胆固醇对冠心病的作用,某医师测定了50—59岁冠心病人15例和正常人16例的舒张压和胆固醇指标,结果如下表所示。试做判别分析,建立判别函数以便在临床中用于筛选在临床中用于筛选冠心病人。
操作步骤:
Step1:读取数据文件。其中,变量名“舒张压”、“胆固醇”代表两项指标值。病人资料和正常人资料合并一同输入,定义变量名为“组别”的变量用于区分冠心病人资料和正常人资料,即冠心病人资料的“组别”值均为1,正常人资料的“组别”值均为2.
Step2:选择“Analysis” →“Classify” →“Discriminant”命令,在“Discriminant Analysis”对话框中,选择“组别”变量进入“Grouping Variable”文本框;单击“Define Range”按钮,在“Minimum”文本框中输入1,在“Maximum”文本框中输入2,单击“Continue”按钮,返回主对话框。
Step3:选择变量“舒张压”和“胆固醇”移动到“Independents”列表框中,本例选择“Enterindependents together”判别方式作为判别分析的方法。
Step4:单击“Statistics”按钮,在“Descriptive”选项中选择“Mean”;在“Function Coefficients”选择“Unstandardized”。单击“Continue”按钮,返回主对话框。
贝叶斯判别分析
样品来自 π i 的先验概率为 qi ,属于 π j 被误判为
π i 的损失称为损失函数,记作 C (i | j ) 。
一、 两个总体判别
设 π 1 、 π 2 为两个 m 维总体,其分布密度分别为
p1 ( x ) 、 p 2 ( x ) 。 x = ( x1 , x 2 ,
x m )′ 一样品,它只可能
解 得 x1 = 1 .42 , x 2 = − 3 .41 ( 舍 去 ) ,
所以 R = (( −∞ ,1.42 ), (1.42 . + ∞ )) 。
例 6-2 已 知 π 1 , π 2 的先验 概率分别为 3 2 q1 = , q 2 = , C (2 | 1) = 1 , C (1 | 2) = 1 ,且 5 5 0 < x ≤1 ⎧ x, ⎪ f1 = p1 ( x) = ⎨2 − x, 1 < x ≤ 2 ⎪ 0, 其它 ⎩ ⎧ ( x − 1) / 4, 1 < x ≤ 3 ⎪ f 2 = p 2 ( x) = ⎨(5 − x) / 4, 3 < x ≤ 5 ⎪ 0, 其它 ⎩
空间 R m 的一个分划(有时也称为判别) 。即
R m = {R1 , R2 | R1 ∪ R2 = R m , R1 ∩ R2 = φ }
由 R 规定的判别准则如下: 如果 x 落在 R1 内,则判其来自总体 π 1 ; 如果 x 落在 R2 内,则判其来自总体 π 2 。 给定分划的损失函数及平均损失 设 C (1 | 2) 为样品 x 来自总体 π 2 而误判为总体 这 其 π 1 的损失, 一 误 判 的 概 率 记 为 P (1 | 2 , R ) , 中 R = ( R1 , R2 ) ; (2 | 1) 为样品 x 来自总体 π 1 而误判 C 于是有 为总体 π 2 的损失,误判的概率记为 P(2 | 1, R) 。
判别分析的原理及其操作
判别分析的原理及其操作
1 判别分析的原理
1.1 判别分析的涵义
判别分析(Discriminant Analysis,简称DA)技术是由费舍(R.A.Fisher)于1936年提出的。它是根据观察或测量到的若干变量值判断研究对象如何分类的方法。具体地讲,就是已知一定数量案例的一个分组变量(grouping variable)和这些案例的一些特征变量,确定分组变量和特征变量之间的数量关系,建立判别函数(discriminant function),然后便可以利用这一数量关系对其他已知特征变量信息、但未知分组类型所属的案例进行判别分组。
沿用多元回归模型的称谓,在判别分析中称分组变量为因变量,而用以分组的其他特征变量称为判别变量(discriminant variable)或自变量。
判别分析技术曾经在许多领域得到成功的应用,例如医学实践中根据各种化验结果、疾病症状、体征判断患者患的是什么疾病;体育选材中根据运动员的体形、运动成绩、生理指标、心理素质指标、遗传因素判断是否选入运动队继续培养;还有动物、植物分类,儿童心理测验,地理区划的经济差异,决策行为预测等。
1.2 判别分析的假设条件
判别分析的基本条件是:分组变量的水平必须大于或等于2,每组案例的规模必须至少在一个以上;各判别变量的测度水平必须在间距测度等级以上,即各判别变量的数据必须为等距或等比数据;各分组的案例在各判别变量的数值上能够体现差别。
判别分析对判别变量有三个基本假设。其一是每一个判别变量不能是其他判别变量的线性组合。否则将无法估计判别函数,或者虽然能够求解但参数估计的标准误很大,以致于参数估计统计性不显著。其二是各组案例的协方差矩阵相等。在此条件下,可以使用很简单的公式来计算判别函数和进行显著性检验。其三是各判别变量之间具有多元正态分布,即每个变量对于所有其他变量的固定值有正态分布。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
于是得到下面的线性方程组:
s11c1 s12c2 ...s1kck d1
s21c1
s22c2 ...s2kck .................
d2
sk1c1 sk2c2 ...skkck dk
(77)
解出c1,c2,…,ck,即得出线性判别 函数(7-1)
第7章判别分析
由线性判别函数算出: A类样品的综合指标的平均值
第七章 判别分析
第7章判别分析
本章学习目标
a. 掌握地球科学中大量地质对象识别与 归类的思想; b. 学会构造Fisher线性判别函数的基本方 法与步骤; c. 了解逐步判别的思路和基本步骤;
第7章判别分析
学习重点、难点
重点 不同判别分析技术的正确选取和判 别函数的求法
难点 根据实际观测数据构建判别函数和具 体实现;
第7章判别分析
判别分析
课时安排 6学时,课外完成习题 学习方法 讲授与课堂讨论 背景知识 相关的专业知识 概率
论与数理统计
第7章判别分析
问题:
已知某地质对象的分类,今有不知具体 来源的对象需要根据其指标特征进行归类, 即判别它属于哪一类型?以便进一步对其进 行相应的预测和控制分析。
第7章判别分析
k i 1
ci d i
k
cis ji d j ( j 1, 2,..., k )
i 1
( j 1, 2,..., k ) ( j 1, 2,..., k
(7 6)
第7章判别分析
(7-6)式是k元一次线性方程组,λ是 常数因子,对方程的解只起到扩大共同 倍数作用,不影响ci之间的比例关系, 因此线性判别函数(7-1)也扩大一个倍 数,这对判别分析来说有什么影响,故 不妨可以取λ=1.
t1 i1
k
2 ci s ji i1
( j 1, 2, ..., k )
(7 5)
第7章判别分析
将(7-4)式及(7-5)式代入(7-3)式得
即 令 则有
k
k
2F[ cidi ]d j 2Q cis ji
i 1
i 1
k
i 1
ci s ji
1[ I
k i 1
cidi ]d j
1 I
第7章判别分析
直线L上的计量y是x1与x2两个变量的一个线 性组合: y=c1x1+c2x2
第7章判别分析
1. 线性判别函数
双变量: y=c1x1+c2x2 多变量:R=c1x1+c2x2+…+ckxk
2. 非线性判别函数
双变量: y=c1x1+c2x22 或 y=c1x12+c2x2
多变量:R=c1x1i+c2x2i+…+ckxki
第一节 判别分析的思想
判别分析的主要思想就是用统计方法将 待判的未知样品与已知类型样品进行类比, 以确定待判样品应归属于哪一类。 矿产预测、地球化学分析、石油及天然气地 质中都有大量的判别类型的问题,如判别岩 石类型、地层时代、古生物种属、判别钻井 穿过的层位的含油性、判别沉积相、判别地 层的生油条件等
R=c1x1+c2第x7章2+判别…分析+ckxk
将它作为综合指标,使得R能将A、B有效地 分开,其中ci(i=1,2, …,k)待定。
Q[R(A)R(B)]2 及
n1
n1
F [Ri(A)R(A)]2 [Ri(B)R(B)]2
i1
i1
使得
I Q/ F 达到极大,由此来确定判别系数ci(i 1,2,...,k)。
k
R(A) ci xi(A) i1
B类样品的综合指标的平均值
k
R(B) ci xi(B) i1
第7章判别分析
取R(A)与R(B)的加权平均值:
R0n1R(A n1 ) n n2 2R(B)
(78)
作为判别指标R0。 然后对未知类别的样品,算出综合指标
值R,最后作出判断。
第7章判别分析
判别过程
t1 i1
t1 i1
第7章判别分析
Q,F分别对ci的微商为:
Q
k
ci
2[ cidi ]d j
i1
( j 1, 2, ..., k )
(7 4)
F
n1 k
c j
2
t 1
ci[ xit ( A)
i1
xi ( A)][ x jt ( A)
x j ( A)]
n2 k
2
ci[ xit (B) xi (B)][ x jt (B) x j (B)]
第7章判别分析
式中
A类判别函数的均值为
k
R(A) cj x j (A) j1
B类判别函数的均值为
k
R(B) cj x j (B)
j1
A类的离散程度表示为: n1 [Ri (A) R(A)]2 i1
wk.baidu.com
n1
B类的离散程度表示为: [Ri(B)R(B)]2 i1 第7章判别分析
二、 线性判别函数的求法
i=1,为线性判别函数 i>=2,为非线性函数
第7章判别分析
对于有k个因素线判别函数
R=c1x1+c2x2+…+ckxk
它必须满足以下条件: (1)样品的指标服从多元正态分布; (2)多元正态分布的协方差矩阵相等; (3)两类错误的概率相等(α=β)。
判别方法: 1.根据Fisher准则得出的Fisher判别; 2.根据Bayes准则得出的Bayes判别.
R [n 1 R (A ) n 2 R (B )]/(n 1 n 2 ) R 0
第7章判别分析
第二节 二级判别分析(Fisher准则)
一、线性判别函数的确定原则(判别模型)
设有A、B两类总体,A类总体有n1个样品, B类总体有n2个样品。每个样品都测定了k个
指
标,分别记为
x1t(A),x2t(A), …,xkt(A) (t=1,2, …,n1) x1t(B),x2t(B), …,xkt(B) (t=1,2, …,n2) 引入因素x1,x2, …,xk的线性函数:
于是有
FQQF
I ci
ci F2
ci 0
(i 1,2,...,k)
FQQF ci ci
(i 1,2,...,k)
第7章判别分析
由于
dj xj(A)xj(B)
(j1,2,...,k)
k
则Q[ cidi]2 i1
n1 k
n2 k
F ci[xit(A)xi(A)]2 ci[xit(B)xi(B)]2
(1)在R(A)>R0情况下,若R>R0,则判断 该样品属于A类,若R<R0,则该样品属于 B类; (2)在R(A)<R0情况下,若R>R0,则 未知样品属于B类,若R<R0,则未知样品 属于A类。
第7章判别分析
三、 显著性检验、误判率及因素挑选
1、显著性检验及判别过程 先算出每组综合指标的平均值R(A)和 R(B)及总平均值: