判别分析的基本原理讲课稿
判别分析的基本原理
______________________________________________________________________________________________________________判别分析的基本原理和模型一、判别分析概述(一)什么是判别分析判别分析是多元统计中用于判别样品所属类型的一种统计分析方法,是一种在已知研究对象用某种方法已经分成若干类的情况下,确定新的样品属于哪一类的多元统计分析方法。
判别分析方法处理问题时,通常要给出用来衡量新样品与各已知组别的接近程度的指标,即判别函数,同时也指定一种判别准则,借以判定新样品的归属。
所谓判别准则是用于衡量新样品与各已知组别接近程度的理论依据和方法准则。
常用的有,距离准则、Fisher准则、贝叶斯准则等。
判别准则可以是统计性的,如决定新样品所属类别时用到数理统计的显著性检验,也可以是确定性的,如决定样品归属时,只考虑判别函数值的大小。
判别函数是指基于一定的判别准则计算出的用于衡量新样品与各已知组别接近程度的函数式或描述指标。
(二)判别分析的种类按照判别组数划分有两组判别分析和多组判别分析;按照区分不同总体的所用数学模型来分有线性判别分析和非线性判别分析;按照处理变量的方法不同有逐步判别、序贯判别等;按照判别准则来分有距离准则、费舍准则与贝叶斯判别准则。
二、判别分析方法(一)距离判别法1.基本思想:首先根据已知分类的数据,分别计算各类的重心,即分组(类)均值,距离判别准则是对于任给一新样品的观测值,若它与第i类的重心距离最近,就认为它来自精品资料第i 类。
因此,距离判别法又称为最邻近方法(nearest neighbor method )。
距离判别法对各类总体的分布没有特定的要求,适用于任意分布的资料。
2.两组距离判别两组距离判别的基本原理。
设有两组总体B A G G 和,相应抽出样品个数为21,n n ,n n n =+)(21,每个样品观测p 个指标得观测数据如下,总体A G 的样本数据为:()()()()()()()()()A x A x A x A x A x A x A x A x A x p n n n p p 111212222111211该总体的样本指标平均值为:()()()A x A x A x p 21,总体B G 的样本数据为:()()()()()()()()()B x B x B x B x B x B x B x B x B x p n n n p p 222212222111211该总体的样本指标平均值为:()()()B x B x B x p 21,现任取一个新样品X ,实测指标数值为X =(p x x x ,,,21 ),要求判断X 属于哪一类?首先计算样品X 与A G 、B G 两类的距离,分别记为()A G X D ,、()B G X D ,,然后按照距离最近准则判别归类,即样品距离哪一类最近就判为哪一类;如果样品距离两类的距离相同,则暂不归类。
第11讲判别分析
协方差矩阵
9.0570 S1= 14.0055
14.0055 86.0570
21.7030 S2= 29.4205
29.4205 47.1680
15.3800 Sw= 21.7130
21.7130 66.6125
各样品到第一类和第二类的距离
d i( 1 ) x 1 7 .8 5 ,x 8 2 9 .1 4 2 0 0 . .0 13 2 9 0 0 0 . .0 0 2 4 2 3 6 4 x x 7 9 1 2 1 7 7 9 8 2 . .8 1 5 4 1 6 8 2 d i( 2 ) x 1 7 .4 0 ,x 4 2 9 .7 1 4 0 0 . .0 13 2 9 0 0 0 . .0 02 4 2 3 6 4 x x 7 9 1 2 1 7 7 9 8 2 . .4 7 0 1 1 6 4 4
N 1 10
N 2 10 N2错=3
13
APE R 1.67%
10 10
N1错=1 N2正=10
第一节 距离判别
在实际应用中,当假定正态总体且协差阵相等时,均值与协方差阵 要用估计值,即
d2x,G 1x1T ˆ1 1x1
d2x,G 2x2T ˆ2 1x2
解 W x : x T ˆ 1 1 2
ˆ1 2 6 2 2 4 4 3 , ˆ1 ˆ2 6 2 2 4 4 2
W (x ) (x 1 3 ,x 2 4 )1 3 4 1 1 1 4 2 4 x 1 2 x 2 4
判别 W x 函 x 数 1 2 2 : 1 21 2
第7判别分析(共38张PPT)
7.2 距离判别 ❖ 基本思想:
即:首先根据已知分类的数据,分别计算各类 的重心即各组(类)的均值,判别的准则是对任 给样品,计算它到各类重心的距离,哪个距离最
小就将它判归哪个类。
zf
yG1,如d2y,G1d2y,G2, yG2,如d2y,G2d2y,G1
待判, 如d2(y,G1)d2(y,G2)
0.87973×花瓣长-2.28382×花瓣宽 变色鸢尾花: Y=1.100772×花萼长+1.070119×花萼宽 +1.000877×花瓣长+0.197345×花瓣宽
佛吉尼亚鸢尾花: Y=0.865205×花萼长+0.746515×花萼宽
+1.646601×花瓣长+1.694931×花瓣宽
zf
五、判别新样本所属类别 742082 Z ×花萼宽 1、输入历史数据,计算 和 当总体分类不清楚时,先用聚类分析对一批样本进行分类,再用判别分析构建判别式对新样本进行判别。 007192×花萼长+0. 2、聚类分析则是对研究对象的类型未知的情况下,对其进行分类的方法。 二、判别分析的基本要求: Fisher判别的优势在于对分布、方差等都没有什么限制,应用范围较广。 例2:中小企业的破产模型 3、X3:高峰时期每三分钟国际电话的成本 二、判别分析的基本要求: 742082 Z ×花萼宽 分界图,将坐标平面划分为 87973×花瓣长-2. 所谓Fisher判别法,就是用投影的方法将k个不同总体在p维空间上的点尽可能分散,同一总体内的各样本点尽可能的集中。 ⑴ 指定分组变量及其取值范围。 所谓Fisher判别法,就是用投影的方法将k个不同总体在p维空间上的点尽可能分散,同一总体内的各样本点尽可能的集中。 3、X3:高峰时期每三分钟国际电话的成本 06327×花萼长-0. 使用该方法后,按钮“Method”将被激活
《做判别分析》课件
判别分析的实例演练
汽车品牌购买模型
通过判别分析构建汽车品牌的购买模型,预测用户 对不同品牌汽车的购买意愿。
病例病种识别
利用判别分析识别病例的病种,帮助医生进行正确 的诊断和治疗。
判别分析中需要注意的问题
1 数据处理
在判别分析中,数据处理过程中需要注意数 据的质量和一致性。
2 模型可解释性
了解和解释判别分析模型的结果,确保我们 能够深入理解数据。
《做判别分析》PPT课件
本课件将介绍判别分析的基本原理、应用场景以及改进方法和发展趋势。通 过实例演练和注意事项,帮助大家理解和应用判别分析。
什么是判别分析
判别分析通过对变量之间的关系进行分析,帮助我们预测和分类未知数据。 它与其他数据分析方法的区别在于其强调对分类问题的解决。
判别分析的应用场景
购买模型
利用判别分析构建汽车品牌的购买模型,预测用 户的购买行为。
病种识别
利用判别分析识别病例的病种,辅助医生进行正 确的治疗。
判别分析的基本原理
1
数学模型
判别分析使用概率和统计模型来描述ቤተ መጻሕፍቲ ባይዱ解释变量之间的关系。
2
建模过程
判别分析的建模过程包括变量选择、数据准备、模型训练和模型评估。
3
可解释性
需要注意判别分析模型的可解释性,确保我们能够理解和解释模型的结果。
判别分析的改进方法和发展趋势
深度学习应用
判别分析与深度学习相结合,可以提高模型的准确 性和鲁棒性。
未来趋势
判别分析在未来将继续发展,带来更多应用场景和 改进方法。
总结
优势和劣势
判别分析具有预测性强、可解释性好的优势,但 也存在模型需求严格、数据要求高的劣势。
判别分析完整课件
2 i 1 m
m为判别指标数,根据自由度查F(m,n1+n2-m-1)。
(三)确定判别临界值
确定两类的判别临界值(即两类的分界点)yc, 据此对未知样本作出判断。
yc
n1 y(1) n2 y( 2 ) n1 n2
在医学科研资料中经常遇到指标变量不呈正态分 布或难以满足参数判别分析的要求,特别是有些 变量是分类变量,不可能服从正态分布,可以用 Logistic回归分析的方法。
实际资料中一般含有较多的指标,有些指标可能 对鉴别不同的类别毫无用处,或指标间彼此相关的情 况时不应该用所有的指标都参与建判别函数。所以, 在建函数之前,先进行变量筛选是很有必要的,即逐 步判别分析,此法建立的函数更简洁,效果也更好。 此外,对于某些指标间存在彼此相关的情况时, 先对众多的指标进行聚类,从聚成的几大类中各挑选 一个最有代表性的指标,用这些典型指标建立判别函 数。 逐步回归、判别分析、聚类分析等方法可以联合 应用。
y ci xi
i 1 n
2
n1
(y
i 1
n2
i ( 2)
y( 2 ) )
2
y(1) ck xk (1)
k 1
n1
y( 2) ck xk ( 2)
k 1
n2
根据求极值的原理,求I对判别系数Ci的偏导数,使其等 于零,得到下列方程组:
f11C1+f12C2+……f1mCm=d1 f21C1+f22C2+……f2mCm=d2 ……… …… …… ……… ….. fm1C1+fm2C2+……fmmCm=dm 其中, di
《判别分析》课件
在金融领域的应用
信用评分
利用判别分析模型,通过借款人 的特征和历史表现,预测其未来 违约风险,为金融机构提供信贷
决策依据。
市场风险评估
判别分析用于评估金融市场风险 ,通过分析市场数据和变量,预 测市场走势,帮助投资者做出合
理决策。
投资组合优化
利用判别分析对投资组合进行优 化,通过评估不同资产的风险和 回报,为投资者提供最佳资产配
对判别分析的未来展望
改进算法
针对判别分析的假设严格问题,未来研究可以尝试改进算法,放宽 假设条件,使其更适用于实际数据。
结合其他技术
可以考虑将判别分析与其它机器学习算法相结合,如神经网络、支 持向量机等,以提高分类性能和泛化能力。
拓展应用领域
随着大数据时代的到来,判别分析在各个领域的应用越来越广泛,未 来可以进一步拓展其应用领域,解决更多实际问题。
在市场营销中,判别分析可用于市场 细分,根据消费者的购买行为、偏好 和需求等因素,将市场划分为不同的 细分市场,帮助企业制定更加精准的 市场策略。
广告投放优化
通过判别分析对广告投放效果进行评 估和优化,基于历史数据和实时监测 数据,分析不同广告渠道和创意的表 现,提高广告投放的效率和效果。
06 判别分析的案例分析
金融领域的判别分析案例
信用风险评估
利用判别分析对银行客户进行信用风险评估,根据客户的历 史表现和其他相关信息,预测其未来违约的可能性,帮助银 行制定更加精准的信贷政策。
股票市场预测
通过判别分析对股票市场走势进行预测,基于历史数据和市 场信息,构建预测模型,以指导投资者进行投资决策。
1. 单变量判别函数
基于单个特征的判别函数。
2. 多变量判别函数
第8章 判别分析ppt课件
逐渐判别分析
STEPDISC过程
SAS 统计分析与应用 从入门到精通
逐渐判别分析
STEPDISC过程
SAS 统计分析与应用 从入门到精通
四、逐渐判别分析
2、STEPDISC过程
语句阐明: 〔1〕PROC语句用于规定运转STEPDISC过程,并指定要分析的数
据集名。选项有: METHOD=选项——规定对判别函数中的变量进展选择的方法。
SAS 统计分析与应用 从入门到精通
逐渐判别分析
STEPDISC过程
PROC STEPDISC DATA=数据集名 <选项>; CLASS 分类变量名; VAR 变量名列表; BY 分组变量;
RUN;
SAS 统计分析与应用 从入门到精通
逐渐判别分析
STEPDISC过程
SAS 统计分析与应用 从入门到精通
SAS 统计分析与应用 从入门到精通
第八章 判别分析
判别分析简介 普通判别分析 典型判别分析 逐渐判别分析
SAS 统计分析与应用 从入门到精通
一、判别分析简介
判别分析是一种运用性很强的统计方法。它通常是根据已有的数据 资料,来建立一种判别方法,然后再来判别一个新的样品归属于哪一类。
例如,医院拥有以往就诊的各种病人的资料,包括他们的心率、血 压、体温、化验目的等很多数据。如今有一个新的病人来医院就诊,对 他也丈量了相关的目的数据,要判别他患有哪一种病,这就属于一个判 别归类的问题。又如,在矿产勘探中积累了丰富的地质资料,如今某地 域新采到了一个岩石标本,要从它的根本特征判别该地域有无矿产,是 贫矿还是富矿,那么也需求进展判别分析。
〔5〕BY语句规定了分组变量,它使得BY过程对分组内进展处置。 在运用BY语句前,应对数据集按照分组变量进展排序。
判别分析课件
断
○○○○○●●●●
界
○○○●●●●
值
○○●●●
○●●●
X平面
X平面
判别分析的应用: 1、用于临床上疾病的诊断和鉴别诊断。 2、疾病发病的预测 3、病人预后的预测
判别分析的分类
1、按类别分:二类判别 多类判别
Fisher、Bayes
2、方法:Fisher判别分析(距离判别) Bayes判别分析(概率判别) 非参数判别分析
详细资料见:皮质醇.xls
原始数据
整理数据
分析方法
分析方法
分析方法
Wilks λ统计量最小化 相邻两组马氏距离最大化
组间不可解释方差和最小化
分析方法
分析方法
分析结果
判别函数式:
新病人的数据分别代入,哪个值 大就判归哪种类型。
Y1=0.222ACTH8+3.985转移+8.595FHIT+4.744Ki-67-20.014 Y2=0.080ACTH8+3.647转移+6.246FHIT+4.239Ki-67-8.848 Y3=0.019ACTH8+14.462转移+4.153FHIT+9.483Ki-67-11.968
常数项
回归系数
构造判别函数式:
p yj|x 1 e 1 j x 1 e 1 j 1 x
j=1,2,3,….
新病人回代,哪个值大判归哪类。
Y=0的概率:
P y 0 1 e 5 .1 7 2 .3 2F 84 H 1 1 .7IK 5 T 6 8 i 2 7 .0P 56 CNA
判别分析的根本原理:
Y平面
诊断界值
○○○○○○○● ○○○○○○● ○○○○○●●●● ○○○●●●● ○○●●● ○●●●
第八章 判别分析 课件
空间为 R1, R2 , , Rk 即为一个划分,故可记判 别规则为 R R1, R2 , , Rk
从描述平均损失的角度出发,如果原来
属于总体 Gi 且分布密度为 fi x 的样品,正
好取值落入了 R j ,我们就会错判为属于 G j 。
该判别规则的等价描述是:求新样品X到G1
的距离与到 G2 的距离之差,如果其值为正,
X属于G2 ;否则 X属于G1 。
(二)多个总体的距离判别问题
1、设有 k 个总体 G1, G2 , , Gk ,其均值和协
方差矩阵分别为 1 , 2 , , k 和 1 ,2 , ,k , 而且 1 2 k ,对于一个新样本 X , 要判断它来自哪个总体。 方法同上。
其销售价格为3.0,顾客对其口味的评分平均 为8,信任评分平均为5,试预测该饮料的销 售情况。
销售情况 产品序号 销售价格 口味评分 信任度评分
畅销
1
2.2
5
8
2
2.5
6
7
3
3.0
3
9
4
3.2
8
6
平消
5
2.8
7
6
6
3.5
8
7
7
4.8
9
8
滞销
8
1.7
3
4
9
2.2
4
2
10
2.7
4
3
习8.2 银行的贷款部门需要判别每个客户的 信用好坏(是否未履行还贷责任),以决定 是否给予贷款。可以根据贷款申请人的年龄 (X1)、受教育程度(X2)、现在所从事工 作的年数(X3)、未变更住址的年数(X4)、 收入(X5),负债收入比例(X6)、信用卡 债务(X7)、其他债务(X8)等来判断信用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
判别分析的基本原理判别分析的基本原理和模型一、判别分析概述 (一)什么是判别分析判别分析是多元统计中用于判别样品所属类型的一种统计分析方法,是一种在已知研究对象用某种方法已经分成若干类的情况下,确定新的样品属于哪一类的多元统计分析方法。
判别分析方法处理问题时,通常要给出用来衡量新样品与各已知组别的接近程度的指标,即判别函数,同时也指定一种判别准则,借以判定新样品的归属。
所谓判别准则是用于衡量新样品与各已知组别接近程度的理论依据和方法准则。
常用的有,距离准则、Fisher 准则、贝叶斯准则等。
判别准则可以是统计性的,如决定新样品所属类别时用到数理统计的显著性检验,也可以是确定性的,如决定样品归属时,只考虑判别函数值的大小。
判别函数是指基于一定的判别准则计算出的用于衡量新样品与各已知组别接近程度的函数式或描述指标。
(二)判别分析的种类按照判别组数划分有两组判别分析和多组判别分析;按照区分不同总体的所用数学模型来分有线性判别分析和非线性判别分析;按照处理变量的方法不同有逐步判别、序贯判别等;按照判别准则来分有距离准则、费舍准则与贝叶斯判别准则。
二、判别分析方法 (一)距离判别法1.基本思想:首先根据已知分类的数据,分别计算各类的重心,即分组(类)均值,距离判别准则是对于任给一新样品的观测值,若它与第i 类的重心距离最近,就认为它来自第i 类。
因此,距离判别法又称为最邻近方法(nearest neighbor method )。
距离判别法对各类总体的分布没有特定的要求,适用于任意分布的资料。
2.两组距离判别两组距离判别的基本原理。
设有两组总体B A G G 和,相应抽出样品个数为21,n n ,n n n =+)(21,每个样品观测p 个指标得观测数据如下,总体A G 的样本数据为:()()()()()()()()()A x A x A x A x A x A x A x A x A x p n n n p p 111212222111211ΛΛMΛΛΛΛ该总体的样本指标平均值为:()()()A x A x A x p Λ21,总体B G 的样本数据为:()()()()()()()()()B x B x B x B x B x B x B x B x B x p n n n p p 222212222111211ΛΛMΛΛΛΛ该总体的样本指标平均值为:()()()B x B x B x p Λ21,现任取一个新样品X ,实测指标数值为X =(p x x x ,,,21Λ),要求判断X 属于哪一类?首先计算样品X 与A G 、B G 两类的距离,分别记为()A G X D ,、()B G X D ,,然后按照距离最近准则判别归类,即样品距离哪一类最近就判为哪一类;如果样品距离两类的距离相同,则暂不归类。
判别准则写为:A G X ∈,如果()A G X D ,<()B G X D ,, B G X ∈,如果()A G X D ,>()B G X D ,,X 待判,如果()A G X D ,=()B G X D ,。
其中,距离D 的定义很多,根据不同情况区别选用。
如果样品的各个变量之间互不相关或相关很小时,可选用欧氏距离。
采用欧氏距离时,()A G X D ,=∑=-pA x x 12))((ααα()B G X D ,=∑=-pB x x 12))((ααα然后比较()A G X D ,和()B G X D ,的大小,按照距离最近准则判别归类。
但实际应用中,考虑到判别分析常涉及到多个变量,且变量之间可能相关,故多用马氏距离。
马氏距离公式为:()()()()()A AA A X X S X X G X d -'-=-12,()()()()()B BB B X X S X X G X d -'-=-12, 其中()A X 、()B X 、A S 、B S 分别是A G 、B G 的均值和协方差阵。
这时的判别准则分两种情况给出: (1)当A S =B S =S 时()()A B G X d G X d ,,22-=()()()()()()()()AAABBBX X S X X X X S X X -'---'---11=()()()()()()B A B A X X S X X X -'⎥⎦⎤⎢⎣⎡+--1212令()()()B A X X X +=21,同时记()=X W 2)),(),((22A B G X d G X d - 则()()()()()BAX X SX X X W --=-1所以判别准则写成:A G X ∈,如果()0>X W ,B G X ∈,如果()0<X W ,X 待判,如果()0=X W 。
该规则取决于()X W 的值,因此()X W 被称为判别函数,也可以写成:()()X X X W -=α,其中()()()B A X X S -=-1α。
()X W 被称为线性判别函数。
作为特例,当1=p 时,两个总体的分布分别是()21,σμN 和()22,σμN ,判别函数为()()2122112μμσμμ-⎪⎭⎫ ⎝⎛+-=X X W或()()2122112x x s x x X X W -⎪⎭⎫ ⎝⎛+-=(使用样本资料代替总体参数时)不妨设21μμ<,这时()X W 的符号取决于μ>X 或μ<X 。
μ<X 时,判A G X ∈;μ>X 时,判B G X ∈。
两组距离判别法,简单容易理解,判别准则也是合理的,但是有时也会出现错判。
如下图6.1,如果X 来自A G ,但却落入2D ,被错判为B G 组,错判的概率为图中阴影的面积,记为)1/2(P ,类似有)2/1(P ,显然)1/2(P =)2/1(P =)2(121σμμ-Φ-。
图6.1当两总体靠的比较近时,即两总体的均值差异较小的时候,无论用何种判别方法,错判的概率都比较大,这时的判别分析也是没有意义的。
因此只有当两总体的均值有显著差异时,进行判别分析才有意义,为此,要对两总体的均值差异性进行检验,对此在下文中叙述。
(2)当A S ≠B S 时按照距离最近准则,类似地有:A G X ∈,如果()A G X D ,〈()B G X D ,, B G X ∈,如果()A G X D ,〉()B G X D ,,X待判,如果()A G X D ,=()B G X D ,。
仍然用=)(X W ()B G X d,2()A G X d ,2-()()()()B BB X X S X X -'-=-1()()()()A A A X X S X X -'---1作为判别函数,此时的判别函数是X 的二次函数。
(3)关于两组判别分析的检验由于判别分析是假设两组样品是取自不同总体,如果两个总体的均值向量在统计上差异不显著,则进行判别分析意义不大。
所以,两组判别分析的检验,实际就是要经验两个正态总体的均值向量是否相等,为此,检验的统计量为:()()()1,~2122122121--+-++--+=p n n p F Tpn n p n n F其中:()()()⎪⎪⎭⎫ ⎝⎛-+'⎪⎪⎭⎫ ⎝⎛-+-+=-)()()()(2212112121212B X A X n n n n S B X A X n n n n n n T B A S S S +=给定检验水平,查F 分布表使{}αα=>F F ,可得出αF ,再由样本值计算F ,若αF F >,则否定原假设,认为两个总体的均值向量在统计上差异显著,否则两个总体的均值向量在统计上差异不显著。
3、多个总体的距离判别法类似两个总体的讨论推广到多个总体。
设有k 个总体k G G Λ1,相应抽出样品个数为k n n Λ1n n n k =++)(1Λ,每个样品观测p 个指标得观测数据如下,总体1G 的样本数据为:()()()()()()()()()111111111111212222111211p n n n p p x x x x x x x x x ΛΛMΛΛΛΛ该总体的样本指标平均值为: ()()()11,121p x x x ΛM总体k G 的样本数据为:()()()()()()()()()k x k x k x k x k x k x k x k x k x p n n n p p 222212222111211ΛΛMΛΛΛΛ该总体的样本指标平均值为: ()()()k x k x k x p Λ21,它们的样本均值和协方差阵分别为: ()Λ1X ()k X 、Λ1S k S 。
一般的,记总体的样本指标平均值为:=)(i X (()()()i x i x i x p Λ21,),k i Λ2,1=。
(1)当Λ=1S S S k ==时 此时()()()()()i i i i X X S X X G X d-'-=-12,,k i Λ2,1=判别函数为())],(),([2122i j ij G X d G X d X W -=()j i j i X X S X X X -⎪⎪⎭⎫ ⎝⎛+-=212,k j i Λ2,1,= 相应的判别准则为:i G X ∈, 当()0>X W ij 时,对于一切i j ≠ 待判, 若有一个()0=X W ij (2)当Λ1S k S 不相等时 此时判别函数为()()()()()()()()()i i i j j j ji X X S X X X X S X X X W -'---'-=--11相应的判别准则为:i G X ∈, 当()0>X W ij 时,对于一切i j ≠ 待判, 若有一个()0=X W ij (二)费舍判别法费舍判别法是1936年提出来的,该方法对总体分布未提出什么特定的要求。
1.基本思想费舍判别法是基于统计上的费舍准则,即判别的结果应该使两组间区别最大,使每组内部离散性最小。
在费舍准则意义下,确定线性判别函数:p p x c x c x c y +++=Λ2211其中p c c c Λ21,为待求的判别函数的系数。
判别函数的系数的确定原则是使两组间区别最大,使每组内部离散性最小。
有了判别函数后,对于一个新的样品,将p 个指标的具体数值代入判别式中求出y 值,然后与判别临界值进行比较,并判别其应属于哪一组。
2.两组判别分析 (1)方法原理设有两组总体B A G G 和,相应抽出样品个数为21,n n n n n =+)(21,每个样品观测p 个指标得观测数据如下,总体A G 的样本数据为:()()()()()()()()()A x A x A x A x A x A x A x A x A x p n n n p p 111212222111211ΛΛMΛΛΛΛ第1个总体的样本指标平均值为:()()()A x A x A x p Λ21,总体B G 的样本数据为:()()()()()()()()()B x B x B x B x B x B x B x B x B x p n n n p p 222212222111211ΛΛMΛΛΛΛ第2个总体的样本指标平均值为:()()()B x B x B x p Λ21,根据判别函数,用()()∑==pk kkA x c A y 1表示AG组样品的重心,以()()∑==pk kkB x c B y 1表示B G 组样品的重心。