Bayes 判别分析及应用 201009014119

合集下载

Bayes判别分析方法在岩性识别中的应用

Bayes判别分析方法在岩性识别中的应用

[收稿日期]2008212207 [作者简介]孙健(19812),男,2003年大学毕业,硕士生,现主要从事生产测井原理与方法和计算机检测与控制方面的研究工作。

B ayes 判别分析方法在岩性识别中的应用 孙 健 (长江大学计算机科学学院,长江大学地球物理与石油资源学院,湖北荆州434023) 周 魁,冉小丰 (长江大学机械工程学院,湖北荆州434023) 李 斌 (长江大学地球物理与石油资源学院,湖北荆州434023)[摘要]针对复杂储层岩性识别难度较大的情况,引入Bayes 数理统计方法,把采用测井资料来划分岩性,看作是一种类别判别问题,通过计算样本的后验概率大小来判别样品类别的归属。

实际应用结果表明,将Bayes 判别应用于复杂岩性的划分,效果良好。

[关键词]Bayes 判别;岩性识别;测井评价[中图分类号]P631184[文献标识码]A [文章编号]100029752(2009)022*******当前测井技术的发展是以测井信息迅速增加,测井、物探、地质信息间相互精细标定与刻度为特点,但由于地下岩体的隐蔽性、复杂性和测井资料的多解性,欲提高测井信息的有效还原能力,有必要引入相应的数学方法。

因此,利用相应的数学方法解决测井资料数字分析中的实际问题具有很强的现实意义。

在油田的实际应用过程中,识别岩性一般采用图版法、交会图法或者本地区的经验公式计算[1]。

图版法、交会图法一般是选取2~3个测井参数,建立解释图版或者交会图,用以识别岩性,这种方法可以同时应用的参数较少,对于复杂岩性有时不能满足要求,且交会图法的岩性界限划分没有具体标准,人为因素影响较大。

采用经验公式计算,经验丰富的解释人员在本地区储层中的识别准确度较高,但该方法与参数无法推广到其他地区中,局限性较大。

因此,上述方法在数据整理及参数选取的过程中人为因素的影响比较大,计算结果可能不稳定。

采用数学方法进行类型判别,可将此类影响减至最小,相应提高判别的精度。

贝叶斯判别分析课件

贝叶斯判别分析课件

02
03
与决策树比较
贝叶斯判别分析提供了更稳定的预测 ,而决策树可能会因为数据的微小变 化而产生大的预测变化。
05
贝叶斯判别分析的案例分 析
案例一:信用卡欺诈检测
总结词
信用卡欺诈检测是一个经典的判别分析应用场景,通过贝叶斯判别分析可以有效地识别 出欺诈交易,减少经济损失。
详细描述
信用卡欺诈检测是金融领域中一个非常重要的问题。随着信用卡交易量的增长,欺诈行 为也日益猖獗,给银行和消费者带来了巨大的经济损失。贝叶斯判别分析可以通过对历 史交易数据的学习,建立分类模型,对新的交易进行分类,判断是否为欺诈行为。通过
市场细分
在市场营销中,贝叶斯判别分析 可以用于市场细分,通过消费者 行为和偏好等数据,将消费者划 分为不同的群体。
02
贝叶斯判别分析的基本概 念
先验概率与后验概率
先验概率
在贝叶斯理论中,先验概率是指在考 虑任何证据之前对某个事件或假设发 生的可能性所做的评估。它是基于过 去的经验和数据对未来事件的预测。
的类别。
它基于贝叶斯定理,通过将先验 概率、似然函数和决策函数相结 合,实现了对未知样本的分类。
贝叶斯判别分析在许多领域都有 广泛的应用,如金融、医疗、市
场营销等。
贝叶斯判别分析的原理
01
02
03
先验概率
在贝叶斯判别分析中,先 验概率是指在进行观测之 前,各类别的概率分布情 况。
似然函数
似然函数描述了观测数据 在给定某个类别下的概率 分布情况。
后验概率
后验概率是指在考虑了某些证据之后 ,对某个事件或假设发生的可能性所 做的评估。它是基于新的信息和证据 对先验概率的修正。
似然函数与贝叶斯定理

bayes判别法

bayes判别法

bayes判别法Bayes判别法Bayes判别法是一种基于贝叶斯定理的分类方法,它通过计算样本在各个类别下的后验概率来进行分类。

Bayes判别法在模式识别、机器学习和统计学等领域中得到了广泛应用。

一、贝叶斯定理贝叶斯定理是概率论中的一个重要定理,它描述了在已知某些条件下,某个事件发生的概率。

假设A和B是两个事件,P(A)和P(B)分别表示它们各自发生的概率,则有:P(A|B)=P(B|A)×P(A)/P(B)其中,P(A|B)表示在事件B发生的条件下事件A发生的概率,称为后验概率;P(B|A)表示在事件A发生的条件下事件B发生的概率,称为似然函数;P(A)和P(B)分别表示事件A和事件B独立发生的概率。

二、Bayes判别法原理Bayes判别法是一种基于贝叶斯定理的分类方法。

假设有n个样本,每个样本可以被分为k类。

对于一个新样本x,我们需要将其归入其中一类。

Bayes判别法采用后验概率最大化准则进行分类,即将x归为后验概率最大的那一类。

具体地,对于一个新样本x,我们需要计算其在每个类别下的后验概率P(ci|x),然后将x归为后验概率最大的那一类。

其中,ci表示第i类。

根据贝叶斯定理,我们可以将P(ci|x)表示为:P(ci|x)=P(x|ci)×P(ci)/P(x)其中,P(x|ci)表示在第i类下样本x出现的概率,称为类条件概率;P(ci)表示第i类出现的概率,称为先验概率;P(x)表示样本x出现的概率。

由于对于一个新样本来说,其出现的概率是相同的,因此可以忽略分母部分。

因此,我们只需要比较每个类别下的P(x|ci)×P(ci),并选择最大值所对应的类别作为分类结果。

三、Bayes判别法实现Bayes判别法可以通过训练样本来估计先验概率和类条件概率。

具体地,在训练阶段中,我们需要统计每个类别下每个特征取值出现的次数,并计算相应的先验概率和类条件概率。

具体地:1. 先验概率先验概率指在没有任何信息或者证据的情况下,每个类别出现的概率。

判别分析(第3节_贝叶斯判别法1)

判别分析(第3节_贝叶斯判别法1)

为 G1,G2 ,,Gk ,k个总体各自出现的概率分别为
q1, q2 ,,qk ,qi
0
k
, qi
1.
i 1
在这种的情形下,对于新的样品如何判断其来自哪
个总体?判断的准则函数该怎样确定?
第三节 贝叶斯(BAYES)判别法
下面我们对这一问题进行分析。首先应该清楚
L(Gi | Gi ) 0 ,L(Gi | Gi ) 0 ;对于任意的 i, j 1,2,, k 成 立 。 设 k 个 总 体 G1,G2 ,,Gk 相 应 的 p 维 样 本 空 间 为 R1, R2 ,, Rk ,即为一个划分,故我们可以简记一个判别规 则为 R (R1, R2 ,, Rk ) 。从描述平均损失的角度出发,如果 原来属于总体 Gi 且分布密度为 fi (x) 的样品,正好其取值落入 了 R j ,我们就将会错判为 X 属于 G j 。
采用后验概率的判别准则为:
判 X Gh , 当 P(Gh | X ) P(Gi | X ) 时,(i h,i 1,, k).
第三节 贝叶斯(BAYES)判别法
■ 贝叶斯判别准则 ● 基本问题 设有 k 个总体 G1,G2 ,,Gk ,其各自的分布密 度函数 f1(x), f2 (x), , fk (x) 互不相同的,假设 k 个总体各自 出 现 的 概 率 分 别 为 q1, q2 ,,qk ( 先 验 概 率 ), qi 0 ,
本章主要内容
第一节 第二节 第三节 第四节 第五节
绪论 距离判别法 贝叶斯判别法 Fisher判别法 判别效果检验问题
第三节 贝叶斯(BAYES)判别法
■ 贝叶斯判别法的基本思想 ● 问题引入 从第二节中可以看出:距离判别法虽然 简单,便于使用(对总体只涉及均值向量和协方差阵, 而对总体的分布类型不作要求)。但是该方法也有它 明显的不足之处: 首先,判别方法与总体各自出现的概率的大小无关; 其次,判别方法与错判之后所造成的损失无关。 贝叶斯判别法就是为了解决这些问题而提出的一种判 别方法。

距离判别法、贝叶斯判别法和费歇尔判别法的比较分析

距离判别法、贝叶斯判别法和费歇尔判别法的比较分析

距离判别法、贝叶斯判别法和费歇尔判别法的比较分析距离判别法、贝叶斯判别法和费歇尔判别法是三种常见的判别方法,用于对数据进行分类和判别。

本文将对这三种方法进行比较分析,探讨它们的原理、特点和适用范围,以及各自的优势和局限性。

1. 距离判别法距离判别法是一种基于样本间距离的判别方法。

它的核心思想是通过计算待分类样本与各个已知类别样本之间的距离,将待分类样本归入距离最近的类别。

距离判别法常用的距离度量有欧氏距离、曼哈顿距离和马氏距离等。

优势:- 简单直观,易于理解和实现。

- 不依赖于概率模型,适用于各种类型的数据。

- 对异常值不敏感,具有较好的鲁棒性。

局限性:- 忽略了各个特征之间的相关性,仅考虑样本间的距离,可能导致分类效果不佳。

- 对数据的分布假设较强,对非线性分类问题表现较差。

- 对特征空间中的边界定义不明确。

2. 贝叶斯判别法贝叶斯判别法是一种基于贝叶斯理论的判别方法。

它通过建立样本的概率模型,计算待分类样本的后验概率,将其归入后验概率最大的类别。

贝叶斯判别法常用的模型包括朴素贝叶斯和高斯混合模型等。

优势:- 考虑了样本的先验概率和类条件概率,能够更准确地对样本进行分类。

- 可以灵活应用不同的概率模型,适用范围广。

- 在样本量不充足时,具有较好的鲁棒性和泛化能力。

局限性:- 对特征分布的假设较强,对非线性和非正态分布的数据表现较差。

- 需要估计大量的模型参数,对数据量要求较高。

- 对特征空间中的边界定义不明确。

3. 费歇尔判别法费歇尔判别法是一种基于特征选择的判别方法。

它通过选择能够最好地区分不同类别的特征,建立判别函数进行分类。

费歇尔判别法常用的特征选择准则有卡方检验、信息增益和互信息等。

优势:- 基于特征选择,能够提取最具有判别性的特征,减少了特征维度,提高了分类性能。

- 不对数据分布做假设,适用于各种类型的数据。

- 可以灵活选择不同的特征选择准则,满足不同的需求。

局限性:- 特征选择的结果可能受到特征相关性和重要性的影响,选择不准确会导致分类效果下降。

贝叶斯__Bayes判别分析理论在安全评价中的应用

贝叶斯__Bayes判别分析理论在安全评价中的应用

研究与探讨贝叶斯(B ayes)判别分析理论在安全评价中的应用雷兢 沈斐敏(福州大学环境与资源学院 福州350002) 摘 要 论述了多元统计分析方法中的贝叶斯判别分析方法在安全评价中的应用。

通过对原始数据的分析建立起反映被评价对象安全状况的综合指标函数模型,从而简化后续同类评价目标工作量。

关键词 贝叶斯判别分析 安全评价 模型Application of B ayes Discriminant Analysis in S afety Evalu ationLei Jing Shen Feim in(Institute o f Environment and Resources ,Fuzhou Univer sity Fuzhou 350002)Abstract The paper expounds the application of Bayes discrim inant analysis in safety evaluation.Based on analysis of the original datum ,a m odel of evaluation function that reflects safety condition of evaluated object is constructed s o as to sim plify the process of the same evaluat 2ed target.K eyw ords bayes discrim inant analysis safety evaluation m odel 安全是人类生存和发展的最基本的需要之一,它伴随着人类的诞生而产生,存在于人类的所有活动中,随着科学技术的迅猛发展,人民生活水平及安全意识的提高和中国加入WT O ,人们对安全越来越重视,安全在国家的政治、经济、文化生活中已成为必不可少的角色。

第六章 bayes判别分析+ 举例

第六章 bayes判别分析+ 举例

学 习 目 的
本章只介绍判别分析的几种最基本的方法: 贝 叶斯判别、距离判别及费歇判别.学习本章,要密 切联系实际, 着重理解判别分析的基本思想方法及 具体实现步骤,了解几种不同判别分析方法的优、 缺点及应用背景.
第六章
判 别 分 析
贝 贝 叶 叶 斯 斯 判 判 别 别
距 离 判 别 费 歇 判 别 费 歇 判 别
i =1
给定 R 的一个划分 R = ( R1 , R2 ,
Ri ∩ R j = φ (i ≠ j , i, j = 1,2,
, Rk ) , 即 ∪ Ri =R m ,
i =1
k
, k) , 由 R 规 定 的 判 别 准
空间 R m 的一个分划(有时也称为判别) 。即
R m = {R1 , R2 | R1 ∪ R2 = R m , R1 ∩ R2 = φ }
由 R 规定的判别准则如下: 如果 x 落在 R1 内,则判其来自总体 π 1 ; 如果 x 落在 R2 内,则判其来自总体 π 2 。 给定分划的损失函数及平均损失 设 C (1 | 2) 为样品 x 来自总体 π 2 而误判为总体 这 其 π 1 的损失, 一 误 判 的 概 率 记 为 P (1 | 2 , R ) , 中 R = ( R1 , R2 ) ; (2 | 1) 为样品 x 来自总体 π 1 而误判 C 于是有 为总体 π 2 的损失,误判的概率记为 P(2 | 1, R) 。
R m 的任一划分,即
(6-4)
* * 证明:设 R = ( R1 , R2 ) 由(6-4)给出, R * = ( R1 , R2 ) 为
* * * * R1 ∪ R2 = R m , R1 ∩ R2 = φ 。
g(R1 , R2 ) = q1C(2 | 1) P(2 | 1, R) + q2 C(1 | 2) P(1 | 2, R)

贝叶斯判别法

贝叶斯判别法

贝叶斯判别法一、引言贝叶斯判别法(Bayesian Discriminant Analysis)是一种基于贝叶斯定理的统计学习方法。

它的核心思想是利用样本数据来估计各个类别的先验概率和条件概率密度函数,然后根据贝叶斯定理计算后验概率,从而实现分类。

二、基本原理1. 贝叶斯定理贝叶斯定理是统计学中一个重要的公式,它描述了在已知先验概率的情况下,如何根据新的观测数据来更新对事件发生概率的估计。

具体地说,设A和B是两个事件,则:P(A|B) = P(B|A) * P(A) / P(B)其中P(A|B)表示在已知事件B发生的前提下,事件A发生的条件概率;P(B|A)表示在已知事件A发生的前提下,事件B发生的条件概率;P(A)和P(B)分别为事件A和事件B的先验概率。

2. 贝叶斯判别法贝叶斯判别法是一种基于贝叶斯定理进行分类的方法。

假设有K个类别C1,C2,...,CK,每个类别Ci对应一个条件概率密度函数f(x|Ci),其中x为样本特征向量。

给定一个新的样本x,我们需要将其归为某个类别中。

根据贝叶斯定理,可以计算出后验概率P(Ci|x),即在已知样本特征向量x的前提下,该样本属于类别Ci的概率。

具体地说:P(Ci|x) = P(x|Ci) * P(Ci) / P(x)其中P(x|Ci)表示在已知类别Ci的前提下,样本特征向量x的条件概率密度函数;P(Ci)表示类别Ci的先验概率;P(x)表示样本特征向量x的边缘概率密度函数。

根据贝叶斯判别法,将新样本x归为后验概率最大的那个类别中,即:argmax(P(Ci|x)) = argmax(P(x|Ci)*P(Ci))三、分类器构建1. 参数估计贝叶斯判别法需要估计各个类别的先验概率和条件概率密度函数。

其中先验概率可以通过训练集中各个类别出现次数占总数比例来估计。

而条件概率密度函数则需要根据训练集中各个类别对应的样本特征向量来进行估计。

常见的条件概率密度函数包括高斯分布、多项式分布和伯努利分布等。

Bayes判别

Bayes判别

第三节Bayes判别本节内容贝叶斯公式最大后验概率准则最小平均误判代价准则Bayes判别的基本方法案例分析距离判别法的缺点第一,把总体等同看待,没有考虑到总体会以1不同的概率出现,认为判别方法与总体各自出现的概率的大小无关。

2第二,判别方法与错判之后所造成的损失无关,没有考虑误判之后所造成的损失差异。

贝叶斯(Bayes)公式贝叶斯统计的基本思想:假定对研究的对象已有一定的认识,常用先验概率分布来描述这种认识,然后我们取得一个样本,用样本来修正已有的认识(先验概率分布),得到后验概率分布,各种统计推断都通过后验概率分布进行,将贝叶斯思想用于判别分析,就得到贝叶斯判别。

某公司新入职雇员小王,小王是好员工还是坏员工大家都在猜测。

按人们先验的主观猜测,新人是好员工或坏员工的概率均为0.5。

坏员工总是无法按时完成工作,偶尔也可以顺利完成;好员工一般都能按时完成任务,但偶尔也会出现工作失误:一般好员工按时完成工作的概率为0.9,坏员工按时完成工作的概率为0.2。

近日,小王按时完成了一项工作任务,请问小王此时是好员工的概率有多大?“先验概率”是一种权重(比例),所谓“先验”,是指我们在抽样以前,就已经知道的 ;贝叶斯判别需要研究的“后验概率”,就是当样本X 已知时,它属于G i 的概率。

()i P G ()i P G X 由此,使用“最大后验概率准则”得到的贝叶斯判别规则为:1,()max ()≤≤∈=l l i i kX G P G X P G X 如果最大后验概率准则没有涉及误判的代价,因此,在各种误判代价明显不同的场合,该准则就失效了。

设有k 个总体 ,其各自的分布密度函数 互不相同,假设k 个总体各自出现的概率分别为 (先验概率), , 。

假设若将本来属于G i 总体的样品错判到总体G j 时造成的损失为, 。

在这样的情形下,对于新的样品X 判断其来自哪个总体。

问题12,,,k G G G ⋅⋅⋅()()()12,,,k f X f X f X ⋅⋅⋅12,,,k q q q ⋅⋅⋅0≥i q 11ki i q ==∑(|)C j i , 1.2,,=⋅⋅⋅i j k显然 、,对于任意的 成立。

概率论与数理统计之贝叶斯判别分析剖析讲解

概率论与数理统计之贝叶斯判别分析剖析讲解

P(g / x)=
expy(g / x)
k
expy(i / x)
i 1
因为y(g / x)=ln(qg fg (x)) (x)
其中(x)是 ln(qg fg (x))中与g无关的部分。
所以P(g / x)=
qg fg (x)
k

expy(g / x) (x)
k
qi fi (x) expy(i / x) (x)
先验概率和后验概率
• 先验概率是指根据以往经验和分析得到的概率,它往 往作为“由因求果”问题中的“因”出现。
• 后验概率是指在得到“结果”的信息后重新修正的概 率,是“执果寻因”问题中的“因”。后验概率是基 于新的信息,修正原来的先验概率后所获得的更接近 实际情况的概率估计。
先验概率和后验概率的区别:
p元正态分布密度函数为:
fg
(x)
(2
) p / 2
(g)
1/ 2
exp
1 2
(x
(g ) )' (g )1(x
(g) )
式中 (g)和(g)分别是第g总体的均值向量和协方差阵。把fg (x)
代入p(g / x)的表达式中,因为我们只关心寻找使p(g / x)最大
的g,而分式中的分母不论g为何值都是常数,故可改令
i 1
i 1
expy(g / x)exp(x)
k
expy(g / x)
k
expy(i / x)exp(x) expy(i / x)
i 1
i 1
由上式知,使y为最大的h,其P(g / x)必为最大, 因此我们只须把样品x代入判别式中:分别计算 y(g / x),g 1,2,, k。 若

贝叶斯判别法简介与应用场景

贝叶斯判别法简介与应用场景

贝叶斯判别法简介与应用场景标题:贝叶斯判别法简介与应用场景引言:贝叶斯判别法是一种基于贝叶斯定理的分类算法,被广泛应用于机器学习、数据挖掘和模式识别等领域。

本文将对贝叶斯判别法进行深入介绍,包括其原理、应用场景以及优缺点等方面的内容。

通过阐述贝叶斯判别法的相关知识,我们将能够更好地理解该算法,并在实际应用中更加高效地利用它。

正文:一、贝叶斯判别法原理贝叶斯判别法是基于贝叶斯公式进行分类问题求解的一种方法。

它假设数据服从特定的概率分布,并通过建立分类模型来进行分类。

贝叶斯判别法中的关键是计算给定类别的后验概率,以判断新样本的类别。

该方法包括朴素贝叶斯、高斯判别分析和多项式判别分析等具体方法。

二、贝叶斯判别法应用场景1. 文本分类贝叶斯判别法在文本分类中被广泛应用。

通过对已知类别的文本样本进行学习,该方法可以对新的文本进行分类。

例如,垃圾邮件过滤器就是利用贝叶斯判别法对邮件进行分类,将垃圾邮件和正常邮件进行区分。

2. 医学诊断贝叶斯判别法在医学诊断中也有广泛的应用。

通过建立患病和健康状态之间的概率模型,医生可以根据各种特征指标来进行诊断和预测。

例如,对于一种罕见疾病,医生可以使用贝叶斯判别法来评估患者的患病风险,并提供相应的治疗建议。

3. 图像识别贝叶斯判别法在图像识别领域的应用也十分重要。

通过对训练样本集进行学习,贝叶斯判别法可以对新的图像进行分类和识别。

例如,在人脸识别系统中,贝叶斯判别法可根据训练样本集中的人脸特征,对新的图像进行人脸识别。

4. 金融风控在金融风控领域,贝叶斯判别法被广泛应用于评估客户的信用风险。

通过分析历史数据和风险指标,该方法可以对可能出现的风险进行预测,帮助金融机构做出合理的风险决策。

三、贝叶斯判别法的优缺点1. 优点- 简单且易于理解:贝叶斯判别法基于贝叶斯定理,其原理相对简单,容易理解。

- 适用范围广:贝叶斯判别法不仅适用于概率独立的数据,还可以用于处理相关数据和连续数据。

第五章Bayes判别

第五章Bayes判别

x G1 , x G2 ,
ˆ (G1 | x) P ˆ (G2ቤተ መጻሕፍቲ ባይዱ| x) 若P ˆ (G | x) P ˆ (G | x) 若P
1 2
二、 两个正态总体的Bayes判别
3、 误判率的计算 (1 2 )
1 W ( x) a ( x ), 其中a (1 2 ), (1 2 ) 2
T
1
W ( x) ( 1 2 ) ( x )服从正态分布
W( x) ~ N ( , ) 2
W( x ) ~ N ( , ) 2
T
1

( x来自G1 )
( x来自G2 )

二、 两个正态总体的Bayes判别
3、 误判率的计算 平均误判率:
p* p1P(2 | 1) p2 P(1 | 2) p1 ( d
1 2 exp( d• j ( x)) 2 P(G j | x) k , j 1,2,, k . 1 2 exp( 2 di ( x)) i 1
R j {x : W j ( x) maxWi ( x)}
1i k
{x : P(G j | x) max P(G j | x)}, j 1,2,k.
Bayes判别最优划分为:
R1 {x : C (2 | 1) p1 f1 ( x) C (1 | 2) p2 f 2 ( x)} R2 {x : C (2 | 1) p1 f1 ( x) C (1 | 2) p2 f 2 ( x)}
R1 {x : C (2 | 1) P(G1 | x) C (1 | 2) P(G2 | x)} R2 {x : C (2 | 1) P(G1 | x) C (1 | 2) P(G2 | x)}

公路软基处理方案技术决策的Bayes判别分析法

公路软基处理方案技术决策的Bayes判别分析法

进 行 决 策 #彭 小 云 等 基 于 实 例 类 比 推 理 的 智 能 方 法 $ 对高速公路软基处 理 方 案 进 行 决 策#刘 勇 等 基 于 模 糊理论和层次分析 法$对 吹 填 土 路 基 处 理 方 案 进 行 决策%这些决策模型和方法从不同侧面反映了影响 软基处理方案决策的不确定因素%但对于软基处理 技术决策这类复杂问题的求解需多种方法和途径的 互补才能达到预 期 目 的% 基 于 这 一 考 虑$该 文 提 出 一种基于 )GQL2判别分析法的软基处理技术决 策模 型 和 方 法 $为 工 程 实 践 提 供 新 的 途 径 和 方 法 %
"""""公路与汽运
775
""""""""!"#$%&'( D )*+,-,+"./)001"2&+",3(""""""总第7$"期"
公路软基处理方案技术决策的 (CLA1判别分析法
刘三豆
湖南路桥建设集团有法 应 用 于 软 基 处 理 方 案 决 策 中建 立 了 软 基 处 理 方 案 技 术 决 策 的 )GQL2判别分析模型选用软土层厚度软土压 缩 模 量地 表 硬 层 厚 度 和 路 堤 填 土 高 度 等 ! 个 属 性 参数作为确定软基处理方案的判别 因 子将 软 基 处 理 技 术 方 案 分 为 不 处 理浅 层 处 理 和 深 层 处 理 等"个层次并作为 )GQL2判别分析的"个正态总 体以 7; 个 软 基 工 程 实 测 数 据 作 为 训 练 样 本建 立 )GQL2线性判别函数以 )GQL2线性判别函数计算待 判 样 品 的 )GQL2判 别 函 数 值以 )GQL2判 别 函数值的最大值对应的总体作为待 判 样 品 所 归 属 的 总 体最 后 以 回 代 法 对 判 别 准 则 进 行 评 价结 果 表明 )GQL2判别分析模型回判估计误判率低且7"个判别结果与实际工程中采用的处理方法基 本 一 致 模 型 的 应 用 效 果 优 良

Bayes 判别分析及应用 201009014119

Bayes 判别分析及应用  201009014119

Bayes 判别分析及应用班级:计算B101姓名:孔维文 学号201009014119指导老师:谭立云教授【摘 要】判别分析是根据所研究个体的某些指标的观测值来推断该个体所属类型的一种统计方法,在社会生产和科学研究上应用十分广泛。

在判别分析之前,我们往往已对各总体有一定了解,样品的先验概率也对其预测起到一定作用,因此进行判别时应考虑到各个总体出现的先验概率;由于在实际问题中,样品错判后会造成一定损失,故判别时还要考虑到预报的先验概率及错判造成的损失,Bayes 判别就具有这些优点;然而当样品容量大时计算较复杂,故而常借助统计软件来实现。

本文着重于Bayes 判别分析的应用以及SPSS 的实现。

【关键词 】 判别分析 Bayes 判别 Spss 实现 判别函数 判别准则Class: calculation B101 name: KongWeiWen registration number 201009014119Teacher: TanLiYun professor.【Abstract 】Discriminant analysis is based on the study of certain indicators of individual observations to infer that the individual belongs as a type of statistical methods in social production and scientific research is widely used. In discriminant analysis, we often have a certain understanding of the overall sample of the a priori probability of its prediction play a role, it should be taken into account to determine the overall emergence of various prior probability; because of practical problems, samples will result in some loss of miscarriage of justice, so identification must be considered when the prior probability and wrongly predicted loss, Bayes discriminant to have these advantages; However, when the sample is large computing capacity of more complex, often using statistical software Guer to achieve. This article focuses on the application of Bayes discriminant analysis, and implementation of SPSS.【Key words 】 Discriminant analysis; Bayes discriminant; Spss achieve; Discriminantfunction; Criteria;1.1.1 判别分析的概念在科学研究中,经常会遇到这样的问题:某研究对象以某种方式(如先前的结果或经验)已划分成若干类型,而每一种类型都是用一些指标T p X X X X ),,(21 来表征的,即不同类型的X 的观测值在某种意义上有一定的差异。

第04章_判别分析

第04章_判别分析

X
G1,
X G2,
如果 如果
Wˆ (X) 0 Wˆ (X) 0
(4.7)
这里我们应该注意到:
( 1 ) 当 p 1 , G1 和 G2 的 分 布 分 别 为 N(1, 2 ) 和
N(2 , 2 ) 时, 1, 2 , 2 均为已知,且 1 2 ,则判别
系数为
1 2 2
0 ,判别函数为
把这类问题用数学语言来表达,可以叙述如下:设有n个样 本,对每个样本测得p项指标(变量)的数据,已知每个样 本属于k个类别(或总体)G1,G2, …,Gk中的某一类,且 它们的分布函数分别为F1(x),F2(x), …,Fk(x)。我们希望 利用这些数据,找出一种判别函数,使得这一函数具有某种
最优性质,能把属于不同类别的样本点尽可能地区别开来,
W (X) I X C , 1,2,, k
相应的判别规则为
X Gi
如果
Wi
(X)
max
1 k
(I
X
C
)
( 4.9)
针对实际问题,当 μ1,μ2 ,,μk 和 Σ 均未知时,可以通过相应的
样 本 值 来 替 代 。 设 X1() ,
,
X( n
)
是 来 自 总 体 G
中 的样 本
( 1,2,, k ),则 μ ( 1,2,, k )和 Σ 可估计为
P(好/做 人好事)
P好P 人 (做 P好 好 /好 P 人 事 )做 人 P(坏 好 /好 )P 人 事 (做 人好 /坏事 )人
0.50.9 0.82 0.50.90.50.2
P(坏/做 人好事)
P好P 人 (做 P坏 好 /好 P 人 事 )做 人 P(坏 好 /坏 )P 人 事 (做 人好 /坏事 )人

公路软基处理方案技术决策的 Bayes 判别分析法

公路软基处理方案技术决策的 Bayes 判别分析法

公路软基处理方案技术决策的 Bayes 判别分析法刘三豆【摘要】将 Bayes 判别分析法应用于软基处理方案决策中,建立了软基处理方案技术决策的Bayes 判别分析模型;选用软土层厚度、软土压缩模量、地表硬层厚度和路堤填土高度等4个属性参数作为确定软基处理方案的判别因子,将软基处理技术方案分为不处理、浅层处理和深层处理等3个层次并作为 Bayes 判别分析的3个正态总体,以15个软基工程实测数据作为训练样本,建立 Bayes 线性判别函数;以 Bayes 线性判别函数计算待判样品的 Bayes 判别函数值,以 Bayes 判别函数值的最大值对应的总体作为待判样品所归属的总体;最后以回代法对判别准则进行评价,结果表明 Bayes 判别分析模型回判估计误判率低,且13个判别结果与实际工程中采用的处理方法基本一致,模型的应用效果优良。

【期刊名称】《公路与汽运》【年(卷),期】2016(000)002【总页数】4页(P116-118,171)【关键词】公路;Bayes 判别分析法;软基处理;方案决策【作者】刘三豆【作者单位】湖南路桥建设集团有限责任公司,湖南长沙 410004【正文语种】中文【中图分类】U416.1在软土地基上进行路基工程建设,首先需要对地基是否处理及是采用浅层处理还是深层处理方法等作出技术决策。

目前,软基浅层处理和深层处理方法很多,主要有置换法、排水固结法、贯入固化物、振密、挤密、加筋、超载预压和搅拌桩等,每种方法有其优点,也存在适用范围和一定的局限性。

此外,由于地基处理设计理论不完善且不确定性因素多,进行技术方案决策难度大,工程师的经验在地基处理方案技术决策中往往起着重要作用,但对缺少工程经验的工程技术人员来说可能有盲目性,因而如何使软基处理技术决策更具科学性非常重要。

冯仲仁等认为地质、工程、经济和环境等因素影响软基处理技术决策,而这些因素带有随机性和未知性,据此基于范例推理、模糊数学提出了高速公路软基处理方案决策模型;高景伟等基于模糊数学理论,提出了模糊相似优先的软基方案优选方法;张留俊等认为在公路软基处理方案决策中需考虑定量和非定量等因素的影响,并基于模糊数学和层次分析法建立了多层次模糊综合评判模型,以解决公路软基处理方案的优选问题;冯仲仁等提出灰色关联度、神经网络等公路软基处理方案决策模型;陈向阳等将自适应共振与神经网络相结合对软基处理方案进行决策;罗君君等基于模糊数学和物元分析理论,引入语言变量和熵权对公路软基处理方案优选进行决策;张士励等基于误差理论和区间数理论,将误差传递公式和可能度公式相结合,对软基处理方案优选进行决策;彭小云等基于实例类比推理的智能方法,对高速公路软基处理方案进行决策;刘勇等基于模糊理论和层次分析法,对吹填土路基处理方案进行决策。

Bayes多母体判别模型在油气层评价中的应用

Bayes多母体判别模型在油气层评价中的应用

Bayes多母体判别模型在油气层评价中的应用郭晖;骆福贵;倪有利;曾永文;王桂茹;张继德【摘要】在油气评价判别技术中采用了可以判别多个样品组的Bayes多母体判别模型.其原理是对g个样品组进行判别分析时,只需建立g个判别函数,然后计算待判样品出现在各类样品组中的概率,并依据最大概率进行归类.该方法将Bayes判别函数引入到评价软件中,可以用来实现对储集层流体性质的计算机智能评价.将样品组数据代入判别函数进行回判检验表明,油层正判率为56%,含油水层正判率为62%.这种评价方法目前在国内属首次提出,具有简便快速的特点.为便于该方法的推广,对现场油气层评价中的应用步骤进行了介绍.【期刊名称】《录井工程》【年(卷),期】2010(021)002【总页数】4页(P5-7,30)【关键词】录井评价;油气层;Bayes多母体判别模型;多元统计分析;最大概率【作者】郭晖;骆福贵;倪有利;曾永文;王桂茹;张继德【作者单位】长城钻探工程公司录井公司;长城钻探工程公司录井公司;长城钻探工程公司录井公司;长城钻探工程公司录井公司;长城钻探工程公司录井公司;长城钻探工程公司录井公司【正文语种】中文0 引言目前录井现场油气评价技术中多采用人工经验和简单的图板、图表分析方法。

在信息化、计算机化及网络化高度发达的今天,如何对录井评价对象采用新的技术手段,提高评价准确率,是很急迫和现实的问题[1-2]。

笔者采用了Bayes多母体判别模型,对录井解释中常见的4种类型(油层、干层、含油水层、水层)的地球化学数据进行了分类,从多元统计分析入手,以收集的数据母体为基础,利用数学模型建立新的储集层评价方法,并将之引入计算机智能评价,在实际应用中获得了良好效果。

1 Bayes多母体判别模型原理通常两组判别分析是在费歇准则下为p维空间两点群寻找最优分割面。

但是,在录井油气评价中进行的判别不仅仅限于两组,往往是在多组间进行判别。

两组判别是在两组间建立一个线性判别函数式,根据两组已知样品的“重心”求得一个判别指标,然后对样品的归属予以判别。

Bayes判别

Bayes判别

§5.2Bayes 判别1. Bayes 判别的基本思想假设已知对象的先验概率和“先验条件概率”, 而后得到后验概率, 由后验概率作出判别.2. 两个总体的Bayes 判别 (1) 基本推导设概率密度为1()f x 和2()f x 的p 维总体12,G G 出现的先验概率为1122(),()p P G p P G ==(121p p +=)先验概率的取法: (i) 1212p p ==, (ii) 12121212,n n p p n n n n ==++,一个判别法 = 一个划分=12(,)R R =R1212,,p R R R R =⋃=⋂=∅R距离判别中112212{|(,)(,)}{|(,)(,)}R d G d G R d G d G =≤=>x x x x x x判别R 下的误判情况讨论21(2|1,)()d R P f =⎰R x x ,或12(1|2,)()d R P f =⎰R x x代价分别记为(2|1),(1|2),(1|1)0,(2|2)0c c c c ==, 在得新x 后, 后验概率为1111122()(|)()()p f P G p f p f =+x x x x2221122()(|)()()p f P G p f p f =+x x x x(i) 当(1|2)(2|1)c c c ==时, 最优划分是112212{:(|)(|)}{:(|)(|))}R P G P G R P G P G =≥⎧⎨=<⎩x x x x x x 两个总体的Bayes 的判别准则112212,(|)(|),(|)(|)G if P G P G G if P G P G ∈≥⎧⎨∈<⎩x x x x x x 此时, 有最小的误判概率*12(2|1,)(1|2,)p p P p P =+R R .因为21*1122()d ()d R R p p f p f =+⎰⎰x x x x111122(1()d )()d R R p f p f =-+⎰⎰x x x x()112211()()d R p p f p f =+-⎰x x x只有取12211{:()()}R p f p f =≤x x x 时, 才有最小. (ii) 当(1|2)(2|1)c c ≠时对1G 的误判平均损失: (1,)(2|1)(2|1,)l c P R =R , 对2G 的误判平均损失:(2,)(1|2)(1|2,)l c P R =R , 对整个误判的平均损失:12(1,)(2,)L p l p l =+R R12(2|1)(2|1,)(1|2)(1|2,)c p P R c p P R =⋅⋅+⋅⋅可证使L 最小的最优划分是1112221122{:(2|1)()(1|2)()}{:(2|1)()(1|2)()}R c p f c p f R c p f c p f =≥⎧⎨=<⎩x x x x x x 或112212{:(2|1)(|)(1|2)(|)}{:(2|1)(|)(1|2)(|))}R c P G c P G R c P G c P G =≥⎧⎨=<⎩x x x x x x 当12p p =时, 有112212{:(2|1)()(1|2)()}{:(2|1)()(1|2)()}R c f c f R c f c f =≥⎧⎨=<⎩x x x x x x 当12p p =, 且时(1|2)(2|1)c c c ==, 有 112212{:()()}{:()()}R f f R f f =≥⎧⎨=<⎩x x x x x x 相当于经典统计学中的似然比准则判别.(2) 两个正态总体的Bayes 判别 1) 12==ΣΣΣ的判别112212,()(),()()G if W W G if W W ∈≥⎧⎨∈<⎩x x x x x x 其中111222(),()T TW b W b ++x a x x a x ,及 111111111,2ln TT T b p --+-a μΣμΣμ122122221,2ln T T T b p --+-a μΣμΣμ 实用中, 用样本均值和样本协方差阵代.替.当1212p p ==时, 与距离判别等价. 如用后验概率来判别(或其估计), 则有112212,(|)(|),(|)(|)G if P G P G G if P G P G ∈≥⎧⎨∈≥⎩x x x x x x .1) 12≠ΣΣ的判别与距离判别的区别为广义平方距离函数21111111()()()ln 2ln((2|1))T d c p -=--+-x x μΣx μΣ,21222222()()()ln 2ln((1|2))T d c p -=--+-x x μΣx μΣ推导过程略.当 “三同”时, 与距离判别一样.(3) 误判概率的计算在12==ΣΣΣ下, 作简要讨论. 用广义距离2221()()d d -x x 可导出划分12{:()}{:()}R W d R W d =≥⎧⎨=≥⎩x x x x (^_^) 其中112()()()T W -=--x μμΣx μ, 21(1|2)ln (2|1)c p d c p =, 两个总体1G 与2G 的马氏平方距离可记为11212()()T λ-=--μμΣμμ经导, 对(^_^)的划分, 其误判率为*121p p p ΦΦ⎛⎫=+- ⎪⎝⎭ 随λ大而小.实用中, 用(1)(2)1(1)(2)ˆ()()T λ-=--x x S x x 代λ.当121/2p p ==时, 有*2112211ˆ2n n p n n ⎛⎫=+ ⎪⎝⎭当12,p p 按容量比例选取时, 即12121212,n n p p n n n n ==++ 有 *122112ˆn n p n n +=+ 误判率的回代估计.例5.3 预报春旱. 两个预报因子的观察值12,X X , 假设误报损失相同, 先验概率按比例. 由下表数据进行两总体的Bayes 判别.解 16/140.4286p ==, 28/140.5714p ==. 调用proc discrim 得12ln || 1.8053,ln || 3.6783S S =-=-(1)(2)25.31622.025,2.416 1.187x x ⎡⎤⎡⎤==--⎢⎥⎢⎥⎣⎦⎣⎦122.2130.6570.2730.063,0.6570.2690.0630.106S S --⎡⎤⎡⎤==--⎢⎥⎢⎥⎣⎦⎣⎦ 广义平方距离为(1,2j =)2()1()()()()ln 2ln j T j j jj j d p -=--+-x x x S x x S 后验概率为222ˆˆ0.5()0.5()1ˆ(|)e e j k d d j k P G --==∑x x x ,(1,2j =).回代判别结果如下略,误判率=0;若用交叉确认法, 则应按下式计算2()1()()()()()()()()ln 2ln j j j T j j x x x x j d p -=--+-x x x S x x S 逐个剔除, 交叉判别.有一错(10号被判错), 交叉确认估计*ˆ1/140.0714c p ==3. 多个总体的Bayes 判别(1) 一般讨论设概率密度为1~()k f x 的p 维总体1~k G 出现的先验概率为1~1~()k k p P G =, (11kj j p ==∑)先验概率的取法: (i) 1~1k p k =, 或(ii) 1~1~12k k k n p n n n =++,一个判别法= 一个划分=12{(,,,)}k R R R =R 判别准则 1,,kp j i j j R R R i j ==⋃=⋂=∅≠R判别R 下的误判情况讨论(|,)()d ,ji R P j i f j i =≠⎰R x x ,(1~)j k = 代价记为一个损失矩阵()(|)k k c j i ⨯(约定(|)0,1~c i i i k ==)常取(|)1,c j i i j =≠. 来自i G 判为其他总体的概率是(|,)j iP j i ≠∑R误判的概率*1(|,)ki i j i p p P j i =≠⎛⎫= ⎪⎝⎭∑∑R 使其最小, 得最优划分.当(|)c j i 不全相等时,将来自i G 判为其他总体的平均损失率1(|,)(|)ki j l P j i c j i ==∑R误判的平均损失率111(|,)(|)k kk i i i i i j L p l p P j i c j i ===⎛⎫== ⎪⎝⎭∑∑∑R应使其最小的划分R .进一步的讨论1) 当(|)1,c j i i j =≠时,因1(|,)1kj P j i R ==∑, 故(|,)1(|,)j iP j i P i i ≠=-∑R R从而有()()*111(|,)1()d ik ki R i i p P i i f ===-=-∑∑⎰R x x11()d iki R i f ==-∑⎰x x当1{:()max ()},1~i i i j j j kp f p f i k ≤≤===R x x x 时,12(,,,)k R R R =R 是使*p 最小的最优划分.又由Bayes 公式, 当出现样品x 时, 总体i G 的后验概率1~()(|)()i i i j jj kp f P G p f ==∑x x x故最优划分为1{:(|)max (|)}i i j j kR P G P G ≤≤==x x x , (1~i k =)当有多个时, 任选一个.2) 当(|),c j i i j ≠不全相等时,111(|,)(|)kkk i i i i i j L p l p P j i c j i ===⎛⎫== ⎪⎝⎭∑∑∑R11(|)()d jkk i i j i p c j i f ==⎛⎫= ⎪⎝⎭∑∑⎰R x x11(|)()d jkki i j i p c j i f ==⎛⎫= ⎪⎝⎭∑∑⎰R x x11()(|)()()d jkj iiki j j h x p c j i f h ==⎛⎫ ⎪⎝⎭∑∑⎰R x x x取划分为1{:()min ()},1~j j i i i kh p f j k ≤≤===R x x x可使L 达到最小. 若记1(|)(|)(|),1~kj i i H G c j i P G j k ===∑x x(当出现x 后,被判为来自j G 后验平均损失, 则有1{:(|)min (|)},1~j j i i kH G H G j k ≤≤===R x x x若有多个, 则任判一个.(2) 多个正态总体的Bayes 判别1) 对1,(|)0,i jc j i i j≠⎧=⎨=⎩的情况(i) 当12k ====ΣΣΣΣ时,设~(,)j p j G N μΣ(1~)j k =线性判别函数为()T j j j W b +x a x ,其中111,2ln j T T T j j jj j b p --+-a μΣμΣμ广义平方函数21()()()2ln T j j j j d p -=---x x μΣx μ,1~j k =后验概率22ˆˆ0.5()0.5()1(|)ee jk kd d j k P G --==∑x x x这时最优划分1{:()max ()}j j i i kR W W ≤≤==x x x1{:(|)max (|)}j i i kP G P G ≤≤==x x x (1~j k =)实用中, 用样本均值和样本协方差阵代替.(ii) 1~k Σ不全相等时, 设~(,)j p j j G N μΣ(1~)j k = 则有21()()()ln 2ln T j j j j j j d p -=--+-x x μΣx μΣ后验概率22ˆˆ0.5()0.5()1(|)ee jk kd d j k P G --==∑x x x ,(1~)j k =这时最优划分1{:(|)max (|)}j j i i kR P G P G ≤≤==x x x (1~j k =)实用中, 用2ˆ()j d x ,ˆ(|)jP G x 代替.2) 一般损失情况 计算(|),1~i P G j k =x 及1(|)(|)(|),1~kj i i H G c j i P G j k ===∑x x最优划分为1{:(|)min (|)},1~j j i i kH G H G j k ≤≤===R x x x例5.4 某学院招生时, 有两个参考指标1X : 平均学分指数; 2X 管理能力考试成绩;申请者分为3类: 1G 录取; 2G 不录取; 3G 待定. 近期有85位记录.(部分资料) 假定1) 各总体~正态分布;2) 先验概率按比例;3) 误判损失相同讨论在(i) 协方差阵相同; (ii) 协方差不全相同时; Bayes判别分析, 并给出误判率的回判法和交叉确认法估计值.若有一新申请者的资料13.12x=和2497x=, 在两种情况下各被判入哪类?解(i) 调用proc discrim过程, 得(部分)和**ˆˆ7/850.0824,8/850.094r c p p ====关于新样本0(3.12,497)T x =的后验概率10(|)0.2401P G x =, 20(|)0.0004,P G x =30(|)0.7578P G x =,故应该待定.(ii) 协方差不全相等时, 有和**ˆˆ3/850.03534/850.0471r c p p ====关于新样本0(3.12,497)T x =的后验概率10(|)0.5983P G x =, 20(|)0.0032,P G x =30(|)0.3985P G x =,当属1G 类(录取).总结前述内容均利用了所给定的全部p 个指标变量, 但并非指标变量越多, 判别效果就越好, 相反, 有时可能影响判别分析效果.因此,如回归分析一样,在判别分析中仍存在指标变量的选取问题,称为逐步判别法.限于本书特点,在此不再详述.有兴趣者可参见如[3]中第6章等.另外sA5系统的Proc stepdisc过程(参见[6])可用于逐步判别分析.。

判别分析-贝叶斯判别

判别分析-贝叶斯判别

贝叶斯公式是一个我们熟知的公式
P(Bi
|
A)
P( A | Bi )P(Bi ) P( A | Bi )P(Bi )
设有总体 Gi (i 1,2,,k,) 具有Gi概率密度函 数 。并fi (且x)根据以往的统计分析,知道 出现Gi的概率。由贝叶 斯公式计算后验概率,有:
q1
qk
1 k

有 mi (x) 1 μ Σ μ (i) 1 (i) μ(i)Σ1x 2
完全成为距离判别法 。
二、 考虑错判损失的Bayes判别分析 设有总体 Gi (i 1,2,,k) ,Gi具有概率密度函
数 fi (x)。并且根据以往的统计分析,知道 Gi 出现 的概率为 qi,(q1 qk 1) 。
P(Gi
|
x0 )
qi fi (x0 ) q j f j (x0 )
判别规则
P(Gl
|
x0 )
ql fl (x0 ) q j f j (x0 )
max
1ik
qi fi (x0 ) q j f j (x0 )
则 x0判给Gl ,在正态的假定下,fi (x)为正态分布的 密度函数。
下面讨论总体服从正态分布的情形
然后比较其大小,选取其中最小的,则判定样 品属于该总体。
下面在k=2的情形下,计算作为例子,我们讨论。
ECM (D1, D2 )
q1C(2 /1) f1(x)dx q2C(1/ 2) f2 (x)dx
D2
D1
q1C(2 /1) f1(x)dx q2C(1/ 2) f2(x)dx
R D1
设两总体 GA, GB 分别服从 其线性判别函数为:
W
(x)
2(x
)'
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Bayes 判别分析及应用班级:计算B101姓名:孔维文 学号201009014119指导老师:谭立云教授【摘 要】判别分析是根据所研究个体的某些指标的观测值来推断该个体所属类型的一种统计方法,在社会生产和科学研究上应用十分广泛。

在判别分析之前,我们往往已对各总体有一定了解,样品的先验概率也对其预测起到一定作用,因此进行判别时应考虑到各个总体出现的先验概率;由于在实际问题中,样品错判后会造成一定损失,故判别时还要考虑到预报的先验概率及错判造成的损失,Bayes 判别就具有这些优点;然而当样品容量大时计算较复杂,故而常借助统计软件来实现。

本文着重于Bayes 判别分析的应用以及SPSS 的实现。

【关键词 】 判别分析 Bayes 判别 Spss 实现 判别函数 判别准则Class: calculation B101 name: KongWeiWen registration number 201009014119Teacher: TanLiYun professor.【Abstract 】Discriminant analysis is based on the study of certain indicators of individual observations to infer that the individual belongs as a type of statistical methods in social production and scientific research is widely used. In discriminant analysis, we often have a certain understanding of the overall sample of the a priori probability of its prediction play a role, it should be taken into account to determine the overall emergence of various prior probability; because of practical problems, samples will result in some loss of miscarriage of justice, so identification must be considered when the prior probability and wrongly predicted loss, Bayes discriminant to have these advantages; However, when the sample is large computing capacity of more complex, often using statistical software Guer to achieve. This article focuses on the application of Bayes discriminant analysis, and implementation of SPSS.【Key words 】 Discriminant analysis; Bayes discriminant; Spss achieve; Discriminantfunction; Criteria;1.1.1 判别分析的概念在科学研究中,经常会遇到这样的问题:某研究对象以某种方式(如先前的结果或经验)已划分成若干类型,而每一种类型都是用一些指标T p X X X X ),,(21 来表征的,即不同类型的X 的观测值在某种意义上有一定的差异。

当得到一个新样品(或个体)的关于指标X 的观测值时,要判断该样品(或个体)属于这几个已知类型中的哪一个,这类问题通常称为判别分析。

也就是说,判别分析是根据所研究个体的某些指标的观测值来推断该个体所属类型的一种统计方法。

判别分析的目的是得到体现分类的函数关系式,即判别函数。

基本思想是在已知观测对象的分类和特征变量值的前提下,从中筛选出能提供较多信息的变量,并建立判别函数;目标是使得到的判别函数在对观测量进行判别其所属类别时的错判率最小。

判别函数的一般形式是:1122n n Y a x a x a x =+++ .其中,Y 为判别函数判别值;n x x x ,,,21 为反映研究对象特征的变量;n a a a ,,,21 为各变量的系数,即判别系数。

常用的判别法有距离判别法、Fisher 判别法和Bayes 判别法。

用统计语言来描述判别分析,就是已知有g 个总体g G G G ,,,21 (每个总体i G 可认为是属于i G 的指标T p X X X X ),,,(21 =取值的全体),它们的分布函数)(,),(),(21x F x F x F g 均为p 维函数,对于任一给定的新样品关于指标X 的观测值T p x x x x ),,,(21 =,我们要判断该样品应属于这g 个总体中的哪一个。

1.1.2 判别分析的应用及意义判别分析的应用十分广泛。

例如,在工业生产中,要根据某种产品的一些非破坏性测量指标判别产品的质量等级;在经济分析中,根据人均国民收入、人均工农业产值、人均消费水平等指标判断一个国家、某个省市经济发展程度所属的类型;在考古研究中,根据挖掘的古人头盖骨的容量、周长等判断此人的性格;在地质勘探中,根据某地的地质结构、化探和物探等各项指标来判断该地的矿化类型;在医学诊断中,医生要根据某病人的化验结果和病情征兆判定病人患哪一种疾病,等等。

值得注意的是,作为一种统计方法,判别分析所处理的问题一般都是机理不甚清楚或基本不了解的复杂问题,如果样品的某些观测指标和其所属类型有必然的逻辑关系,也就没有必要应用判别分析方法了。

在实际应用中,通常由取自各总体的关于指标X 的样本为该总体的代表,该样本称为训练样本,判别分析即提取训练样本中各总体的信息以构造一定的准则来决定新样品的归属感。

训练样本往往是历史上对某现象长期观察或者是用昂贵的试验手段得到的,因此对当前的新样品,我们自然希望将其指标中的信息同各总体训练样本中的信息作比较,使可在一定程度上判定新样品的所属类型。

概括起来,下述几方面体现了判别分析的重要意义。

第一,为未来的决策和行动提供参考。

例如,以前对一些公司在破产前两年观测到某些重要的金融指标值。

现在,要根据另一个同类型公司的这些指标的观测值,预测该公司两年后是否将频临破产的危险,这便是一种判别,其结论可以帮助该公司决策人员及早采取措施,防止将来可能破产的结局。

第二,避免产品的破坏。

例如,一只灯泡的寿命只有将它用坏时才能得知;一种材料的强度只有将它压坏时才能获得。

一般地,我们希望根据一些非破坏性的测量指标,便可将产品分出质量等级,这也要用到判别分析。

第三,减少获得直接分类信息的昂贵代价。

例如在医学诊断中,一些疾病可用代价昂贵的化验或手术得到确诊,但通常人们往往更希望通过便于观测的一些外部症状来诊断,以避免过大的开支和患者不必要的损伤。

第四,在直接分类信息不能获得的情况下可用判别分析。

例如,要判断某未署名的文学作品是否出自某已故作家之手,很显然,我们不能直接去问他。

这是可以用判别分析方法在一定程度上判定该署名作品是否由该作家所作。

从以上例子也可以清楚地看出,如果不是利用直接明确的分类信息来判断某新样品的归属问题,难免会出现误判的情况,判别分析的任务是依据训练样本所提供的信息,建立在某种意义下最优(如误判概率最小或误判损失最小)的准则来判定一个新样品属于哪一个总体。

2.1 Bayes 判别分析的前提假设在介绍具体判别方法前首先来看判别分析的假设条件。

这一点非常重要,如果数据不满足分析的前提条件,分析的结果是值得怀疑的。

(1)各个判别变量服从正态分布,由各个判别变量的联合分布是多元正态分布。

只有在这个条件下,我们才可以进行有关的显著性检验。

(2)各判别变量不能存在多重共线性。

这样变量组成的矩阵将不存在逆,判别分析的计算不能进行。

(3)每个变量在各类中的取值应存在显著性差异。

只有在这个假设下才能通过变量建立有效地判别函数将各类区分出来。

2.2 Bayes 判别的基本思想Bayes 统计是现代统计学的重要分支,其基本思想[1]是:假定对所研究的对象(总体)在抽样前已有一定的认识,常用先验分布来描述这种认识,然后给予抽取的样本再对先验认识作修正,得到后验分布,而各种统计推断均基于后验分布进行。

将Bayes 统计的思想用于判别分析,就得到Bayes 判别方法。

用统计的语言来描述Bayes 判别分析[2]: 已知有g 个p 维总体g G G G ,,,21 (每个总体i G 可认为是属于i G 的指标g X X X X ,,,21 =取值的全体),它们的先验概率分别为g q q q ,,,21 (他们可由经验给出也可以估计出),显然应有),,2,1(0g i q i =≥且11=∑=gi iq。

各总体分别具有互不相同的p 维密度函数()x f x f x f g ,),(),(21 (在离散情形是概率函数),在观测到一个样本x 的情形下,可用著名的Bayes 公式计算它来自第k 总体的后验概率(相对先验概率来说,将它又称为后验概率):∑==gi i ik k x f qx f q x k P 1)()()/( g k ,,2,1 = (2-2-1)并且当 )/(max )/(1x k P x h P gk ≤≤= 时,则判X 来自第h 个总体.有时还可以使用错判损失最小的概念作判别函数。

这时把x 错判归第h 总体的平均损失定义为()k h L x f qx f q x h E hk gi i ik k /)()()/(1⋅=∑∑≠= (2-2-2)其中)/(k h L 称为损失函数。

它表示本来是第k 总体的样品错判为第h 总体的损失。

显然上式是对损失函数依概率加权平均或称为错判的平均损失。

当k h =时,有)/(k h L =0,当k h ≠时,有)/(k h L >0.建立判别准则为如果 )/(min )/(1x k E x h E gk ≤≤= ,则判x 来自第h 个总体.原则上说,考虑损失函数更为合理,但是在实际应用中)/(k h L 不容易确定,因此常常在数学模型中就假设各种错判的损失皆相等,即⎩⎨⎧=10)/(x k L k h k h ≠= (2-2-3) 这样一来,寻找h 使后验概率最大和使错判的平均损失最小是等价的,即min )/(max )/(−→−⇔−→−hh x h E x h p2.3 两正态分布的Bayes 判别[6]2.3.1马氏 (Mahalanobis ) 距离和判别函数设G 是p 维总体,数学期望为μ,协方差矩阵为∑,p 维样本x 到总体G 的马氏距离定义为211)]()[(ˆ),(μμ--=∑-x x G x d T (2-3-1)设1G ,2G 为不同的两个p 维总体,数学期望分别为1μ和2μ,协方差矩阵分别为1∑和2∑, 考察样品x 到两总体的马氏距离的平方差,并根据式(1)可得2/)(,)()(2),(),(212111222μμμμμμ+=--=-∑-T x G x d G x d (2-3-2))(x W 为判别函数, 令∑--=-)()()(211μμμT x x W (2-3-3)2.3.2 Bayes 判别函数设21,G G 为两个不同的p 维正态总体,这时其概率密度为2,1,)()(21exp )2()(1212=⎭⎬⎫⎩⎨⎧-∑--∑=---i x x x f i i T i ip i μμπ (2-3-4)其中i μ和i ∑(2,1=i )为两总体的均值向量和协方差矩阵,i ∑表示矩阵i ∑的行列式(2,1=i )。

相关文档
最新文档