地理数学方法——判别分析.ppt
计量地理学 第八章 判别分析地理模型
第八章判别分析地理模型在自然和社会科学的研究中,往往会遇到这样的问题,即根据观测数据对所研究的对象进行分类判别。
第一节判别分析及其基本原理判别分析是一种根据某一地理对象的各种特征指标或多种信息来分辨或判别其类型归属问题的多变量统计分析方法,它对某地地理类型的划分和区界的判定具有重大的理论意义和现实意义。
判别分析的地理研究内容判别分析的作用一.判别分析准则在作判别分析时,首先要根据一批包括各种地理类型的特征指标或数据,按照一定的判别准则来建立一个判别函数表达式。
判别函数确定判别函数的准则费歇尔(F i s h e r)准则要使判别函数值能充分地区分开地理类型,就需要使各类均值之间的差别最大(即使不同类之间的差别最大),而使各类内部的离差平方和为最小(即使同类间的差别最小)。
换句话说,即要求类间(或组间)均值差与类内(或组内)方差之比最大,这样就能把地理类型区分得最清楚,这就是费歇尔准则的基本要点。
贝叶斯(B a y e s)准则当应用贝叶斯准则进行判别分析时,要求把已知的地理数据分成几类(或几组),然后计算未知地理类型或区域归属于各已知类型(或组)的概率值,它归属于哪一类的概率最大,就把它划归该类(组);另外,还可计算出划归各已知类的错分损失,即错分哪一类的平均损失为最小,就把它判定为该类。
以上就是贝叶斯准则的基本要点。
二.判别分析基本原理判别分析的基本原理,是根据已知的地理特征值或有k个变量,按照一定的判别分析准则,来建立判别函数模型和计算出判别临界值(或称判别指标);当求出了判别函数值和差别临界值以后,再比较其数值的大小,最后便可确定其类型的归属问题。
三.判别分析的分类第二节两组判别分析两组判别分析是解决待判样品分属于已知两组中哪一组的问题。
一、方法原理在两组间进行判别的处理方法,基于统计上的费歇准则,即判别的结果应使两组间区别最大,使每组内部离散性最小。
在费歇准则意义下,确定线性判别函数:y = c1x1+ c2x2+… c m x m其中,c1,c2,…, c m 为待求的判别函数系数,它可反映各要素或特征值的作用方向、分辨能力和贡献率的大小。
第五章 判别分析ppt课件
在经济学中,根据人均国民收入、人均消费水平、人均住房 面积等多种指标来判定一个国家的经济发展程度所属类型。
在考古学中,根据发掘出来的人类头盖骨的高、宽等特征来 判断其性别是男性还是女性。
在税务稽查中,要判断某纳税户是诚实户还是偷税户。
……
2008.8 休息一下
最新版整理ppt
统计学专业主干课程——多元统计分析
休息一下统计学专业主干课程多元统计分析20088精选1fisher判别函数和判别准则1fisher判别函数和判别准则休息一下统计学专业主干课程多元统计分析20088精选1fisher判别函数和判别准则1fisher判别函数和判别准则休息一下统计学专业主干课程多元统计分析20088精选1fisher判别函数和判别准则1fisher判别函数和判别准则542fisher判别函数和判别准则休息一下统计学专业主干课程多元统计分析20088精选休息一下统计学专业主干课程多元统计分析20088精选2应用实例2应用实例542fisher判别函数和判别准则休息一下统计学专业主干课程多元统计分析20088精选2应用实例2应用实例542fisher判别函数和判别准则休息一下统计学专业主干课程多元统计分析20088精选2应用实例2应用实例542fisher判别函数和判别准则休息一下统计学专业主干课程多元统计分析20088精选多元分析中有一个非常重要的思想方法就是采用降维技术把rp中的点通过适当方式投影到低维空间即用低维向量近似地替代p维向量然后在低维空间上在进行组的判别
本章的大部分内容是讨论两组判别分析。
2008.8 休息一下
最新版整理ppt
统计学专业主干课程——多元统计分析
5.1.3 判别分析的类型
2、按判别函数的形式分
按判别函数的形式(区分不同总体所用的数学模型)分, 有线性判别和非线性判别。
06.判别分析
从全部控矿地质因素和找矿标志中选择7个变量参 加判别分析:x1为接触带长度;x2为单元中心距断 喷带距离;x4为闪长玢岩出露面积比;x5为围岩蚀 变组合相对熵;x9为磁异常特征值;x10为重力异常 形态特征值;x12为岩层组合相对熵。建立的判别函 数为:
为了进一步对比煤层,考虑选取只与煤层成因 有关的地质变量如煤的灰分、硫分、灰分成分等12 个指标建立各煤层的判别式,从而将各煤层用数学 表达式定量地确定下来。
各判别式经过显著性检验都是特别显著的,即运用以上 判别式分辨煤层有效。以里兰、河里、马鞍煤矿四煤样品 为未知样品进行判别,四个未知样品均以100%的后验概率 落入第三类,即属于四煤(上)层(表6-5)
因此,可以认为,里兰、河里一线以南的四煤,只相当 于煤产地北部的四煤(上)层。
上述是判别分析用于解决煤层对比的实际例子。 此外,在我国运用判别分析进行矿床定量预测方面, 也取得了教好的成果。
在矿床统计预测时,首先将研究区划分为 若干个单元;再从这些单元中选择一些研究程 度较高的有矿或无矿单元作为已知单元,然后 选择与矿化密切的地质因素作为地质变量并将 其数值化。根据这些变量对已知含矿或无矿两 个母体建立判别函数,最后对未知单元进行判 别,以便定量地给出含矿单元,作为矿床预测 区。
诸如此类的问题,在传统地质学中,多是 只管的定性判断,往往随地质人员实践经验Байду номын сангаас 同,得出不同的结论。因此,具有较大的主观 性和片面性。运用判别分析方法,对比较复杂、 地质变量多、地质属性比较近似的问题,能够 给出定量的合理判别。
判别分析的基本思想,是将研究对象(某一个 体)的各种地质特征,同它可能归属的各个类型的 地质特征进行对比,以决定其应该归入哪一类。为 此,判别分析主要解决两个问题: 1、根据什么指标来判别(分辨)已知的类型,即 建立判别函数; 2、对于可能来自已知类型的某些未知样品,如何 判定它们归属已知类型中的哪一类。
第8章 判别分析ppt课件
逐渐判别分析
STEPDISC过程
SAS 统计分析与应用 从入门到精通
逐渐判别分析
STEPDISC过程
SAS 统计分析与应用 从入门到精通
四、逐渐判别分析
2、STEPDISC过程
语句阐明: 〔1〕PROC语句用于规定运转STEPDISC过程,并指定要分析的数
据集名。选项有: METHOD=选项——规定对判别函数中的变量进展选择的方法。
SAS 统计分析与应用 从入门到精通
逐渐判别分析
STEPDISC过程
PROC STEPDISC DATA=数据集名 <选项>; CLASS 分类变量名; VAR 变量名列表; BY 分组变量;
RUN;
SAS 统计分析与应用 从入门到精通
逐渐判别分析
STEPDISC过程
SAS 统计分析与应用 从入门到精通
SAS 统计分析与应用 从入门到精通
第八章 判别分析
判别分析简介 普通判别分析 典型判别分析 逐渐判别分析
SAS 统计分析与应用 从入门到精通
一、判别分析简介
判别分析是一种运用性很强的统计方法。它通常是根据已有的数据 资料,来建立一种判别方法,然后再来判别一个新的样品归属于哪一类。
例如,医院拥有以往就诊的各种病人的资料,包括他们的心率、血 压、体温、化验目的等很多数据。如今有一个新的病人来医院就诊,对 他也丈量了相关的目的数据,要判别他患有哪一种病,这就属于一个判 别归类的问题。又如,在矿产勘探中积累了丰富的地质资料,如今某地 域新采到了一个岩石标本,要从它的根本特征判别该地域有无矿产,是 贫矿还是富矿,那么也需求进展判别分析。
〔5〕BY语句规定了分组变量,它使得BY过程对分组内进展处置。 在运用BY语句前,应对数据集按照分组变量进展排序。
第11讲判别分析
协方差矩阵
9.0570 S1= 14.0055
14.0055 86.0570
21.7030 S2= 29.4205
29.4205 47.1680
15.3800 Sw= 21.7130
21.7130 66.6125
各样品到第一类和第二类的距离
d i( 1 ) x 1 7 .8 5 ,x 8 2 9 .1 4 2 0 0 . .0 13 2 9 0 0 0 . .0 0 2 4 2 3 6 4 x x 7 9 1 2 1 7 7 9 8 2 . .8 1 5 4 1 6 8 2 d i( 2 ) x 1 7 .4 0 ,x 4 2 9 .7 1 4 0 0 . .0 13 2 9 0 0 0 . .0 02 4 2 3 6 4 x x 7 9 1 2 1 7 7 9 8 2 . .4 7 0 1 1 6 4 4
N 1 10
N 2 10 N2错=3
13
APE R 1.67%
10 10
N1错=1 N2正=10
第一节 距离判别
在实际应用中,当假定正态总体且协差阵相等时,均值与协方差阵 要用估计值,即
d2x,G 1x1T ˆ1 1x1
d2x,G 2x2T ˆ2 1x2
解 W x : x T ˆ 1 1 2
ˆ1 2 6 2 2 4 4 3 , ˆ1 ˆ2 6 2 2 4 4 2
W (x ) (x 1 3 ,x 2 4 )1 3 4 1 1 1 4 2 4 x 1 2 x 2 4
判别 W x 函 x 数 1 2 2 : 1 21 2
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
பைடு நூலகம்
判别分析
▪ §1. 基本原理 ▪ §2. 基本操作 ▪ §3. 选项设置 ▪ §4. 实例分析
§1. 基本原理
▪ 定义:判别分析是先根据已知类别的事物 的性质(自变量),建立函数式(自变量 的线性组合,即判别函数),然后对未知 类别的新事物进行判断以将之归入已知的 类别中。
▪ 判别分析有如下的假定:
选择“Analyze” →“Classify” →“Discriminate”命令, 打开“Discriminate Analysis”对话框,如图1.1所示
图1.1 “Discriminate Analysis”对话框,
Step2:选择分组变量和自变量 在变量列表中选择指定分组变量,单击右向箭头按钮,
▪ 一般采用线性判别函数 ▪ 基本方法:首先假定判别函数(线性函数),然
后根据已知信息对判别函数进行训练,得到函数 关系式中的关系值,从而最终确定判别函数
(1)建立判别函数 利用前例计算的结果,可得Fisher判别函数的系数
所以判别函数为 (2)计算判别临界值y0。
由于
所以
(3)判别准则 (4)对已知类别的样品判别归类
(2)计算样本协差阵,从而求出
类似地 经计算
(3)求线性判别函数W(X)
解线性方程组
得
(4)对已知类别的样品判别分类
对已知类别的样品(通常称为训练样品)用线性判别函数进行判 别归类,结果如下表,全部判对。
(5)对判别效果作检验 判别分析是假设两组样品取自不同总体,如果两个总体的均值 向量在统计上差异不显著,作判别分析意义就不大:所谓判别效果 的检验就是检验两个正态总体的均值向量是否相等,取检验的统计 量为:
今从1995年世界各国人文发展指数的排序中,选取高发展 水平、中等发展水平的国家各五个作为两组样品,另选四个国 家作为待判样品作判别分析。
使用三种判别方法进行判别,并进行研究三者之间的关系。
本例中变量个数p=3,两类总体各有5个样品,即n1=n2=5 , 有4个待判样品,假定两总体协差阵相等。 两组线性判别的计算过程如下: (1)计算两类样本均值
将其移动至右侧的“Grouping Variable”(分组)文本框中, 并单击“Define Range”(定义范围)按钮,出现图1.2所示 的“Discriminant Analysis:Define Range”(判别分析定 义范围)对话框,在“Minimum”文本框中输入该分组变量 的最小值,在“Maximum”文本框中输入该分组变量的最大 值,单击“Continue”按钮,返回主对话框。
函数。基本思想是在已知观测对象的分类和特征变量值的前 提下,从中筛选出能提供较多信息的变量,并建立判别函数; 目标是使得到的判别函数在对观测量进行判别其所属类别时 的错判率最小。
判别函数的一般形式是: Y
a1 x1
a2 x2
an xn
其中,Y 为判别函数判别值;x1, x2 ,, xn 为反映研究对象
再通过收集客户的一些资料,如年龄、工资 收入、教育程度、存款等,将这些资料作 为自变量。通过判别分析,建立判别函数。 那么,如果有150个新的客户提交贷款请求, 就可以利用创建好的判别函数,对新的客 户进行分析,从而判断新的客户是属于可 靠客户类,还是不可靠客户类。
判别分析的目的是得到体现分类的函数关系式,即判别
特征的变量;a1, a2 ,, an 为各变量的系数,即判别系数。 常用的判别法有距离判别法、Fisher (费歇尔)判别法和 Bayes(贝叶斯)判别法。
例1 人文发展指数是联合国开发计划署于1990年5月发表 的第一份《人类发展报告》中公布的。该报告建议,目前对人 文发展的衡量应当以人生的三大要素为重点,衡量人生三大要 素的指示分别采用出生时的预期寿命、成人识字率和实际人均 GDP,将以上三个指示指标的数值合成为一个复合指数,即为 人文发展指数。资料来源UNDP《人类发展报告》1995年。
▪ • 所分析的自变量应是因变量的重要影响 因素,应该挑选既有重要特性又有区别能力 的变量,达到以最少变量而有高辨别能力的 目标。
▪ • 初始分析的数目不能太少。
▪ 判别分析是一种有效的对个案进行分类分析 的方法,组别的特征已知。
▪ 如银行为了对贷款进行管理,需要预测哪些 类型的客户可能不会按时归还贷款。已知过 去几年中,900个客户的贷款归还信誉度, 据此可以将客户分成两组:可靠客户和不可 靠客户。
这里组数k=2,指标数p=3,n1=n2=5 代人判别函数:
得两组的判别函数分别为:
将原各组样品进行回判结果如下一灯片表: 待判样品判别结果如下:
3、利用距离判别法中例l的人文发展指数的数 据作Fisher判别分析:
▪ 费歇尔准则
▪ 较优的判别函数应该能根据待判断对的n个指标 最大限度地将它所属的类与其它类区分开来
▪ • 预测变量服从正态分布。
▪ • 预测变量之间没有显著的相关。
▪ • 预测变量的平均值和方差不相关。
▪ • 预测变量应是连续变量,因变量(类别 或组别)是间断变量。
▪ • 两个预测变量之间的相关性在不同类中 是一样的。
▪ 在分析的各个阶段应把握如下的原则:
▪ • 事前组别(类)的分类标准(作为判别 分析的因变量)要尽可能准确和可靠,否则 会影响判别函数的准确性,从而影响判别分 析的效果。
其中
将上边计算结果代人统计量后可得:
故在 函数有效。
检验水平下,两总体间差异显著,即判别
(6)对待判样品判别归类结果如下表:
2、继续用前面距离判别法例1的人文发展指数 的数据作Bayes判别分析。
▪ 贝叶斯准则:
▪ 一种概率方法 ▪ 把已知的地理数据分成几类,计算出未知地理类
型或者区域归属于各已知类型的概率值,它归属 于哪一类的概率值最大,就把它划归为该类。
上述回判结果表明:总的回代判对率为100%,这与统计资料 的结果相符,而且与前面用距离判别法的结果也一致。
(5)对判别效果作检验
由于 所以在
检验水平下判别有效。
(6)待判样品判别结果如下:判别结果与实际情况吻合。
§2. 基本操作
SPSS利用“Discriminate”过程进行判别分析操作,下面 给出基本操作步骤。 Step1:打开主对话框。