用判别分析建立判别函数

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

4
2014.5.6
与类之间的差别较大,最终将观察个体或变量分为 若干类。
医学研究中经常遇到下列情况: 同一种疾病(如肝炎),根据临床表现和化验 指标等将病人分成若干类型(甲、乙、丙、丁、 戊型肝炎); 根据疾病的若干临床表现,将病人分成轻、中、 重三类; 根据医院的病床数、门诊量、诊治水平、效益指 标等,把医院分成几类。
x
jk
)2

12
k 1

19
2014.5.6
(2) 相似系数
夹角余弦(Cosine)
cij cosij
n
xkixkj
k 1
n
n
xk2i xk2j
k 1 k 1
这是一个从向量集合的角度所定义的一种测 度变量之间远近程度的相似系数。
20
2014.5.6
相关系数(Pearson’s correlation coefficient)
一、判别分析的基本原理 二、判别分析的实例
2
2014.5.6
目录
练习资料
㈠ 课堂练习习题 ㈡ 课后作业题
3
2014.5.6
第五部分 聚类分析
一、聚类分析的基本原理
㈠ 方法简介
聚类分析(Cluster Analysis)是定量研究分类 问题的一种多元统计方法。
基本思想:根据已知数据,计算各观察个体或 变量之间亲疏关系的统计量(距离或相关系数)。 根据某种准则(最短距离法、最长距离法、中间距 离法、重心法等),使同一类内的差别较小,而类
别表示数学推理能力,空间想象能力和语言理解能力。 其得分如下,选择合适的统计方法对应聘者进行分类。
应聘者 X Y Z
1 2 3 4 5 6 7 8 9 10 28 18 11 21 26 20 16 14 24 22 29 23 22 23 29 23 22 23 29 27 28 18 16 22 26 22 22 24 24 24
7
2014.5.6
首先用3D散点图直观地显示上述数据。
凭肉眼和感 觉看,好像 分成三堆…
8
2014.5.6
9
2014.源自文库.6
Congratulation ! Your feeling is right. Because SPSS has the same results, too.
۞以下是SPSS的聚类分析hierarchical cluster方法 得出的树状图(Dendrogram) 结果。
p
( xik xi )( x jk x j )
rij
k 1 p
p
[ ( xik xi )2 ][ ( x jk x j )2 ]
k 1
k 1
㈣ 聚类分析的统计量的选择
第五讲
• 课程名称:多元统计分析 • 主要教材: « 医学统计学与电脑实验»
(第二版) 方积乾 主编 上海科学技术出版社
• 年级、专业: 2013公卫学院研究生 • 授课时间:2014年5月6日 • 授课时数:4h
1
2014.5.6
目录
第四部分 聚类分析
一、聚类分析的基本原理 二、聚类分析的实例
第五部分 判别分析
以上结果看出,4号和6号可以聚成一类,而4号和3号很难聚成一 类。若标准定在6上,4号和2号也可以聚成一类。
12
2014.5.6
㈢ 聚类分析的统计量
研究样品或变量的远近程度(或称亲疏程度)的 数量指标有两种,一种叫相似系数,性质越接近的 变量或样品,它们的相似系数越接近于1或-1,而 彼此无关的变量或样品,它们的相似系数则越接近 于0,相似的为一类,不相似的为不同类;另一种 叫距离,它是将每一个样品看作p维空间的一个点, 并用某种度量测量点与点之间的距离,距离较近的 归为一类,距离较远的点应属于不同的类。
分别表示第i个样品和第j样品的p指标观测值所组成的 列向量,即样本数据矩阵中第i个和第j个行向量的转置, 表示观测变量之间的协方差短阵。在实践应用中,若总 体协方差矩阵未知,则可用样本协方差矩阵作为估计代 替计算。
优点:马氏距离既排除了各指标间的相关性干
扰,又消除了各指标的量纲。
17
2014.5.6
兰思-维廉姆斯(Lance & Williams)距离
dij (L)
p k 1
xik xik
x jk x jk
这是一个自身标准化的量,由于它对大的奇 异值不敏感,这样使得它特别适合于较大变异的 数据。缺点是没有考虑指标之间的相关性。
看来,谁也不能十全十美。
18
2014.5.6
斜交空间距离
dij


1 p2
p h1
p
( xih
k 1
x jh )(xik
1 2 x jk )rhk

这是一个考虑指标之间的相关性的距离。当 各变量之间不相关时,斜交空间退化为欧氏距离。
杰斐瑞-马突斯塔( Jffreys & Matusita )距离
p
dij (J ) ( xik
13
2014.5.6
(1) 距离 欧式(Euclidian )距离
这个式子好像前面见过。
14
2014.5.6
二维空间欧式距离的直观表达
15
2014.5.6
闵可夫斯基(Minkowski)距离
16
2014.5.6
马哈拉诺比斯(Mahalanobis)距离
di2j (xi xj)1(xi xj)
5
2014.5.6
㈡ 聚类分析的种类
根据分类的原理可将聚类分析分为:
系统聚类与快速聚类
根据分类的对象可将聚类分析分为:
Q型聚类与R型聚类(即样品聚类clustering for
cases与变量聚类clustering for variables)
6
2014.5.6
如何聚类?
See an example. 引例 对10位应聘者做智能检验。3项指标X,Y和Z分
太小!看不清。
10
2014.5.6
这还差 不多。
11
2014.5.6
۞用数学的语言表示这种感觉就是通过任意两点
的离差平方和的平方根的大小来表达这两点的
远近程度(即是否聚在一起成一类)。
如计算4号和6号的远近程度: [(21-20)2+(23-23)2+(22-22)2]½ =1 如计算4号和2号的远近程度: [(21-18)2+(23-23)2+(22-18)2]½ =5 如计算4号和3号的远近程度: [(21-11)2+(23-22)2+(22-16)2]½ ≈11.7
相关文档
最新文档