第九章 属性(分类)数据分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1. 2检验
在双向表的情形下,如果行变量与列变量无关联性的 原假设H0成立,则列联表中各行的相对分布应近似相等, 即
或
n
j
n ij
ij
n
i
ij
n
ij def
(j = 1,2,…,c)
n ij
n n
ij j i
n
(j = 1,2,…,c) m ij
其中 mij称为列联表中单元 ij在无关联性假设下的期望频 数,而nij是单元ij的观测频数。
源自文库
3. V系数
鉴于 φ系数无上界、 c系数小于 1 的不便,克莱默提出 了V系数(Cramer's V),其计算公式如下:
第九章 属性(分类)数据分析
9.1 属性数据及其分析
9.2 SAS中的属性数据分析
9.1
属性数据及其分析
9.1.1 属性数据分析与列联表
9.1.2 属性变量关联性分析
9.1.3 属性变量关联度计算
9.1.4 有序变量关联性分析
9.1.1 属性数据分析与列联表
1. 属性变量与属性数据分析
对于不同的属性变量,从列联表中可以得到它们联合 分布的信息。但有时还想知道形成列联表的行和列变量 间是否有某种关联性,即一个变量取不同数值时,另一 个变量的分布是否有显著的不同,这就是属性变量关联 性分析的内容。 属性变量关联性检验的假设为 H0:变量之间无关联性; H1:变量之间有关联性 由于变量之间无关联性说明变量互相独立,所以原假 设和备择假设可以写为: H0:变量之间独立; H1:变量之间不独立
元的期望频数均不小于5。 2校正的条件:n≥40但有单元的期望频数小于5。
2. Fisher精确检验
Fisher精确检验建立在概率论中超几何分布的基础上, 对于单元频数小的列联表来说,它是特别合适的。 Fisher精确检验计算在H0成立的条件下,当总频数和 边缘频数固定时,各种可能的表的超几何概率p之和
由于2分布是一种连续性分布,而属性数据是不连续的, 故上式只是一个近似计算公式。计算出来的2值往往偏 大,相应的 p 值偏小,从而人为地增加了犯第一类错误 的机会。为纠正这种偏性,可采用校正2,用C2表示。
2 C m 2 i 1j 1 ij 注:通常要求 检验应满足的条件是: n≥40且所有单 r c 2 (| n m | 0 . 5 ) ij ij
i1
n i2
i1
n ic
n
i 1 j 1
这是一张具有r行和c列的一般列联表,称它为rc表。 其中,第i行第j列的单元表示为单元ij。交叉表常给出在 所有行变量和列变量的组合中的观测个数。表中的总观 测个数用n表示,在单元ij中的观测个数表示为 nij,称为 单元频数。
9.1.2 属性变量关联性分析
2. 列联表
列联表( contingency table )是由两个以上的属性变 量进行交叉分类的频数分布表。例如一个集团公司在四 个不同的区域设有分公司,现该集团公司欲进行一项改 革,此项改革可能涉及各分公司的利益,故采用抽样调 查方法,从四个分公司共抽取 420个样本单位,了解职 工对此项改革的看法,调查结果如表9-1所示。
交叉表的基本形式如图9-1所示。
列
第1列
第1行 行 第2行 … 第r行 列边缘频数 n11 n21 … n r1
r
第2列
n12 n22 … n r2
r
…
… … … … …
第c列
n1c n2c … nrc
r
行边缘频数
c
j1 c
n1 j
n2j
j1
…
r
c
j1
n rj
c ij
i1
n i1
从变量的测量水平来看分为两类:连续变量和属性 (Categorical) 变量,属性变量又可分为有序的 (Ordinal) 和无序的变量。 对属性数据进行分析,将达到以下几方面的目的: 1) 产生汇总分类数据——列联表; 2) 检验属性变量间的独立性(无关联性); 3) 计算属性变量间的关联性统计量; 4) 对高维数据进行分层分析和建模。
为了检验无关联性,将观测的单元频数与无关联的原假 设为真时单元的期望频数进行比较。一个通常使用的检 验是2检验。2统计量为:
2
i 1 j 1
r
c
2 (n m ) ij ij
m ij
在 H0 成立的条件下,当观测数据较大时, 2 统计量的 分布近似服从自由度为(r - 1)(c – 1)的2分布。
2. 列联系数
列联系数( Contingency coefficient )简称为 c 系数, 主要用于大于22表的情况。c系数的计算公式为:
c
2 2 n
c系数的取值范围:–1 < c < 1,特别当r c表中两个 变量相互独立时,c = 0。c系数的最大值依赖于列联表 的行数和列数,且随着 r 或 c 变大而变大。例如,对于 22表,c = 0.7071;对于33表,c = 0.8165;对于44表, c = 0.87,…等等。 c系数的缺点是,根据不同行列的列联表计算出来的 c 系数不便比较。
表9-1 关于改革方案的调查结果(单位:人)
一分公司 二分公司 三分公司 四分公司 合计
赞成该方案
反对该方案 合计
68
32 100
75
45 120
57
33 90
79
31 110
279
141 420
表中的行 (row) 是态度变量,这里划分为两类:赞成改 革方案或反对改革方案;表中的列 (column)是单位变量, 这里划分为四类,即四个分公司。表 9-1 所示的列联表 称为24表。
PROB p
A
对于双边检验,A是具有概率p小于或等于观测表概率 的表的集合;对于左(右)边检验,A是这样一些表的 集合,其中每个表的单元 ij 中频数小于(大于)或等于 观测表中相应的频数。
9.1.3 属性变量关联度计算
1. φ系数
φ系数是描述22表数据关联程度最常用的一种相关系 数。其计算公式为: 2 / n 其中,2即2统计量。 |φ|的取值范围是在0 ~ 1之间,φ的绝对值越大,说明 行变量与列变量的关联程度越高。φ = 0,表示变量之间 相互独立;|φ| = 1,表示变量之间完全相关,此时列联 表某个方向对角线上的值全为0。 当列联表r c中的行数r或列数c大于2时,φ系数将随 着r或c变大而变大,且φ无上界。此时可用列联系数。