第九章属性分类数据分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
因为没有数值概念所以不能计算相关系数,但对于两个
有序变量可以计算类似于相关系数的关联性量度。用来
度量有序变量关联程度的统计量有γ统计量、τb统计量 和τc统计量等。这几个统计量均由以下定义的观测对一 致或不一致的个数(即P和Q)来计算。
设(A1,B1)和(A2,B2)是一对观测,若A1>A2且B1>B2, 或A1<A2且B1<B2则称该对观测是一致的;若A1>A2且 B1<B2,或A1<A2且B1>B2则称该对观测是不一致的。
SAS软件与统计应用教程
STAT
用P表示所有观测对中一致对的个数,Q表示所有观 测对中不一致对的个数。
γ统计量(Gamma)的定义为: P Q
PQ
τb统计量(Kendal Tau-b)的定义为:
b
PQ
rc
cr
n2 ( nij)2 n2 ( nij)2
i1 j1
j1 i1
τc统计量(Kendal Tau-c)的定义为: 其中m = min(r,c)。
SAS软件与统计应用教程
STAT
9.2.2 r c表的分析
【例9-2】一种原料来自三个不同的地区,原料质量被 分成三个不同等级。从这批原料中随机抽取500件进行 检验,结果如表9-3所示。要求检验各个地区和原料质 量之间是否存在依赖关系。
表9-3 原料抽样的结果
甲地区 乙地区 丙地区
一级
52 60 50
SAS软件与统计应用教程
STAT
9.2.1 22表的分析
【例9-1】为了探讨吸烟与慢性支气管炎有无关系,调
查了339人,情况如下:
表9-2 吸烟与慢性支气管炎的关系调查表
患慢性支气管炎 未患慢性支气管炎
吸烟
43
162
不吸烟
13
121
设想有两个随机变量:x表示吸烟与否,y表示患慢性支
气管炎与否。检验吸烟与患慢性支气管炎有无关系,即
图9-4 “Table Analysis:Statistics”对话框
单击“OK”按钮,返回。
SAS软件与统计应用教程
STAT
5) 为了在列联表中显示各种频数、百分数,单击 “Tables(列联表)”按钮,打开“Table Analysis: Tables”对话框。选中“Frequencies(频数)”栏下的 “Expected(期望)”复选框,取消“Percentages(百 分数)”栏下的复选框,如图9-5所示。
; Run;
SAS软件与统计应用教程
STAT
1. 分析步骤
1) 在“分析家”中, 打开数据集Mylib.bron;
2) 选择菜单: “ Statistics”→“Table Analysis” , 打 开 “Table Analysis”对话 框3;) 选中变量smoke,单击“Row”按钮,将其移到行 变量框中;选中变量bron,单击按钮“Column”,将其 移到列变量框中;选中变量numcell,单击按钮“Cell Counts”,将其移到单元格计数框中,如图所示;
SAS软件与统计应用教程
交叉表的基本形式如图9-1所示。
STAT
第1行 行 第2行
… 第r行 列边缘频数
第1列
n11
n21 …
nr1
r
n i1
i1
列
第2列
…
第c列
行边缘频数
n12
…
n1c
n22
…
n2c
c
n1j
j1
c
n2j
j1
…
nr2
r
ni2
i1
…
…
…
nrc
r
…
n ic
i1
…
c
n rj
j1
其中mij称为列联表中单元ij在无关联性假设下的期望频
数,而nij是单元ij的观测频数。
SAS软件与统计应用教程
STAT
为了检验无关联性,将观测的单元频数与无关联的原假
设为真时单元的期望频数进行比较。一个通常使用的检
验是2检验。2统计量为:
r
2
c (nij mij)2
i1 j1
mij
在H0成立的条件下,当观测数据较大时,2统计量的
SAS软件与统计应用教程
STAT
第九章属性分类数据分析
SAS软件与统计应用教程
STAT
9.1 属性数据及其分析
9.1.1 属性数据分析与列联表 9.1.2 属性变量关联性分析 9.1.3 属性变量关联度计算 9.1.4 有序变量关联性分析
SAS软件与统计应用教程
STAT
SAS软件与统计应用教程
SAS软件与统计应用教程
STAT
4) 为 了 使 用 2 统 计 量 检 验 变 量 的 关 联 性 , 单 击
“Statistics”按钮,打开“Table Analysis:Statistics”对 话框,选中“Statistics”栏下的“Chi-square Statistics” 复选框,如图9-4所示。
STAT
SAS软件与统计应用教程
表9-1 关于改革方案的调查结果(单位:人)
STAT
一分公司 二分公司 三分公司 四分公司 合计
赞成该方案 68
75
57
反对该方案 32
45
33
合计
100
120
90
79
279
31
141
110
420
表中的行(row)是态度变量,这里划分为两类:赞成改 革方案或反对改革方案;表中的列(column)是单位变量, 这里划分为四类,即四个分公司。表9-1所示的列联表 称为24表。
PROBp
A
对于双边检验,A是具有概率p小于或等于观测表概率 的表的集合;对于左(右)边检验,A是这样一些表的 集合,其中每个表的单元ij中频数小于(大于)或等于 观测表中相应的频数。
SAS软件与统计应用教程
9.1.3 属性变量关联度计算
STAT
1. φ系数
φ系数是描述22表数据关联程度最常用的一种相关系 数。其计算公式为: 2 /n
SAS软件与统计应用教程
STAT
4) 为 了 使 用 2 统 计 量 检 验 变 量 的 关 联 性 , 单 击
“Statistics”按钮,打开“Table Analysis:Statistics”对 话框,选中“Statistics”栏下的“Chi-square Statistics” 复选框;考虑对列联表作Fisher精确检验,选中“Exact
22表,c = 0.7071;对于33表,c = 0.8165;对于44表,
c = 0.87,…等等。
c系数的缺点是,根据不同行列的列联表计算出来的c
系数不便比较。
SAS软件与统计应用教程
STAT
3. V系数
鉴于φ系数无上界、c系数小于1的不便,克莱默提出 了V系数(Cramer's V),其计算公式如下:
分布近似服从自由度为(r - 1)(c – 1)的2分布。
SAS软件与统计应用教程
STAT
由于2分布是一种连续性分布,而属性数据是不连续的,
故上式只是一个近似计算公式。计算出来的2值往往偏 大,相应的p值偏小,从而人为地增加了犯第一类错误
的机会。为纠正这种偏性,可采用校正2,用C2表示。
注:通常要求C 22检i验 r1 应jc1(满|n足ij的m m i条ijj|件0.5是)2:n≥40且所有单
c
PQ n2(m1)m
这三个统计量的取值均在-1.0到1.0之间,值接近于1.0
表示正关联,接近于-1.0表示负关联,等于0表示没有相
关关系。
SAS软件与统计应用教程
STAT
9.2 SAS中的属性数据分析
9.2.1 22表的分析 9.2.2 r c表的分析 9.2.3 分层列联表分析 9.2.4 有序变量的关联性分析
图9-5 “Table Analysis:Tables”对话框
两次单击“OK”按钮,得到分析结果。
2. 结果分析
SAS软件与统计应用教程
STAT
列联表中列出了表格单元的观测频数(上一行)和在 原假设下的期望频数(下一行),可以看出,吸烟人中 患病的观测频数比期望频数大(图9-6所示),说明吸 烟与患病又一定关系。
元的期望频数均不小于5。 2校正的条件:n≥40但有单元的期望频数小于5。
SAS软件与统计应用教程
STAT
2. Fisher精确检验
Fisher精确检验建立在概率论中超几何分布的基础上, 对于单元频数小的列联表来说,它是特别合适的。
Fisher精确检验计算在H0成立的条件下,当总频数和 边缘频数固定时,各种可能的表的超几何概率p之和
test”栏下的“Exact test for (r x c) table”复选框,如图 所示。
图9-11 “Table Analysis:Tables”对话框
检验x与y是否相互独立。数据集mylib.zqgy如图:
原假设H0:x与y相互独立
SAS软件与统计应用教程
STAT
表9-2中数据使用如下代码存入数据集mylib.bron,形 式如图9-2所示。
data mylib.bron; input x $ y $ numcell; label x = '吸烟' y = '慢性支气管炎'; cards; 吸烟 患病 43 吸烟 未患 162 不吸烟 患病 13 不吸烟 未患 121
对于不同的属性变量,从列联表中可以得到它们联合
分布的信息。但有时还想知道形成列联表的行和列变量
间是否有某种关联性,即一个变量取不同数值时,另一
个变量的分布是否有显著的不同,这就是属性变量关联
性分析的内容。
属性变量关联性检验的假设为
H0:变量之间无关联性; H1:变量之间有关联性 由于变量之间无关联性说明变量互相独立,所以原假
2
V nminR[(1),(C1)]
其中min[(r – 1)(c – 1)]表示取(r – 1),(c – 1)中较小的一 个。V = 0,表示两个变量相互独立,|V | = 1,表示变量 之间完全相关。
SAS软件与统计应用教程
STAT
9.1.4 有序变量关联性分析
对于数值变量,可以计算两两的相关系数。属性变量
Fra Baidu bibliotek
二级
64 59 65
二级
24 52 74
SAS软件与统计应用教程
STAT
设表9-3数据已经存放在数据集mylib.yldj中,如图9-9所 示。
图9-9 数据集mylib.yldj
检验的原假设为H0:地区和原料等级之间是独立的 (不存在依赖关系)。
SAS软件与统计应用教程
STAT
1. 分析步骤
1) 在“分析家”中,打开数据集Mylib.yldj; 2) 选 择 菜 单 “ Statistics”→“Table Analysis” , 打 开 “Table Analysis”对话框; 3) 选中变量x,单击“Row”按钮,将其移到行变量框 中;选中变量y,单击按钮“Column”,将其移到列变 量框中;选中变量numcell,单击按钮“Cell Counts”, 将其移到单元格计数框中,如图所示;
SAS软件与统计应用教程
STAT
进一步检验的结果只要看后面(图9-7)统计量部分 的Chi Square一行,其值为7.4688,p值为0.0063,所以 应拒绝原假设,作出结论:吸烟与患慢性支气管炎是有
关联的。当然,这个关联度不是很大,三个关联度系数
均在0.15左右。
对于两行两列的表格FREQ过程自动给出Fisher精确检 验的结果,其双侧检验p值为0.0069,应拒绝原假设。
设和备择假设可以写为:
H0:变量之间独立;
H1:变量之间不独立
SAS软件与统计应用教程
STAT
1. 2检验
在双向表的情形下,如果行变量与列变量无关联性的
原假设H0成立,则列联表中各行的相对分布应近似相等,
即
n ij
n ij i
(j = 1,2,…,c)
n ij
n
或
j
nij
j
nij
i
n
nij defmi(j j = 1,2,…,c)
SAS软件与统计应用教程
STAT
2. 列联系数
列联系数(Contingency coefficient)简称为c系数, 主要用于大于22表的情况。c系数的计算公式为:
c
2 2 n
c系数的取值范围:–1 < c < 1,特别当r c表中两个
变量相互独立时,c = 0。c系数的最大值依赖于列联表
的行数和列数,且随着r或c变大而变大。例如,对于
rc
nij
i1 j1
这是一张具有r行和c列的一般列联表,称它为rc表。 其中,第i行第j列的单元表示为单元ij。交叉表常给出在 所有行变量和列变量的组合中的观测个数。表中的总观
测个数用n表示,在单元ij中的观测个数表示为nij,称为 单元频数。
SAS软件与统计应用教程
STAT
9.1.2 属性变量关联性分析
其中,2即2统计量。
|φ|的取值范围是在0 ~ 1之间,φ的绝对值越大,说明 行变量与列变量的关联程度越高。φ = 0,表示变量之间 相互独立;|φ| = 1,表示变量之间完全相关,此时列联 表某个方向对角线上的值全为0。
当列联表r c中的行数r或列数c大于2时,φ系数将随 着r或c变大而变大,且φ无上界。此时可用列联系数。
有序变量可以计算类似于相关系数的关联性量度。用来
度量有序变量关联程度的统计量有γ统计量、τb统计量 和τc统计量等。这几个统计量均由以下定义的观测对一 致或不一致的个数(即P和Q)来计算。
设(A1,B1)和(A2,B2)是一对观测,若A1>A2且B1>B2, 或A1<A2且B1<B2则称该对观测是一致的;若A1>A2且 B1<B2,或A1<A2且B1>B2则称该对观测是不一致的。
SAS软件与统计应用教程
STAT
用P表示所有观测对中一致对的个数,Q表示所有观 测对中不一致对的个数。
γ统计量(Gamma)的定义为: P Q
PQ
τb统计量(Kendal Tau-b)的定义为:
b
PQ
rc
cr
n2 ( nij)2 n2 ( nij)2
i1 j1
j1 i1
τc统计量(Kendal Tau-c)的定义为: 其中m = min(r,c)。
SAS软件与统计应用教程
STAT
9.2.2 r c表的分析
【例9-2】一种原料来自三个不同的地区,原料质量被 分成三个不同等级。从这批原料中随机抽取500件进行 检验,结果如表9-3所示。要求检验各个地区和原料质 量之间是否存在依赖关系。
表9-3 原料抽样的结果
甲地区 乙地区 丙地区
一级
52 60 50
SAS软件与统计应用教程
STAT
9.2.1 22表的分析
【例9-1】为了探讨吸烟与慢性支气管炎有无关系,调
查了339人,情况如下:
表9-2 吸烟与慢性支气管炎的关系调查表
患慢性支气管炎 未患慢性支气管炎
吸烟
43
162
不吸烟
13
121
设想有两个随机变量:x表示吸烟与否,y表示患慢性支
气管炎与否。检验吸烟与患慢性支气管炎有无关系,即
图9-4 “Table Analysis:Statistics”对话框
单击“OK”按钮,返回。
SAS软件与统计应用教程
STAT
5) 为了在列联表中显示各种频数、百分数,单击 “Tables(列联表)”按钮,打开“Table Analysis: Tables”对话框。选中“Frequencies(频数)”栏下的 “Expected(期望)”复选框,取消“Percentages(百 分数)”栏下的复选框,如图9-5所示。
; Run;
SAS软件与统计应用教程
STAT
1. 分析步骤
1) 在“分析家”中, 打开数据集Mylib.bron;
2) 选择菜单: “ Statistics”→“Table Analysis” , 打 开 “Table Analysis”对话 框3;) 选中变量smoke,单击“Row”按钮,将其移到行 变量框中;选中变量bron,单击按钮“Column”,将其 移到列变量框中;选中变量numcell,单击按钮“Cell Counts”,将其移到单元格计数框中,如图所示;
SAS软件与统计应用教程
交叉表的基本形式如图9-1所示。
STAT
第1行 行 第2行
… 第r行 列边缘频数
第1列
n11
n21 …
nr1
r
n i1
i1
列
第2列
…
第c列
行边缘频数
n12
…
n1c
n22
…
n2c
c
n1j
j1
c
n2j
j1
…
nr2
r
ni2
i1
…
…
…
nrc
r
…
n ic
i1
…
c
n rj
j1
其中mij称为列联表中单元ij在无关联性假设下的期望频
数,而nij是单元ij的观测频数。
SAS软件与统计应用教程
STAT
为了检验无关联性,将观测的单元频数与无关联的原假
设为真时单元的期望频数进行比较。一个通常使用的检
验是2检验。2统计量为:
r
2
c (nij mij)2
i1 j1
mij
在H0成立的条件下,当观测数据较大时,2统计量的
SAS软件与统计应用教程
STAT
第九章属性分类数据分析
SAS软件与统计应用教程
STAT
9.1 属性数据及其分析
9.1.1 属性数据分析与列联表 9.1.2 属性变量关联性分析 9.1.3 属性变量关联度计算 9.1.4 有序变量关联性分析
SAS软件与统计应用教程
STAT
SAS软件与统计应用教程
SAS软件与统计应用教程
STAT
4) 为 了 使 用 2 统 计 量 检 验 变 量 的 关 联 性 , 单 击
“Statistics”按钮,打开“Table Analysis:Statistics”对 话框,选中“Statistics”栏下的“Chi-square Statistics” 复选框,如图9-4所示。
STAT
SAS软件与统计应用教程
表9-1 关于改革方案的调查结果(单位:人)
STAT
一分公司 二分公司 三分公司 四分公司 合计
赞成该方案 68
75
57
反对该方案 32
45
33
合计
100
120
90
79
279
31
141
110
420
表中的行(row)是态度变量,这里划分为两类:赞成改 革方案或反对改革方案;表中的列(column)是单位变量, 这里划分为四类,即四个分公司。表9-1所示的列联表 称为24表。
PROBp
A
对于双边检验,A是具有概率p小于或等于观测表概率 的表的集合;对于左(右)边检验,A是这样一些表的 集合,其中每个表的单元ij中频数小于(大于)或等于 观测表中相应的频数。
SAS软件与统计应用教程
9.1.3 属性变量关联度计算
STAT
1. φ系数
φ系数是描述22表数据关联程度最常用的一种相关系 数。其计算公式为: 2 /n
SAS软件与统计应用教程
STAT
4) 为 了 使 用 2 统 计 量 检 验 变 量 的 关 联 性 , 单 击
“Statistics”按钮,打开“Table Analysis:Statistics”对 话框,选中“Statistics”栏下的“Chi-square Statistics” 复选框;考虑对列联表作Fisher精确检验,选中“Exact
22表,c = 0.7071;对于33表,c = 0.8165;对于44表,
c = 0.87,…等等。
c系数的缺点是,根据不同行列的列联表计算出来的c
系数不便比较。
SAS软件与统计应用教程
STAT
3. V系数
鉴于φ系数无上界、c系数小于1的不便,克莱默提出 了V系数(Cramer's V),其计算公式如下:
分布近似服从自由度为(r - 1)(c – 1)的2分布。
SAS软件与统计应用教程
STAT
由于2分布是一种连续性分布,而属性数据是不连续的,
故上式只是一个近似计算公式。计算出来的2值往往偏 大,相应的p值偏小,从而人为地增加了犯第一类错误
的机会。为纠正这种偏性,可采用校正2,用C2表示。
注:通常要求C 22检i验 r1 应jc1(满|n足ij的m m i条ijj|件0.5是)2:n≥40且所有单
c
PQ n2(m1)m
这三个统计量的取值均在-1.0到1.0之间,值接近于1.0
表示正关联,接近于-1.0表示负关联,等于0表示没有相
关关系。
SAS软件与统计应用教程
STAT
9.2 SAS中的属性数据分析
9.2.1 22表的分析 9.2.2 r c表的分析 9.2.3 分层列联表分析 9.2.4 有序变量的关联性分析
图9-5 “Table Analysis:Tables”对话框
两次单击“OK”按钮,得到分析结果。
2. 结果分析
SAS软件与统计应用教程
STAT
列联表中列出了表格单元的观测频数(上一行)和在 原假设下的期望频数(下一行),可以看出,吸烟人中 患病的观测频数比期望频数大(图9-6所示),说明吸 烟与患病又一定关系。
元的期望频数均不小于5。 2校正的条件:n≥40但有单元的期望频数小于5。
SAS软件与统计应用教程
STAT
2. Fisher精确检验
Fisher精确检验建立在概率论中超几何分布的基础上, 对于单元频数小的列联表来说,它是特别合适的。
Fisher精确检验计算在H0成立的条件下,当总频数和 边缘频数固定时,各种可能的表的超几何概率p之和
test”栏下的“Exact test for (r x c) table”复选框,如图 所示。
图9-11 “Table Analysis:Tables”对话框
检验x与y是否相互独立。数据集mylib.zqgy如图:
原假设H0:x与y相互独立
SAS软件与统计应用教程
STAT
表9-2中数据使用如下代码存入数据集mylib.bron,形 式如图9-2所示。
data mylib.bron; input x $ y $ numcell; label x = '吸烟' y = '慢性支气管炎'; cards; 吸烟 患病 43 吸烟 未患 162 不吸烟 患病 13 不吸烟 未患 121
对于不同的属性变量,从列联表中可以得到它们联合
分布的信息。但有时还想知道形成列联表的行和列变量
间是否有某种关联性,即一个变量取不同数值时,另一
个变量的分布是否有显著的不同,这就是属性变量关联
性分析的内容。
属性变量关联性检验的假设为
H0:变量之间无关联性; H1:变量之间有关联性 由于变量之间无关联性说明变量互相独立,所以原假
2
V nminR[(1),(C1)]
其中min[(r – 1)(c – 1)]表示取(r – 1),(c – 1)中较小的一 个。V = 0,表示两个变量相互独立,|V | = 1,表示变量 之间完全相关。
SAS软件与统计应用教程
STAT
9.1.4 有序变量关联性分析
对于数值变量,可以计算两两的相关系数。属性变量
Fra Baidu bibliotek
二级
64 59 65
二级
24 52 74
SAS软件与统计应用教程
STAT
设表9-3数据已经存放在数据集mylib.yldj中,如图9-9所 示。
图9-9 数据集mylib.yldj
检验的原假设为H0:地区和原料等级之间是独立的 (不存在依赖关系)。
SAS软件与统计应用教程
STAT
1. 分析步骤
1) 在“分析家”中,打开数据集Mylib.yldj; 2) 选 择 菜 单 “ Statistics”→“Table Analysis” , 打 开 “Table Analysis”对话框; 3) 选中变量x,单击“Row”按钮,将其移到行变量框 中;选中变量y,单击按钮“Column”,将其移到列变 量框中;选中变量numcell,单击按钮“Cell Counts”, 将其移到单元格计数框中,如图所示;
SAS软件与统计应用教程
STAT
进一步检验的结果只要看后面(图9-7)统计量部分 的Chi Square一行,其值为7.4688,p值为0.0063,所以 应拒绝原假设,作出结论:吸烟与患慢性支气管炎是有
关联的。当然,这个关联度不是很大,三个关联度系数
均在0.15左右。
对于两行两列的表格FREQ过程自动给出Fisher精确检 验的结果,其双侧检验p值为0.0069,应拒绝原假设。
设和备择假设可以写为:
H0:变量之间独立;
H1:变量之间不独立
SAS软件与统计应用教程
STAT
1. 2检验
在双向表的情形下,如果行变量与列变量无关联性的
原假设H0成立,则列联表中各行的相对分布应近似相等,
即
n ij
n ij i
(j = 1,2,…,c)
n ij
n
或
j
nij
j
nij
i
n
nij defmi(j j = 1,2,…,c)
SAS软件与统计应用教程
STAT
2. 列联系数
列联系数(Contingency coefficient)简称为c系数, 主要用于大于22表的情况。c系数的计算公式为:
c
2 2 n
c系数的取值范围:–1 < c < 1,特别当r c表中两个
变量相互独立时,c = 0。c系数的最大值依赖于列联表
的行数和列数,且随着r或c变大而变大。例如,对于
rc
nij
i1 j1
这是一张具有r行和c列的一般列联表,称它为rc表。 其中,第i行第j列的单元表示为单元ij。交叉表常给出在 所有行变量和列变量的组合中的观测个数。表中的总观
测个数用n表示,在单元ij中的观测个数表示为nij,称为 单元频数。
SAS软件与统计应用教程
STAT
9.1.2 属性变量关联性分析
其中,2即2统计量。
|φ|的取值范围是在0 ~ 1之间,φ的绝对值越大,说明 行变量与列变量的关联程度越高。φ = 0,表示变量之间 相互独立;|φ| = 1,表示变量之间完全相关,此时列联 表某个方向对角线上的值全为0。
当列联表r c中的行数r或列数c大于2时,φ系数将随 着r或c变大而变大,且φ无上界。此时可用列联系数。