实验6 7 社会统计学实验-非参数检验
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
非参数检验
1
参数假设检验要求总体的分布类型已知 非参数假设检验就是总体分布类型未知条件,对总体某 些非参数信息进行假设检验。
几种常用非参检验方法: 拟合优度检验、独立样本非参数检验、相关样本非参数检验。 一、卡方拟合优度检验 某市星期一到星期日共7天中各日居民的死亡平均数如表5-1所示
星期 一 二 三 四 五 六 七
本例为汇总列联表数据,定义三个变量: 频数变量“交叉频数”录入列联表的所有频数; “人群类别”和“血型类别”分别录入各频数对应行和列。
菜单操作: 1)变量加权主菜单“数据”→“加权个案”,将频数变量“交叉 频数”选入“频率变量”框,点击“确定” 按钮。 2)双向无序列联表的K.Pearson卡方检验主菜单 “分析”→“描 述统计”→“交叉表,出现交叉列联表界面。 参数设置: 选择行变量“人群类别”进入“行”框 列变量“血型类别”进入“列”框; 点击“统计量”按钮,选“卡方”,“名义”区域,选“相依系 数”,点击“确定”。
电话拥 有量 (台 ) 合 计
0 1
2以上
500 3000
2500 6000
400 1000
3400 10000
【主要结果与分析】
人群类别* 血型类别 交叉制表
计数 血型类别
1
人群 类别 合计 1 2 64 125 189
2
86 138
3
130 210
4
20 26 46
合计
300 499 799
224 340 卡方检验 值 df 3 3
渐进 Sig. (双侧) .589 .588
Pearson 卡方 似然比
死亡人数
11
19
17
15
16
16
19
试检验一周内各日的死亡危险性是否有差异?
变量基本要求: 一个频数变量,变量类型为数值型,频数变量需要加权处理; 一个分组变量,变量类型为数值型或字符型; 本例定义两个变量:“星期”和“死亡人数”,变量类型为数 值型。将死亡人数录入“死亡人数”变量;将星期录入“星期” 变量。 菜单操作: 1)变量加权主菜单“数据”→“加权个案”,将频数变量“死亡 人数”选入“频率变量”框,点击“确定” 按钮。 2)卡方拟合优度主菜单“分析”→“非参数检验”→“卡方”,出 现卡方拟合优度检验界面。
【主要结果与分析】
两 组 秩 均 值 结 果 秩 和 检 验 结 果
秩
是否铅作业者 血铅值 否 是 总数 N 10 7 17 检验统计量b 秩均值 5.95 13.36 秩和 59.50 93.50
血铅值
Mann-Whitney U 秩和检验结果 Wilcoxon W Z 4.500 59.500 -2.980
【操作步骤】 根据样本数据的形式不同,有两种方式: 一是样本数据为原始数据,这时要求行、列两个待检验的属性 变量,变量类型为数值型或字符型。 两样本数据分别为行、列两属性变量的取值。 二是汇总的列联表数据,这时要求三个变量:频数变量、频数 所在的行变量及频数所在的列变量。 频数变量需要加权处理。 频数变量的取值是列联表的交叉频数 行、列两个属性变量的取值是各频数对应行和列。
实验操作:P156 例9.1 9.8 9.9 实验要求:对例9.9写出实验报告。
【实验7】 一个市场研究公司想确定电话拥有数与汽车拥有数是否独立,该 公司从10000户家庭组成的简单随机样本中获得的信息如表所示 ,试利用表中数据检验电话拥有量与汽车拥有量是否有联系。
汽车拥有量 (辆) 0 1 2 1000 900 100 1500 2600 500 合计 2000 4600
原假设H0:各样本对应总体的总体率(构成比)相等 (π1=π2=…=πk)或列联表的行列属性独立。 双向无序列联表K.Pearson卡方检验的统计量为
2
i 1 j 1
c
k
(oij eij )2 eij
~ 2 ((r 1)(c 1))
其中oij、eij分别为列联表第i行第j列的实际频数和理论频数,c、 k分别为行列属性的分类数目,r、c分别为列联表的行、列数。
菜单操作: 主菜单“分析”→“非参数检验” →“两独立样本”,出现两独立 样本检验界面。 参数设置:选择变量“血铅值”进入“检验变量列表”框;选 择变量“是否铅作业者”进入“分组变量”框,并点击“定义 组”按钮,在“组1”和“组2”框中分别输入分组变量的两个取 值1和0。 点击“确定”。 两 独 立 样 本 检 验 界 面
菜单操作:主菜单“分析”→“非参数检验” →“2个相关样本”, 出现两关联样本检验界面。 参数设置:选择“剂型A达峰时间”和“剂型B达峰时间”进 入“检验对”框的“Variable1”和“Variable2”; 点击“选项”按钮,在“统计量”区域,选“描述性”;点击 “确定”。
主要结果与分析
描述性统计量 N 均值 标准差 极小值 极大值
1.921a 1.924
线性和线性组合
有效案例中的 N
1.452
799
1
.228
对称度量 按标量标定 相依系数 有效案例中的 N 值 近似值 Sig. .049 .589 799
统计量值=1.921,伴随概率P值为0.589,远大于检验水准0.05, 说明鼻咽癌患者与健康人的血型相关是无统计学意义的,所以 可认为血型与是否患鼻咽癌无关。 相关系数为0.049,伴随概率P值为0.589,说明相关程度很低, 且相关系数非零无统计学意义,所以也可以认为血型与是否患 鼻咽癌无关
剂型A达峰时间
剂型B达峰时间
11
11
2.4091
3.0000
.71827
.80623
1.25
1.50
3.50
4.00
检验统计量b 剂型B达峰时间 - 剂型A达峰 时间
Z
渐近显著性(双侧) a. 基于负秩。
-2.150a
.032
b. Wilcoxon 带符号秩检验
剂型A达峰时间的均值为2.4091,标准差为0.71827,剂型B达 峰时间的均值为3.0,标准差为0.80623。 两者差的统计量值Z=-2.150,伴随概率P值为0.032,小于检验 水准0.05,说明两种剂型血药浓度的达峰时间分布差异有统计 学意义,可以认为两种剂型血药浓度的达峰时间不具有相同的 分布
剂型A 剂型B 2.5 3.5 3.0 4.0 1.25 1.75 2.5 2.0 3.5 3.5 2.5 4.0 1.75 2.25 1.5 2.5 3.5 3.0 2.5 3.0 2.0 3.5
试检验两种剂型血药浓度的达峰时间是否具有相同的分布?
【实验目的】 理解两相关样本符号秩检验的基本思路和适用条件,掌握SPSS 软件操作实现方法。 【操作步骤】 一对(或多对)检验变量,变量类型为数值型。 两样本数据分别为两个相关变量的取值。 定义两个相关变量“剂型A达峰时间”和“剂型B达峰时间”, 两组数据分别录入两个相关变量。
四、列联表资料的检验
列联表的行、列属性变量取值都是计数资料,即定类(无序)资 料或定序(有序)资料,可以将列联表分为三种类型: 双向无序列联表、单向有序列联表及双向有序列联表。
双向无序列联表的检验
【统计学知识】 双向无序列联表检验主要有列联表行、列属性的独立性检验。 检验方法一般采用列联表K.Pearson卡方检验。
三、两相关样本的检验 【统计学知识】在总体分布不了解情况下,通过样本数据检验 两个相关样本的总体分布或分布位置差异是否有统计学意义。 两个相关样本最常用Wilcoxon检验(即符号秩检验)。 符号秩检验的原假设H0:两相关样本来自的两总体分布相同。 11名受试者分别服用两种不同剂型的药物,测得血药浓度达峰 时间(克/毫升)(经检验不服从正态分布)
研究观察鼻咽癌患者与健康人的血型构成,试判断患鼻咽癌是 否与血型有关
血型 A 鼻咽 癌 健康 人 合计 64 125 189 B 86 138 224 AB 130 210 340 O 20 26 46 合计 300 499 799
【实验目的】 理解双向无序列联表K.Pearson卡方检验的基本思路和适用条件, 掌握其SPSS软件操作实现方法。
渐近显著性(双侧)
精确显著性[2*(单侧显著性)] a. 没有对结进行修正
.003
.001a
b. 分组变量: 是否铅作业者
铅作业与非铅作业两组工人血铅值的平均秩分别为13.36和5.95, 显然铅作业组血铅值的平均秩较高。 小样本时的统计量值Mann-Whitney U为4.5,伴随概率P值为 0.001,大样本时统计量值Z为-2.98,对应伴随概率P值为0.003。 本例为小样本应取前者,P值为0.001,远小于检验水准0.05, 说明铅作业工人和非铅作业工人血铅值之间的差异有统计学意 义,所以可以认为铅作业与非铅作业工人血铅值有差异。
【主要结果与分析】
理论频数
星期 观察数 1 2 3 4 5 6 11 19 17 15 16 16 期望数 16.1 16.1 16.1 16.1 16.1 16.1 残差 -5.1 2.9 .9 -1.1 -.1 -.1
7
Total
19
113
16.1
2.9
卡方拟合优度检验结果 检验统计量 卡方 df 渐进显著性 星期 2.779a 6 .836
统计量=2.779,伴随概率P值为0.836,大于检验水准0.05。 说明一周内各日的死亡危险性差异没有统计学意义,因此可以 认定一周内各日的死亡危险性无差异。
二、两个独立样本的非参数检验
两个独立样本非参数检验是在对总体分布未知的情况下,通过 样本数据检验两独立样本的对应总体分布或分布位置差异是否 有统计学意义。 两个独立样本非参数检验方法最常用Mann-Whitney U 检验, 也称为威尔科克逊(Wilcoxon W)等级秩和检验。 秩和检验的原假设H0:两组独立样本来自的两总体分布相同。 SPSS结果,当小样本时,统计量以“Mann-Whitney U”给出, 伴随概率P值以“精确显著性(Exact Sig.)”给出。当大样本时, 统计量以“Z”给出,伴随概率P值以“渐近显著性(Asymp. Sig.)”
测量铅作业与非铅作业工人的血铅值(单位:mol/l)
铅作业
非铅作业
0.82
来自百度文库0.24
0.87
0.24
0.97
0.29
1.21
0.33
1.64
0.44
2.08
0.58
2.13
0.63 0.72 0.87 1.01
试检验铅作业与非铅作业工人的血铅值是否有差异?
【实验目的】两独立样本秩和检验的基本思路和适用条件。 【操作步骤】 一个(或多个)检验变量,变量类型为数值型; 一个分组变量,变量类型为数值型。 两样本数据全为检验变量取值,组别通过分组变量值(如0,1或 1,2等)区分。 本例定义检验变量“血铅值”,分组变量“是否铅作业者”; 将两组血铅值数据全部录入检验变量,在分组变量中,铅作业 者组录入1,非铅作业者组录入0。
1
参数假设检验要求总体的分布类型已知 非参数假设检验就是总体分布类型未知条件,对总体某 些非参数信息进行假设检验。
几种常用非参检验方法: 拟合优度检验、独立样本非参数检验、相关样本非参数检验。 一、卡方拟合优度检验 某市星期一到星期日共7天中各日居民的死亡平均数如表5-1所示
星期 一 二 三 四 五 六 七
本例为汇总列联表数据,定义三个变量: 频数变量“交叉频数”录入列联表的所有频数; “人群类别”和“血型类别”分别录入各频数对应行和列。
菜单操作: 1)变量加权主菜单“数据”→“加权个案”,将频数变量“交叉 频数”选入“频率变量”框,点击“确定” 按钮。 2)双向无序列联表的K.Pearson卡方检验主菜单 “分析”→“描 述统计”→“交叉表,出现交叉列联表界面。 参数设置: 选择行变量“人群类别”进入“行”框 列变量“血型类别”进入“列”框; 点击“统计量”按钮,选“卡方”,“名义”区域,选“相依系 数”,点击“确定”。
电话拥 有量 (台 ) 合 计
0 1
2以上
500 3000
2500 6000
400 1000
3400 10000
【主要结果与分析】
人群类别* 血型类别 交叉制表
计数 血型类别
1
人群 类别 合计 1 2 64 125 189
2
86 138
3
130 210
4
20 26 46
合计
300 499 799
224 340 卡方检验 值 df 3 3
渐进 Sig. (双侧) .589 .588
Pearson 卡方 似然比
死亡人数
11
19
17
15
16
16
19
试检验一周内各日的死亡危险性是否有差异?
变量基本要求: 一个频数变量,变量类型为数值型,频数变量需要加权处理; 一个分组变量,变量类型为数值型或字符型; 本例定义两个变量:“星期”和“死亡人数”,变量类型为数 值型。将死亡人数录入“死亡人数”变量;将星期录入“星期” 变量。 菜单操作: 1)变量加权主菜单“数据”→“加权个案”,将频数变量“死亡 人数”选入“频率变量”框,点击“确定” 按钮。 2)卡方拟合优度主菜单“分析”→“非参数检验”→“卡方”,出 现卡方拟合优度检验界面。
【主要结果与分析】
两 组 秩 均 值 结 果 秩 和 检 验 结 果
秩
是否铅作业者 血铅值 否 是 总数 N 10 7 17 检验统计量b 秩均值 5.95 13.36 秩和 59.50 93.50
血铅值
Mann-Whitney U 秩和检验结果 Wilcoxon W Z 4.500 59.500 -2.980
【操作步骤】 根据样本数据的形式不同,有两种方式: 一是样本数据为原始数据,这时要求行、列两个待检验的属性 变量,变量类型为数值型或字符型。 两样本数据分别为行、列两属性变量的取值。 二是汇总的列联表数据,这时要求三个变量:频数变量、频数 所在的行变量及频数所在的列变量。 频数变量需要加权处理。 频数变量的取值是列联表的交叉频数 行、列两个属性变量的取值是各频数对应行和列。
实验操作:P156 例9.1 9.8 9.9 实验要求:对例9.9写出实验报告。
【实验7】 一个市场研究公司想确定电话拥有数与汽车拥有数是否独立,该 公司从10000户家庭组成的简单随机样本中获得的信息如表所示 ,试利用表中数据检验电话拥有量与汽车拥有量是否有联系。
汽车拥有量 (辆) 0 1 2 1000 900 100 1500 2600 500 合计 2000 4600
原假设H0:各样本对应总体的总体率(构成比)相等 (π1=π2=…=πk)或列联表的行列属性独立。 双向无序列联表K.Pearson卡方检验的统计量为
2
i 1 j 1
c
k
(oij eij )2 eij
~ 2 ((r 1)(c 1))
其中oij、eij分别为列联表第i行第j列的实际频数和理论频数,c、 k分别为行列属性的分类数目,r、c分别为列联表的行、列数。
菜单操作: 主菜单“分析”→“非参数检验” →“两独立样本”,出现两独立 样本检验界面。 参数设置:选择变量“血铅值”进入“检验变量列表”框;选 择变量“是否铅作业者”进入“分组变量”框,并点击“定义 组”按钮,在“组1”和“组2”框中分别输入分组变量的两个取 值1和0。 点击“确定”。 两 独 立 样 本 检 验 界 面
菜单操作:主菜单“分析”→“非参数检验” →“2个相关样本”, 出现两关联样本检验界面。 参数设置:选择“剂型A达峰时间”和“剂型B达峰时间”进 入“检验对”框的“Variable1”和“Variable2”; 点击“选项”按钮,在“统计量”区域,选“描述性”;点击 “确定”。
主要结果与分析
描述性统计量 N 均值 标准差 极小值 极大值
1.921a 1.924
线性和线性组合
有效案例中的 N
1.452
799
1
.228
对称度量 按标量标定 相依系数 有效案例中的 N 值 近似值 Sig. .049 .589 799
统计量值=1.921,伴随概率P值为0.589,远大于检验水准0.05, 说明鼻咽癌患者与健康人的血型相关是无统计学意义的,所以 可认为血型与是否患鼻咽癌无关。 相关系数为0.049,伴随概率P值为0.589,说明相关程度很低, 且相关系数非零无统计学意义,所以也可以认为血型与是否患 鼻咽癌无关
剂型A达峰时间
剂型B达峰时间
11
11
2.4091
3.0000
.71827
.80623
1.25
1.50
3.50
4.00
检验统计量b 剂型B达峰时间 - 剂型A达峰 时间
Z
渐近显著性(双侧) a. 基于负秩。
-2.150a
.032
b. Wilcoxon 带符号秩检验
剂型A达峰时间的均值为2.4091,标准差为0.71827,剂型B达 峰时间的均值为3.0,标准差为0.80623。 两者差的统计量值Z=-2.150,伴随概率P值为0.032,小于检验 水准0.05,说明两种剂型血药浓度的达峰时间分布差异有统计 学意义,可以认为两种剂型血药浓度的达峰时间不具有相同的 分布
剂型A 剂型B 2.5 3.5 3.0 4.0 1.25 1.75 2.5 2.0 3.5 3.5 2.5 4.0 1.75 2.25 1.5 2.5 3.5 3.0 2.5 3.0 2.0 3.5
试检验两种剂型血药浓度的达峰时间是否具有相同的分布?
【实验目的】 理解两相关样本符号秩检验的基本思路和适用条件,掌握SPSS 软件操作实现方法。 【操作步骤】 一对(或多对)检验变量,变量类型为数值型。 两样本数据分别为两个相关变量的取值。 定义两个相关变量“剂型A达峰时间”和“剂型B达峰时间”, 两组数据分别录入两个相关变量。
四、列联表资料的检验
列联表的行、列属性变量取值都是计数资料,即定类(无序)资 料或定序(有序)资料,可以将列联表分为三种类型: 双向无序列联表、单向有序列联表及双向有序列联表。
双向无序列联表的检验
【统计学知识】 双向无序列联表检验主要有列联表行、列属性的独立性检验。 检验方法一般采用列联表K.Pearson卡方检验。
三、两相关样本的检验 【统计学知识】在总体分布不了解情况下,通过样本数据检验 两个相关样本的总体分布或分布位置差异是否有统计学意义。 两个相关样本最常用Wilcoxon检验(即符号秩检验)。 符号秩检验的原假设H0:两相关样本来自的两总体分布相同。 11名受试者分别服用两种不同剂型的药物,测得血药浓度达峰 时间(克/毫升)(经检验不服从正态分布)
研究观察鼻咽癌患者与健康人的血型构成,试判断患鼻咽癌是 否与血型有关
血型 A 鼻咽 癌 健康 人 合计 64 125 189 B 86 138 224 AB 130 210 340 O 20 26 46 合计 300 499 799
【实验目的】 理解双向无序列联表K.Pearson卡方检验的基本思路和适用条件, 掌握其SPSS软件操作实现方法。
渐近显著性(双侧)
精确显著性[2*(单侧显著性)] a. 没有对结进行修正
.003
.001a
b. 分组变量: 是否铅作业者
铅作业与非铅作业两组工人血铅值的平均秩分别为13.36和5.95, 显然铅作业组血铅值的平均秩较高。 小样本时的统计量值Mann-Whitney U为4.5,伴随概率P值为 0.001,大样本时统计量值Z为-2.98,对应伴随概率P值为0.003。 本例为小样本应取前者,P值为0.001,远小于检验水准0.05, 说明铅作业工人和非铅作业工人血铅值之间的差异有统计学意 义,所以可以认为铅作业与非铅作业工人血铅值有差异。
【主要结果与分析】
理论频数
星期 观察数 1 2 3 4 5 6 11 19 17 15 16 16 期望数 16.1 16.1 16.1 16.1 16.1 16.1 残差 -5.1 2.9 .9 -1.1 -.1 -.1
7
Total
19
113
16.1
2.9
卡方拟合优度检验结果 检验统计量 卡方 df 渐进显著性 星期 2.779a 6 .836
统计量=2.779,伴随概率P值为0.836,大于检验水准0.05。 说明一周内各日的死亡危险性差异没有统计学意义,因此可以 认定一周内各日的死亡危险性无差异。
二、两个独立样本的非参数检验
两个独立样本非参数检验是在对总体分布未知的情况下,通过 样本数据检验两独立样本的对应总体分布或分布位置差异是否 有统计学意义。 两个独立样本非参数检验方法最常用Mann-Whitney U 检验, 也称为威尔科克逊(Wilcoxon W)等级秩和检验。 秩和检验的原假设H0:两组独立样本来自的两总体分布相同。 SPSS结果,当小样本时,统计量以“Mann-Whitney U”给出, 伴随概率P值以“精确显著性(Exact Sig.)”给出。当大样本时, 统计量以“Z”给出,伴随概率P值以“渐近显著性(Asymp. Sig.)”
测量铅作业与非铅作业工人的血铅值(单位:mol/l)
铅作业
非铅作业
0.82
来自百度文库0.24
0.87
0.24
0.97
0.29
1.21
0.33
1.64
0.44
2.08
0.58
2.13
0.63 0.72 0.87 1.01
试检验铅作业与非铅作业工人的血铅值是否有差异?
【实验目的】两独立样本秩和检验的基本思路和适用条件。 【操作步骤】 一个(或多个)检验变量,变量类型为数值型; 一个分组变量,变量类型为数值型。 两样本数据全为检验变量取值,组别通过分组变量值(如0,1或 1,2等)区分。 本例定义检验变量“血铅值”,分组变量“是否铅作业者”; 将两组血铅值数据全部录入检验变量,在分组变量中,铅作业 者组录入1,非铅作业者组录入0。