spss第九章方差分析PPT课件
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
19
多重比较方法
LSD法:实际上就是t检验的变形,只是在变异 和自由度的计算上利用了整个样本信息,因此仍 然存在放大一类错误的问题
Scheffe法:当各水平个案数不相等,或者想进 行复杂的比较时,用此法较为稳妥。但它相对比 较保守
S-N-K法:是运用最广泛的一种两两比较方法。 它采用Student Range 分布进行所有各组均值 间的配对比较。该方法保证在H0真正成立时总 的α 水准等于实际设定值,即控制了一类错误。
2
二,分析目的
方差分析是从数据间的差异入手,分析哪些因素 是影响数据差异的众多因素中的主要因素.
例如: 影响某农作物亩产量的因素(品种、施肥量、气候
等) 影响推销某种商品的推销额(不同的推销策略、价
格、包装方式、推销人员的形象等)
3
三,涉及的概念 (1)观察因素: 观测变量 (2)影响因素:
上述统计量一般十分相近 Pillai最保守,也较稳健,常用
50
应用举例
不同类型地区的居民收入和教育差异分析 பைடு நூலகம்多元单因素方差分析 •总体有差异,单个无差异 •通过Options进行直观比较
51
52
53
54
2020/1/11
55
43
SPSS调用程序: Analyze - General Linear Model -
Univariate
44
Part Seven 3 协方差分析
(1)目的:将无法或很难控制的因素作为协 变量,在排除协变量影响的条件下更精确 地分析控制变量对观察变量的影响.
45
(2)基本思路:
Sum of Squares
df
Mean Square
F Sig.
Between Groups
785.800
3 261.933 12.326 .00
Within Groups
340 16 21.250
均方差
Total
1125.80
组内 0
19
S
2 p
17
四 进一步的分析
前提的检验:各水平下方差齐性检验 实现方法:
协变量是数值型的;与观测变量的线性关系在各 水平均成立,且斜率大致相同。
H0:各交叉分组下观测变量的均值无显著差异.
F= MSA/MSE
F= MSB/ MSE
F= MSAB/ MSE
F= MS协/ MSE
46
(3)应用
不同饲料是否会对小猪体重的增加产生显著差异 •初始体重与喂养后体重的在各组的线性关系分析(
68
3
46
60
48
63
4
45
54
55
69
5
54
56
47
60
四个行业的服务质量是否存在显著差异?
13
Part Seven 单因方差分析
四个行业被投诉次数均值为:μ1、μ2 、μ3、
μ4
H0 : μ1 = μ2 = μ3 = μ4
(服务质量无显著差异)
H1: μ1 ,μ2 ,μ3,μ4 不完全相等
11
应用案例
不同地区妇女的生育率是否存在差异 --单因方差
学历是否对工资收入产生影响 --单因方差
不同性别是否在生育子女数量的认知上存在差 异 --独立样本T检验
12
观察值
(y)
消费者对四个行业的投诉次数
行业( x)
零售业 旅游业 航空公司 家电制造业
1
57
62
51
70
2
55
49
49
2020/1/11
28
方差齐次性分析 0.005<0.05 ,显著 差异,方差不相等
29
0.000<0.05 , 存在显著差异
16.809/2.02 4
30
31
0.09:选项1和2间人口规模均值差为0.09,不存在显著 差异; 0.41:选项1和3间人口规模均值差为0.41,存在显著差 异. 0文.32化: 程选度项与2和人3口间规人模口的规差模异均主值要差以为高0.中32为,存分在界显点著差异.
Part Seven 方差分析
1
一,问题的提出
通过参数检验可以解决两两总体均值的比较 多个总体均值的检验如何作?(如:北京、上海、
广州周岁儿童平均身高的比较) 1. 可多次采用两样本t检验方法实现,但弃真概
率会增大。如果t检验的显著性水平是0.05, 则N次t检验则为1-0.95N 2. 可以利用方差分析的方法来实现
20
方法选择策略
一般可以参照如下标准:如果存在明确 的对照组,要进行的是验证性研究, 即计划好的某两个或几个组间(和对 照组)的比较,宜用Bonferroni( LSD)法;若需要进行的是多个均数 间的两两比较(探索性研究),且各 组个案数相等,适宜用Tukey法;其 它情况宜用Scheffe法。
•随机效应因素(Random Factor):该因素所有 可能的取值在样本中没有都出现,因此要用样本 来推论总体情况,包括未出现的水平。这不可避 免的存在误差(即随机效应),需要估计该误差 的大小,因此被称为随机因素。
模型条件
•正态、方差齐性
41
(2)基本思路: 以两个控制变量的方差分析为例: S总=SA+SB+SAB+SE
散点图) •分析初始体重和饲料的作用
47
Part Seven 4 复方差分析
问题提出
控制变量的不同水平会同时对多个因变量 产生影响
分析控制变量对事物某特征的影响,而这 个特征却又无法通过单一指标体现,而会 表现在多个指标上
单个观测变量的分析结果不能简单的叠加 起来向多因变量推广,就如同我们在地面 上和太空中观察地球一样。
32
Part Seven 单因方差分析
2 Analysis → Compare Means →
Means
eg 数据2,sav 反映4种饲料对猪体重增加 情况的统计值,进行F检验
33
因变量 自变量
34
相关统计 量的选择
进行F检验
35
不同饲料喂养的猪体重的均值, 标准差,样本量。
36
0.005<0.05, 存在差异
21
Part Seven 单因方差分析
五 SPSS运算过程
1 Analysis→Compare Means→ One-Way ANOVA
单因方差分析,两两选项间的独立样本T 检验
22
eg:不同文化程度的被访者家庭人口规模间是 否存在差异?(α=0.05) 教育程度:1 小学及以下,2 初中文化程度, 3 高中及以上文化程度
37
E相关系数 (crosstabs)
E2,削减 误差比例
38
课堂练习
按要求完成“课堂练习.doc”中的练 习。
39
Part Seven 2 多因素方差分 析
(1)目的:测试若干个控制因素的改变是 否造成观察变量的显著变动.
40
多因素方差分析模型
控制因素的种类
•固定效应因素(Fixed Factor):指的是该因素在 样本中所有可能的水平都出现了。
option中的statistics: Homogeneity-of-variance,检验 各水平下各总体方差是否齐性. H0:各水平下各总体方差无显著差异.
18
单因素方差分析中的多重比较 目的
如果总体均值存在差异,F检验不能说 明哪个水平造成了观察变量的显著差 异.多重比较将对每个水平的均值逐 对进行比较检验.
因为:总变差=组间差异+组内差异 可证明:SST= SSA+SSE(设:k个水平) 考察平均的组间差异与平均的组内差异的
比值,于是
10
(5)结论:
F值较大,F值的相伴概率小于或等于用户 给定的显著性水平a,则拒绝H0,认为不同 水平下各总体均值有显著差异;
F值较小,F值的相伴概率大于用户给定的 显著性水平a,则不能拒绝H0,可以认为不 同水平下各总体均值无显著差异.
8
二基本思路
(1)入手点: 检验控制变量的不同水平下,各总体的分布是否 存在显著差异,进而判断控制变量是否对观测变 量产生了显著影响.
(2)前提: 不同水平下各总体服从方差相等的正态分布.
(3) H0:不同水平下,各总体均值无显著差异.即:不 同水平下控制因素的影响不显著.
9
(4) 构造F统计量
48
概念
多元方差分析,其观测变量个数为两个以上
H0:各交叉分组下多个观测变量的均值均无
显著差异
前提:
各观测变量服正态分布 各观测变量方差齐性 各观测变量具有较强的相关性
49
检验方法:
Pillai’s Trace、Wilks’Lambda、 Hotelling’s Trace、Roy’s Largest Root
H0 : μ1 = μ2 = μ3 (无显著差异) H1: μ1 , μ2,μ3 不完全相等,存在显著差异
23
均值的多项 式比较
均值多重比较
因变量
自变量
统计输 出量的 选择
24
对两两类别的均值进行比较
方差齐次(相等)
方差非齐次(不 相等)
显著性水平
25
描述性统计量 方差齐次性分析
26
27
控制因素(控制变量)将控制因素的不 同情况称为控制因素的不同水平.
随机因素.
4
四,核心问题 (1)从数据差异角度看:
观测变量的数据差异=控制因素造成+ 随机因素造成
5
(2) 方差分析正是要分析观测变量的变 动是否主要是由控制因素造成还是由 随机因素造成的,以及控制变量的各 个水平是如何对观测变量造成影响的.
6
五,方差分析的类型 单因素方差分析 多因素方差分析 协方差分析 多元方差分析
7
Part Seven 1 单因方差分析
一 相关统计知识 1单因方差:
分析一个定类变量(X变量)和一个定距变 量(Y 变量)的相关性。
x--定类(至少3种分类) 相关系数:E/E2
SAB表示两个控制变量的交互影响,即: 两个控制变量各水平之间搭配时对观 察变量的影响.
42
(3)实质:
对不同交叉分组下的样本数据所代表的总体均值 有无显著差异进行F检验,即:检验不同控制变量在 不同交叉水平下的总体均值是否存在显著差异. H0:各交叉分组下观测变量的均值无显著差异. 检验统计量 固定效应模型: 随机效应模型:
(有显著差异)
14
Part Seven 单因方差分析
计算F值
nS 2
F
x
S
2 p
S 2 =组间方差 x
S
2 p
=组内方差
15
Part Seven 单因方差分析
若F对应概值P(sig)<α,
拒绝H0 ,接受H1
若F对应概值P (sig)>α,
拒绝H1 ,接受H0
16
组间
离差平方和
nSn 2 x
多重比较方法
LSD法:实际上就是t检验的变形,只是在变异 和自由度的计算上利用了整个样本信息,因此仍 然存在放大一类错误的问题
Scheffe法:当各水平个案数不相等,或者想进 行复杂的比较时,用此法较为稳妥。但它相对比 较保守
S-N-K法:是运用最广泛的一种两两比较方法。 它采用Student Range 分布进行所有各组均值 间的配对比较。该方法保证在H0真正成立时总 的α 水准等于实际设定值,即控制了一类错误。
2
二,分析目的
方差分析是从数据间的差异入手,分析哪些因素 是影响数据差异的众多因素中的主要因素.
例如: 影响某农作物亩产量的因素(品种、施肥量、气候
等) 影响推销某种商品的推销额(不同的推销策略、价
格、包装方式、推销人员的形象等)
3
三,涉及的概念 (1)观察因素: 观测变量 (2)影响因素:
上述统计量一般十分相近 Pillai最保守,也较稳健,常用
50
应用举例
不同类型地区的居民收入和教育差异分析 பைடு நூலகம்多元单因素方差分析 •总体有差异,单个无差异 •通过Options进行直观比较
51
52
53
54
2020/1/11
55
43
SPSS调用程序: Analyze - General Linear Model -
Univariate
44
Part Seven 3 协方差分析
(1)目的:将无法或很难控制的因素作为协 变量,在排除协变量影响的条件下更精确 地分析控制变量对观察变量的影响.
45
(2)基本思路:
Sum of Squares
df
Mean Square
F Sig.
Between Groups
785.800
3 261.933 12.326 .00
Within Groups
340 16 21.250
均方差
Total
1125.80
组内 0
19
S
2 p
17
四 进一步的分析
前提的检验:各水平下方差齐性检验 实现方法:
协变量是数值型的;与观测变量的线性关系在各 水平均成立,且斜率大致相同。
H0:各交叉分组下观测变量的均值无显著差异.
F= MSA/MSE
F= MSB/ MSE
F= MSAB/ MSE
F= MS协/ MSE
46
(3)应用
不同饲料是否会对小猪体重的增加产生显著差异 •初始体重与喂养后体重的在各组的线性关系分析(
68
3
46
60
48
63
4
45
54
55
69
5
54
56
47
60
四个行业的服务质量是否存在显著差异?
13
Part Seven 单因方差分析
四个行业被投诉次数均值为:μ1、μ2 、μ3、
μ4
H0 : μ1 = μ2 = μ3 = μ4
(服务质量无显著差异)
H1: μ1 ,μ2 ,μ3,μ4 不完全相等
11
应用案例
不同地区妇女的生育率是否存在差异 --单因方差
学历是否对工资收入产生影响 --单因方差
不同性别是否在生育子女数量的认知上存在差 异 --独立样本T检验
12
观察值
(y)
消费者对四个行业的投诉次数
行业( x)
零售业 旅游业 航空公司 家电制造业
1
57
62
51
70
2
55
49
49
2020/1/11
28
方差齐次性分析 0.005<0.05 ,显著 差异,方差不相等
29
0.000<0.05 , 存在显著差异
16.809/2.02 4
30
31
0.09:选项1和2间人口规模均值差为0.09,不存在显著 差异; 0.41:选项1和3间人口规模均值差为0.41,存在显著差 异. 0文.32化: 程选度项与2和人3口间规人模口的规差模异均主值要差以为高0.中32为,存分在界显点著差异.
Part Seven 方差分析
1
一,问题的提出
通过参数检验可以解决两两总体均值的比较 多个总体均值的检验如何作?(如:北京、上海、
广州周岁儿童平均身高的比较) 1. 可多次采用两样本t检验方法实现,但弃真概
率会增大。如果t检验的显著性水平是0.05, 则N次t检验则为1-0.95N 2. 可以利用方差分析的方法来实现
20
方法选择策略
一般可以参照如下标准:如果存在明确 的对照组,要进行的是验证性研究, 即计划好的某两个或几个组间(和对 照组)的比较,宜用Bonferroni( LSD)法;若需要进行的是多个均数 间的两两比较(探索性研究),且各 组个案数相等,适宜用Tukey法;其 它情况宜用Scheffe法。
•随机效应因素(Random Factor):该因素所有 可能的取值在样本中没有都出现,因此要用样本 来推论总体情况,包括未出现的水平。这不可避 免的存在误差(即随机效应),需要估计该误差 的大小,因此被称为随机因素。
模型条件
•正态、方差齐性
41
(2)基本思路: 以两个控制变量的方差分析为例: S总=SA+SB+SAB+SE
散点图) •分析初始体重和饲料的作用
47
Part Seven 4 复方差分析
问题提出
控制变量的不同水平会同时对多个因变量 产生影响
分析控制变量对事物某特征的影响,而这 个特征却又无法通过单一指标体现,而会 表现在多个指标上
单个观测变量的分析结果不能简单的叠加 起来向多因变量推广,就如同我们在地面 上和太空中观察地球一样。
32
Part Seven 单因方差分析
2 Analysis → Compare Means →
Means
eg 数据2,sav 反映4种饲料对猪体重增加 情况的统计值,进行F检验
33
因变量 自变量
34
相关统计 量的选择
进行F检验
35
不同饲料喂养的猪体重的均值, 标准差,样本量。
36
0.005<0.05, 存在差异
21
Part Seven 单因方差分析
五 SPSS运算过程
1 Analysis→Compare Means→ One-Way ANOVA
单因方差分析,两两选项间的独立样本T 检验
22
eg:不同文化程度的被访者家庭人口规模间是 否存在差异?(α=0.05) 教育程度:1 小学及以下,2 初中文化程度, 3 高中及以上文化程度
37
E相关系数 (crosstabs)
E2,削减 误差比例
38
课堂练习
按要求完成“课堂练习.doc”中的练 习。
39
Part Seven 2 多因素方差分 析
(1)目的:测试若干个控制因素的改变是 否造成观察变量的显著变动.
40
多因素方差分析模型
控制因素的种类
•固定效应因素(Fixed Factor):指的是该因素在 样本中所有可能的水平都出现了。
option中的statistics: Homogeneity-of-variance,检验 各水平下各总体方差是否齐性. H0:各水平下各总体方差无显著差异.
18
单因素方差分析中的多重比较 目的
如果总体均值存在差异,F检验不能说 明哪个水平造成了观察变量的显著差 异.多重比较将对每个水平的均值逐 对进行比较检验.
因为:总变差=组间差异+组内差异 可证明:SST= SSA+SSE(设:k个水平) 考察平均的组间差异与平均的组内差异的
比值,于是
10
(5)结论:
F值较大,F值的相伴概率小于或等于用户 给定的显著性水平a,则拒绝H0,认为不同 水平下各总体均值有显著差异;
F值较小,F值的相伴概率大于用户给定的 显著性水平a,则不能拒绝H0,可以认为不 同水平下各总体均值无显著差异.
8
二基本思路
(1)入手点: 检验控制变量的不同水平下,各总体的分布是否 存在显著差异,进而判断控制变量是否对观测变 量产生了显著影响.
(2)前提: 不同水平下各总体服从方差相等的正态分布.
(3) H0:不同水平下,各总体均值无显著差异.即:不 同水平下控制因素的影响不显著.
9
(4) 构造F统计量
48
概念
多元方差分析,其观测变量个数为两个以上
H0:各交叉分组下多个观测变量的均值均无
显著差异
前提:
各观测变量服正态分布 各观测变量方差齐性 各观测变量具有较强的相关性
49
检验方法:
Pillai’s Trace、Wilks’Lambda、 Hotelling’s Trace、Roy’s Largest Root
H0 : μ1 = μ2 = μ3 (无显著差异) H1: μ1 , μ2,μ3 不完全相等,存在显著差异
23
均值的多项 式比较
均值多重比较
因变量
自变量
统计输 出量的 选择
24
对两两类别的均值进行比较
方差齐次(相等)
方差非齐次(不 相等)
显著性水平
25
描述性统计量 方差齐次性分析
26
27
控制因素(控制变量)将控制因素的不 同情况称为控制因素的不同水平.
随机因素.
4
四,核心问题 (1)从数据差异角度看:
观测变量的数据差异=控制因素造成+ 随机因素造成
5
(2) 方差分析正是要分析观测变量的变 动是否主要是由控制因素造成还是由 随机因素造成的,以及控制变量的各 个水平是如何对观测变量造成影响的.
6
五,方差分析的类型 单因素方差分析 多因素方差分析 协方差分析 多元方差分析
7
Part Seven 1 单因方差分析
一 相关统计知识 1单因方差:
分析一个定类变量(X变量)和一个定距变 量(Y 变量)的相关性。
x--定类(至少3种分类) 相关系数:E/E2
SAB表示两个控制变量的交互影响,即: 两个控制变量各水平之间搭配时对观 察变量的影响.
42
(3)实质:
对不同交叉分组下的样本数据所代表的总体均值 有无显著差异进行F检验,即:检验不同控制变量在 不同交叉水平下的总体均值是否存在显著差异. H0:各交叉分组下观测变量的均值无显著差异. 检验统计量 固定效应模型: 随机效应模型:
(有显著差异)
14
Part Seven 单因方差分析
计算F值
nS 2
F
x
S
2 p
S 2 =组间方差 x
S
2 p
=组内方差
15
Part Seven 单因方差分析
若F对应概值P(sig)<α,
拒绝H0 ,接受H1
若F对应概值P (sig)>α,
拒绝H1 ,接受H0
16
组间
离差平方和
nSn 2 x