教学课件SPSS统计分析进阶

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
说明回归方程拟合的越差
35
回归方程线性关系显著性检验
1. 提出假设
– H0:线性关系不显著
2. 计算检验统计量F
3. 确定显著性水平a,找出P值 4. 作出决策
36
回归系数的显著性检验
1. 检验x与y之间是否具
有线性关系,或者说
,检验自变量x对因变 量y的影响是否显著
1. 提出假设
H0: b = 0 (没有线性关系) H1: b 0 (有线性关系)
抽样分布
... 因此我们拒绝
假设H0: m = 50
...如果这是总 体的真实均值
20
m = 50
H0
样本均值
3
抽样分布——用临界值判断
置信水平
拒绝域 a/2
1 -a 接受域
拒绝域 a/2
临界值
结论:
H0
临界值 样本统计量
• 若检验统计量的值在临界值以外,则拒绝H0 • 若检验统计量的值在临界值以内,则接受H0
该饮料在五家超市的销售情况
超市
无色
粉色
橘黄色
1
26.5
31.2
27.9
2
28.7
28.3
25.1
3
25.1
30.8
28.5
4
29.1
27.9
24.2
5
27.2
29.6
26.5
绿色
30.8 29.6 32.4 31.7 32.8
13
1. 检验饮料的颜色对销售量是否有影响,也就 是检验四种颜色饮料的平均销售量是否相同
• 目的:两个或两个以上变量
间的线性相关关系(“r”)
✓ ✓
-1≤r≤1 ︱r︱越接近1,相关性越强
【例】 “住房状况调 查.sav”,对家庭收 入与打算购买的住房
✓ ︱r︱越接近0,相关性越弱 面积作相关分析
• 相关分析的过程
I. 散点图
II. 计算相关系数
III. 对相关系数作假设检验 (量)H0:总体不相关,t 统计
方差
▪ 比如,无色饮料A1在5家超市销售数量的方差 ▪ 组内方差只包含随机误差
2. 组间方差
▪ 因素的不同水平(不同总体)下各样本之间的
方差
▪ 比如,A1、A2、A3、A4四种颜色饮料销售量之
间的方差
▪ 组间方差既包括系统误差也包括随机误差
17
方差的比较
1. 如果不同颜色(水平)对销售量(结果)没有影响,
• 目的:检验某个标度型变 量的均值是否为一已知值
H0:mm0
• 分析结果的含义
例1:“住房状况调查.sav”, 家庭人均住房面积是否为20平方 米。 例2:“保险公司人员构成情 况.sav”,推断具有高等教育水 平的员工比例不低于0.8,年轻 人的平均比例是否为0.5。
7
二、独立样本T 检验( Independent-Sample T Test)
i1 j1
i1 j1
i 1
SST = SSE + SSA
22
1. 将SSA和SSE分别除以自由度进行对比,即得
到所需要的检验统计量F
2. 当H0为真时,二者的比值服从分子自由度为
k-1、分母自由度为 n-k 的 F 分布,即
F SSA /( k 1 )=MSA ~ F( k 1,n k ) SSE /( n k ) MSE
一.单因素方差分析 二.多因素方差分析
11
什么是方差分析?
1. 检验多个总体均值是否相等
• 通过对各观察数据误差来源的分析来判断 多个总体均值是否相等
2. 变量
• 一个定类尺度的控制变量(2个或多个处理 水平)
• 一个定距尺度的观察变量
3. 用于分析完全随机化试验设计
12
【例】某饮料生产企业研制出一种新型饮料。饮料的颜色 共有四种,分别为橘黄色、粉色、绿色和无色透明。这四 种饮料的营养含量、味道、价格、包装等可能影响销售量 的因素全部相同。现从地理位置相似、经营规模相仿的五 家超级市场上收集了前一时期该饮料的销售情况,见下表 。试分析饮料的颜色是否对销售量产生影响。
8
三、 配对样本的T 检验(Paired-Sample T Test)
• 目的:同一样本的 某个变量经过前后 两次测试,形成两 个均值是否有显著 性差异。
– H0:m第一次测量m第二次测量
• 分析结果的含义
例:“减肥茶数据.sav”,通 过35名志愿者喝茶前后体重变 化,分析减肥茶是否有明显的 减肥效果。
量独立
19
方差分析的原假设
如果原假设成立,即H0: u1 = u2 = u3 = u4
– 四种颜色饮料销售的均值都相等 – 没有系统误差
这意味着每个样本都来自均值为 m、差为2的同
一正态总体
f(X)
m1 m2 m3 m4
X
20
如果备择假设成立,即H1: ui (i=1,2,3,4)不全相

或化简为 r
n xy x y
n x2 x2 n y2 y2
31
相关系数的显著性检验
1. 检验两个变量之间是否存在线性相关关系
2. 等价于对回归系数 b的检验 3. 采用 t 检验
4. 检验的步骤为
– 提出假设:H0: 0 ;H1: 0
– 计算检验的统计量:
t r n 2 ~ t( n 2 ) 1 r2
2. 设m1为无色饮料的平均销售量,m2 粉色饮料 的平均销售量,m3 为橘黄色饮料的平均销售 量,m4 为绿色饮料的平均销售量,也就是检
验下面的假设
▪ H0: m1 m2 m3 m4 ▪ H1: m1 , m2 , m3 , m4 不全相等
3. 检验上述假设所采用的方法就是方差分析
14
方差分析的几个概念
• 目的:控制变量各水平及
交互影响下观测变量总体 均值是否存在显著差异。
• 前提:分析变量在影响因
素的各水平及其交互影响 上等方差(方差齐性检验)
• 原假设H0 :
a1 a2 ak=0;
b1 b2 br 0;
( ab )1 ( ab )2 ( ab )kr 0
例1:“住房状况调 查.sav”,文化程度和 性别的交互作用是否影 响家庭收入。
t
20 50
15
3. 规定显著性水平(a=0.01,
s n 10 / 25
0.05, 0.10)
4. 计算检验统计量的值(t值 或P值)
取a 0.05,
查表得Za / 2 2.06
5. 作出统计决策
∵︱t︱>2.06
∴ 拒绝H0,即m≠50
6
一、单样本T 检验 (One Sample T Test)
9
四、平均数分析(Means过程)
• 目的:
1. 一个变量(标度型)是 否受另一个变量(定类 或定序)的影响
• H0:u1=u2=…=un (两变
量不相关)
2. 对需要比较的各组进行 描述统计分析
• 分析结果的含义
【例】 “住房状况调 查.sav”,文化程度和性 别是否影响家庭收入。
10
§5.2 SPSS方差分析
例2:“广告地区与销 售额.sav”,广告形式、 地区以及其交互作用是 否对商品销售额产生影 响。
• 分析结果的含义 26
因素间的交互影响
A1
A2
B1
2
5
B2
7
10
A1
A2
B1
2
5
B2
7
3
B2 B1
A1
A2
B2 B1 A1
A2
27
§5.3 SPSS相关与回归
一.线性相关分析 二.回归分析
28
一、线性相关分析( Correlate 过程)
“住房状况
II. 回F统归计直量线)意义检验(H0:全部斜率系数都为0,查划变”面量:积,以为以计因家
III. 回归系数的显著性检验(H0:b=0,t统计量)
分析结果的含义
庭收入为自 变量进行回 归分析
30
相关系数
• 样本相关系数的计算公式
r ( x x )( y y ) ( x x )2 ( y y )2
– 至少有一个总体的均值是不同的 – 有系统误差
这意味着四个样本分别来自均值不同的四个正态总 体
f(X)
m1 m2 m3 m4
X
wenku.baidu.com21
构造检验的统计量
总离差平方和(SST)、组内离差平方 (SSE)和 组间离差平方和 (SSA) 之间的关系
k ni
k ni
k
xij x 2
xij xi 2 ni xi x 2
• 分析结果的含义
29
回归分析(Regression过程)
目的:研究因变量随自变量变化而变化的趋势
分析过程:
1. 做散点图或计算相关系数; 总体: Y a X 2. 用最小二乘法拟合回归方程; 样本: ˆy a bx
3. 对回归模型进行假设检验
检验内容:
【例】
I. 回归直线拟合优度检验(判定系数R2)
§5.1 SPSS 参数检验
一.单样本t检验 二.独立样本t检验 三.配对样本t检验 四.平均数分析
1
基础知识回顾:假设检验
总体
☺☺ ☺
☺☺ ☺ ☺☺
提出假设
认为人口的平均年 龄是40岁
作出决策 拒绝假设! 别无选择.
抽取随机样本
☺ X均=值20☺ 2
假设检验的基本思想
这个值不像我们 应该得到的样本 均值 ...
4
抽样分布——用P 值判断
a/2 P/2
1 -a 接受域
a/2 P/2
H0值
• 从H0假设的总体中抽出现有样本的概率,即P值 • 若P≤a,则拒绝H0,接受H1 • 若P>a,则接受H0
5
假设检验的步骤
1. 提出原假设和备择假设
(H0/H1)
例: H0:m = 50 H1:m≠50
2.
确定适当的检验统计量(t) x m
那么组间方差与组内方差就应该很接近,两个方 差的比值就会接近1
2. 如果不同的水平对结果有影响,在组间方差中除
了包含随机误差外,还会包含有系统误差,这时 组间方差与组内方差的比值就会大于1
3. 当这个比值大到某种程度时,就可以说不同水平
之间存在着显著差异
18
方差分析中的基本假定
1. 每个总体都应服从正态分布
– 确定显著性水平a,并作出决策
32
离差平方和的分解(图示)
残差
y
(xi , yi )
总离差
{} y y
y ˆy
}ˆy y
ˆy a bx
y
回归离差 离差分解图
x
33
1. 从图上看有
y y y ˆy ˆy y
2. 两端平方后求和有
n
n
n
yi y2 ˆyi y2 yi ˆy2
1. 因素或因子
▪ 所要检验的对象称为因子 ▪ 要分析饮料的颜色对销售量是否有影响,
颜色是要检验的因素或因子
2. 水平
▪ 因素的具体表现称为水平 ▪ A1、A2、A3、A4四种颜色就是因素的水平
3. 观察值
▪ 在每个因素水平下得到的样本值 ▪ 每种颜色饮料的销售量就是观察值
15
两类误差
1. 随机误差
• 原假设H0 :a1 a2 ak=0
• 种类:简单方差分析和多 重比较分析
• 分析结果的含义
例1:“住房状况调 查.sav”,文化程 度是否影响家庭收 入。
例2:“广告地区与销 售额.sav”:
① 广告形式是否对商 品销售额产生影响;
② 地区是否对商品销 售额产生影响。
25
二、 多因素方差分析(Univariate)
前例的计算结果:F 25.6152 10.486 2.4428
23
F 分布与拒绝域
如果均值相等, F=MSA/MSE1
不能拒绝H0
拒绝H0
a
0
F
Fa(k-1,n-k)
F 分布
24
一、单因素方差分析(One-Way ANOVA)
• 目的:控制变量各水平下 观测变量总体均值是否存 在显著差异。
• 前提:分析变量在影响因 素的各水平上等方差(方 差齐性检验)
▪ 对于因素的每一个水平,其观察值是来自服从
正态分布总体的简单随机样本
▪ 比如,每种颜色饮料的销售量必需服从正态分

2. 各个总体的方差必须相同
▪ 对于各组观察数据,是从具有相同方差的总体
中抽取的
▪ 比如,四种颜色饮料的销售量的方差都相同
3. 观察值是独立的
▪ 比如,每个超市的销售量都与其他超市的销售
i 1
i 1
i 1
{ { {
总变差平方和 回归平方和 残差平方和
(SST)
(SSR)
(SSE)
SST = SSR + SSE
34
样本决定系数-判定系数 R 2
1. 回归平方和占总离差平方和的比例
• 反映回归直线的拟合程度 • 取值范围在 [ 0 , 1 ] 之间
• R 2 1,说明回归方程拟合的越好;R 20,
▪ 在因素的同一水平(同一个总体)下,样本
的各观察值之间的差异
▪ 比如,同一种颜色的饮料在不同超市上的
销售量是不同的
2. 系统误差 ▪ 在因素的不同水平(不同总体)下,各观察
值之间的差异
▪ 比如,同一家超市,不同颜色饮料的销售
量也是不同的
16
两类方差
1. 组内方差
▪ 因素的同一水平(同一个总体)下样本数据的
• 目的:两个样本是否 来自同一总体
– H0:m1m2
• 前提:
– 总体服从正态分布
– 两个样本来自的总体 等方差(方差齐性检 验)
• 分析结果的含义
例1:“住房状况调 查.sav”,推断本市户 口总体和外地户口总体 的家庭人均住房面积是 否有显著差异。
例2:“保险公司人员构 成情况.sav”,全国性 保险公司与外资和合资 保险公司人员构成中, 具有高等教育的员工比 例的均值是否存在显著 性差异。
相关文档
最新文档