《应用统计学》(05)第5章 分类变量对数值变量的影响
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
用Excel进行方差分析
*
用SPSS进行方差分析
(单因素方差分析)
第 1 步 : 选 择 【Analyze】 【Compare Means】 【One-Way-ANOVA】进入主对话框 第2步:在主对话框中将因变量(投诉次数)选入 【Dependent List】,将自变量(行业)选入【Factor)】 第3步 (需要多重比较时)点击【Post-Hoc】从中选择一 种方法,如LSD; (需要均值图时 )在【Options】下 选 中 【Means plot】 , ( 需 要 相 关 统 计 量 时 ) 选 择 【Descriptive】,点击【Continue】回到主对话框。 点击【OK】
因子均方 F ~ F (k 1, n k ) 残差均方
3. 计算P值,作出决策
*
单因素方差分析表
(基本结构)
平方和 自由度 均方 误差来源 (MS) (SS) (df) 组间 (因素影响) 组内 (误差) SSA k-1 MSA F值 MSA MSE F P值 临界值
SSE SST
n-k n-1
MSE
总和
*
用Excel进行方差分析
(Excel分析步骤)
第1步:选择“工具 ”下拉菜单 第2步:选择【数据分析】选项 第3步:在分析工具中选择【单因素方差分析】 , 然后选择【确定】 第4步:当对话框出现时
在【输入区域 】方框内键入数据单元格区域 在【】方框内键入0.05(可根据需要确定) 在【输出选项 】中选择输出区域
2
*
第 5 章 分类变量对数值变量的影响 5.3 考虑两个分类自变量的影响
5.3.1 不考虑交互作用 5.3.2 考虑交互作用
(two-way analysis of variance)
考虑两个分类变量的影响 (two-way analysis of variance)
1. 2. 分析两个因素(行因素Row和列因素Column)对试验 结果的影响 如果两个因素对试验结果的影响是相互独立的,分 别判断行因素和列因素对试验数据的影响,这时的 双因素方差分析称为 无交互作用的双因素方差分析 或 无 重 复 双 因 素 方 差 分 析 (Two-factor without replication) 如果除了行因素和列因素对试验数据的单独影响外, 两个因素的搭配还会对结果产生一种新的影响,这 时的双因素方差分析称为 有交互作用的双因素方差 分 析 或 可 重 复 双 因 素 方 差 分 析 (Two-factor with replication)
比如,不同位置超市之间销售额的差异
可能是随机误差,也可能是超市位置本身所造成的系
统性系统误差
3. 总误差(total)
全部观测数据的误差大小
*
误差表示
(平方和—SS)
1. 数据的误差用平方和(sum of squares)表示 2. 组内平方和(sum of squares for error) 也称误差平方和或残差平方和,记为SS残差 不同因子(不同位置超市)的组内误差平方和 3. 组间平方和(sum of squares for factor) 也称因子平方和,记为SS因子 不同因子(不同位置超市)的组间误差平方和 4. 总平方和(sum of squares for total) 反映全部数据误差大小的平方和,记为SST 5. 误差间的关系:SST=SS因子+SS残差
检验列因子
检验交互作用 FRC MSRC
2. 决策
若FR>F(或P<) ,拒绝H0 若FC>F(或P<) ,拒绝H0 若FRC>F(或P<) ,拒绝H0
*
应用统计学
案例分析 Applied Statistics 地理位置与抑郁症有关吗
1、案例背景 为了分析地理位置与患抑郁症之间的关系,纽约 洲北部地区的一家医疗中心的专家进行了调查研 究。选择了60个相当健康的人组成一个样本,其 中20人居住在佛罗里达,20人居住在纽约,20人 居住在北卡罗米纳。另外还给出这三个地区患慢 性病的人患抑郁症的样本数据,以考虑地理位置 与患有慢性病的人患抑郁症之间的关系,这些慢 性病诸如关节炎、高血压、心脏失调等。同样也 给出60个样本,三个地区的样本数量各占三分之 一。
2. 用F分布作出决策,给定的显著性水平
若F>F(或P<) ,则拒绝原假设H0 ,表明均 值之间的差异显著,因素对观察值有显著影 响
*
误差分析
(F分布与拒绝域)
如果均值相等, F= MS因子/ MS残差1
拒绝H0
不拒绝H0
F 分布
0
F
F(k-1,n-k)
*
5.1 方差分析解决什么问题? 5.1.3 在什么条件下进行分析?
用SPSS进行方差分析
*
5.2 考虑一个分类自变量的影响 5.2.2 关系有多强?
关系有多强?
1. 变量间关系的强度用自变量平方和 (SS因子) 占 总平方和(SST)的比例大小来反映 2. 自变量平方和占总平方和的比例记为R2 ,即
SS因 子 R SST 3. 其平方根R就可以用来测量两个变量之间的关 系强度
*
5.1 方差分析解决什么问题? 5.1.2 从误差分析入手
误差分解
1. 组内误差(within groups)
样本数据内部各观察值之间的差异
•
比如,同一位置下不同超市之间销售额的差异
反映随机因素的影响,称为随机误差
2. 组间误差(between groups)
不同样本之间观察值的差异
•
方差分析的基本假定
1. 每个总体都应服从正态分布 对于因素的每一个水平,其观察值是来自服
从正态分布总体的简单随机样本
2. 各个总体的方差必须相同 2 2 对于分类变量的k个水平有: 12 2 k 这 一 假 设 也 被 称 为 方 差 齐 性 (homogeneity
variance)
3. 观察值是独立的
*
方差分析中基本假定
原假设成立的情形
f(x)
1 2 3
x
*
方差分析中基本假定
原假设不成立的极端情形
f(x )
x
3 1 2
*
第 5 章 分类变量对数值变量的影响
5.2 考虑一个分类自变量的影响
5.2.1 只考虑一个因子 5.2.2 关系有多强?
MS因子=SS因子÷自由度(因子个数-1)
3. 组 内 均 方 也 称 组 内 方 差 (within-groups variance) ,反映随机误差的大小
MS残差=SS残差÷自由度(数据个数-因子个数)
*
误差分析
(F-检验)
1. 将组间均方与组内均方进行比较,分析差 异是否显著
F=(MS因子÷MS残差)~F(因子自由度,残差自由度)
*
误差度量
(均方—MS)
1. 用均方(mean square)表示误差大小,以消除 观测数据的多少对平方和的影响
用平方和除以相应的自由度 均方也称方差(variance)
2. 组 间 均 方 也 称 组 间 方 差 (between-groups variance),反映各因子间误差的大小
3. 相应的均方
行因子均方(MSR)
列因子均方(MSC) 交互作用均方(MSRC) 残差均方(MSE)
*
检验
1. 检验统计量
检验行因子
MSR FR ~ F k 1, kr 1 MSE
MSC FC ~ F r 1, kr 1 MSE MSE ~ F (k 1)( r 1), kr 1
5 - 36 5 - 36
应用统计学
Applied Statistics
案例分析
2 、案例数据描述 3 、案例拟解决问题 (1)比较地理因素对健康人患抑郁症影响程度是 否相同? (2)比较地理因素对患有慢性病人患抑郁症的影 响程度是否相同? (3)不同地理位置间患抑郁症程度是类自变量(因子factor)对数值因变量(观测结果) 的影响
例如:“超市位置”是一个分类自变量,“竞争者数量” 也是一个分类自变量
• 两个或多个 水平(level)或分类。例如:3个超市位置,4种竞 争者
一个数值型因变量,销售额
3. 只考虑一个因子对观测数据的影响称为单因素方差分 析(one-way analysis of variance) ;考虑两个因子对 观 测 数 据 的 影 响 称 为 双 因 素 方 差 分 析 (two-way analysis of variance)
*
3.
5.3 考虑两个分类自变量的影响 5.3.1 不考虑交互作用 (无重复双因素分析)
误差分解
1. 总误差平方和(SST)被分解成 3 部分
行因子平方和(SSR) 列因子平方和(SSC) 残差平方和(SSE) 各平方和的关系
SST = SSR +SSC+SSE
2.
3. 相应的均方
行因子均方(MSR) 列因子均方(MSC) 残差均方(MSE)
*
对地区因素提出的假设为
5.3 考虑两个分类自变量的影响 5.3.2 考虑交互作用 (可重复双因素分析)
误差分解
1. 总误差平方和(SST)被分解成4部分
行因子平方和(SSR);列因子平方和(SSC);交互作用平
方和(SSRC);残差平方和(SSE)
2. 各平方和的关系
SST = SSR +SSC+SSRC+SSE
*
第 5 章 分类变量对数值变量的影响
5.1 方差分析解决什么问题? 5.2 考虑一个分类变量的影响 5.3 考虑两个分类变量的影响
第 5 章 分类变量对数值变量的影响
5.1 方差分析解决什么问题?
5.1.1 比较均值是否相同 5.1.2 从误差分析入手 5.1.3 在什么样的前提下分析?
5.1 方差分析解决什么问题? 5.1.1 比较均值是否相同
*
不考虑交互作用
(例题分析)
提出假设 对品牌因素提出的假设为
• • • •
H0:1=2=3=4 (品牌对销售量无显著影响) H1:i (i =1,2, … , 4) 不全相等 (有显著影响) H0:1=2=3=4=5 (地区对销售量无显著影响) H1:j (j =1,2,…,5) 不全相等 (有显著影响) 用Excel进行无重复双因素分析
应用统计学
Applied Statistics
*
统计名言 警惕过多地检验。你对数据越苛求, 数据会越多地向你供认,但在威逼 下得到的供词,在科学询查的法庭 上是不容许的。
Stephen M.Stigler
*
怎样解决下面的问题?
来自不同地区的大学生每个月的平均生活 费支出是否不同呢? 家电的品牌对它们的销售量是否有显著影 响呢? 不同的路段和不同的时段对行车时间有影 响吗? 超市的位置和它的销售额有关系吗? 不同的小麦品种产量有差异吗?
方差分析解决什么问题?
(例题分析)
【 例 】确定超市的位置和竞争者的数量对销售额是否有 显著影响,获得的年销售额数据(单位:万元)如下表
因子
水平
样本数据
*
什么是方差分析(ANOVA)?
(analysis of variance)
1. 比较多个总体均值是否相等
例如:不同位置的超市销售额均值是否一样
应用统计学
Applied Statistics
案例分析
4、 案例分析要求 (1)描述统计学方法概括说明两部分研究的资料, 关于抑郁症的得分,你的初步观测结果是什么? (2)对两个数据集使用方差分析方法,陈述每种情 况下被检验的假设,你的结论是什么? (3)用推断法说明单个处理均值的合理性 讨论这 个研究的推广和你认为有用的其他分析 (4)方差分析的结果能够说明不同水平之间就是无 差异吗? (5)对于给出的调查数据,还可以用那些方法进行 统计分析?
5.2 考虑一个分类自变量的影响 5.2.1 只考虑一个因子
(one-way analysis of variance)
提出假设并进行检验
1. 设 1 为商业区超市销售额的均值, 2 为居民 小区超市销售额的均值, 3 为写字楼超市销 售额的均值,提出的假设为 H0 : 1 2 3 H1 : 1 , 2 , 3 不全相等 2. 计算检验统计量
*
检验
1. 检验统计量
检验行因子
检验列因子
MSR FR ~ F k 1, (k 1)( r 1) MSE MSC FC ~ F r 1, (k 1)( r 1) MSE
2. 决策
若FR>F(或P<) ,拒绝H0 若FC>F(或P<) ,拒绝H0