社会统计学(卢淑华版)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
二、分析步骤 1、提出假设 H0 :μ1 = μ2 =…= μm 自变量对因变量没有显著影响 H1 :μ1 ,μ2 ,… ,μk不全相等 自变量对因变量有 显著影响
• 注意:拒绝原假设,只表明至少有两个总体的均值 不相等,并不意味着所有的均值都不相等 • 2、构造检验的统计量 • ⑴水平的均值
第二节:单因素方差分析/一元方差分析 • 假定从第i个总体中抽取一个容量为ni的简单随机样本,第i 个总体的样本均值为该样本的全部观察值总和除以观察值 的个数。计算公式:
BSS(组间平方和 ) R TSS(总平方和)
2
其平方根R就可以用来测量两个变量之间的关系强度。
第三节 双因素方差分析/二元方差分析
• 一、二元方差分析的数学模型 • 二元方差又称双因素方差分析,用来分析两个因素 (行因素Row和列因素Column)对试验结果的影响。 • 设两个自变量A和B作用于总体,其中自变量A有a种 取值:A1,A2,…,Aa,自变量B有b种取值:B1, B2,…,Bb。变量A的取值为Ai 、变量B的取值为Bj 时因 变量y的取值为yij • ⒈无交互作用的二元方差分析模型
xi
x ij j
1
ni
ni
(i 1, 2, ,k )
式中: ni为第 i 个总体的样本观察值个数,xij 为第 i 个总 体的第 j 个观察值。 ⑵计算全部观察值的总均值 用全部观察值的总和除以观察值的总个数,计算公式:
x
x
i 1 j 1
m
ni
ij
n
n x
i 1
m
i i
i 1 j 1
a b
a
b
2
⑥ 总离差平方和 T SS TSS yij y
i 1 j 1
2
⑦ 剩余平方和RSS
a b i 1 j 1 a b
RSS yij y i. y . j y
2
2 [( yij y ) - ( y i. - y ) - ( y . j - y )] i 1 j 1
组间平方和是各组平均值 x i与总平均值 的离差平方和, x 反映各总体的样本均值之间的差异程度,计算公式为:
BSS xi x ni xi x
2 i 1 j 1 i 1
m
ni
k
2
组间平方和是各组平均值
第二节:单因素方差分析/一元方差分析
• ⑸计算组内平方和RSS • 组内平方和是每个水平或组的各样本数据与其组 平均值的离差平方和,该平方和反映的是随机误 差的大小,计算公式为:
• 因变量y与自变量A、B之间的关系可以表达为以下 模型:
yijk i j ij ijk
K=1,2,…,r r为自变量A和B每种搭配的重复数
ijk εijk相互独立,并且服务正态分布:
~ N 0,
2
j
ij 及 2都是未知参数,且有: 、i、 j、
其中(a-1)、(b-1) 是自由度
RSS 平均剩余误差平方和 RSS RSS a 1b 1
⑵构造检验统计量
BSS A BSSA / a 1 F A ~ F a 1, a 1b 1 RSS RSS /a 1b 1 BSSB BSSA / b 1 F B ~ F b 1, a 1b 1 RSS RSS /a 1b 1
第一节 方差分析的原理
• 对于因素的每一个水平,其观察值是来自服从正态 分布总体的简单随机样本。 • 2、各个总体的方差必须相同 • 各组观察数据是从具有相同方差的总体中抽取的。 • 3、观察值是独立的 • 四、问题的一般提法 • 1、设因素有m个水平,每个水平的均值分别用1 , 2,, m表示 • 2、要检验m个水平(总体)的均值是否相等,需要提 出如下假设: • H0 : 1 2 … m H1 : 1 , 2 , ,m 不全相 等
第八章 类别变量与尺度变量关系的假设检验——方差分析
• 8.1方差分析的原理 • 8.2一元方差分析 • 8.3二元方差分析
第一节 方差分析的原理
• 一、方差分析及其有关术语 • 1、什么是方差分析 • 方差分析通过分析数据的误差判断各总体均值是 否相等来检验多个总体均值是否相等,从而研究 分类型自变量对数值型因变量的影响。 • 根据自变量的多少,方差分析可分分为单因素方 差、双因素方差分析和多因素方差分析。 • 2、因素或因子 • 因素或因子是指所要检验的对象。 • 3、水平或处理 • 水平或处理是指因子的不同表现。
第一节 方差分析的原理
自变量对因变量没有 • ⑶均方—MS 影响,则没有系统性 误差,组间平方和中 • 均方是指平方和除以相应的自由度。 只有随机误差。 • ⑷基本原理
• 若原假设(自变量对因变量没有影响)成立,组 间均方与组内均方的数值就应该很接近,它们的 比值就会接近1;若原假设不成立,组间均方会大 于组内均方,它们之间的比值就会大于1。当这个 比值大到某种程度时,就可以说不同水平之间存 在着显著差异,即自变量对因变量有影响。 • 三、方差分析的基本假定 • 1、每个总体都应服从正态分布
n
式中:n n1 n2 nm
第二节:单因素方差分析/一元方差分析
• ⑶计算总误差平方和TSS • 总误差平方和 TSS是全部观察值 x 与总平均值 的 离差平方和,反映全部观察值的离散状况,其计 算公式为:
TSS xij x
m ni i 1 j 1 2
⑷计算组间平方和BSS
②列平均值y i.
1 b 1 y i. yij Ti. b j 1 b
由于列平均值是把观测 值按行加总求平均。 yi.是把
自变量yi1,yi2 , … ,yib,观测一次取平均的,因此可以认为 变量B的影响已经相互抵消,所以行平均值 反映的是自 变量A对因变量y的影响。 ③ 总平均值y
第一节 方差分析的原理
• ②系统误差 • 因素的不同水平(不同总体)下由系统性因素造成的样 本各观察值之间观察值的差异称为系统误差。 • ⑵误差平方和—SS • 数据的误差用平方和(sum of squares)表示,分为组内 平方和和组间平方和。 • ①组内平方和 • 组内平方和是指因素的同一水平下数据误差的平方和, 组内平方和只包括随机误差。 • ②组间平方和 • 组间平方和是指因素的不同水平之间数据误差的平方 和,组间平方和既包括随机误差,也包括系统误差。
i 1
a
i
0
j 1
b
j
0
i 1
a
i
0
j 1
b
0
• 二、无交互作用的二元方差分析 • ⒈提出假设 H0 : i 0 i 1,2,, a j 0 j 1,2,, b
H1 : i不全为 0 i 1,2,, a
2、构造检验统计量
第一节 方差分析的原理
• • • •
4、观察值 观察值是指在每个因素水平下得到的样本数据。 二、方差分析的基本思想和原理 1、基本思想
• 方差分析通过对数据误差来源的分析判断不同总 体的均值是否相等。 • 2、基本原理 • ⑴两类误差 • ①随机误差 • 因素的同一水平(总体)下,由随机因素的影响造成 的样本各观察值之间的差异称为随机误差。
第二节:单因素方差分析 三、关系强度的测量 拒绝原假设表明因素(自变量)与观测值之间有显著关系,组间平 方和(BSS)度量了自变量(行业)对因变量(投诉次数)的影响效应。 只要组间平方和BSS不等于0,就表明两个变量之间有关系(只是 是否显著的问题) 。当组间平方和比组内平方和(SSE)大,而且 大到一定程度时,就意味着两个变量之间的关系显著,大得越 多,表明它们之间的关系就越强。反之,就意味着两个变量之 间的关系不显著,小得越多,表明它们之间的关系就越弱。 • 变量间关系的强度用自变量平方和(BSS) 占总平方和(TSS) 的比例大小来反映,自变量平方和占总平方和的比例记为 R2 ,即:
BSS MSB 组间方差MSB: m 1
组内方差MSR: MSR
RSS nm
第二节:单因素方差分析/一元方差分析 3、计算检验统计量 F
BSS / m 1 MSB F ~ F (m 1, n m) MSR / n m MSR
4、统计决策 将统计量的值F与给定的显著性水平的临界值F进行比较, 作出对原假设H0的决策。
观测值y ij 的总误差
变量A解 释的误差
变量A解 释的误差
离差平方和之间的关系
TSS=BSSA+源自文库SSB+RSS
⑧计算均方
变量A的平均离差平方和 BSS A
BSS A BSS A a 1 BSS B BSS B b 1
其中a-1是自由度
变量B的平均离差平方和 BSS B
其中a-1是自由度
j不全为 0 j 1,2,, b
⑴几个基本概念
① 行平均值y. j
1 a 1 y. j yij T. j a i 1 a
由于行平均值是把观测 值按行加总求平均。 y ij是把
自变量y1j,y2j , … ,yaj,观测一次取平均的,因此可以认为 变量A的影响已经相互抵消,所以行平均值 反映的是自 y. j 变量B对因变量y的影响。
εij相互独立,并且服务正态分布: ij
~ N 0,
2
、i、 j 及 2都是未知参数,且有:
i 1
a
i
0
j 1
b
j
0
⒉有交互作用的二元方差分析模型 如果除了行因素和列因素对试验数据的单独影响外,两 个因素的搭配还会对结果产生一种新的影响,这时的双 因素方差分析称为有交互作用的双因素方差分析或可重 复双因素方差分析 (Two-factor with replication )。
例(参见教材376页例1、383页例2)为了研究职业对家庭赡养 人数的影响,研究者抽查了某企业41名员工的家庭赡养人数(如 下表),试判断职业对家庭赡养人数是否有影响。
家庭赡养人数 职 工人 业
管理人员 技术员
3 5 0 5 4 4 2 3 1 3 2 3 3 2 4 2 6 1 1 3 4 4 6 2 3 4 3 5 2 4 6 4 2 2 3 0 5 3 1 2 1
⑷确定临界 值,并与检 验统计量进 行比较,得 出结论:
RSS xij xi
m ni i 1 j 1
2
⑹三个平方和的关系
TSS = BSS + RSS
第二节:单因素方差分析/一元方差分析
• ⑺计算均方MS • 各误差平方和的大小与观察值的多少有关,为消除观 察值多少对误差平方和大小的影响,需要将其平均, 这就是均方,也称为方差。均方由误差平方和除以相 应的自由度求得,三个平方和对应的自由度分别是: • TSS 的自由度为n-1,其中n为全部观察值的个数 • BSS的自由度为m-1,其中m为因素水平(总体)的个数 • RSS 的自由度为n-m
1 a b 1 1 a 1 b y yij T.. y i. y. j ab i 1 j 1 ab a i 1 b j 1
④ 变量A的离差平方和BSSA
BSSA y i. y
i 1 j 1
a
b
2
⑤变量B的离差平方和BSSB
BSSB y . j y
• 如果两个因素对试验结果的影响是相互独立的,分别 判断行因素和列因素对试验数据的影响,这时的二元 方差分析称为无交互作用的二元方差分析或无重复二 元方差分析(Two-factor without replication) 。
• 因变量y与自变量A、B之间的关系可以表达为以下 模型:
yij i j ij
第二节:单因素方差分析/一元方差分析
• 一、数据结构
观察值 ( j ) 因素(A) i 水平A1 水平A2 … 水平Am
1 2 : : n
x11 x12 : : x1 n
x21 x22 : : x2n
… … : : …
xm1 xm2 : : xmn
第二节:单因素方差分析/一元方差分析
• • • •