09方差分析与回归分析-PPT精选文档
第九章方差分析及回归分析 第2讲精品PPT课件
x1, x2, , xn
因此干脆不把X看成随机变量,而将它当作 普通的变量。X的变化将使Y发生相应的变 化,但它们之间的变化是不确定的。由于Y 是随机变量 ,当X取得任一个可能的值x时, Y都相应地服从一定的概率分布。
10
设进行 n 次独立试验,测得试验数据如下表:
xபைடு நூலகம்
x1
x2
xn
y
y1
y2
yn
我们的问题是,如何根据这组观察值,用 “最佳”的形式来表达变量Y与x的相关关系?
比较合理的想法就是,取Xx时随机变量
Y的数学期望EY Xx 作为Xx时Y的估计值。
11
设Y的数学期望EY存在,其值随X的取值
而定,即Y的数学期望是x的函数。将这一函数
记为yx 或x,xEY Xx称为Y关于x
的回归函数。 为 此 , 我 们 就 将 讨 论 Y 与 x的 相 关 关 系 的 问 题
转 换 为 讨 论 E Y x与 x的 函 数 关 系 了 。
由一个或一组非随机变量来估计或预测某 一个随机变量的观察值时所建立的数学模 型及所进行的统计分析称为回归分析
7
如果这个模型是线性的就称为线性回归分析 这种方法是处理变量间相关关系的有力工具,是
数理统计工作中一种常用的方法。它不仅告诉人 们怎样建立变量间的数学表达式,即经验公式, 而且还利用概率统计知识进行分析讨论,判断出 所建立的经验公式的有效性,从而可以进行预测 或估计。 本章主要介绍如何建立经验公式。
14
温度x(oc) 100 110 120 130 140 150 160 170 180 190 得率(%) 45 51 54 61 66 70 74 78 85 89
得率与温度关系的散点图 100 90 80 70 60 50 40
第9章-方差分析与线性回归
Xij X E
s nj
ST s
n
E
j
j 1
i 1
X ij X
j1 i1
s nj
X ij2 nX
j1 i1
X ij 2
2
2
s nj
X
EE(X
)j
s11ninj1jEs1Xinj1ijjE21(Xiinj1)X
1 n
s
nj ( j )
j 1
s nj
E( Xij2 ) nE( X 2 )
X12 X 22
As : N s , 2
X1s X 2s
X n11
X n2 2
X nss
每个总体相互独立. 因此, 可写成如 下的 数学模型:
ij
~
X ij j ij N (0, 2 ), 各ij独立
i 1, 2, , nj,j 1, 2, , s
方差分析的目的就是要比较因素A 的r 个水平下试验指标理论均值的 差异, 问题可归结为比较这r个总体 的均值差异.
i
ij (0, 2 ),各ij独立
1, 2, , nj,j 1, 2, , s
n11 n22 ... nss 0
假设等价于 H0 :1 2 s 0
H1 :1,2,
,
不全为零。
s
为给出上面的检验,主要采用的方法是平方和 分解。即
假设数据总的差异用总离差平方和 ST 分解为
第九章 回归分析和方差分析
关键词: 单因素试验 一元线性回归
方差分析(Analysis of variance, 简 称:ANOVA),是由英国统计学家费歇尔 (Fisher)在20世纪20年代提出的,可用于推 断两个或两个以上总体均值是否有差异 的显著性检验.
第九章 线性回归与方差分析 ppt课件
62
190
3844
36100
90
320
8100
102400
100
406
10000
164836
120
380
14400
144400
511
2028
42365
605238
xy 186 580 2604 8800 18538 11780 28800 40600 45600
157488
24
S xx
42365
1 9
记 y i y x x i a b x i ,则 称 y i y i 为 x i处 的 残 差
平 方 和
n
2n
2
Q e yiyi yiabxi 称 为 残 差 平 方 和
i1
i1
19
为了计算Qe, 将Qe作如下分解:
n
n
Q e ( y i yˆ i ) 2 [ y i y bˆ ( x i x )]2
26
补充例题 为研究某一化学反应过程中, 温度x(°C)对产品得率 Y(%)的影响, 测得数据如下.求y关于x的一元线性回归方程.
温度 x(°C)
100 110 120 130 140 150 160 170 180 190
得率Y(%) 45 51 54 61 66 70 74 78 85 89
100 80 60 40 100 120 140 160 180 200
bˆ 0.323
aˆ4.37
故经验回归直线为:
Y=4.37+0.323x
ˆ2 4.064
23
例2(续例1) 求Y关于x的线性回归方程. 解 现在n=9, 所需计算列表如下表
第九章 方差分析与回归分析
试验目的: 针对固定模型,对A1,A2,…Aa 比较寻优。 设 xij是水平Ai下第j次重复的试验指标观察值,设i 是水平Ai下试验指标的真值, ij 是水平Ai下第j次重复 试验产生的随机误差。 对随机误差的前提假设:
ij 均服从正态分布; 3. 方差齐性(同质性):D( ij )=2。
Copyright © 2006 NJUFE
2
2
2
a、b是、的最小方差线性无偏估计,一般称为最 佳线性无偏估计,简记为BLUE。
因 y i a bxi, .
1 ( xi x ) 可得 y i ~N ( xi, ( ) 2 ), n S xx
2
1 ( xi x ) 2 a bxi i~N ( xi, (1 ) ) n S xx
第九章 方差分析与回归分析
本章研究的主要问题:
1. 有关单因素和多因素非简单试验的统计分析方法 多处理的正态总体参数估计和均值比较。
2. 对输入变量与试验指标之间存在的统计因果关系和 协同变异问题进行统计分析的方法 回归分析和相 关分析。
涉及的理论模型:线性模型
所用到主要方法:最小二乘法
Copyright © 2006 NJUFE
对固定模型,有E ( SS A ) (a 1) 2 r i2;
i 1
a
Copyright © 2006 NJUFE
SS e SS A a(r 1) SS A 设 FA ( ) /( ) , a 1 a(r 1) a 1 SS e
问题:FA服从什么分布?
结论: FA~F(a-1,a(r-1)) 。 对给定的显著性水平,查F分布表得到临界值 F(a-1,a(r-1)) ,再由样本观察值计算出FA的值,若 FA F(a-1,a(r-1)) ,接受H0;若FA> F(a-1,a(r-1)) , 拒绝H0 。 参见教材p276-278。
第九章方差分析和回归分析
第九章方差分析和回归分析第九章方差分析和回归分析内容提要1、方差分析(1)基本概念方差分析:通过随机抽样及数据处理,检验试验结果是否受试验条件这一类可控制因素显著影响,从而确认对质量指标影响主要来自哪一类因素,即用来鉴别所谓因素效应的有效统计分析方法.因素(因子):人为可以控制的实验条件称为因素或因子.水平:因素或因子的不同等级或因素所处的不同状态称为因素的不同水平. 单因素试验:试验中如果只有一个因素或因子在变化,其它可控条件保持不变,这样的方差试验称为单因素试验.多因素试验:试验中不止一个因素或因子在变化,称为多因素试验.若只有二个因素在变化就叫双因素试验.(2)单因素试验的方差分析设因素A 有j 个不同水平(r j ,,2,1 =),在总的r 个水平下均重复试验i 次(m i ,,2,1 =).每一个水平视为一个独立总体),(~2 j j j N X σμ,每个水平下总的m 次试验结果视为取自j X 的容量为m 的样本),,,,(21mj kj j j X X X X .单因素方差分析的一般方法步骤如下:1)提出待检假设H 0:μμμμ====r 21; 2)列方差计算表9-1,计算2A S 、2E S ; 3)选取建立F 统计量),1(~122r mr r F S S r r mr F EA--?--=,并计算F 统计量的值; 4)对给定的检验水平α,查F 分布表,找到F 统计量的临界值(表值); 5)比较得出结论:① 若计算值F F >临界值),1(r mr r F --α,拒绝H 0,即因素水平影响显著,或有显著影响;② 若计算值F F <临界值),1(r mr r F --α,接受H 0,即因素水平影响不显著或没有显著影响.单因素方差分析见表9-2.表9-1水平试验序号 1A 2A…j A… r A1 x 11 x 12 … x 1j … x 1r 2 x 12 x 22 … x 2j … X 2r … … … … … … … i x i 1 x i 2 … x ij … x ir … … … … … … …∑)(mx m 1x m 2… x mj… x mr∑=??=mi jj x T 11?T 2?T…j T ? …m T ?∑==r j j T x 1 212)(∑=??=m i j jx T21T22T…2jT…2mT∑=?=rj j T T 1 2*∑=?=m i jjxT 12221TT…2jT…2mT∑==rj j T T 1222、回归分析(1)基本概念回归分析:利用样本数据建立起相关变量之间相关关系的数学模型,并应用统计推断的一般法则,对相关关系进行有效的统计分析方法.一元线性回归模型为ε++=bx a Y ,),0(~2σεN 其中,a 、b 称为回归系数.(2)最小二乘法表9-2方差来源离差平方和方差自由度 F 统计量计算值F 临界值(表值)组间2AS12-r S A1-r2)1()(EAS r S r m F --=),1(r mr r F --α组内2E Sr mr S E-2r mr -总变差2TS12-mr S T1-n或1-mr线性回归方程可表示为 x b a y+=,可用最小二乘法求得回归系数的估计值:-=--=∑∑==x b y ax n x y x n y x b ni i ni i i 1221 或-=---=∑∑==x b y ax x y y x x b ni i ni i i ??)())((?121 令-=-=-=--=-=-=-=∑∑∑∑∑∑∑∑========n i n i i i yy n i ni i i i i xy n i n i ni i n i i i i xx y n y y y L y x n y x y y x x L xn x x n x x x L 1122211111221222)())(()(1)(则-==x b y a L L b xx xy ???(3)线性相关显著性检验检验回归方程x b a y+=是否有效,或x 、y 之间线性相关关系是否显著,只要检验回归系数0?=b是否成立.这个问题只存在下面两种可能==≠+=?≠=?=)0?(??)0?(0;??0?ax b y ax b a yb a yb 即,否即是,)2)11)表示y ?与x 无关即y 与x 没有线性相关关系,反过来,若不能否定1),就表示线性相关显著;2)有二种可能,都表示y 与x 之间线性相关关系成立.运用R 检验法进行线性相关显著性检验.R 检验法检验线性相关显著性或回归方程有效性的一般步骤为:1)提出检验假设:0H :0?=b; 2)选用统计量)2(~-=n R L L L R yyxx xy ,并计算R 值;3)在给定α下,查相关系数表得到临界值)2(-n R α; 4)比较得出结论:① 若)2(->n R R α,拒绝0H ,所求回归方程有效或线性相关显著;② 若)2(-<="" ,所求回归方程无效或线性相关不显著.=""> 疑难分析1、怎样区分讨论的问题是方差分析还是回归分析?实际问题所考察的指标y 往往既受因素i x 的影响,又受随机误差的影响.而因素又分为属性的和数量的.属性的因素一般无数量大小可言,只是性质的不同,如:种子的品种、机器的型号、加工的工艺、材料的品质等等.数量的因素,可以在一定范围内取值,如:人的身高、体重,试验的温度,产品的合格率等等.当所考虑的因素是属性时,问题属于方差分析的范围;当所考虑的因素是数量时,问题属于回归分析的范围.例题解析【例1】设某地区酿酒公司下属有1A 、2A 、3A 、4A 共4个酒厂.公司总经理为提高酒的质量,开展质量评优活动,随机地从4个酒厂各抽取3瓶样酒,指定同一名品酒员按事先规定的色、香、味质量标准评分,评分结果的原始数据如表9-3所示.表9-3厂别试验序号 1A 2A 3A 4A1 5 8 7 112 6 9 8 10 36 8 6 12试问:不同酒厂对酒的质量有无显著影响(05.0=α)?解:(1)提出待检假设H 0:μμμμ====r 21;(2)列方差计算表,如表9-4所示. 利用表中最后一列,即(∑)列的数据计算表9-4水平试验序号 1A 2A3A4A1 58 7 11 2 6 9 8 10 368612(∑)∑=??=mi jj x T 117 25 21 33∑==r j j T x 1=96212)(∑=??=mi j jx T 289 625 441 1089∑=?=rj j T T 12*=2444∑=?=mi jjxT 12297 209 149 365∑==rj j T T 122=82033.52444318201*22=?-=-=T m T S E 67.4612 96244431122*2=-?=-?=?mr x T m S A(3)选F 统计量并求F 计算值和临界值)8,3(~38144122222F S S S S F EA E A=?--= 35.2333.5367.468=??=F又查附表5, 07.4)8.3(05.0=F(4)比较得出结论因为)8,3(35.2305.0F F >>=,拒绝H 0,即表示不同酒厂对酒的质量有显著影响.这里αF F >>,可认为因素水平影响特别显著,事实上由原始数据可见,4A 评分特别高,直观上已可判断有显著差异,说明分析的结论是符合实际情况的,也证明了方差分析的科学性.【例2】设有某种创汇商品在国际市场上需求量q (单位:万件),价格p (单位:万美元/件).根据往年市场调查获悉q 与p 之间的一组调查数据如表9-5所示.表9-5价格 p i 2 4 4 4.5 3 4.2 3.5 2.5 3.3 3 需求量 q i6 2 2 1 4 1.5 2.8 5.1 3.4 4.2如果今年该商品预定价为p =4.6(万美元/件),要求根据往年资料建立的q 对p 的回归方程,进行线性相关性是否显著,并预测国际市场上今年的需求量大致为多大?(05.0=α)解:根据样本数据,用最小二乘法求a、b ?的值.04.24.3108.1212.34.31017.97)(1010?222-=?-??-=--=∑∑iiiii p p q p q p b136.104.3)04.2(2.3??=?--=-=p b q a将a、b ?的值代入得到所要求的引例中需求量q 对价格p 的回归方程为 p q04.2136.10?-=. 对所建立的q 对p 的回归方程进行线性相关性显著检验:1)提出待检假设0H :0?=b; 2)选用统计量)2(~-=n R L L L R qqpp qp ,并利用回归计算的结果计算R :因为∑==-=1012268.5)(10i ipp p pL ;63.1110101-=-=∑=i i i pq q p q p L ;∑==?-=-=1012229.23)2.3(103.126)(10i i qq q q L所以 998.09.2368.563.11=?-=R ;3)查附表7得到 632.0)8(05.0=R ; 4)结论∵)2(->n R R α,拒绝0H ,即q 对p 的回归方程有效或线性相关性显著.经检验说明:回归方程p q04.2136.10?-=有效,可以用于预测. 当p =4.6时,国际市场上今年对该商品的需求量大致为:10.136-2.04×4.6=0.752(万件).。
第 九章 方差分析与回归分析
One-Way ANOVA过程
One-Way ANOVA过程用于进行两组及多 组样本均数的比较,即成组设计的方差分 析,如果做了相应选择,还可进行随后的 两两比较,甚至于在各组间精确设定哪几 组和哪几组进行比较
1、界面选项说明
【Dependent List框】选入需要分析的变量,可 选入多个结果变分析表。给出了单因素方差 分析的结果,可见F=84.544,P<0.001。因此可认为三组量不 同。上表的标题内容翻译如下:
组间变异 组内变异
总变异
离均差平方和 自由度 SS
均方MS
F值 P值
9.266
2
4.633 84.544 .000
1.534
28 5.480E-02
第 九章 方差分析 与回归分析
方差分析介绍
方差分析和回归分析是使用最多的两种统 计方法。方差分析是一种定性的统计方法; 而回归分析是一种定量的方法。方差分析 主要分析各效应的显著性即方差齐次性, 主要有以下几个内容,单因素方差分析、 双因素方差分析、多因素方差分析协方差 分析、多元方差分析、重复设计方差分析 等等。这些方法在现实生活中有着极大的 应用范围。
【Factor框】选入需要比较的分组因素,只能选 入一个。
【Contrast钮】弹出Contrast对话框,用于对精 细趋势检验和精确两两比较的选项进行定义,由 于该对话框太专业,也较少用,这里只做简单介 绍。
Polynomial复选框 定义是否在方差分析中进行 趋势检验。
Degree下拉列表 和Polynomial复选框配合使用, 可选则从线性趋势一直到最高五次方曲线来进行 检验。
10.800
30
Post Hoc Tests
Homogeneous Subsets
第九章 方差分析及回归分析【精选】
Xij j ij
ij ~ N (0, 2 ),各 ij独立。
i 1,2,, nj , j 1,2,, s,
(1.1)
广
东
工
业
大
其中 j 与 2 均为未知参数.
学
(1.1) 式称为单因素试验方差分析的数学模型.
返 回 前一页 后一页
方差分析的任务:
概率论与数理统计
机器III 0.258 0.264 0.259 0.267 0.262
广 东 工 业 大 学
返 回 前一页 后一页
概率论与数理统计
例2 表9-2列出了随机选取的, 用于计算器的四种类型的电路 的响应时间(以毫秒计).
类型I 19 15 22 20
18
类型II 20 40 21 33
27
类型III 16 17 15 18
26
类型IV 18 22 19
广 东 工 业 大 学
返 回 前一页 后一页
概率论与数理统计
例3 一火箭使用四种燃料, 三种推进器作射程试验. 每种燃料与 每种推进器的组合各发射火箭两次, 得射程如表9-3(以海里计):
推进器B
A1 燃 A2 料 A3 A
A4
B1 58.2 52.6 49.1 42.8
机器I 0.236 0.238 0.248 0.245 0.243
机器II 0.257 0.253 0.255 0.254 0.261
机器III 0.258 0.264 0.259 0.267 0.262
表中数据可看成来自三个不同总体(每个水平对应一个总体)的样广
本值.
将各个总体的均值依次记为1, 2 , 3
概率论与数理统计
第9章方差分析与回归分析ppt课件
第9章 方差分析与回归分析
r ni
Se
(yij yi )2,
称为误差平方和或组内平方和.
i1 j1
则有以下平方和分解式:
ST SASe
(9.1.4)
事实上
r n i
r n i
S T (yijy)2 (yijyiyiy)2
i 1j 1
i 1j 1
r n i
r n i
r n i
(y i y ) 2 (y ij y i) 2 2 (y ij y i) (y i y )
为研究方便,引入如下记号:
n
r
ni
i1
为试验总次数;
1 n
r i 1
ni i 为总均值;
ii,i1,2,L,r称
i为因素 A
r
的水平 A i 的效应,且有
n i i
0.
i1
ij y iji,j 1 ,2 ,L ,n i,i 1 ,2 ,L ,r称为随机误差.
安庆师范大学
.
因此单因素方差分析数学模型为:
的统计量.令
1 ni
yi
ni
yij,i 1,2,L ,r,
j1
y 1 r
n i 1
ni
yij ,
j 1
表示第组样本的平均值. 表示全体样本的总平均.
r
ST
ni
2019年-第9章方差分析及回归分析-PPT精选文档
3
4
5
6
7
8
9
§1单因素试验的方差分析
(一)单因素试验
在一项试验中只有一个因素在改变的试验。如只考 虑氮肥的不同施用量对水稻产量的影响,而不考虑其他 原因对产量的影响。得到如下数据:
观 察 结 果 \ 处 理 水 平A 1
试 验 指 标
X 11 X 21 X
n1 1
A2 X 12 X 22 X
2
A s, s :N X 1 s X2s Xnss
2
11
方差分析的三个基本条件
• 独立性.
数据是来自s个独立总体的简单随机样本
• 正态性.
s个独立总体均为正态总体
• 方差齐性.
s个独立总体的方差都相同
12
记 号 说 明
观 察 结 果 \ 处 理 水 平A 1
试 验 指 标
X X
11 21
j j
此 时 有 n n . . . n 0 1 1 2 2 s s
模型为: X ij j ij ij (0, 2 ), 各 ij 独立 i 1, 2, , n j, j 1, 2, , s n1 1 n2 2 ... n s s 0
多 的 , 如 农 业 生 产 中 , 影 响 水 稻 产 量 的 因 素 可 能 有 : 种 子 、 态 , 如 施 肥 数 量 是 1 个 单 位 、 2 单 位 还 是 3 单 位 ? 等 等 。
出 那 些 较 显 著 影 响 产 量 的 因 素 。
2
肥 料 、 气 象 、 耕 作 等 ; 同 一 种 因 素 下 也 会 有 不 同 的 水 平 状
需 要 检 验 , 如 : H : , , ,不 相 等 0 1 2 s , H 1: 1 2 s 全 则 就 无 能 为 力 了 , 此 时 就 需 要 用 方 差 分 析 了 。
9第九章 方差分析及回归分析
第九章 方差分析及回归分析§1单因素试验的方差分析方差分析是对试验结果所得数据作分析的一种常用的数理统计方法。
在第八章曾讨论过两个正态总体均值21,μμ是否相等的假设检验法,在那里建立了t 检验法,本章要讨论三个或三个以上正态总体的均值是否相等的假设法。
当试验中仅有一个因素在改变,其他保待不变的情形称为单因素试验,因素所处的状态称为水平,例子见书P270例1,2,例3则为多因素试验法。
对例1,数据(表9.1)可看成来自三个不同的总体的样本值,321,,μμμ为各个总体的均值,需检验假设。
H H 不全等32113210,,::μμμμμμ==一般地,设因素A 有s 个水平s A ,,A A ......,.21,今考虑这s 个水平对于某总体X 的效应:设在每个水平s i A i <=<=1,下,总体服从s i N i ....1).,..,(2=σμ,其中2,σμi 均未知。
在s i A i <=<=1,下,取得样本为)....1(,,....,21s i X X X i n i i i =并假定这S 组样本相互独立。
(表9.4)水平观测结果A 1 A 2s j i A A A ............ 11X 12X s j i X X X 111............ 21X 22X s j i X X X 222............ ………..11n X 22n X s j i X X X 11............样本总和 1*T 2*T ∑==⇒sj j s j T T T T 1*****...........样本均值 1*X 2*X s j X X **.......... 总体均值 1μ 2μ s j μμ............ 下面用线性模型加以研究),0(~1,....1),,(~22σμσμN X s j n i N X j ij j j ij -⇒≤≤=故j ij X μ-=ij ε称作随机误差。
第九章方差分析及回归分析-PPT精品文档
Xij i ij ,
ij ~ N(0, ),各ij独立,
2
(1.1)
i 1,2,
, r, j 1,2,
, ni .
2 其 中 , 与 均 为 未 知 参 数 。 则 上 式 称 为 i
单 因 素 试 验 方 差 分 析 的 数 学 模 型 。
2019/3/7
8
第九章 方差分析及回归分析
§1 单因素试验的方差分析
(一)单因素试验
在科学试验和生产实践中,影响一事物的因素很多。 方差分析是根据试验的结果进行分析,鉴别
各个有关因素对试验结果影响的有效方法。
在试验中,我们将要考察的指标称为试验指标。影响试验 指标的条件称为因素。因素可分为两类,一类是人们可以 控制的(可控因素);一类是人们不可控制的。以下我们 所说的因素都是指可控因素。因素所处的状态,称为该因 素的水平。如果在一项试验中只有一个因素在改变时称为 单因素试验。如果多于一个因素在改变称为多因素试验。
H ; 0: 1 2 r H , , 1: 1 2
中 不 全 相 等 。 r
(1.2)
2019/3/7
9
1 记 n 其 中 n n , 称 为 总 平 均 。 i i, i n i 1 i 1
r
r
平 均 值 与 总 平 均 的 差 异 , 习 惯 上 将 称 为 水 平 A 的 效 应 。
1 2… j … ni
样本 样本均 值 和
T T T T
1 2
因 素 水 平
1 2 i r
X 11 X 21 X i1 X r1
X 12 X 22 X i X2j X ij X rj
概率论与数理统计第九章方差分析与回归分析
版权所有 BY 张学毅
10
方差分析的基本思想
7.若不同水平对试验指标值没有影响,则组间误差中只 包含随机误差,没有系统误差。这时,组间误差与 组内误差经过平均后的数值就应该很接近,它们的 比值就会接近1;
8.若不同水平对试验指标值有影响,则在组间误差中除 了包含随机误差外,还会包含有系统误差,这时组 间误差平均后的数值就会大于组内误差平均后的数 值,它们之间的比值就会大于1;
3)该平方和反映的是随机误差的大小。
计算公式为 :
nj s
2
SE
Xij X.j
i1 j1
三个离差平方和的关系
nj s
2s
2 kn
2
XijX nj X.jX XijX.j
i1j1
j1
i1j1
STSASE
总离差平方和=组间平方和+组内平方和
即 EMSE2
2) M S A 是否是总体方差 2 的无偏估计量,与原假设 成立与否有关 。当且仅当原假设成立时,M S A 才是 总体方差 2 的无偏估计量。
EMSA2s1 1js1njj2
2020/3/1
版权所有 BY 张学毅
17
八、方差分析表
通常将上述计算过程列成一张表格,称为方差分析表。
9.当这个比值大到某种程度时,就可以说不同水平之间 存在着显著差异,也就是自变量对因变量有影响。
2020/3/1
版权所有 BY 张学毅
11
六、离差平方和与自由度的分解
总离差平方和 S T ( sum of squares for total)
1)全部观察值 X
与总均值
ij
X
的离差平方和;
第九章 方差分析与回归分析
第九章 方差分析与回归分析§9.1 单因素试验的方差分析试验指标:在试验中,要考查的指标因素或因子:影响试验指标的条件,常用大写字母A ,B ,C 表示. 因素的类型:可控因素和不可控因素,我们这里的因素都是可控因素. 水平:因素所处的状态,,因素A 的水平常记为A 1,A 2,…等. 单因素试验:在一项试验中只有一个因素在改变. 多因素试验:如果有多于一个因素在改变. 方差分析就是根据试验的结果进行分析,鉴别各个有关因素对试验结果影响的一种有效的方法.例1 进行一项农作物栽培试验,考虑不同的施氮肥量(15公斤,25公斤,35公斤,45公斤)对农作物产量(公斤)的影响.如果在相同条件下重复3次,进行小区试验,得产量见表9.1,问施氮肥量这一因素对农作物产量是否有显著影响?由数据可以看出,四种不同水平下的平均产量有差异,大体上施肥越多,产量越高.但是,由于随机误差的存在,即使在同一施肥水平下,不同小区的产量数据波动也较大,这样自然会对上述看法表示怀疑,平均产量间的差异是不是随机误差造成的呢?用显著性检验的方法.记在i A 水平下的理论产量为i μ,4321,,,=i . 提出假设:在各施肥水平下的平均产量间没有显著性差异, 即假设43210μμμμ===:H .如果我们能够导出一个可以用来检验这一假设的统计量F ,那么这一问题就解决了.假设检验的一般步骤:对给定的显著性水平α,可以找到一个临界值αF ,使得αα=>}{F F P ,得拒绝域}{αF F W >=.如果根据样本观察值算出F 的值大于αF ,就拒绝H 0,认为平均产量间有差异,否则就没有理由拒绝H 0.下面从建立数学模型开始,给出单因素试验的方差分析的完整的数学描述.一、数学建模设因素A 有s 个水平A 1,A 2,…,A s ,水平j A 下的总体j X ,在j A 下做)2(≥j n 次独立试验得一组容量为j n 的样本j n j j j X X X ,21,,, ,s j ,,,21=.列表如下与参数假设检验一样,方差分析的应用是有一定条件的,它要求:(1) 各水平下的总体都服从正态分布;(2) 各水平下的总体方差可以不知道,但必须彼此相等,即方差齐性; (3) 每个试验数据的取得是相互独立的.依照以上三个条件可知,),(~2σμj ij N X ,即有),0(~2σμN X j ij -, 故j ij X μ-可以看成随机误差,记j ij ij X με-=,则有),0(~2,σεεμN X ij ij j ij +=,且各ij ε相互独立,j n i ,,, 21=,s j ,,,21=. (9.1) 称模型(9.1)为单因素试验方差分析的数学模型.这里s μμμ,,, 21及2σ为未知参数.方差分析的任务是对模型(9.1)进行检验和估计,检验s 个总体的均值是否相等,即检验假设s s H H μμμμμμ,,,:;: 211210===不全相等, (9.2) 并估计参数s μμμ,,, 21与2σ.通常,为了便于分析各水平所起的作用,把参数j μ写成j j αμμ+=,s j ,,,21=. 其中∑==sj j j n n 11μμ为s μμμ,,, 21的加权平均,称为总平均,∑==sj j n n 1,μμα-=j j 为第j 个水平j A 总体的均值与总平均之差,称之为第j 个水平j A 的效应. 显然有0)(1111=-=-=∑∑∑∑====sj j s j j j s j j j sj jj n n n n μμμμα.利用这些记号,模型(9.1)可改写成),0(~012,,σεαεαμN n X ij sj j j ij j ij =++=∑=,且各ij ε相互独立,j n i ,,, 21=,s j ,,,21=. (9.1) 检验假设(9.2)等价于检验假设s s H H αααααα,,,:;: 2112100====不全为0. (9.2)为了导出检验假设H 0的统计量, 我们首先分析一下引起ij X 波动的原因:当H 0为真时,ij X 的波动完全由随机因素引起的;当H 0不真时,ij X 的波动不仅由随机因素,而且由于j μ的不同而引起的.因此,我们想用一个量来描述ij X 之间的总的波动,并能将上述两个原因引起的波动分解出来,这就是方差分析中所用的偏差平方和的分解方法.二、平方和的分解 作一个统计量 ∑∑==-=sj n i ij T jX X S 112)( 其中∑∑∑=====sj j j s j ni ij X n n X n X j 1.1111为样本总平均,∑-=sj j n n 1为样本总个数,∑==jn i jjj Xn X 1i .1为水平j A 下的样本均值.这个统计量T S 是ij X 与样本总平均X 的偏差平方和,反映了ij X 之间的总的波动,称为总偏差平方和.将T S 分解:∑∑==-+-=sj n i j j ij T jX X X X S 112..)]()[(∑∑∑∑∑=====-+--+-=sj j j sj n i j j ij sj n i j ij X X n X X X X X X jj12.11..112.)())((2)(∑∑∑===-+-=sj j j sj n i j ij X X n X X j12.112.)()( A E S S +=,其中∑∑==-=sj n i j ij E jX X S 112.)(,∑=-=sj j j A X X n S 12.)(,交叉项∑∑==--sj n i j j ij jX X X X 11..))((2∑∑==⎥⎦⎤⎢⎣⎡--=sj n i j ij j j X X X X 11..)()(20)(2.11.=⎪⎪⎭⎫⎝⎛--=∑∑==j j n i ij s j j X n X X X j . E S 是各个水平j A 下,样本j n j j j X X X ,21,,, 与样本均值j X .的偏差平方和的总和,它反映了抽样的随机性引起的波动,称为组内偏差平方和或误差平方和.A S 是各个水平j A 下,样本均值j X .与样本总平均的偏差的平方构成的平方和,它在一定程度上反映了各总体均值j μ之间的差异引起的波动,称为组间偏差平方和或因素A 的效应平方和.为了进一步弄清E S 和A S 的含义,计算它们的期望:∑∑==-=sj n i j ij E jX X E S E 112.])([)(,注意到∑=--=jni j ij j jX X n S 12.2)(11是从第j 个正态总体),(2σμj N 取出的容量为j n 的样本j n j j j X X X ,21,,, 的样本方差,于是有)1(~)1(222--j jj n S n χσ,故2212.)1(])1[(])([σ-=-=-∑=j j j n i j ij n S n E X X E j,因此有212)()1()(σσs n n S E sj j E -=-=∑=.进一步地,由2χ分布的可加性可知)(~22s n S E -χσ.而对A S ,有])([)(12.∑=-=sj j j A X X n E S E )(212.X n X n E sj jj -=∑=)()(212.X nE X E n sj j j -=∑=,由于)(~2.j j j n N X σμ,,)(~2n N X σμ,,其中∑==sj j j n n 11μμ,∑-=sj j n n 1,因此有)()()(22122μσμσ+-+=∑=nn n n S E sj j jj A 2122)1(μμσn n s sj j j -+-=∑=∑=-+-=sj j j n s 122)()1(μμσ.可以看出,E S 反映了随机误差的影响,它的均值等于2)(σs n -.当假设H 0成立时,A S 也反映了随机误差的影响,它的均值等于2)1(σ-s .但当H 0不成立时,还反映了A 的不同水平效应的差异.可以证明,在假设H 0成立的条件下,统计量),1(~s n s F F --. 三、假设检验的拒绝域现在来检验假设(9.2).当H 0为真时,21σ=⎪⎭⎫⎝⎛-s S E A ,即)1(-s S A 是2σ的无偏估计,而当H 1为真时,2122)(111σμμσ>--+=⎪⎭⎫ ⎝⎛-∑=s j j j A n s s S E . 对于E S ,不管H 0是否为真,都有2σ=⎪⎭⎫⎝⎛-s n S E E ,即)(s n S E -是2σ的无偏估计.因此,对模型(9.1),可以利用统计量)()1(s n S s S F E A --=来检验假设H 0,当H 0成立时,有),1(~s n s F F --,并且当H 0不真时, F 的取值有偏大的趋势,因此检验问题的拒绝域具有形式}{k F >.给定显著性水平α,可通过F 分布分位点的定义,有),1(s n s F k --=α,得到H 0的拒绝域为)},1({s n s F F W -->=α.上述分析的结果可排成表9.3的形式,称为单因素试验方差分析表.表9.3中1-=s S S A A 和sn SS E E -=分别称为A S 和E S 的均方.为计算方便,令 211)(1∑∑===s j n i ij j X n P ,∑∑===s j ni ij j j X n Q 121)(1,∑∑===s j n i ij jX R 112.不难验证,Q R S E -=,P Q S A -= ,P R S T -=. 在实际计算中,为了简便,对ij X 作如下变换)(a X b Y ij ij -=,其中b a ,是适当的常数,使ij Y 变得简单些.易得j j Y b a X ..1+=,Y ba X 1+=,于是'=-=-=∑∑∑∑====E sj n i j ij sj n i j ij E S bY Y b X X S jj2112.2112.1)(1)(, '=-=-=∑∑==A sj j j sj j j A S bY Y n b X X n S 212.212.1)(1)(, 从而F s n S s S s n S s S F EA E A '=-'-'=--=)()1()()1(,这表明用变换后的数据代替原数据计算的F 值相同,所以可以用变换后的数据ij Y 进行方差分析.但需注意,在作参数估计时,应将对应的量化为原来的量. 例2 对六种不同的农药在相同条件下分别进行杀虫试验,试验结果见表9.4,问杀虫率是否因不同的农药而有显著的差异(1.00=α)?解 ,,,,,,342436654321=======n n n n n n s 1861==∑=j j n n .查F 分布表查得06.5)12,5(),1(01.0==--F s n s F α,为了简化计算,从表9.4中的结果都减去80得到以下表9.5:表9.51A 2A 3A 4A 5A 6A 7 10 -24 -25 12 -5 5 8 -18 -32 19 -8 0 7 15 1 14 11根据表9.5算得P ,Q ,R 的值:.50)(1211==∑∑==s j n i ij j x n p ,3795)(1121==∑∑==s j ni ij j j x n q ,3973112==∑∑==s j n i ij jx r .则178=-=q r s E ,.53794=-=p q s A , 从而83.1412178==-=s n s s E E ,9.75855.37941==-=s s s A A , 17.51==AEs s F . 因)125(01.0,F F >,故拒绝H 0,即不同的农药对杀虫率的影响是显著的. 方差分析表如下:注:一般在F 栏内,对5.00=α显著的,用“*”标出,表示检验结果是显著的;对1.00=α显著的,用“**”标出,表示检验结果是高度显著的;不作记号,表示不显著.四、未知参数的估计前面已经讲过,不管H 0是否成立,均有2σ=⎪⎭⎫⎝⎛-s n S E E ,所以sn S E-=2ˆσ是2σ的无偏估计量. 又μ=)(X E ,j j X E μ=)(.,s j ,,, 21=因此X =μˆ,j j X .ˆ=μ分别为μ和j μ(s j ,,, 21=)的无偏估计量, 从而X X j j -=.ˆα为μμα-=j j (s j ,,, 21=)的无偏估计量. 此时有0ˆ1.1=-=∑∑==X n X n n sj j j sj j j α. 当拒绝H 0时,还常常要作出两总体),(2σμj N 与),(2σμk N (k j ≠)的均值差k j μμ-的区间估计.由于))11(,(~2..σμμkj k j k j n n N X X +--,且j X .和2j S 相互独立, 且k X .和2k S 相互独立,故k j X X ..-和E S 相互独立, 于是)(~)11()()(..s n t S n n X X E kj k j k j -+---μμ,由此可得均值差k j μμ-的置信度为α-1的置信区间为⎥⎥⎦⎤⎢⎢⎣⎡+-+-+---E k j k j E k j k j S n n s n t X X S n n s n t X X )11()()11()(2/..2/..αα,.例3 若例2中第i 种农药i A 的总体),(~2σμi i N X ,621,,,=i ,试求未知参数6212μμμσ,,,, 的点估计,及均值差52μμ-置信度为0.95的置信区间.解 3.81412178ˆ2==-=s n s E σ, 841ˆ11111.1===∑=n i i x n x μ,75.891ˆ21222.2===∑=n i i xn x μ,591ˆ31333.3===∑=n i i x n x μ,5.511ˆ41444.4===∑=n i i xn x μ,25.941ˆ51555.5===∑=n i i x n x μ,761ˆ61666.6===∑=n i i xn x μ..545.2945.7895.2.-=-=-x x ,而当95.01=-α时,1788.2)12()(025.02/==-t s n t α,93.583.14211788.2)11()(522/=⨯=+-E s n n s n t α, 故52μμ-置信度为0.95的置信区间为]43.143.10[]93.55.493.55.4[,,-=+---.。
第九章 方差分析及回归分析.ppt
i 1, 2,
, nj,j 1, 2,
,
s
A1 : N 1, 2 A2 : N 2, 2
As : N s , 2
X11
X12
X1s
X 21
X 22
X 2s
X n11
X n2 2
X nss
检验假设 H0 : 1 2 ... s H1 : 1, 2,..., s不全相等。
方 方差来 平方和 自由 均方 F比
差
源
度
分 因素A 36.4667 4 9.1167 3.90
析 误差 58.5000 25 2.3334
表 总和 94.9667 29
•未知参数的估计
(1) 2的估计ˆ 2 SE ; (2)的估计ˆ X;
ns
(3) j的估计ˆ j
X
;
j
(1.3504, 4.983), (0.6837, 4.3163), (3.6497, 0.0171)
说明1与3,1与2,3与5的差异都显著。
§2 双因素试验的方差分析
例 假设某药物研究者为检验a,b两种化学物质的抗癌效果, 要做动物试验。通常的作法是:将一些患有某种癌的白鼠随 机地分成三组。其中两组分别注射a,b两种化学物质,而第三 组不作处理,作为对照。记第一组:注射a物质,第二组: 注射b物质,第三组:不做处理。经过一段时间观察后,得 到寿命数据。在这个药物试验中,如果白鼠的性别有可能对 其寿命有显著的影响。这时应该考虑将“性别”作为一个因 素 ——“双因素试验”。 因素A:药物,三个水平;因素B:性别,二个水平;
设第j组有n j 只老鼠寿命分别为
Xij i 1, 2,..., nj j 1, 2, 3 这是一个典型的最简单分组试验方案。 分组的依据为药物:a,b,无。
概率论及数理统计方差分析与回归分析-精选
9/26/2019
第九章 方差分析与回归分析
第11页
单因子方差分析的统计模型:
yij iij,i1,2,...,r,j1,2,...,m 诸 ij相 互 独 立 , 且 都 服 从 N(0,2)
(8.1.3)
总均值与效应:
称诸 i 的平均 1r(1...r)1ri r1i 为总均值.
9/26/2019
第九章 方差分析与回归分析
第28页
利用(8.1.19),可算得各偏差平方和为:
ST91363112343237876.0417,
fT24123
SA505817711234329660.0833,
fA312
SeSTSA37876.04179660.083328215.9584, fe3(81)21
把上述诸平方和及其自由度填入方差分析表
9/26/2019
第九章 方差分析与回归分析
第29页
表8.1.5 例8.1.2的方差分析表
来源 平方和 自由度 均方和
F比
因子 9660.0833 2 4830.0417 3.5948
误差 28215.9584 21 1343.6171
总和 37876.0417 23
也称为误差偏差平方和,其自由度为 fe=nr ;
9/26/2019
第九章 方差分析与回归分析
第20页
由于组间差异除了随机误差外,还反映了
效应间的差异,故由效应不同引起的数据
r
差异可用组间偏差平方和 SA m (yi. y)2 i1
表示,也称为因子A的偏差平方和,其自
由度为 fA=r1;
表。
表8.1.3 单因子方差分析表
来源 平方和 自由度 均方和
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
15
9.2.1 一元线性回归方程的概念
在直角坐标系中,画出坐标为( xi , yi )的n个点,这种图称为散点
图。若n很大时,散点图中的n个点大致在一条直线附近,其形式
为 yiabixi i ~N(0,2)
若由上面样本得到a,b的估计a
,b
则对给定的x,用
y abx
21nin1(yi
abxi)2
将
a
y
b
x
代入得
2(1 ni n1yi2y2)b 2(1 ni n1xi2x2)
2019/6/5
概率论与数理统计
19
9.3 一元线性回归中的假设检 验和预测
9.3.1 线性假设的显著性检验
在第九章第二节中假定一元线性回归模型具有以下的
S2*2 r112 F
S
*2 2
S
* 1
2
S1*2
n
1
r
1
2019/6/5
概率论与数理统计
11
9.2 一元线性回归
一般来讲,客观世界中存在的变量之间的关系可分为 两大类,一类是变量之间为确定关系,另一类是非确 定关系。确定关系指变量之间的关系可用函数关系表 示。自变量取确定值时,因变量也随之确定。如 f(x)x22,这是在高等数学中所研究的函数关系。而 另一类非确定关系即所谓的相关关系,具有统计规律 性。下面举一些例子来说明。
于是所求线性回归方程为
y abx
2019/6/5
概率论与数理统计
18
9.2.3 2 的估计
由于 2D()E(2),而
又因为 i yi abix
其中a,b可用 a , b 代替,故
E
2
( 2 ) 可用 1
n
n
2 i
i1
做估计,
有 2 的估计量如下
(3) 人的血压X与年龄Y之间也存在着这种关系,一般年龄大的人 血压也高,然而相同年龄的人血压往往各不相同。
(4) 化工产品的产量Y与温度 x 1 、压力 x 2 及催化剂 x 3 有关,但
即使上述 x 1
、x
2
、
x
相同,产量Y也不一定相同。
3
2019/6/5
概率论与数理统计
13
9.2 一元线性回归
的估计值。
n
n
Q (yi(xi)2) (yiabi)x2
i 1
i 1
选择a,b使Q达到最小,故Q需对分别a,b求偏导,并令 偏导等于零。即
QbQa22ini1n1((yyi i aabbxix)i )xi00
2019/6/5
总平均
1 r ni
1r
X ni1
j1Xijni1ni Xi
r
n ni i 1
总离差平方和为
r n i
r n i
(X ij X )2 [X (ij X i) (X i X )2]
i 1j 1
i 1j 1
r ni
r
(Xij Xi)2 ni (Xi X)2
i1 j1
i1
12
12 称为离差分解。 下面通过比较 1 和 的数值来检验假设 H 0 。
2
2019/6/5
概率论与数理统计
9
9.1 一元方差分析
可以证明,在假设 H 0 成立时, 分布 2(nr)和 2(r1) 。
2019/6/5
概率论与数理统计
2
9.1 一元方差分析
一项试验中,若只有一个因素在改变,称为单因素试 验;多于一个因素在改变的试验称为多因素试验。
因素(即影响试验指标的条件)可分为两类:一类是可 控因素,如温度、比例、浓度等;一类是不可控因素, 如测量误差、气象条件等。这里所说的因素是可控因 素,且称因素所处的不同状态为该因素的不同水平。
n
(xi x)2 ~t(n2)
i1
当 H 0 为真时b=0 ,故
Tb
n
(xi x)2 ~t(n2)
i1
给定显著水平 ,查表确定 t/2(n2),抽样后计算T值
若 T ≥ t/2(n2) ,则拒绝 H ,0 认为回归效果显著;
若 Tt/2(n2),则接受 H 0,认为回归效果不显著。
1 2
和
2 2
相互独立且服从
由F分布定义知
2
F2(r11)
(nr)2 (r1)1
~F(r1,nr)
2(nr)
所以
FS S1 2 * *2 2((n r 1 r))12~F(r1,nr)
2019/6/5
概率论与数理统计
10
9.1 一元方差分析
作为 y a b x的估计,方程
(x)abx
称为y对x的线性回归方程或回归方程。
2019/6/5
概率论与数理统计
16
9.2.2 对a,b的估计
对x的n个不同的取值 x1,x2,,xn做独立试验做独立试验,
得样本 (x1,y1)(x ,2,y2) ,,(xn,yn)。下面用最小二乘法求a,b
24
9.3.2 预测
置信上限为
A2
A3
A4
A2
A3
A4
A1
A3
A4
A1
A2
A4
A1
A2
A3
2019/6/5
概率论与数理统计
4
9.1 一元方差分析
在表9.1中, A i 表示在一小块土地上施第i种肥料。显
x
然施每种肥料的各有四小块土地,所得产量由表9.2给
出。问施肥对该作物的产量有无显著影响,若影响显
著,施哪种肥料为好?
肥料种类 (Ai)
A1
表9.2
收获量(xi) 98 96 91 96
平均收获 量( x ) 95.25
A2
60 69 50 35
53.50
A3
79 64 81 70
73.50
A4
90 70 79 88
81.75
2019/6/5
概率论与数理统计
5
9.1 一元方差分析
例1是一个单因素试验,这个因素就是肥料,不同的肥 料A1,A2,A3,A4就是这个因素的4个水平。在因素的 每一水平下进行独立试验,所得数据如表9.2所示。可 以看出,虽然所施肥料相同,其他生产条件也一样, 但相同面积土地的收获量是不相等的。这说明产量也 是一个随机变量。从表9.2右边所示的平均收获量又可 以看出,施不同的肥料对收获量是有影响的。现在判 断肥料对作物产量的影响问题,就是要辨别收获量之 间的差异主要是由抽样误差造成的还是由肥料的影响 造成的。
2019/6/5
概率论与数理统计
6
9.1 一元方差分析
表9.2中的数据可看成来自4个不同的总体(每一个水平 对应一个总体)的容量为4的样本值。我们假设各总体 均为正态变量,即 X1,X2,X3,X4分别服从N(i,2),(i 1,2,3,4)。 Xij(j1,2,3,4)是从总体 X i 中抽得的简单随机样本
2019/6/5
概率论与数理统计
14
9.2.1 一元线性回归方程的概念
设随机变量Y与普通变量X之间存在某种相关关系:对X 的每一确定值,Y都有自己的分布。
设 yabx ~N(0,2)
其中,a,b及 2都是不依赖于X的未知参数,称上式为
一元线性回归模型。
2019/6/5
概率论与数理统计
2019/6/5
概率论与数理统计
12
9.2 一元线性回归
(1) 人的身高X与Y体重之间存在一定的变量关系。一般来说人高
一些,体重也重一些。但同样高度的人,体重往往不一定相同。
(2) 人们的收入水平X与消费水平Y之间也有一定的关系。人们的 收入水平X越高,相应的消费水平Y也越高,但收入水平相同的人 消费水平却不一定相同。
第9章 方差分析及回归分析
9.1 一元方差分析 9.2 一元线性回归 9.3 一元线性回归中的假设检验和预测
2019/6/5
概率论与数理统计
1
第9章 方差分析及回归分析
在科学实验和生产实践中,影响一些事物的因素往往 很多 。在众多影响因素中,有的影响较大,有的影响 较小。为了解决这类问题,一般需要做两步工作。第 一步是设计一个实验,使得这个实验一方面能很好地 反映我们所感兴趣的因素的作用,另一方面实验的次 数要尽可能地少,尽可能地节约人力、物力和时间。 其次是如何充分地利用实验结果的信息,对我们所关 心的事物(因素的影响)作出合理的推断。方差分析和 回归分析都是数理统计中具有广泛应用的内容,本章 介绍的是最基本的内容。
y0 abx0
作为 y0ab0x0的预测值,还可以证明
y0y0~N(0,[11n
(x0x)2
n
]2)
(xi x)2
i1
2019/6/5
概率论与数理统计
22
9.3.2 预测
且
(n2)2 2
~2(n2)
由T分布定义知
y0 y0
~ t(n2)
上面这些例子中,当自变量X取确定值时,因变量Y的 值是不确定的。我们称变量间的这种非确定关系为相 关关系。回归分析是研究相关关系的一种数学工具, 它能帮助我们从一个变量取得的值去估计另一个变量 所取得的值。把只有一个自变量的回归分析称为一元 回归,多于一个自变量的回归分析称为多元回归。本 节只介绍一元回归。