方差分析与回归分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第八章方差分析与回归分析
§1单因素试验的方差分析
试验指标:研究对象的某种特征。 例各人的收入。
因素:与试验指标相关的条件。
例各人的学历,专业,工作经历等与工资有关的特征。
因素水平:因素所在的状态
例学历是因素,而高中,大学,研究生等,就是学历因素水平;数学,物理等就是专业的水平。
问题:各因素水平对试验指标有无显着的差异? 单因素试验方差分析模型 假设
1)影响试验指标的因素只有一个,为A ,其水平有r 个:1,,r A A L ; 2)每个水平i A 下,试验指标是一个总体i X 。各个总体的抽样过程是独立的。 3)2~(,)i i i X N μσ,且22i j σσ=。
问题:分析水平对指标的影响是否相同
1)对每个总体抽样得到样本{,1}ij i X j n ≤≤,由其检验假设: 原假设0:i j H μμ=,,i j ∀;备选假设:1:i j H μμ≠,,i j ∃; 2)如果拒绝原假设,则对未知参数21,,,r μμσL 进行参数估计。 注
1)接受假设即认为:各个水平之间没有显着差异,反之则有显着差异。 2)在水平只有两个时,问题就是双正态总体的均值假设检验问题和参数估计问题。
检验方法
数据结构式:ij i ij i ij X μεμδε=+=++,偏差2~(0,)ij N εσ是相互独立的,
11r
i i i n n μμ==∑。不难验证,1
0r
i k δ==∑。
各类样本均值
水平i A 的样本均值:1
1i
n i ij
j i
X X
n ==
∑g ;
水平总样本均值:11111i n r r
ij i i i j i X X n X n n =====∑∑∑,1
r
i i n n ==∑;
偏差平方和与效应 组间偏差平方和:
2
221
1
()r
r
A i i i i i i S n X X n X nX ===-=-∑∑g g ;(衡量由不同水平产生的差异)
组内偏差平方和:
2
2
211
1
1
()()i
i
n n r
r
E ij i ij i i i j i j S X X X n X =====-=-∑∑∑∑g g ;(衡量由随机因素在同一水平上产生
的差异) 总偏差平方和:
2
2211
1
()i
n r
r
T ij i ij i j i S X X n X nX ====-=-∑∑∑;(综合衡量因素,水平之间,随机因素的
差异)
定理1(总偏差平方和分解定理)T A E S S S =+。
即2
2
211
11
11
()()()i
i
i
n n n r
r
r
ij ij i i i j i j i j X X X X X X ======-=-+-∑∑∑∑∑∑g g ,或直接证明。
注:利用11
()()0i
n r ij i i i j X X X X ==--=∑∑即可证明。
定理2(统计特性)
2
()E ES n r σ=-,2
2
1(1)r
A i i
i ES r n σδ==-+∑,2
21
(1)r
T i i i ES n n σδ==-+∑。
证2222221
1
1
1
()(())i i
n n r r E ij
i i i i i i j i j ES EX n EX n σμσμ=====-=+--∑∑∑∑g
定理3
1)22/~()E S n r σχ-,且E S 与A S 独立;
2)如果假设0H 成立,那么,22/~(1)T S n σχ-;且如果假设i n m =,1i r ≤≤,则还有,22/~(1)A S r σχ-。
证1)由于不同水平的样本间的独立性,E S 较易处理。对固定的i , 2~(,)ij i i X N μσ,1,,i j n =L ,且独立,所以由第五章定理2的结论,
2
2
2
11()~(1)i
i
n n ij i ij i i i i j j X X X X n μμχσσ==⎛⎫⎛⎫----=- ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭∑∑g g , 利用2
χ可加性,即得22
21
/~()()r
E i i S n r n r σχχ=-=-∑,且i X g 与E S 独立。
注意到1
1r
i i i X n X n ==∑g ,因此X 也与E S 独立,从而A S 也与E S 独立。
注这里只需方差假设相同,不需要假设均值相同。 2)
~(0,1)ij i
X N μσ
-,且独立,同样利用第五章定理2,
22,,1(
)~(1)ij i
i j i i j
i j X X n n μμχσσ
'''''----∑∑。 但在假设成立时,222,,,11(
)()ij i
i j i ij i j
i j i j
X X X X n μμσ
σσ'''''---=-∑∑∑,即得结论。且X 与T S 独立。
同时,2
22
1()()/~(1)r
i A i X X S r μμσχσ=⎛⎫---=- ⎪⎝⎭
∑g 。
注此处结论证明利用了i n 都相等,即利用:1,11
r k ij k i j
X X r n ==∑∑g 。但上述结论在组
样本容量不同时,直接利用正交变换仍可类似证明。 从统计角度看,如果假设0H 成立,那么
2111
E A ES ES n r r σ==--,而在假设不成立时,2
1
111111r A E i i E
i ES ES n ES r n r r n r δ==+>----∑,即统计量/(1)/()A E S r F S n r -=-将有偏大的趋势。那么,大到何值可以采信为推翻假设的反例,就回到前面的假设检验问题了。
定理置信度为α时,假设0H 的检验问题的拒绝域为{(1,)}W F F r n r α=≥--。 参数估计问题
如果各因素有显着差异,即对某些水平i j μμ≠,那么就需要估计这些参数的值和2σ。
1.最大似然估计
总体2~(,)i i X N μσ
22
()2i x μσ--
,所以最大似然函数为
2
2
()221,(,,,)ij i x r i j
L μσμμσ--=L ,
一般,我们把i μ分成两部分:i i μμδ=+,其中1
i i
r μμ=∑。 所以i δ即表示了各水平的差异,有0i i i
n δ=∑。
由此最大似然函数可表示为,
2
2
()221,(,,,,)ij i x r i j
L μδσμδδσ---
=L 。