第九章 方差分析与回归分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

由于yi =α + βxi +εi,
εi相互独立且εi~N(0,σ ),
2
故yi~N(α + βxi,σ 2 ),i =1 ⋯ n, ,, .
由正态分布的性质和a,b的表达式,可得
E(b) = β,D(b) = σ 2 / Sxx; 1 x 2 而, E(a) =α,D(a) = ( + )σ 。从 n Sxx 1 x2 2 ( b~N(β, ),a~N(α, + )σ )。 Sxx n Sxx
x1
x2
设 µ(x)=E(Y|x) =α+βx ,称其为总体回归方程, 称 β为回归系数。
由于α、β是未知的,设想通过样本观察值得出α、 β的估计值a、b。于是
y = a + bx ≈ E(Y|x) = µ(x).
称其为经验回归方程或样本回归方程。 问题:如何估计a、b的值? 三、参数估计 设抽样得到一组样本观察值(x1,y1),….,(xn,yn), 则样本回归方程的值为
∑r = n,特别,当r = r
i=1 i 1
a
2
= ⋯= ra = r,有ar = n。
前提假设:所有试验单元的试验条件一致(无系统 误差)。 方差分析的作用: 1. 通过对试验数据的统计分析,推断造成试验数据 间的差异的原因是试验水平差异还是随机误差的影 响。
2. 推断哪些因素的影响是显著的。 3. 分析出“最佳”的试验水平(固定模型);或估 计总体变量的参数(随机模型)。 方差分析与假设检验的区别: 方差分析能同时检验多个总体的某个参数(如均 值)是否相等,而假设检验每次只能检验两个总体 的某个参数是否相等。 方差分析与回归分析的区别: 1. 回归分析主要是为了得到自变量与因变量之间的定 量关系 回归方程。回归系数显著性讨论的目的, 是把影响不显著的自变量从回归方程中剔除,以提高 回归方程的稳健性,使预测, i =α + βxi +εi, y i =1 ⋯ n, i相 独 且εi~ (0,σ ). ,, ε 互 立 N
2

根据最小二乘法的原理,选择a、b使回归值与观 察值的误差平方和达到最小,即
m Q = Q(a, b) = ∑ε = ∑( yi − yi ) . in
2 i=1 i=1

设ei = εi = yi − yi ,则Q = ∑e 。
i=1 2 i

n
可以证明:(教材p302-303)
Q
σ
2
~χ (n − 2), E( 故
2
Q
2
σ
) = n − 2,
Q 即 ( E ) = σ 2, n−2 ∧2 Q 2 这 明 = 说 σ 是 的 σ 无偏估计量 n−2
五、参数的统计性质
Q Q , ± tα (n − 2) (b )。 Sb = (n − 2)Sxx (n − 2)Sxx 2
Sb为b的样本标准差。(教材P305)
系数a的显著性检验:
1 x 因 (a) =α,D(a) = ( + )σ 2, E n Sxx 1 x Q a的样 本标 准差 Sa = ( + ) 为 , n Sxx n − 2 若 0:α = 0 成 H 立, 则检 验统 计量 t = a / Sa~ (n − 2)。 t H 若 拒绝 0,则 的 −α置 α 1 信区 间为 1 x Q (a ± tα (n − 2) ( + ) ). n Sxx n − 2 2
2 2
2
y0 = a + bx0,
七、预测与控制 对任何给定的x0,理论回归直线µ(x)=α+βx的点估 计和1- α置信区间分别为(教材P306)
2
Q 1 (x0 − x) (a + bx0 ± tα (n − 2) ) + n− n−2 n Sxx 2
由此,可根据不同的研究目的进行预测或控制。 直线回归的进一步分析: 非线性关系的拟线性回归:对一些常用的非线性关 系,可通过变量代换将其变成线性关系用线性回归 的方法得到线性回归方程,再用逆变换变成非线性 回归方程。(具体内容见教材p309-312.)
2
σ
六、统计推断 由关系式Syy=Q+U 可见,U在Syy中占的比重越大 (即U/Q的值大) ,线性回归的效果越佳。而H0的检验 统计量
U F= ~F(1 n − 2), , Q/(n − 2)
故当F>Fα(1,n-2),拒绝H0,即线性回归的效果 显著。 Sxy 由于 b=Sxy/Sxx,相关系数 可以证明:
相关关系的分类:因果关系、平行关系 平行关系:互为因果或由共同的外因所影响(协同变 异)。 统计分析的任务: 1. 对因果关系,建立回归方程,进行预测和控制。 2. 对平行关系,估计相关系数,确定相关程度。 一、回归概念 对因果关系,一般把条件因素(可控制或可观察)作 为自变量x(普通变量) ,将结果作为因变量Y(随机变 量) 。
r=
Sxx Syy
Sxx =b , Syy
Q = Syy − bSxy,从而可得 U = Syy − Q = S
2 xy
Sxx
= r Syy,
2
故H0的检验统计量也可写成
r2 F= 。 2 (1− r ) /(n − 2)
说明:1. 通常的做法是先由获得的样本观察值,计 算出相关系数r,再检验假设H0 ,当拒绝H0后,才 求回归方程。 2. 也可对H0进行t-检验,其效果和F-检验等价。 3. 若拒绝H0,则β的置信度为1-α的置信区间为
对确定的x,Y=Y(x)是随机变量,设其期望存在, 记 µ(x)=E(Y|x),称µ(x) 为Y(x) 对x的回归函数, 简称回归。回归函数描述了x与Y(x) 的平均值的依 存关系。( E(Y|x)表示对于固定的x, Y(x)的数学 期望。)
估计µ(x): 求Y(x) 对x的回归问题。
二、直线回归模型 设x与Y(X)之间有因果关系,且直线相关 y=α+βx
2
σ2
a、b是α、β的最小方差线性无偏估计,一般称为最 佳线性无偏估计,简记为BLUE。
因yi = a + bxi, .
1 (xi − x) 2 可得yi ~N(α + βxi, + ( )σ ), n Sxx
∧ 2

1 (xi − x)2 2 a + bxi +εi~N(α + βxi,+ + (1 )σ ) n Sxx
2 2 2 2
从而, fT= fe+ fU ,且有
2
E(Q) = (n − 2)σ .
结论:1. Q/(n-2)是σ2的无偏估计; 2. 设H0:β=0,H1: β≠0 .若H0成立,则直线回归不 存在,若H1成立,则存在直线回归。并且,当H0成 立,U与Q相互独立,且
U
σ
Q 2 ~χ (1), 2 ~χ (n − 2) 2
第九章 方差分析与回归分析
本章研究的主要问题: 1. 有关单因素和多因素非简单试验的统计分析方法 多处理的正态总体参数估计和均值比较。 2. 对输入变量与试验指标之间存在的统计因果关系和 协同变异问题进行统计分析的方法 回归分析和相 关分析。 涉及的理论模型:线性模型 所用到主要方法:最小二乘法
第一节 单因素试验的方差分析 术语:试验指标、因素、水平 教材p270 单因素随机试验:只考察一个因素A,试验的水平有 a 个:A1,A2,…Aa 。设Ai的重复数(样本容量) 为ri,i=1,2,…,a 。总试验次数为
方差分析则是用于区分因素对试验指标影响的显 著程度及影响大小,从而找出“最佳”的试验水平。 2. 回归分析要求因素(输入)变量是定量的,而方差 分析则不要求因素(输入)变量是定量的。 3. 回归分析要求对所有试验水平都进行相应的试验, 而方差分析则只需有选择地对某些试验水平进行试 验(如正交设计)。 第三节 一元线性回归 社会经济现象中相互影响或相互联系的关系一般可 分为三类:函数关系、相关关系、不确定关系。 相关关系:现象之间存在着数量上的依存关系,但这 种关系间的数值是不确定的。
n
∧ 2 i
n

∂Q ∂Q = 0, = 0,可得(教材p299-300) 由 ∂a ∂b
b=
Sxy Sxx
,a = y −bx, 其中,Syy = ∑( yi − y)
i=1 n 2
n
2
Sxy = ∑(xi − x)( yi − y), xx = ∑(xi − x) , S
i=1 i=1
n
四、残差分析
称U = ∑( yi − y) 为回归离差平方和,
2 n ∧
总离差平方和Syy和剩余离差平方和Q、回归离差平 方和U之间有如下关系:Syy=Q+U 。
i=1
可以证明:Syy的自由度fT=n-1,Q的自由度 fe=n-2,U的自由度fU=1。
E(Syy ) = (n −1)σ + β Sxx,E(U) = σ + β Sxx,
相关文档
最新文档