第十二章 回归分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
-131-
第十二章 回归分析
前面我们讲过曲线拟合问题。曲线拟合问题的特点是,根据得到的若干有关变量的一组数据,寻找因变量与(一个或几个)自变量之间的一个函数,使这个函数对那组数据拟合得最好。通常,函数的形式可以由经验、先验知识或对数据的直观观察决定,要作的工作是由数据用最小二乘法计算函数中的待定系数。从计算的角度看,问题似乎已经完全解决了,还有进一步研究的必要吗?
从数理统计的观点看,这里涉及的都是随机变量,我们根据一个样本计算出的那些系数,只是它们的一个(点)估计,应该对它们作区间估计或假设检验,如果置信区间太大,甚至包含了零点,那么系数的估计值是没有多大意义的。另外也可以用方差分析方法对模型的误差进行分析,对拟合的优劣给出评价。简单地说,回归分析就是对拟合问题作的统计分析。
具体地说,回归分析在一组数据的基础上研究这样几个问题:
(i )建立因变量y 与自变量m x x x ,,,21 之间的回归模型(经验公式); (ii )对回归模型的可信度进行检验;
(iii )判断每个自变量),,2,1(m i x i =对y 的影响是否显著;
(iv )诊断回归模型是否适合这组数据;
(v )利用回归模型对y 进行预报或控制。
§1 多元线性回归
回归分析中最简单的形式是x y 10ββ+=,y x ,均为标量,10,ββ为回归系数,称一元线性回归。它的一个自然推广是x 为多元变量,形如
m m x x y βββ+++= 110 (1)
2≥m ,或者更一般地
)()(110x f x f y m m βββ+++= (2)
其中),,(1m x x x =,),,1(m j f j =是已知函数。这里y 对回归系数),,,(10m ββββ =是线性的,称为多元线性回归。不难看出,对自变量x 作变量代换,就可将(2)化为(1)的形式,所以下面以(1)为多元线性回归的标准型。
1.1 模型
在回归分析中自变量),,,(21m x x x x =是影响因变量y 的主要因素,是人们能控制或能观察的,而y 还受到随机因素的干扰,可以合理地假设这种干扰服从零均值的正态分布,于是模型记作
⎩⎨⎧++++=)
,0(~2110σεεβββN x x y m m (3) 其中σ未知。现得到n 个独立观测数据),,,(1im i i x x y ,m n n i >=,,,1 ,由(3)得
⎩⎨⎧=++++=n
i N x x y i i im m i i ,,1),,0(~2110 σεεβββ (4) 记
-132-
⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=nm n m x x x x X 1
111
11, ⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=n y y Y 1 (5) T n ][1εεε
=,T m ][10ββββ =
(4)表为 ⎩⎨⎧+=)
,0(~2σεεβN X Y (6) 1.2 参数估计
用最小二乘法估计模型(3)中的参数β。
由(4)式这组数据的误差平方和为
∑=--==n i T i X Y X Y Q 12)()()(ββε
β (7)
求β使)(βQ 最小,得到β的最小二乘估计,记作β
ˆ,可以推出 Y X X X T T 1)(ˆ-=β (8)
将β
ˆ代回原模型得到y 的估计值 m
m x x y βββˆˆˆˆ110+++= (9) 而这组数据的拟合值为βˆˆX Y
=,拟合误差Y Y e ˆ-=称为残差,可作为随机误差ε的估计,而
∑∑==-==n i n
i i i i y y e
Q 1122)ˆ( (10) 为残差平方和(或剩余平方和),即)ˆ(β
Q 。 1.3 统计分析
不加证明地给出以下结果:
(i )β
ˆ是β的线性无偏最小方差估计。指的是βˆ是Y 的线性函数;βˆ的期望等于β;在β的线性无偏估计中,β
ˆ的方差最小。 (ii )β
ˆ服从正态分布 ))(,(~ˆ12-X X N T σββ (11)
(iii )对残差平方和Q ,2)1(σ--=m n EQ ,且
)1(~22--m n Q χσ (12) 由此得到2σ的无偏估计
22
ˆ1
σ=--=m n Q s (13) 2s 是剩余方差(残差的方差),s 称为剩余标准差。
-133-
(iv )对Y 的样本方差∑=-=n i i y y
S 12)(进行分解,有
U Q S +=, ∑=-=n i i y y
U 12)ˆ( (14)
其中Q 是由(10)定义的残差平方和,反映随机误差对y 的影响,U 称为回归平方和,反映自变量对y 的影响。
1.4 回归模型的假设检验
因变量y 与自变量m x x ,,1 之间是否存在如模型(1)所示的线性关系是需要检验
的,显然,如果所有的|ˆ|j
β ),,1(m j =都很小,y 与m x x ,,1 的线性关系就不明显,所以可令原假设为
),,1(0:0m j H j ==β
当0H 成立时由分解式(14)定义的Q U ,满足 )1,(~)
1/(/----=m n m F m n Q m U F (15) 在显著性水平α下有α-1分位数)1,(1---m n m F α,若)1,(1--<-m n m F F α,接受0H ;否则,拒绝。
注意 拒绝0H 只说明y 与m x x ,,1 的线性关系不明显,可能存在非线性关系,如平方关系。
还有一些衡量y 与m x x ,,1 相关程度的指标,如用回归平方和在样本方差中的比值定义
S
U R =2 (16) ]1,0[∈R 称为相关系数,R 越大,y 与m x x ,,1 相关关系越密切,通常,R 大于0.8(或0.9)才认为相关关系成立。
1.5 回归系数的假设检验和区间估计
当上面的0H 被拒绝时,j β不全为零,但是不排除其中若干个等于零。所以应进一步作如下m 个检验),,1(m j =:
0:)
(0=j j H β
由(11)式,),(~ˆ2jj j j c N σββ,jj c 是1)(-X X T 对角线上的元素,用2s 代替2σ,由(11)~(13)式,当)
(0j H 成立时 )1(~)1/(/ˆ----=
m n t m n Q c t jj j j β (17) 对给定的α,若)1(||21--<-m n t t j α
,接受)(0j H ;否则,拒绝。 (17)式也可用于对j β作区间估计(m j ,,1,0 =),在置信水平α-1下,j β的置信区间为