多元回归分析精品课程
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第四章回归分析
回归分析是根据统计资料建立经验公式的统计方法。回归分析可用于预测和控制,在自然科学,社会科学和应用技术中都有重要应用,它是统计学最重要的工具。回归分析方法和理论从Gauss提出最小二乘法开始,至今已近200年,目前仍在蓬勃发展,例如在回归诊断、维度缩减、半参数回归、非参数回归、LOGISTIC回归等方向不断有新的突破。本章介绍参数回归分析模型及其参数估计、检验、模型选择等理论和有关计算方法。参数回归分析主要分三类:线性回归、可以转化为线性回归的回归和非线性回归。本章依次介绍这三类模型。有关回归分析的一般理论可参见陈希儒(1984),方开泰(1988),Seber(1976),何晓群(1997),何晓群、刘文卿(2001)、Richard(2003)。Robert(1999)和王吉利(2004)提供了许多有趣的应用例子。
第一节多元线性回归模型
一、两个例子
例1 试验测定迟熟早籼广陆矮4号在某年5月5日至8月5日播种时(每隔10天播一期),播种至齐穗的天数(y)和播种至齐穗的总积温(x,日·度)的关系,数据列于下表,建立播种至齐穗的天数与总积温两者之间的关系。
y x
播种至齐穗的天数总积温(日·度)
70 1616.3
67 1610.9
55 1440.0
52 1400.7
51 1423.3
52 1471.3
51 1421.8
60 1547.1
64 1533.0
例2 某站为预报早稻播种育秧期间(下/3-下/4)的低温阴雨日数,通过相关普查和点聚图分析,最后选择了三个相关较好的预报因子:
X1--前一年9月份的阴雨日数距平;
X2--前一年10月份-当年1月份的阴雨日数距平和;
X3--当年1月份的阴雨日数距平.
y-- 历年早稻播种育秧期间的低温阴雨日数距平
试建立y与X1、X2、X3之间的关系。
二、基本概念
常见的变量间关系分为两大类:确定性关系和相关关系。确定性关系也称为函数关系,具有确定性关系的自变量完全确定因变量的值。
现实世界中大量存在相关关系,具有相关性关系的变量间不能完全确定。例如人身高 与脚长是两个变量,它们关系密切,但是脚长不能完全确定认的身高,脚长为25公分的人,他的身高是不确定的。又如松树的胸径与材积关系很密切,但是胸径不能完全确定材积。例1中播种至齐穗的天数与总积温,但是x 不能完全决定y 的大小;例2中的y 与X1、X2、X3。具有相关关系的变量间由一些变量可以大体预报其它变量。前者称为解释变量,也叫做自变量或预报因子,后者称为响应变量,也叫做因变量或预报对象。我们希望得到由解释变量预报响应变量的公式,以便通过解释变量去预测或控制响应变量。
回归分析是建立预报公式的一种方法。其特点是:首先确定预报公式的类型,列出待估参数;然后取得解释变量和响应变量的多次观测值,这些观测值可能是实验得到的,也可能是调查出的;再用这些数据进行拟合。计算方法是数学的一个分支,它也包含数据拟合,回归分析与计算方法的数据拟合不同,计算方法的数据拟合只估计未知参数,而回归分析不仅仅估计参数,而且要对拟合的结果作统计分析,因此必须对观测值建立数学模型。最简单的回归模型是多元线性回归模型。解释变量和未知参数都是线性出现的回归模型称为线性回归模型。回归分析的目的是用一个回归公式来做预测。回归公式等号左边的值是因变量,等号右边的是一系列的自变量及参数(又称回归系数,它是一个常数)的线性组合。
1、线性回归模型
定义 εβ
β++
=∑=p
j j j
X Y 1
其中,Y 是因变量;j X 是自变量; j ββ,0均是参数,它们的值由统计估计而来;ε是误差。称为多元线性回归模型,其中p D E βββσεε,...,;,0102
==称为回归系数。
为了确定线性回规模型的未知参数,必须有解释变量和响应变量的若干次观测值。则有:
⎪⎪
⎩⎪
⎪⎨
⎧++++=++++=n
np p n n p p x x y x x y εβββεβββ (1101)
111101 记⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=⨯np n p p k
n x x x x x x X ...1.......1...11221111,⎪⎪⎪⎪⎪⎭
⎫ ⎝⎛=⨯p k ββββ...101,⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=⨯n n εεεε...211,⎪⎪⎪⎪
⎪⎭⎫ ⎝⎛=⨯n n Y Y Y Y ...
211 其中X 称为回归设计矩阵,通常简称为设计矩阵,一个线性回归模型可以用矩阵表示如下:
εβ+=X Y
2、线性回归的假设
线性回归的重要假设如下:
(1) 所有自变量是固定的,或由实验结果导出; (2) 回归模型是正确的; (3) 自变量的测量没有误差; (4) 误差的平均值是0;
(5) 误差的方差是常数,其值以2
σ表示;
(6) 误差之间不相关。
(7) 当我们要检验回归模型是否有效时(Significance ),我们附加另外一个假设,
误差服从正态分布
(1)--(6)可以表示为:
⎩
⎨⎧==I Var E 2
)(0
σεε 三、参数的估计
如何利用观测值估计模型中的参数p βββ,...,10?通常用最小二乘法,即选择适当β使
离差平方和
)()'()...()(21
110ββββββX y X y x x y S jp n
j p j j --=----=∑=
最小。早在1809年Gauss 就提出称为最小二乘法。
β的最小二乘估计是
Y X X X T T 1)(-∧
=β。