多元回归分析精品课程

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第四章回归分析

回归分析是根据统计资料建立经验公式的统计方法。回归分析可用于预测和控制，在自然科学，社会科学和应用技术中都有重要应用,它是统计学最重要的工具。回归分析方法和理论从Gauss提出最小二乘法开始，至今已近200年，目前仍在蓬勃发展，例如在回归诊断、维度缩减、半参数回归、非参数回归、LOGISTIC回归等方向不断有新的突破。本章介绍参数回归分析模型及其参数估计、检验、模型选择等理论和有关计算方法。参数回归分析主要分三类：线性回归、可以转化为线性回归的回归和非线性回归。本章依次介绍这三类模型。有关回归分析的一般理论可参见陈希儒（1984），方开泰（1988），Seber（1976），何晓群（1997），何晓群、刘文卿（2001）、Richard（2003）。Robert(1999)和王吉利（2004）提供了许多有趣的应用例子。

第一节多元线性回归模型

一、两个例子

例1 试验测定迟熟早籼广陆矮4号在某年5月5日至8月5日播种时（每隔10天播一期），播种至齐穗的天数（y）和播种至齐穗的总积温（x，日·度）的关系，数据列于下表，建立播种至齐穗的天数与总积温两者之间的关系。

y x

播种至齐穗的天数总积温（日·度）

70 1616.3

67 1610.9

55 1440.0

52 1400.7

51 1423.3

52 1471.3

51 1421.8

60 1547.1

64 1533.0

例2 某站为预报早稻播种育秧期间(下/3-下/4)的低温阴雨日数,通过相关普查和点聚图分析,最后选择了三个相关较好的预报因子：

X1--前一年9月份的阴雨日数距平;

X2--前一年10月份-当年1月份的阴雨日数距平和;

X3--当年1月份的阴雨日数距平.

y-- 历年早稻播种育秧期间的低温阴雨日数距平

试建立y与X1、X2、X3之间的关系。

二、基本概念

常见的变量间关系分为两大类：确定性关系和相关关系。确定性关系也称为函数关系，具有确定性关系的自变量完全确定因变量的值。

现实世界中大量存在相关关系，具有相关性关系的变量间不能完全确定。例如人身高与脚长是两个变量，它们关系密切，但是脚长不能完全确定认的身高，脚长为25公分的人，他的身高是不确定的。又如松树的胸径与材积关系很密切，但是胸径不能完全确定材积。例1中播种至齐穗的天数与总积温,但是x 不能完全决定y 的大小；例2中的y 与X1、X2、X3。具有相关关系的变量间由一些变量可以大体预报其它变量。前者称为解释变量，也叫做自变量或预报因子，后者称为响应变量，也叫做因变量或预报对象。我们希望得到由解释变量预报响应变量的公式，以便通过解释变量去预测或控制响应变量。

回归分析是建立预报公式的一种方法。其特点是：首先确定预报公式的类型，列出待估参数；然后取得解释变量和响应变量的多次观测值，这些观测值可能是实验得到的，也可能是调查出的；再用这些数据进行拟合。计算方法是数学的一个分支，它也包含数据拟合，回归分析与计算方法的数据拟合不同，计算方法的数据拟合只估计未知参数，而回归分析不仅仅估计参数，而且要对拟合的结果作统计分析，因此必须对观测值建立数学模型。最简单的回归模型是多元线性回归模型。解释变量和未知参数都是线性出现的回归模型称为线性回归模型。回归分析的目的是用一个回归公式来做预测。回归公式等号左边的值是因变量，等号右边的是一系列的自变量及参数（又称回归系数，它是一个常数）的线性组合。

1、线性回归模型

定义 εβ

β++

=∑=p

j j j

X Y 1

其中，Y 是因变量；j X 是自变量； j ββ,0均是参数，它们的值由统计估计而来；ε是误差。称为多元线性回归模型，其中p D E βββσεε,...,;,0102

==称为回归系数。

为了确定线性回规模型的未知参数，必须有解释变量和响应变量的若干次观测值。则有：

⎪⎪

⎩⎪

⎪⎨

⎧++++=++++=n

np p n n p p x x y x x y εβββεβββ (1101)

111101 记⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=⨯np n p p k

n x x x x x x X ...1.......1...11221111，⎪⎪⎪⎪⎪⎭

⎫ ⎝⎛=⨯p k ββββ...101，⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=⨯n n εεεε...211，⎪⎪⎪⎪

⎪⎭⎫ ⎝⎛=⨯n n Y Y Y Y ...

211 其中X 称为回归设计矩阵，通常简称为设计矩阵，一个线性回归模型可以用矩阵表示如下：

εβ+=X Y

2、线性回归的假设

线性回归的重要假设如下：

（1）所有自变量是固定的，或由实验结果导出；（2）回归模型是正确的；（3）自变量的测量没有误差；（4）误差的平均值是0；

（5）误差的方差是常数，其值以2

σ表示；

（6）误差之间不相关。

（7）当我们要检验回归模型是否有效时（Significance ），我们附加另外一个假设，

误差服从正态分布

（1）--（6）可以表示为：

⎩

⎨⎧==I Var E 2

)(0

σεε 三、参数的估计

如何利用观测值估计模型中的参数p βββ,...,10？通常用最小二乘法，即选择适当β使

离差平方和

)()'()...()(21

110ββββββX y X y x x y S jp n

j p j j --=----=∑=

最小。早在1809年Gauss 就提出称为最小二乘法。

β的最小二乘估计是

Y X X X T T 1)(-∧

=β。