回归分析和方差分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第九章 线性回归分析与方差分析
第一节 一元线性回归分析 第二节 可线性化的非线性回归 第三节 多元线性回归简介 第四节 方差分析
第一节 一元线性回归分析
在许多实际问题中,我们常常需要研究多 个变量之间的相互关系。 一般来说,变量之间的关系可分为两类: 一类是确定性关系,确定性关系是指变量之间的关 系可以用函数关系来表达,例如电流I电压V电 阻R之间有关系式V=IR。 另一类是非确定性关系,有些变量之间的关系是非 确定性的关系,这种关系无法用一个精确的函数 式来表示。
我们对于可控制变量x取定一组不完全相同的值 x1,…,xn,作n次独立试验,得到n对观测结果:
(x1,y1) ,(x2,y2),…,(xn, yn)
其中yi是x=xi时随机变量Y的观测结果.将n对观测结 果(xi,yi)(i=1,…,n)在直角坐标系中进行描点, 这种描点图称为散点图.散点图可以帮助我们精略 地看出Y与x之间的某种关系.
图9-3
根据有关的专业知识,结合散点图,可以认为 曲线L大致为:
y e x (, 0)
对上式两边取对数:
ln y ln 1
x
令 y ln y x 1
x
a ln
即有: y a bx
b
于是数据(xi , yi)相应地变换成(xi, yi)
函数关系,事实上,即使不同的厂家投入了相同 的广告费,其销售额也不会是完全相同的。影响 销售额的因素是多种多样的,除了广告投入的影 响,还与厂家产品的特色、定价、销售渠道、售 后服务以及其他一些偶然因素有关。
画出散点图如图9-1所示.从图中可以看出,随
着广告投入费x的增加,销售额Y基本上也呈上升
趋势,图中的点大致分布在一条向右上方延伸的
可以取经验回归值
yˆ0 aˆ bˆx0
作为y0的预测值.可以证明
T
y0 yˆ0
~ t(n 2)
n ˆ
n2
1 1 n
(x0 x)2
n
(xi x)2
i1
从而可得
P | T | t (n 2) 1
2
所以,给定置信概率 1 ,Y0的置信区间为
下面说明这一检验的方法.
若假设Y=a+bx+ 符合实际,则b不应为零 因为如果b=0,则Y=a+ 意味着Y与x无关
所以Y=a+bx是否合理,归结为对假设:
H0: b=0 H1 : b 0
进行检验
下面介绍检验假设H0的二种常用方法.
1.t检验法
若H0成立,即b=0,由定理7.1知,
bˆ
~ N (0,1)
式(2)称为正规方程组.
(2)
由正 规方程组解得
n
( xi x)( yi y)
bˆ i1 n
(xi x) 2
i 1
aˆ y bˆx
其中
x
1 n
n i1
xi ,
y
1 n
n i1
yi
用最小二乘法求出的估计 aˆ 、bˆ 分别称为a、b的最
小二乘估计
(1)利用样本对未知参数a、b、 2进行估计;
(2)对回归模型作显著性检验; (3)当x=x0时对Y的取值作预测,即对Y作区间 估计.
二、 参数a、b、 2 的估计
现在我们用最小二乘法来估计模型(1)中的
未知参数a,b.
n
n
记 Q Q(a,b)
2 i
( yi a bxi )2
例2 在例1中可分别求出a、b、 2的估计值为:
bˆ 0.323
aˆ 4.37
ˆ 2 4.064
故经验回归直线为:
Y=4.37+0.323x
三、线性回归的显著性检验
在实际问题中,事先我们并不能断定Y与x确有线
性关系,Y=a+bx+ 只是一种假设.
当然,这个假设不是没有根据的,我们可以通过 专业知识和散点图来作出粗略判断. 但在求出经验回归方程后,还需对这种线性回归 方程同实际观测数据拟合的效果进行检验.
作估计
对于估计量 aˆ、bˆ、ˆ 2 的分布,有:
定理1
(1)
n
2 x12
aˆ
~
N
a,
n
i 1
n (xi x)2
i 1
(2)
bˆ
~
N
b,
n
2
(xi x)2
i1
(3)
n 2
ˆ
2
~
2 (n
2)
(4) ˆ 2分别与 aˆ、bˆ独立。
例1 对某广告公司为了研究某一类产品的广告费x用 与其销售额Y之间的关系,对多个厂家进行调查, 获得如下数据
厂家 1 广告费 6 销售额 31
23 456789 10 21 40 62 62 90 100 120 58 124 220 299 190 320 406 380
广告费与销售额之间不可能存在一个明确的
在实际问题中,常常会遇到这样的情形:散 点图上的几个样本数据点明显地不在一条直线附 近,而在某曲线周围:
或者,用线性回归方程描述变量间的关系计 算的结果与样本值误差较大,这表明变量之间不 存在线性相关关系,而是一种非线性的相关关系.
下面举例说明对这类问题用线性化处理的方法。
例1 在彩色显像技术中,考虑析出银的光学密度x与形 成染料光学密度Y之间的相关关系,其中11个样本 数据如下所示:
解 经计算 T=16.9 r=0.98 查表,得 t0.025(9)=2.26 r0.05=0.602 易见,t检验法、相关系数检验法都拒绝H0, 即回归效果显著。 于是,当x0=80时,y0的预测值为 yˆ0 31.21 y0的95%的预测区间为(24.73,35.69)
第二节 可线性化的非线性回归
直线附近.但各点不完全在一条直线上,这是由于Y
还受到其他一些随机因素的影响.
这样,Y可以看成是由两部分叠加而成,一部
分是x的线性函数a+bx,另一部分是随机因素引起的
误差 ,即
y
Y=a+bx+
500
* *L
400 300
*
*
*
*
200
100
o
* **
20
40
60
80
100 120
这就是所谓的 一元线性回归模型
从散点图可以看出 x与 y具 有线性相关关系,因此用一 元线性回归分析.
利用一元线性回归的方法可 以计算出 x 与 y的经验回归 方程为 y 0.58 0.15x
图9-4
这里a=0.58,b= -0.15
所以
eaBaidu Nhomakorabea e0.58 1.79
x 1 20.00 16.67 14.29 10.00 7.14 5.00 4.00 3.23 2.63 2.33 2.13 x
y ln y -2.30 -1.97 -1.47 -0.99 -0.53 -0.24 0.00 0.11 0.17 0.22 0.25
将变换后的数据点( xi, yi)画出散点图(图9-4)
此时,拟合直线为 yˆ aˆ bˆx y bˆ(x x)
下面再用矩法求 2的估计
由于
2
D
E 2 由矩估计法,可用
E
2估计
1
n
n i1
2 i
而i yi a bxi ,a、b分别由 aˆ、bˆ代入
故
2可用
ˆ 2
1 n
n
( yi
i1
aˆ bˆxi )2
可以推出:在显著性水平 下,当 | r | r时拒绝H0
其中临界值 r在附表8中给出
当假设 H0 : b 0 被拒绝时,就认为Y与x存在线性 关系,从而认为回归效果显著;
若接受H0,则认为Y与x的关系不能用一元线性回 归模型来描述,即回归效果不显著. 此时,可能有如下几种情形:
(1)x对Y没有显著影响; (2)x对Y有显著影响,但这种影响不能用线性相关关
当n很大且x0位于 x 附近时,有
t (n 2) u
2
2
x0 x
n 1 n2
于是y0的置信概率为1 的预测区间近似为
( yˆ0 u ˆ , yˆ0 u ˆ )
2
2
例3 检验例2中的回归效果是否显著,当x0=80时, 求出Y0的预测区间。( 0.05)
2
2.相关系数检验法
取检验统计量
n
(xi x)(Yi Y )
R
i 1
n
n
(xi x)2
(Yi Y ) 2
i 1
i 1
相关系数检验法 是工程技术中广 泛应用的一种检 验方法
通常称R为样本相关系数.
类似于随机变量间的相关系数,R的取值r反映了自 变量x与因变量Y之间的线性相关关系.
xi 0.05 0.06 0.07 0.10 0.14 0.20 0.25 0.31 0.38 0.43 0.47 yi 0.10 0.14 0.23 0.37 0.59 0.79 1.00 1.12 1.19 1.25 1.29
解 根据这11个样本数据点 (xi,yi)作出散点图(图9-3). 从散点图上看出,这些数据 点在一条曲线L周围.
i 1
i 1
称Q(a, b)为偏差平方和
最小二乘法就是选择a,b的估计 aˆ, bˆ,使得
Q(a, b)为最小(图9-2)
图9-2
为了求Q(a, b)的最小值,分别求Q关于a, b的偏导数,并令它们等于零:
a
Q(a,
b)
n i 1
( yi
a bxi )(2)
0
例如,农作物的单位面积产量与施肥量之间有 密切的关系,但是不能由施肥量精确知道单位面积 产量,这是因为单位面积产量还受到许多其他因素 及一些无法控制的随机因素的影响。
又如,人的身高与体重之间存在一种关系,一般来 说,人身高越高,体重越大,
但同样高度的人,体重却往往不同。这种变量之间 的不确定性关系称之为相关关系。
系来描述; (3)影响Y取值的,除x外,另有其他不可忽略的因素.
因此,在接受H0的同时,需要进一步查明原因分 别处理,此时,专业知识往往起着重要作用.
四、 预测
当经过检验发现回归效果显著时,通过回归模型可 对Y的取值进行预测. 即当x=x0时,对Y作区间估计. 设当x=x0时Y的取值为y0,有
y0 a bx0 0 0 ~ N (0, 2 )
b
Q(a,
b)
n i 1
( yi
a bxi )(2xi )
0
经整理后得到
na
n
xi b
n
bi
i1
i 1
n i 1
xi a n i1
xi2 b
n i 1
xi yi
yi a bxi i i 1,, n
i ~ N (0, 2 )
1
,
,
相互独立
n
如果由样本得到式(1)中,a, b的估计值 aˆ, bˆ ,
则称 yˆ aˆ bˆx为拟合直线或经验回归直线,它 可作为回归直线的估计
一元线性回归主要解决下列一些问题:
( y0 (x0 ), y0 (x0 ))
其中
(
x0
)
ˆ
t
2
(n
2)
n
n
2
ˆ
1 1 n
(x0 x)2
n
(xi x)2
i1
可以看出在x0处y的置信区间的长度为 2 (x0 )
当 x0 x 时置信区间的长度最短,估计最精确, 置信区间愈长,估计的精度愈差。
对于具有相关关系的变量,虽然不能找到他们之间 的确定表达式,但是通过大量的观测数据,可以发 现他们之间存在一定的统计规律,
数理统计中研究变量之间相关关系的一种有效方法 就是回归分析。
一、 一元线性回归模型
假定我们要考虑自变量x与因变量Y之间的相关关系 假设x为可以控制或可以精确观察的变量,即x为普 通的变量。由于自变量x给定后,因变量Y并不能确 定,从而Y是一个与x有关的随机变量
n
(xi x)2
i 1
n
2
ˆ 2
~
2 (n 2)
且 bˆ 与 ˆ 2 独立
bˆ
因而 T
n
(xi x)2
i 1
n ˆ 2 / n 2 2
~ t(n 2)
故
P| T | t (n 2)
2
为显著性水平
即得H0的拒绝域为
| T | t (n 2)
x
图9-1
一般地,假设x与Y之间的相关关系可表示为
Y a bx (1)
其中:a, b为未知常数
为随机误差且 ~ N (0, 2 ) 2 未知,
x与Y的这种关系称为一元线性回归模型
y=a+bx称为回归直线 b称为回归系数
此时 Y ~ N(a bx, 2 )
对于(x, Y)的样本(x1,y1),…,(xn,yn)有:
第一节 一元线性回归分析 第二节 可线性化的非线性回归 第三节 多元线性回归简介 第四节 方差分析
第一节 一元线性回归分析
在许多实际问题中,我们常常需要研究多 个变量之间的相互关系。 一般来说,变量之间的关系可分为两类: 一类是确定性关系,确定性关系是指变量之间的关 系可以用函数关系来表达,例如电流I电压V电 阻R之间有关系式V=IR。 另一类是非确定性关系,有些变量之间的关系是非 确定性的关系,这种关系无法用一个精确的函数 式来表示。
我们对于可控制变量x取定一组不完全相同的值 x1,…,xn,作n次独立试验,得到n对观测结果:
(x1,y1) ,(x2,y2),…,(xn, yn)
其中yi是x=xi时随机变量Y的观测结果.将n对观测结 果(xi,yi)(i=1,…,n)在直角坐标系中进行描点, 这种描点图称为散点图.散点图可以帮助我们精略 地看出Y与x之间的某种关系.
图9-3
根据有关的专业知识,结合散点图,可以认为 曲线L大致为:
y e x (, 0)
对上式两边取对数:
ln y ln 1
x
令 y ln y x 1
x
a ln
即有: y a bx
b
于是数据(xi , yi)相应地变换成(xi, yi)
函数关系,事实上,即使不同的厂家投入了相同 的广告费,其销售额也不会是完全相同的。影响 销售额的因素是多种多样的,除了广告投入的影 响,还与厂家产品的特色、定价、销售渠道、售 后服务以及其他一些偶然因素有关。
画出散点图如图9-1所示.从图中可以看出,随
着广告投入费x的增加,销售额Y基本上也呈上升
趋势,图中的点大致分布在一条向右上方延伸的
可以取经验回归值
yˆ0 aˆ bˆx0
作为y0的预测值.可以证明
T
y0 yˆ0
~ t(n 2)
n ˆ
n2
1 1 n
(x0 x)2
n
(xi x)2
i1
从而可得
P | T | t (n 2) 1
2
所以,给定置信概率 1 ,Y0的置信区间为
下面说明这一检验的方法.
若假设Y=a+bx+ 符合实际,则b不应为零 因为如果b=0,则Y=a+ 意味着Y与x无关
所以Y=a+bx是否合理,归结为对假设:
H0: b=0 H1 : b 0
进行检验
下面介绍检验假设H0的二种常用方法.
1.t检验法
若H0成立,即b=0,由定理7.1知,
bˆ
~ N (0,1)
式(2)称为正规方程组.
(2)
由正 规方程组解得
n
( xi x)( yi y)
bˆ i1 n
(xi x) 2
i 1
aˆ y bˆx
其中
x
1 n
n i1
xi ,
y
1 n
n i1
yi
用最小二乘法求出的估计 aˆ 、bˆ 分别称为a、b的最
小二乘估计
(1)利用样本对未知参数a、b、 2进行估计;
(2)对回归模型作显著性检验; (3)当x=x0时对Y的取值作预测,即对Y作区间 估计.
二、 参数a、b、 2 的估计
现在我们用最小二乘法来估计模型(1)中的
未知参数a,b.
n
n
记 Q Q(a,b)
2 i
( yi a bxi )2
例2 在例1中可分别求出a、b、 2的估计值为:
bˆ 0.323
aˆ 4.37
ˆ 2 4.064
故经验回归直线为:
Y=4.37+0.323x
三、线性回归的显著性检验
在实际问题中,事先我们并不能断定Y与x确有线
性关系,Y=a+bx+ 只是一种假设.
当然,这个假设不是没有根据的,我们可以通过 专业知识和散点图来作出粗略判断. 但在求出经验回归方程后,还需对这种线性回归 方程同实际观测数据拟合的效果进行检验.
作估计
对于估计量 aˆ、bˆ、ˆ 2 的分布,有:
定理1
(1)
n
2 x12
aˆ
~
N
a,
n
i 1
n (xi x)2
i 1
(2)
bˆ
~
N
b,
n
2
(xi x)2
i1
(3)
n 2
ˆ
2
~
2 (n
2)
(4) ˆ 2分别与 aˆ、bˆ独立。
例1 对某广告公司为了研究某一类产品的广告费x用 与其销售额Y之间的关系,对多个厂家进行调查, 获得如下数据
厂家 1 广告费 6 销售额 31
23 456789 10 21 40 62 62 90 100 120 58 124 220 299 190 320 406 380
广告费与销售额之间不可能存在一个明确的
在实际问题中,常常会遇到这样的情形:散 点图上的几个样本数据点明显地不在一条直线附 近,而在某曲线周围:
或者,用线性回归方程描述变量间的关系计 算的结果与样本值误差较大,这表明变量之间不 存在线性相关关系,而是一种非线性的相关关系.
下面举例说明对这类问题用线性化处理的方法。
例1 在彩色显像技术中,考虑析出银的光学密度x与形 成染料光学密度Y之间的相关关系,其中11个样本 数据如下所示:
解 经计算 T=16.9 r=0.98 查表,得 t0.025(9)=2.26 r0.05=0.602 易见,t检验法、相关系数检验法都拒绝H0, 即回归效果显著。 于是,当x0=80时,y0的预测值为 yˆ0 31.21 y0的95%的预测区间为(24.73,35.69)
第二节 可线性化的非线性回归
直线附近.但各点不完全在一条直线上,这是由于Y
还受到其他一些随机因素的影响.
这样,Y可以看成是由两部分叠加而成,一部
分是x的线性函数a+bx,另一部分是随机因素引起的
误差 ,即
y
Y=a+bx+
500
* *L
400 300
*
*
*
*
200
100
o
* **
20
40
60
80
100 120
这就是所谓的 一元线性回归模型
从散点图可以看出 x与 y具 有线性相关关系,因此用一 元线性回归分析.
利用一元线性回归的方法可 以计算出 x 与 y的经验回归 方程为 y 0.58 0.15x
图9-4
这里a=0.58,b= -0.15
所以
eaBaidu Nhomakorabea e0.58 1.79
x 1 20.00 16.67 14.29 10.00 7.14 5.00 4.00 3.23 2.63 2.33 2.13 x
y ln y -2.30 -1.97 -1.47 -0.99 -0.53 -0.24 0.00 0.11 0.17 0.22 0.25
将变换后的数据点( xi, yi)画出散点图(图9-4)
此时,拟合直线为 yˆ aˆ bˆx y bˆ(x x)
下面再用矩法求 2的估计
由于
2
D
E 2 由矩估计法,可用
E
2估计
1
n
n i1
2 i
而i yi a bxi ,a、b分别由 aˆ、bˆ代入
故
2可用
ˆ 2
1 n
n
( yi
i1
aˆ bˆxi )2
可以推出:在显著性水平 下,当 | r | r时拒绝H0
其中临界值 r在附表8中给出
当假设 H0 : b 0 被拒绝时,就认为Y与x存在线性 关系,从而认为回归效果显著;
若接受H0,则认为Y与x的关系不能用一元线性回 归模型来描述,即回归效果不显著. 此时,可能有如下几种情形:
(1)x对Y没有显著影响; (2)x对Y有显著影响,但这种影响不能用线性相关关
当n很大且x0位于 x 附近时,有
t (n 2) u
2
2
x0 x
n 1 n2
于是y0的置信概率为1 的预测区间近似为
( yˆ0 u ˆ , yˆ0 u ˆ )
2
2
例3 检验例2中的回归效果是否显著,当x0=80时, 求出Y0的预测区间。( 0.05)
2
2.相关系数检验法
取检验统计量
n
(xi x)(Yi Y )
R
i 1
n
n
(xi x)2
(Yi Y ) 2
i 1
i 1
相关系数检验法 是工程技术中广 泛应用的一种检 验方法
通常称R为样本相关系数.
类似于随机变量间的相关系数,R的取值r反映了自 变量x与因变量Y之间的线性相关关系.
xi 0.05 0.06 0.07 0.10 0.14 0.20 0.25 0.31 0.38 0.43 0.47 yi 0.10 0.14 0.23 0.37 0.59 0.79 1.00 1.12 1.19 1.25 1.29
解 根据这11个样本数据点 (xi,yi)作出散点图(图9-3). 从散点图上看出,这些数据 点在一条曲线L周围.
i 1
i 1
称Q(a, b)为偏差平方和
最小二乘法就是选择a,b的估计 aˆ, bˆ,使得
Q(a, b)为最小(图9-2)
图9-2
为了求Q(a, b)的最小值,分别求Q关于a, b的偏导数,并令它们等于零:
a
Q(a,
b)
n i 1
( yi
a bxi )(2)
0
例如,农作物的单位面积产量与施肥量之间有 密切的关系,但是不能由施肥量精确知道单位面积 产量,这是因为单位面积产量还受到许多其他因素 及一些无法控制的随机因素的影响。
又如,人的身高与体重之间存在一种关系,一般来 说,人身高越高,体重越大,
但同样高度的人,体重却往往不同。这种变量之间 的不确定性关系称之为相关关系。
系来描述; (3)影响Y取值的,除x外,另有其他不可忽略的因素.
因此,在接受H0的同时,需要进一步查明原因分 别处理,此时,专业知识往往起着重要作用.
四、 预测
当经过检验发现回归效果显著时,通过回归模型可 对Y的取值进行预测. 即当x=x0时,对Y作区间估计. 设当x=x0时Y的取值为y0,有
y0 a bx0 0 0 ~ N (0, 2 )
b
Q(a,
b)
n i 1
( yi
a bxi )(2xi )
0
经整理后得到
na
n
xi b
n
bi
i1
i 1
n i 1
xi a n i1
xi2 b
n i 1
xi yi
yi a bxi i i 1,, n
i ~ N (0, 2 )
1
,
,
相互独立
n
如果由样本得到式(1)中,a, b的估计值 aˆ, bˆ ,
则称 yˆ aˆ bˆx为拟合直线或经验回归直线,它 可作为回归直线的估计
一元线性回归主要解决下列一些问题:
( y0 (x0 ), y0 (x0 ))
其中
(
x0
)
ˆ
t
2
(n
2)
n
n
2
ˆ
1 1 n
(x0 x)2
n
(xi x)2
i1
可以看出在x0处y的置信区间的长度为 2 (x0 )
当 x0 x 时置信区间的长度最短,估计最精确, 置信区间愈长,估计的精度愈差。
对于具有相关关系的变量,虽然不能找到他们之间 的确定表达式,但是通过大量的观测数据,可以发 现他们之间存在一定的统计规律,
数理统计中研究变量之间相关关系的一种有效方法 就是回归分析。
一、 一元线性回归模型
假定我们要考虑自变量x与因变量Y之间的相关关系 假设x为可以控制或可以精确观察的变量,即x为普 通的变量。由于自变量x给定后,因变量Y并不能确 定,从而Y是一个与x有关的随机变量
n
(xi x)2
i 1
n
2
ˆ 2
~
2 (n 2)
且 bˆ 与 ˆ 2 独立
bˆ
因而 T
n
(xi x)2
i 1
n ˆ 2 / n 2 2
~ t(n 2)
故
P| T | t (n 2)
2
为显著性水平
即得H0的拒绝域为
| T | t (n 2)
x
图9-1
一般地,假设x与Y之间的相关关系可表示为
Y a bx (1)
其中:a, b为未知常数
为随机误差且 ~ N (0, 2 ) 2 未知,
x与Y的这种关系称为一元线性回归模型
y=a+bx称为回归直线 b称为回归系数
此时 Y ~ N(a bx, 2 )
对于(x, Y)的样本(x1,y1),…,(xn,yn)有: