概率论与数理统计-回归分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第11章 回归分析
设x 为普通变量,Y 为随机变量。

如果当x 变化时,Y 随着x 的变化大体上按某种趋势变化,则称x 与Y 之间存在相关关系,即
),0(~,)(2σεεN x f Y +=
例如,某地人均收入x 与某种商品的消费量Y 之间的关系;森林中树木的断面直径x 与高度Y 之间的关系;某种商品的价格x 与销售量Y 之间的关系;施用氮肥、磷肥、钾肥数量1x ,2x ,3x 与某种农作物产量Y 之间的关系。

在生产实践和科学研究中,常常有这样的问题:由实验或测量得到变量间的一批离散样点,要求由此建立变量之间的近似函数关系或得到样点之外的数据。

我们确定的函数要求在某种距离意义下的误差达到最小(通常用最小二乘法,即考虑使各数据点误差平方和最小)。

由一个(或几个)普通变量来估计或预测某个随机变量的取值时,所建立的数学模型及所进行的统计分析称为回归分析。

§11.1 一元线性回归
假设有一批关于x 与Y 的离散样点
),(,),,(),,(2211n n y x y x y x
集中在一条直线附近,说明x 与Y 之间呈线性相关关系,即
),0(~,2σεεN bx a Y ++=
称为一元线性回归模型。

一、模型中的参数估计 1、b a ,的估计 首先引进记号
∑∑∑∑∑=====-=-=-===n
i i i xy n
i i yy n
i i xx n
i i
n
i i
y
x n y x S y n y S x n x S y n y x n x 1
12
2
1
2
2
1
1
11
按最小二乘法可得到
xx
xy
S S b =
ˆ x b y a ˆˆ-= 称x b a y
ˆˆˆ+=为Y 关于x 的一元线性回归方程。

2、2
σ的估计
)ˆ(2
1ˆ22xx yy S b S n --=σ
求出关于的一元线性回归方程。

解:先画出散点图如下
计算出 3985193282503.6714510
======xy yy xx S S S y x n
483.0ˆ==xx
xy
S S b 735.2ˆˆ-=-=x b y a
所求的回归方程是x y
483.0735.2ˆ+-=。

二、线性假设的显著性检验
即检验如下假设
0H :0=b 1H :0≠b
方法1:T 检验法
采用如下检验统计量:
)2(~ˆˆ-=
n t S b
T xx σ
,其中的)ˆ(2
1ˆ2xx
yy S b S n --=σ
对一个小概率α,若)2(2
->n t T α,则接受1H ,即认为线性假设成立,所建立的线性回归方
程正确。

例2、用T 检验法检验例1中的回归效果是否显著()05.0=α?
解:934.0)ˆ(2
1ˆ22
=--=xx yy S b S n σ ,从而966.0ˆ=σ
,394.45ˆˆ==xx S b T σ
查表得306.2)8(025.0=t ,由于)8(025.0t T >,说明回归效果是显著的。

方法2:F 检验法
采用如下检验统计量: )2,1(~)
2/(--=
n F n Q Q F e R
,其中xx
R S b Q 2ˆ=,R yy e Q S Q -= 对一个小概率α,若)2,1(->n F F α,则接受1H ,即认为线性假设成立,所建立的线性回归方程正确。

例3、用F 检验法检验例1中的回归效果是否显著()01.0=α?
解:6.1924ˆ2==xx
R S b Q ,5.7≈-=R yy e Q S Q 26.11)8,1(4.20478
/01.0=>==
F Q Q F e R
,说明回归效果是显著的。

三、利用回归方程进行预测
所谓预测,就是利用建立的回归方程x b a y
ˆˆˆ+=,对给定的x 值,去确定Y 的值。

1、点预测
当0x x =时,Y 的预测值是0
0ˆˆˆx b a y += 2、区间预测
当0x x =时,Y 的置信度为α-1的预测区间是:
))(11ˆ)2(ˆˆ,)(11ˆ)2(ˆˆ(2
02
02020xx xx S x x n n t x b a S x x n n t x b a -++•-++-++•--+σσαα 例4、求例1中温度1450=x ℃时,产品得率Y 的预测值和置信度为95%的预测区间。

解:预测值为296.67145483.0735.2ˆ0=⨯+-=y
预测区间为
)63.69,96.64()(1011ˆ)8(ˆ2
0025.00=-++•±xx
S x x t y σ
§11.2 非线性回归化为线性回归
在实际问题中,有些随机变量Y 与普通变量x 之间不存在线性相关关系,而是存在非线性相
关关系,这时便要建立非线性回归模型。

在许多情况下,通过适当的变量转换,可将其转化为线性回归问题。

具体做法如下:
1、将样本数据,在直角坐标系中画出散点图;
2、根据离散样点的形状,推测Y 与x 之间是何种非线性函数关系;
3、通过适当的变量转换,将其转化为线性函数关系;
4、用线性回归的方法建立回归方程、检验显著性、预测等;
5、返回到原来的函数关系,得到要求的非线性回归方程、预测值。

下面是一些常见的可线性化的曲线: (1)双曲线:
x
b
a y +=1 (2)幂函数:
b ax y = (3)对数函数:x b a y ln += (4)指数函数:bx
ae y = (5)正弦曲线:x b a y sin += (6)S 型曲线:x
be
a y -+=
1
以b
ax y =为例,我们只要作变换y Y x X ln ,ln ==,就可化为线性函数bX a Y +=ln 。

例5、电容器充电后,电压达到100伏,然后开始放电,测得时刻i t (秒)时电压i u (伏)如下表。

(1)建立电压关于放电时间的回归方程; (2)检验回归方程的显著性()05.0=α;
(3)当0t t =时,给出u 的置信度为95%的预测区间。

解:(1)先画出散点图如下
由于离散样点落在曲线)0(,<=b ae u bt
附近,可通过变量转换u U t T ln ,==,化成线性函数
bT a U +=ln 。

原始数据作变换i i i i u U t T ln ,==后,按线性回归算法来实现:
86.10389.3411005.3511=-=====UU TU TT S S S U T n
3126.0ˆ-==TT
TU S S b
, 613.4ˆˆln =-=T b U a ,从而78.100ˆ=a 。

所求的回归方程是t
e u 3126.078.100-=。

(2)用T 检验法
11.0)ˆ(2
1ˆ2=--=TT UU S b S n σ
80.29ˆˆ-==
TT S b
T σ
查表得2622.2)9(025.0=t ,由于)9(025.0t T >,说明回归效果是显著的。

(3)当0T T =时,U 的置信度为95%的预测区间是
TT
S T T t T 2
0025.00)(1111ˆ)9(3126.0613.4-++•±-σ
亦即当0t t =时,u 的置信度为95%的预测区间是
⎪⎭

⎬⎫⎪⎩

⎨⎧-++•±-TT S T t t t 20025.00)(1111ˆ)9(3126.0exp 786.100σ
§11.3 多元线性回归
如果随机变量Y 与固定变量m x x x ,,,21 之间有显著的线性相关关系,即
),0(~,222110σεεN x b x b x b b Y m m +++++=
称为m 元线性回归模型。

一、模型中的参数估计 1、m b b b b ,,,,210 的估计
设通过实验或历史资料得到观测数据),,2,1(),
,,,,(21n i x x x y im i i i =。


⎪⎪
⎪⎪



⎝⎛=⎪⎪⎪⎪⎪⎭⎫

⎛=⎪⎪⎪⎪⎪⎭
⎫ ⎝⎛=m nm n n m m n b b b B x x x
x x x x x x X y y y Y
102
1222
21
1121121,111,
由最小二乘估计,得
Y X X X B
T T 1)(ˆ-= 称m
m x b x b x b b y ˆˆˆˆˆ22110++++= 为变量Y 关于变量m x x x ,,,21 的线性回归方程。

2、2
σ的估计
同样还可以得到2
σ的估计量为
∑=---=n
i i i y y m n 122
)ˆ(11
ˆσ 这里),,2,1(ˆˆˆˆˆ22110n i x b x b x b b y im
m i i i =++++=。

二、回归模型的显著性检验
1、检验回归模型的显著性
即检验假设 不全为零i m b H b b b H :,0:1210====
令 ∑∑==-=-=
n
i i i e n
i i
R y
y S y y
S 1
21
2
)ˆ(,)ˆ( 检验统计量 )
1,(~)
1/(/----=
m n m F m n S m
S F e R
对一个小概率α,若)1,(-->m n m F F α,则认为所建的回归方程有意义。

2、各自变量的显著性检验,剔除变量计算 即检验假设 ),,2,1(0:,0:10m j b H b H j j j j =≠=
检验统计量 ),,2,1()1(~)
1/(ˆm j m n t m n S c b t e jj j
j =----=
这里jj c 是矩阵1
)(-=X X C T
中相应位置的元素。

对一个小概率α,若)1(2
-->m n t t j α,则
应保留变量j x ,否则应剔除变量j x 。

剔除变量时,从j t 最小的开始,直到不显著的变量全部剔除为止。

设j k t t min =,则剔除k x ,重新建立回归方程如下:
m
m k k k k x b x b x b x b b y *1*11*11*1*0ˆˆˆˆˆˆ++++++=++-- 其中 ),,,2,1(,ˆˆˆ*k j m j b c c b b k kk
kj j j ≠=-=
j
k
j j x
b
y b ∑≠-=**0
ˆˆ
三、利用回归方程进行预报
当),,,(),,,(0020121m m x x x x x x =时,对Y 进行预测。

1、点预测 m
m x b x b x b b y 002201100ˆˆˆˆˆ++++= 2、区间预测 Y 的置信度为α-1的置信区间))(ˆ),(ˆ(0000x y x y
δδ+-,其中 ∑∑==--++--=m i m
j ij j j i i c x x x x n m n t x 11
002
0))((11ˆ)1()(σ
δα 例6、某公司在各地销售一种化妆品,观测15个城市在某月内对该化妆品的销售量Y 及适合使用该化妆品的人数1x 和人均收入2x 。

数据见下表:
要求通过以上数据建立预测模型,当已知任一个城市的适用人数和人均收入),(21x x 时,能够预测在这个城市的销售量。

解:现在用上面的回归模型来解决前面提出的问题:
⎪⎪⎪⎪⎪⎭

⎝⎛=⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=260537013254180124502741,212120162
X Y 得到T B
)0092.0,4960.0,4526.3(ˆ=,所求回归方程是210092.0496.04526.3ˆx x y ++=。

又求得88.56,
72.53844==e R S S ,从而
89.3)12,2(5680)
1/(/05.0=>=--=
F m n S m
S F e R
故认为所建的回归方程有意义。

⎪⎪⎪⎭


⎛⨯⨯-⨯⨯-⨯==------77
6
441
109772.1100303.7107329.7101567.4101297.22463.1)(X X C T 又可求出
179.2)12(93.8110
7329.774.44960.0025.06
1=>=⨯⨯=
-t t
179.2)12(50.910
9772.174.40092.0025.072=>=⨯⨯=-t t
说明21,x x 对Y 均有显著的线性影响,均不能剔除。

下面给出预测方法:例如当某城市的数据)2500,220(),(21=x x 时,有
57.135********.0220496.04526.3ˆ0=⨯+⨯+=y
又 972.4))((11ˆ)12()(11
00025.00=--++=∑∑==m i m
j ij j j i i c x x x x n t x σ
δ 可以95%的把握认为这种化妆品在该城市的销售量在))(ˆ),(ˆ(0000x y x y
δδ+-,即在130到140箱之间。

§11.4 一元多项式回归
若离散样点的形状表明既不能用线性函数来拟合,又不能用可线性化的非线性函数来拟合的话,从理论上讲,用一个多项式函数来拟合总是可行的。


),0(~,22210σεεN x b x b x b b Y m m +++++=
其中m 为散点图的峰谷数+1;
1、建立回归模型时,令),,2,1(m i x x i i
==,从而化成多元线性回归:
),0(~,222110σεεN x b x b x b b Y m m +++++=
用多元线性回归的方法建立回归方程、检验显著性、预测等,再返回到原来的函数关系,得到要求的非线性回归方程、预测值。

2、当m 较高时(大于6),用多项式回归会降低精度,因此应采用样条多项式回归。

在实际应用中,最常用的是二次和三次多项式函数。

下面通过一个例子来说明。

例3、某种产品在生产过程中的废品率Y 与它所含的某种物质量x 有关,现将试验所得16组数据
记录列于下表。

要求建立关于的回归方程。

解:先画出散点图如下
提示 ),0(~,
22
210σεεN x b x b b Y +++=
令)2,1(==i x x i i
,从而化成多元线性回归:
),0(~,
222110σεεN x b x b b Y +++=
⎪⎪⎪⎪⎪⎭

⎝⎛=⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=230448112963611156341,60.000.130.1
X Y 得到T B
)0093.0,8205.0,484.18(ˆ-=,所求回归方程是20093.08205.04840.18ˆx x y +-=。

相关文档
最新文档