王向东数学实验课本3-13
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
王向东数学实验课本3-13
实验十三商品需求量的预测
【实验目的】
1.了解回归分析的基本原理和方法。
2.学习用回归分析的方法解决问题,初步掌握对变量进行预测和控制。
3.学习掌握用MATLAB命令求解回归分析问题。
【实验内容】
现有某种商品的需求量、消费者的平均收入、商品价格的统计数据如表1所示,试用所提供的数据预测消费者平均收入为1000、商品价格为6时的商品需求量。
【实验准备】
206
现实生活中,一切事物都是相互关联、相互制约的。我们将变化的事物看作变量,那么变量之间的相互关系,可以分为两大类:一类是确定性关系,也叫作函数关系,其特征是一个变量随着其它变量的确定而确定,如矩形的面积由长宽确定;另一类关系叫相关关系,其特征是变量之间很难用一种精确的方法表示出来,如商品销量与售价之间有一定的关联,但由售价我们不能精确地计算出销量。不过,确定性关系与相关关系之间没有一道不可逾越的鸿沟,由于存在实际误差等原因,确定性关系在实际问题中往往通过相关关系来体现;另一方面,当对事物内部规律了解得更加深刻时,相关关系也可能转化为确定性关系。
1.回归分析的基本概念
回归分析就是处理变量之间的相关关系的一种数学方法,它是最常用的数理统计方法,能解决预测、控制、生产工艺化等问题。由相关关系函数确定形式的不同,回归分析一般分为线性回归、非线性回归和逐步回归,在这里我们着重介绍线性回归,它是比较简单的一类回归分析,在实际问题的处理中也是应用得较多的一类。
207
208
回归分析中最简单的形式是
y =0β+1βx +ε (x 、y 为标量) (1)
固定的未知参数0β,1β称为回归系数,自变量x 称为回归变量,ε是均值为零的随机变量,它是其他随机因素对y 的影响,是不可观察的,我们称
(1)为一元线性回归。它的一个自然推广是x 是多元变量,形如
y =0β+1β1x +…+m βm x +
ε (2)
m ≥2,我们称为多元线性回归,或者更有一般地 y =0β+1β)(1x f +…+m β)(x f m +ε (3)
其中x =(1x ,…,m x ),)(x f j (j =1,…,m )是已知函数,称为非线性回归(也叫曲线或曲面回归)。不难看出,对自变量x 作变量替换,一般能够将非线性回归(3)转化为线性回归(2)的形式进行求解分析,所以我们着重讨论线性回归的内容。
对(2)式两边同时取数学期望得
Y =X β+ε (E ε=0,εD =2σ) (4)
其中
1 x … m x 1 1
y
X … … …
209
Y = …
1 1n x … nm x n
y
β=(0β,1β,…,m
β)T ,ε=(1ε,2ε,…,n ε)
T (4)式称为线性回归方程。线性回归分析所要考虑的主要任务是:用试验值(样本值)对未知参数β和2σ作点估计,同时对估计值作假设检验,从而确立y 与1x ,…,m x 之间的数量关系;在0x =(01x ,…,m
x 0)处对y 值作预测与控制,即对y 作区间估计。这里我们均假设样本容量大于变量个数,即n >m +1。
2.模型的参数估计和假设检验 用最小二乘法估计模型(4)中的参数,作离差平方和
Q =∑=n i i 12ε=21110).....(im m n i i i x x y
βββ----∑= (5)
求β使得Q 达到最小。根据微积分学中求极值的方法,只需求Q 关于0β,1β,…,m β一阶导数为0的方程组的解,此解不是0β,1β,…,m β的真值,
而是β的最小二乘估计值,我们用0β ,1β ,…,m β
表示
β =Y X X X T T 1)(-
(6)
将β的估计值0β ,1β ,…,m
β 代入回归方程(4)
210
得到y 的估计值
y =0β +1β 1x +…+m β m x
(7)
拟合误差e =y -y 称为残差,可作为随机误差ε的
估计,而
Q =∑=n i i e 12
=∑=-n i i
y 1
2i )(y (8)
为残差平方和(或剩余平方和),即)(β Q 。
在实际问题中,事先我们并不知道或者不能断定随机变量y 与一组变量1x ,…,m x 之间有线性关系,如(2)式y =0β+1β1x +…+m βm x +ε往往只是一种假设,因此在求出线性回归方程后,还须对求出的线性回归方程同实际观测数据拟合效果进行检验,可提出以下原假设:
0H :0β=1β=…=m β=0
(9)
采用F 检验法或R 检验法(详细内容在数理统计类书籍中均可查到,此处不再赘述),拒绝0H ,则认为y 与1x ,…,m x 之间显著地有线性关系;否则就接受0H ,认为y 与1x ,…,m x 之间线性关系不显著。
3.变量的预测与控制
当回归模型和系数通过了假设检验后,可由给定的0x =(01x ,…,m x 0)预测出0y ,0
y 是随机的,显然由回归方程(7)知道,其预测值(点估计)为
211
0y =0β +1β 01x +…+m β m x 0
(10)
对于给定的显著水平a ,可以算出0y 的预测区间(区间估计),结果较复杂,但当n 较大且i x 0接近平均值i x ,0
y 的预测区间可简化为
[0y -s u a
21-,0y +s u a
2
1-] (11) 其中2
1a
u -是标准正态分布的1-2a 分位数。 对于0y 的区间估计方法可用于给出已知随
机数据的残差e =y -y 的置信区间,
e 服从均值为零的正态分布,所以若某个i
e 的置信区间不包括零点,则认为这个数据是异常的,可予以剔除。
4.MATLAB 统计工具箱中的回归分析命令 多元线性回归模型(4)可采用命令regress ,此命令也可用于求解一元线性回归,其格式如下所示: