第八章 统计回归模型
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第八章 统计回归模型
回归分析是研究一个变量Y 与其它若干变量X 之间相关关系的一种数学工具.它是在一组试验或观测数据的基础上,寻找被随机性掩盖了的变量之间的依存关系.粗略的讲,可以理解为用一种确定的函数关系去近似代替比较复杂的相关关系.这个函数称为回归函数.
回归分析所研究的主要问题是如何利用变量X 、Y 的观察值(样本),对回归函数进行统计推断,包括对它进行估计及检验与它有关的假设等.
回归分析包含的内容广泛.此处将讨论多项式回归、多元线性回归、非线性回归以及逐步回归.
一、多项式回归
(1) 一元多项式回归
一元多项式回归模型的一般形式为εβββ++++=m
m x x y ...10.
如果从数据的散点图上发现y 与x 呈现较明显的二次(或高次)函数关系,则可以选用一元多项式回归.
1. 用函数polyfit 估计模型参数,其具体调用格式如下:
p=polyfit(x,y,m) p 返回多项式系数的估计值;m 设定多项式的最高次数;x ,y 为对应数据点值. [p,S]=polyfit(x,y,m) S 是一个矩阵,用来估计预测误差.
2. 输出预估值与残差的计算用函数polyval 实现,其具体调用格式如下: Y=polyval(p,X) 求polyfit 所得的回归多项式在X 处的预测值Y .
[Y ,DELTA]=polyval(p,X,S) p ,S 为polyfit 的输出,DELTA 为误差估计.在线性回归模型中,Y ±DELTA 以50%的概率包含函数在X 处的真值.
3. 模型预测的置信区间用polyconf 实现,其具体调用格式如下:
[Y ,DELTA]=polyconf(p,X,S,alpha) 求polyfit 所得的回归多项式在X 处的预测值Y 及预测值的显著性为1-alpha 的置信区间Y±DELTA ,alpha 缺省时为0.05.
4. 交互式画图工具polytool ,其具体调用格式如下: polytool(x,y,m); polytool(x,y,m,alpha);
用m 次多项式拟合x ,y 的值,默认值为1,alpha 为显著性水平,默认值为0.05. 例1 观测物体降落的距离s 与时间t 的关系,得到数据如下表,求s .
解 根据数据的散点图,应拟合为一条二次曲线.选用二次模型,具体代码如下: %%%输入数据
t=1/30:1/30:14/30;
s=[11.86 15.67 20.60 26.69 33.71 41.93 51.13 61.49 72.90 85.44 99.08 113.77 129.54 146.48]; %%%多项式系数拟合 [p,S]=polyfit(t,s,2); 则得回归模型为:
1329.98896.652946.489ˆ2++=t t s
. %%%y 的拟合值及预测值y 的置信半径delta [y,dalta]=polyconf(p,t,S); 得结果如下: y=
Columns 1 through 11
11.8729 15.7002 20.6148 26.6168 33.7060 41.8826 51.1465 61.4978 72.9363 85.4622 99.0754 Columns 12 through 14 113.7759 129.5637 146.4389 dalta=
Columns 1 through 11
0.0937 0.0865 0.0829 0.0816 0.0817 0.0823 0.0827 0.0827 0.0823 0.0817 0.0816 Columns 12 through 14 0.0829 0.0865 0.0937 %%%交互式画图 polytool(t,s,2);
polytool 所得的交互式图形如图8-1所示.
图8-1
(2) 多元二项式回归
多元二项式回归模型的一般形式为εβ
βββ∑≤≤++
+++=m
k j k j jk
m m x x x x y ,1110....
多元二项式回归命令:rstool(x,y,’model’,alpha) x 表示n ⨯m 矩阵;y 表示n 维列向量;alpha 为显著性水平(缺省时为0.05);model 表示由下列4个模型中选择1个(用字符串输入,缺省时为线性模型):
linear(线性):m m x x y βββ+++= 110;
purequadratic(纯二次):∑=++++=n
j j jj
m m x x x y 1
2110β
βββ ;
interaction(交叉):∑≤≠≤+
+++=m
k j k j jk
m m x x x x y 1110β
βββ ;
quadratic(完全二次):∑≤≤+
+++=m
k j k j jk
m m x x x x y ,1110β
βββ .
例2 设某商品的需求量与消费者的平均收入、商品价格的统计数据如下,建立回归模型,预测平均收入为1000、价格为6时的商品需求量.
需求量 100 75
80
70 50 65 90 100 110 60 收入 1000 600 1200 500 300 400 1300 1100 1300 300 价格 5 7
6
6
8
7
5
4
3
9
解 选择纯二次模型,即2222211122110x x x x y βββββ++++=.
%%%输入数据
x1=[1000 600 1200 500 300 400 1300 1100 1300 300]; x2=[5 7 6 6 8 7 5 4 3 9]; x=[x1' x2'];
y=[100 75 80 70 50 65 90 100 110 60]'; %%%多元二项式回归 rstool(x,y,'purequadratic'); 得如下结果:
图8-2
得到一个如图所示的交互式画面,左边是x1(=1000)固定时的曲线y (x1)及其置信区间,右边是x2(=6)固定时的曲线y (x2)及其置信区间.用鼠标移动图中的十字线,或在图下方窗口内输入,