统计回归模型
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
y的90.54%可由模型确定 p远小于=0.05
2的置信区间包含零点
F远超过F检验的临界值 模型从整体上看成立 x2对因变量y 的 影响不太显著
(右端点距零点很近)
x22项显著
可将x2保留在模型中
ˆ ˆ x ˆ x ˆ x2 销售量预测 y ˆ 0 1 1 2 2 3 2
上限用作库存管理的目标值 下限用来把握公司的现金流
若估计x3=3.9,设定x4=3.7,则可以95%的把握 知道销售额在 7.83203.7 29(百万元)以上
模型改进
x1和x2对y 的影响独立 x1和x2对y 的影响有 交互作用
y 0 1 x1 2 x2 x
输出 b~的估计值
bint~b的置信区间
r ~残差向量y-xb
rint~r的置信区间 置信区间 [5.7282 28.9206] [0.6829 1.9311 ] [-7.4989 0.1077 ] [0.0379 0.6594 ] p<0.0001 s2=0.0490
alpha(置信水平,0.05) 参数估计值 0 17.3244 1 1.3070 2 -3.6956 3 0.3486 R2=0.9054 F=82.9409 参数
y 10
9.5 9 8.5 8 7.5 7 5 5.5 6 6.5 7
x1
y~被解释变量(因变量) x1, x2~解释变量(回归变量, 自变量)
0, 1 , 2 , 3 ~回归系数 ~随机误差(均值为零的
正态分布随机变量)
2 y 0 1 x2 2 x2
7.5 x 2
第十章
统计回归模型
10.1 牙膏的销售量
10.2 软件开发人员的薪金
10.3 酶促反应
10.4 投资额与国民生产总值和物价指数
10.5 教学评估
10.6 冠心病与年龄
数学建模的基本方法
机理分析
测试分析
由于客观事物内部规律的复杂及人们认识程度的限制, 无法分析实际对象内在的因果关系,建立合乎机理规 律的数学模型. 通过对数据的统计分析,找出与数据拟合最好的模型. 回归模型是用统计分析方法建立的最常用的一类模型. • 不涉及回归分析的数学原理和方法 . • 通过实例讨论如何选择不同类型的模型 . • 对软件得到的结果进行分析,对模型进行改进.
MATLAB 统计工具箱 模型求解 2 y 0 1 x1 2 x2 3 x2 由数据 y,x1,x2估计 [b,bint,r,rint,stats]=regress(y,x,alpha)
输入 y~n维数据向量
2 x= [1 x1 x2 x2 ] ~n4数 据矩阵, 第1列为全1向量
102 100 98 96 94 92 90 88 86 84 140 145 150 155 160 165
y 0 1 x
散点图
例1 解:1.输入数据:
x=[143 145 146 147 149 150 153 154 155 156 157 158 159 160 162 164]'; X=[ones(16,1) x]; Y=[88 85 88 91 92 93 93 95 96 98 97 96 98 99 100 102]';
价格差x1=其他厂家价格x3-本公司价格x4 估计x3 调整x4 控制x1 通过x1, x2预测y 控制价格差x1=0.2元,投入广告费x2=6.5百万元
ˆ ˆ x ˆ x ˆ x2 8.2933 (百万支) ˆ y 0 1 1 2 2 3 2
销售量预测区间为 [7.8230,8.7636](置信度95%)
2.回归分析及检验: [b,bint,r,rint,stats]=regress(Y,X) b,bint,stats
得结果:b = -16.0730 0.7194 stats = 0.9282 180.9531 0.0000
ˆ 16.073 ˆ 0.7194; ˆ 的置信区间为[-33.7017,1.5612], ˆ 的置信区间为[0.6047,0.834]; 即 , 0 1 0 1
ˆ 8.3272 预测值 y
预测区间 [7.8953,8.7592] 预测区间长度更短
ˆ 略有增加 y
ˆ 与x1,x2关系的比较 两模型 y ˆ x ˆ x ˆ x2 ˆ xx ˆ ˆ x ˆ x ˆ x2 y ˆ ˆ y 0 1 1 2 2 3 2 4 1 2 0 1 1 2 2 3 2
Residual Case Order Plot 4
4.预测及作图: z=b(1)+b(2)*x plot(x,Y,'k+',x,z,'r')
3 2 1
Residuals
0 -1 -2 -3 -4 -5 2 4 6 8 10 Case Number 12 14 16
10.1 牙膏的销售量
问 题
建立牙膏销售量与价格、广告投入之间的模型; 预测在不同价格和广告费用下的牙膏销售量. 收集了30个销售周期本公司牙膏销售量、价格、 广告费用,及同期其他厂家同类牙膏的平均售价 .
参数估计值 0 29.1133 1 11.1342 2 -7.6080 3 0.6712 4 -1.4777 R2=0.9209 F=72.7771
置信区间 [13.7013 44.5252] [1.9778 20.2906 ] [-12.6932 -2.5228 ] [0.2538 1.0887 ] [-2.8518 -0.1037 ] p<0.0001 s2=0.0490
拟合优度检验; 回归方程的显著性检验; 回归系数的显著性检验。
第5步 利用回归方程进行预测。
多元线性回归
y 0 1 x1 ... p x p
1.确定回归系数的点估计值:
b=regress( Y,
Y1 Y Y 2 Yn
回归分析概述
(1) 确定性关系与非确定性关系
变量与变量之间的关系分为确定性关系和非确定性关系,函数表达确 定性关系。研究变量间的非确定性关系,构造变量间经验公式的数理统计
方法称为回归分析。
(2) 回归分析基本概念
回归分析是指通过提供变量之间的数学表达式来定量描述变量间相关
关系的数学过程,这一数学表达式通常称为经验公式。我们不仅可以利用 概率统计知识,对这个经验公式的有效性进行判定,同时还可以利用这个 经验公式,根据自变量的取值预测因变量的取值。如果是多个因素作为自 变量的时候,还可以通过因素分析,找出哪些自变量对因变量的影响是数的点估计和区间估计、并检验回归模型: [b, bint,r,rint,stats]=regress(Y,X,alpha)
显著性水平 置 回 残 信 (缺省时为0.05) 归 差 区 系 间 数 用于检验回归模型的统计量, 的 区 假设 H : 0 被拒绝,则回归显著,认为 有四个数值:相关系数r 2y 、 与 x 存在线性关 0 1 间 F统计量观测值、与F 对应的概 系,所求的线性回归方程有意义;否则回归不显著, y 与 x 的关系 估 率 p 、 误差方差的估计。 计 不能用线性回归模型来描述,所得的回归方程也无意义 .
2 3 2
参数
0 1 2 3
R2=0.9054 参数
2 y 0 1 x1 2 x2 3 x2 4 x1 x2
参数估计值 17.3244 1.3070 -3.6956 0.3486 F=82.9409
置信区间 [5.7282 28.9206] [0.6829 1.9311 ] [-7.4989 0.1077 ] [0.0379 0.6594 ] p<0.0001 s2=0.0426
88 85 88 91 92 93 93 95 96 98 97 96 98 99 100 102 143 145 146 147 149 150 153 154 155 156 157 158 159 160 162 164
以身高x为横坐标,以腿长y为纵坐标将这些数据点(xi,yi) 在平面直角坐标系上标出.
相关系数 r2 越接近 1,说明回归方程越显著; F > F1-α (k,n-k-1)时拒绝 H0,F 越大,说明回归方程越显著; 与 F 对应的概率 p 时拒绝 H0,回归模型成立.
3.画出残差及其置信区间:
rcoplot(r,rint)
例1 测16名成年女子的身高与腿长所得数据如下:
身 高 (cm) 腿 长 (cm)
两模型销售量预测比较
控制价格差x1=0.2元,投入广告费x2=6.5百万元
ˆ ˆ x ˆ x ˆ x2 ˆ y 0 1 1 2 2 3 2
ˆ 8.2933 预测区间 [7.8230,8.7636] 预测值 y
ˆ x ˆ x ˆ x2 ˆ xx ˆ 0 y 1 1 2 2 3 2 4 1 2
bint = -33.7071 0.6047 1.5612 0.8340
r2=0.9282, F=180.9531, p=0.0000 p<0.05, 可知回归模型 y=-16.073+0.7194x 成立.
3.残差分析,作残差图:
rcoplot(r,rint)
从残差图可以看出,除第二个数据外,其余数据的残 差离零点均较近,且残差的置信区间均包含零点,这说明 回归模型 y=-16.073+0.7194x能较好的符合原始数据,而第 二个数据可视为异常点.
X )
1 x x x
11 12 1p ˆ0 1 x x x 21 22 2p X ˆ1 b 1 x x ... x n1 n2 np ˆ 对一元线性回归,取 p=1 即可 p 这里,y是一个 的列向量,X是一个 的矩阵,其中第一列是全1向 量(这一点对于回归来说很重要,这一个全1列向量对应回归方程 的常数项),一般情况下,需要人工造一个全1列向量。
本公司价 格 (元 ) 3.85 3.75 其他厂家 价格(元) 3.80 4.00 广告费用 (百万元) 5.50 6.75 价格差 (元) -0.05 0.25 销售量 (百万支) 7.38 8.51
销售 周期 1 2
29 30
3.80 3.70
3.85 4.25
5.80 6.80
0.05 0.55
7.93 9.26
基本模型
y ~公司牙膏销售量 x1~其他厂家与本公司价格差 x2~公司广告费用
y 10
9.5 9 8.5 8 7.5 7 -0.2 0 0.2 0.4 0.6
y 0 1 x1 2 x2 x
2 3 2
y 0 1 x1
Stats~ 检验统计量 R2,F, p,s2
2 结果分析 y 0 1 x1 2 x2 3 x2
参数
0 1 2 3
R2=0.9054
参数估计值 17.3244 1.3070 -3.6956 0.3486 F=82.9409
置信区间 [5.7282 28.9206] [0.6829 1.9311 ] [-7.4989 0.1077 ] [0.0379 0.6594 ] p<0.0001 s2=0.0490
统计工具箱中的回归分析命令
1.多元线性回归
2.多项式回归 3.非线性回归 4.逐步回归
线性回归分析
•分析步骤
第1步 确定回归方程中的因变量和自变量; 第2步 确定回归模型:根据函数拟合方式,通过观察散点图 确定应通过哪种数学模型来概括回归方程。如果被解释变量与 解释变量之间存在线性关系,则应进行线性回归分析,建立线 性回归模型;反之,建立非线性回归模型。 第3步 建立回归方程:根据收集到的数据以及第2步所确定的 回归模型,在一定的统计拟合准则下估计出模型中的各个参数, 得到一个确定的回归方程。 第4步 对回归方程进行各种检验: