第十章 统计回归模型
统计回归模型
y的90.54%可由模型确定 p远小于=0.05
2的置信区间包含零点
F远超过F检验的临界值 模型从整体上看成立 x2对因变量y 的 影响不太显著
(右端点距零点很近)
x22项显著
可将x2保留在模型中
ˆ ˆ x ˆ x ˆ x2 销售量预测 y ˆ 0 1 1 2 2 3 2
上限用作库存管理的目标值 下限用来把握公司的现金流
若估计x3=3.9,设定x4=3.7,则可以95%的把握 知道销售额在 7.83203.7 29(百万元)以上
模型改进
x1和x2对y 的影响独立 x1和x2对y 的影响有 交互作用
y 0 1 x1 2 x2 x
输出 b~的估计值
bint~b的置信区间
r ~残差向量y-xb
rint~r的置信区间 置信区间 [5.7282 28.9206] [0.6829 1.9311 ] [-7.4989 0.1077 ] [0.0379 0.6594 ] p<0.0001 s2=0.0490
alpha(置信水平,0.05) 参数估计值 0 17.3244 1 1.3070 2 -3.6956 3 0.3486 R2=0.9054 F=82.9409 参数
y 10
9.5 9 8.5 8 7.5 7 5 5.5 6 6.5 7
x1
y~被解释变量(因变量) x1, x2~解释变量(回归变量, 自变量)
0, 1 , 2 , 3 ~回归系数 ~随机误差(均值为零的
正态分布随机变量)
2 y 0 1 x2 2 x2
7.5 x 2
第十章
统计回归模型
10.1 牙膏的销售量
10.2 软件开发人员的薪金
数学模型之统计回归模型
下表列出了某城市18位35岁~44岁经理的年平均收入1x 千元,风险偏好度2x 和人寿保险额y 千元的数据,其中风险偏好度是根据发给每个经理的问卷调查表综合评估得到的,它的数值越大,就越偏爱高风险,研究人员想研究此年龄段中的经理所投保的人寿保险额与年收入及风险偏好度之间的关系。
研究者预计,经理的年均收入和人寿保险额之间存在着二次关系,并有把握地认为风险偏好度对人寿保险额有线性效应,但对风险偏好度对人寿保险额是否有二次效应以及两个自变量是否对人寿保险额有交互效应,心中没底。
请你通过表中的数据来建立一个合适的回归模型,验证上面的看法,并给出进一步的分析。
x1=[66.290 40.964 72.996 45.010 57.204 26.852 38.122 35.840 75.796 37.408 54.376 46.186 46.130 30.366 39.060 79.380 52.766 55.916];>> y1=[196 63 252 84 126 14 49 49 266 49 105 98 77 14 56 245 133 133]; >> p=polyfit(x1,y1,2) p =3.0246e-002 1.7886e+000 -6.0524e+001>> x2=0:0.01:85;y2=polyval(p,x2); plot(x1,y1,'o',x2,y2)1x y 对的散点图从图中可以发现,随着1x 的增加,y 的值有明显向上弯曲的二次增长趋势,图中的曲线是用二次函数模型εβββ+++=212110x x y (1)拟合的。
(其中ε是随机误差)>> x3=[7 5 10 6 4 5 4 6 9 5 2 7 4 3 5 1 8 6]; >> q=polyfit(x3,y1,1) q =1.3522e+001 3.8743e+001>> x4=0:0.01:15;y3=polyval(q,x4); plot(x3,y1,'o',x4,y3)的一次的散点图对2x y从图中可以发现,随着2x 的增加,y 的值比较明显的线性增长趋势,图中的曲线是用线性函数模型εββ++=210x y (2) 拟合的。
统计回归模型35页PPT
0
29.1133
[13.7013 44.5252]
1
11.1342
[1.9778 20.2906 ]
2
-7.6080
[-12.6932 -2.5228 ]
3
0.6712
[0.2538 1.0887 ]
4
-1.4777
[-2.8518 -0.1037 ]
R2=0.9209 F=72.7771 p=0.0000
价格差x1=其它厂家价格x3-本公司价格x4
估计x3 调整x4 控制x1
通过x1, x2预测y
控制价格差x1=0.2元,投入广告费x2=650万元
y ˆˆ0ˆ1 x 1ˆ2x 2ˆ3 x 2 2 8 .29(百3 万支3)
销售量预测区间为 [7.8230,8.7636](置信度95%)
上限用作库存管理的目标值 下限用来把握公司的现金流
模型求解 MATLAB 统计工具箱
y01 x 12 x 23 x 2 2由数据 y,x1,x2估计
[b,bint,r,rint,stats]=regress(y,x,alpha)
输入 y~n维数据向量
输出 b~的估计值
x= [1 x1 x2 x22] ~n4数
据矩阵, 第1列为全1向量
bint~b的置信区间 r ~残差向量y-xb
1 牙膏的销售量
问 建立牙膏销售量与价格、广告投入之间的模型 题 预测在不同价格和广告费用下的牙膏销售量
收集了30个销售周期本公司牙膏销售量、价格、
广告费用,及同期其它厂家同类牙膏的平均售价
销售 周期
1
本公司价 格(元)
3.85
其它厂家 价格(元)
3.80
建模方法论ch10统计回归模型
10.2 软件开发人员的薪金
建立模型研究薪金与资历、管理责任、教育程度的关系. 建立模型研究薪金与资历、管理责任、教育程度的关系. 分析人事策略的合理性,作为新聘用人员薪金的参考. 分析人事策略的合理性,作为新聘用人员薪金的参考. 46名软件开发人员的档案资料 名软件开发人员的档案资料
编 号 01 02 03 04 … 薪金 13876 11608 18701 11283 … 资 历 1 1 1 1 … 管 理 1 0 1 0 … 教 育 1 3 3 2 … 编 号 42 43 44 45 46 薪金 27837 18838 17483 19207 19346 资 历 16 16 16 17 20 管 理 1 0 0 0 0 教 育 2 2 1 2 1
x2=6.5
0 0.2 0.4 0.6
8.5
8
8
7.5 -0.2
x1
7.5 -0.2
0
0.2
0.4
0.6
x1
10 9.5 9 8.5 8 7.5 5
ˆ y
10.5 10
ˆ y
x1=0.2
6 7 8
9.5 9 8.5
x2
8
5
6
7
8
x2
交互作用影响的讨论
价格差 x1=0.1 价格差 x1=0.3
ˆ y
销售 周期 1 2 … 29 30
基本模型
y ~公司牙膏销售量 公司牙膏销售量 x1~其他厂家与本公司价格差 其他厂家与本公司价格差 其他厂家与本公司 x2~公司广告费用 公司广告费用
y 10
9.5 9 8.5 8 7.5 7 -0.2 0 0.2 0.4 0.6
y = β 0 + β 1 x1 + β 2 x 2 + β x + ε
《数学建模》课件:第十章 统计回归模型
回归和拟合比较相近,但并不一样。对拟合而言, 一个Y变量对应一个X变量,而回归分析的一个Y变 量则有可能对应多个X变量。从这个角度说,拟合 也属于回归的一种。
/view/0aa4c90c844769eae009ed7d.html? re=view (回归分析的基本理论及软件实现)
linear(线性): y 0 1 x1 m xm
purequadratic(纯二次):
y 0 1x1 m xm
n
jj
x
2 j
j1
interaction(交叉): y 0 1x1 m xm jk x j xk
1 jkm
quadratic(完全二次): y 0 1x1 m xm jk x j xk
6.80
0.55
9.26
问题分析
注意到牙膏是生活必需品,顾客在购买同类 产品时常常会更在意不同品牌之间的价格差异, 而不是他们价格本身。
因此,在研究各因素对销售量的影响时,用价 格差代替公司销售价格和其他厂家平均价格更为合 适。 下面建立牙膏销售量与价格差、广告费之间的关系 模型。
基本模型
y 10
(1) beta=nlinfit(X,Y,function,beta0) (2) [beta,r,J]=nlinfit(X,Y,function,beta0)
10.1 牙膏的销售量
问 建立牙膏销售量与价格、广告投入之间的模型; 题 预测在不同价格和广告费用下的牙膏销售量.
收集了30个销售周期本公司牙膏销售量、价格、
1
xn1
xn2
第10章 统计模型-回归分析
有:
ˆ b 0 T 1 T ( X X ) X Y ˆ bk
ˆ b 0 62.40 ˆ b 1 1.55 ˆ 0.51 b 2 ˆ 0.10 b3 b ˆ 0.14 4
残 差
置 信 区 间
Y1 1 x11 Y 1 x 2 21 Y X ... ... ... Y n 1 x n1
x12 x 22 ... xn 2
... x1 p ... x 2 p ... ... ... x np
5 参数的区间估计(假设检验)
记: 则有:
CA cij i , j 0,
1
A X X
T
ˆ b i
2 ˆ N (bi , e cii )
ˆ t ˆ t 故bi的区间估计为: b ˆ ˆ c , b i 1 / 2 e ii i 1 / 2 e cii
若因素xi不重要,则有bi=0,即上述区间包含0。
4、预测及作图: z=b(1)+b(2)*x plot(x,Y,'k+',x,z,'r')
Residuals
4 3 2 1 0 -1 -2 -3 -4 -5 2 4 6 8 10 Case Number 12 14 16
“有进有出”的逐步回归分析(组合优 化)
6 matlab多元线性回归
y 0 1 x1 ... p x p
[b, bint,r,rint,stats]=regress(Y,X,alpha)
回 归 系 数 的 区 间 估 计
ˆ 0 ˆ 1 b ... ˆ p
第十章_logit回归
第十章 logitic 回归本章导读:Logitic 回归模型是离散选择模型之一,属于多重变数分析范畴,是社会学、生物统计学、临床、数量心理学、市场营销、会计与财务等实证分析的常用方法。
10.1 logit 模型和原理Logistic 回归分析是对因变量为定性变量的回归分析。
它是一种非线性模型。
其基本特点是:因变量必须是二分类变量,若令因变量为y ,则常用y=1表示“yes ”,y=0表示“no ”。
[在发放股利与不发放股利的研究中,分别表示发放和不发放股利的公司]。
自变量可以为虚拟变量也可以为连续变量。
从模型的角度出发,不妨把事件发生的情况定义为y=1,事件未发生的情况定义为0,这样取值为0、1的因变量可以写作:⎩⎨⎧===事情未发生事情发生01y 我们可以采用多种方法对取值为0、1的因变量进行分析。
通常以P 表示事件发生的概率(事件未发生的概率为1-P ),并把P 看作自变量x 的线性函数。
由于y 是0-1型Bernoulli 分布,因此有如下分布:P=P (y=1|x ):自变量为x 时y=1的概率,即发放现金股利公司的概率1-P=P (y=0|x ):自变量为x 时y=0的概率,即不发放现金股利公司的概率 事件发生和不发生的概率比成为发生比,即相对风险,表现为PP odds -=1.因为是以 对数形式出现的,故该发生比为对数发生比(log odds ),表现为)1ln(P P odds -=。
对数发生比也是事件发生概率P 的一个特定函数,通过logistic 转换,该函数可以写成logistic 回归的logit 模型:)1(log )(log PP P it e -= Logit 一方面表达出它是事件发生概率P 的转换单位;另一方面,它作为回归的因变量就可以自己与自变量之间的依存关系保持传统回归模式。
根据离散型随即变量期望值的定义,可得:E(y)=1(P)+0(1-P)=P进而得到x P y E 10)(ββ+==因此,从以上分析可以看出,当因变量的取值为0、1时,均值x y E 10)(ββ+=总是代表给定自变量时y=1的概率。
统计回归模型 PPT课件
25
20
A 15 10
5
0
0
2
4
6
8
10
12
25
20
B 15 10
5
0
0
2
4
6
8
10
12
35 30 25
C 20 15 10 5 0 0
5
10
15
三.回归分析
1.相关与回归分析的概念 回归的古典意义:
高尔顿遗传学的回归概念
父母身高与子女身高的关系: 无论高个子或低个子的子女 都有向人的平均身高回归的 趋势
二.方差分析法
1. 单因素方差分析
分析结果
方差来源 平方和 自由度均方和 F值 显著性
A
6.77 2 3.39 0.32 N
误差 223.73 21 10.65
总和 230.50 23
(F0.05(2,21)=3.47)
三.回归分析
1.相关与回归分析的概念 变量间的相互关系
◆确定性的函数关系 Y=f (X) ◆不确定性的统计关系—相关关系
Y= f(X)+ε (ε为随机变量) ◆没有关系 变量间关系的图形描述:坐标图(散点图)
三.回归分析
1.相关与回归分析的概念 相关关系的类型
● 从涉及的变量数量看 简单相关 多重相关(复相关)
● 从变量相关关系的表现形式看 线性相关——散布图接近一条直线(左图) 非线性相关——散布图接近一条曲线(右图)
三.回归分析
1.相关与回归分析的概念
回归的现代意义
一个因变量对若干解释变量依存关系的研究 回归的目的(实质):由固定的自变量去估计因变量的平均
值
总 体
样
数学建模案例分析第十章统计回归模型
岭回归原理及步骤
• 原理:岭回归是一种专用于共线性数据分析的有偏估计回归方 法,实质上是一种改良的最小二乘估计法,通过放弃最小二乘 法的无偏性,以损失部分信息、降低精度为代价获得回归系数 更为符合实际、更可靠的回归方法,对病态数据的拟合要强于 最小二乘法。
岭回归原理及步骤
• 原理:岭回归是一种专用于共线性数据分析的有偏估计回归方 法,实质上是一种改良的最小二乘估计法,通过放弃最小二乘 法的无偏性,以损失部分信息、降低精度为代价获得回归系数 更为符合实际、更可靠的回归方法,对病态数据的拟合要强于 最小二乘法。
一元线性回归
01
02
03
模型建立
一元线性回归模型用于描 述两个变量之间的线性关 系,通常形式为y=ax+b, 其中a和b为待估参数。
参数估计
通过最小二乘法等方法对 参数a和b进行估计,使得 预测值与实际观测值之间 的误差平方和最小。
假设检验
对模型进行假设检验,包 括检验模型的显著性、参 数的显著性等,以判断模 型是否有效。
线性回归模型检验
拟合优度检验
通过计算决定系数R^2等指标, 评估模型对数据的拟合程度。
残差分析
对模型的残差进行分析,包括残 差的分布、异方差性检验等,以
判断模型的合理性。
预测能力评估
通过计算预测误差、均方误差等 指标,评估模型的预测能力。同 时可以使用交叉验证等方法对模
型进行进一步的验证和评估。
线性回归模型检验
逐步回归原理及步骤
01
3. 对模型中已有的自变量进行检 验,如果不显著则将其从模型中 剔除。
02
4. 重复步骤2和3,直到没有新的 自变量可以进入模型,也没有不显 著的自变量可以从模型中剔除。
数学建模之统计回归模型
数学建模大作业摘要某公司想用全行业的销售额作为自变量来预测公司的销售额,题目给出了1977—1981此公司的销售额和行业销售额的分季度数据表格。
通过对所给数据的简单分析,我们可以看出:此公司的销售额有随着行业销售额的增加而增加的趋势,为了更加精确的分析题目所给的数据,得出科学的结论,从而达到合理预测的目的。
我们使用时间序列分析法,参照课本统计回归模型例4,做出了如下的统计回归模型。
在问题一中,我们使用MATLB数学软件,画出了数据的散点图,通过观察散点图,发现公司的销售额和行业销售额之间有很强的线性关系,于是我们用线性回归模型去拟合,发现有很好的拟合性。
但是这种情况下,并没有考虑到数据的自相关性,所以我们做了下面几个问题的分析来对这个数学模型进行优化。
在问题二中,通过建立了公司销售额对全行业销售额的回归模型,并使用DW检测诊断随机误差项的自相关性。
通过计算和查DW表比较后发现随即误差存在正自相关,也就是说前面的模型有一定的局限性,预测结果存在一定的偏差,还有需要改进的地方。
在问题三中,因为在问题二中得出随即误差存在正自相关,为了消除随机误差的自相关性,我们建立了一个加入自相关后的回归模型。
并对其作出了分析和验证,我们发现加入自相关后的回归模型更加合理。
通过使用我们建立的模型对公司的销售额进行预测,发现和实际的销售额很接近,也就是说模型效果还不错。
关键词:销售额、回归模型、自相关性一、问题提出某公司想用全行业的销售额作为自变量来预测公司的销售额,下表给出了1977-1981年公司销售额和行业销售额的分季度数据(单位:百万元).(1)画出数据的散点图,观察用线性回归模型拟合是否合适。
(2)监理公司销售额对全行业销售额的回归模型,并用DW检验诊断随机误差项的自相关性。
二、基本假设假设一:模型中ε(对时间t )相互独立。
三、符号说明公司销售额:y (百万)行业销售额:x (百万) 概念介绍:1.自相关:自相关(auto correlation ),又称序列相关(serial correlation )是指总体回归模型的随机误差项之间存在的相关关系。
关于数学建模的几种典型问题
ˆ ˆ ˆ ˆ ˆ 销售量预测 y = β 0 + β1 x1 + β 2 x2 + β 3 x22
价格差x 其它厂家价格x 本公司价格x 其它厂家价格 本公司价格 价格差 1=其它厂家价格 3-本公司价格 4 估计x 调整x 估计 3 调整 4 控制x 控制 1 通过x 预测y 通过 1, x2预测 控制价格差x 控制价格差 1=0.2元,投入广告费 2=650万元 元 投入广告费x 万元
alpha(置信水平,0.05) 置信水平 置信水平 参数
β0 β1 β2 β3
参数估计值 置信区间 17.3244 [5.7282 28.9206] 1.3070 [0.6829 1.9311 ] -3.6956 [-7.4989 0.1077 ] 0.3486 [0.0379 0.6594 ] R2=0.9054 F=82.9409 p=0.0001
加大广告投入使销售量增加 大于6百万元 百万元) ( x2大于 百万元) 价格差较小时增加 的速率更大
8 7.5 5 6 7 8
x2
价格差较小时更需要靠广告 来吸引顾客的眼球
完全二次多项式模型 2 2 y = β 0 + β1 x1 + β 2 x 2 + β 3 x1 x 2 + β 4 x1 + β 5 x 2 + ε
ˆ ˆ ˆ ˆ 2 ˆ y = β 0 + β 1 x1 + β 2 x 2 + β 3 x 2 = 8 . 2933 (百万支 百万支) 百万支
销售量预测区间为 [7.8230,8.7636](置信度 , (置信度95%) ) 上限用作库存管理的目标值 下限用来把握公司的现金流 若估计x 若估计 3=3.9,设定 4=3.7,则可以 ,设定x ,则可以95%的把握 的把握 知道销售额在 7.8320×3.7≈ 29(百万元)以上 × ≈ (百万元)
统计回归模型
统计回归模型
* 系数:
系数是回归方程中各自变量的参数值,用来解释变量与被解释变量之间的关系。
系数可以是一个正数,也可以是一个负数;系数可以是经过估计或者未经确定的,也可以是一个常量或者变量。
* 截距:
截距是指假设自变量时全部为0时,回归线的y值。
可以用来衡量在x全部为0时,被解释变量变化的强度。
* 回归系数:
回归系数是用来测量被解释变量的变动,并衡量影响被解释变量的自变量变动的效果。
回归系数可以是一个正数,也可以是一个负数。
回归系数的大小可以反应被解释变量的变动程度,可以衡量被解释变量受自变量变量影响的程度。
* R平方:
R平方(即决定系数)是用来衡量回归模型拟合能力的统计量。
该值用来表示预测变量Y的变化量中有多少是被自变量X所解释的。
数值越高表示自变量X解释Y变化的能力越强,模型表现的越好。
R平方的取值范围是0到1之间,当R 平方为1时,表示自变量X解释Y变量完全;当R平方为0时,表示自变量X 解释Y变量完全无效。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
改进模型2
考虑x1和x2的交互作用
y 0 1x1 2 x2 3x22 4 x1x2
参数
参数估计值
置信区间
0
29.1133
[13.7013 44.5252]
1
11.1342
[1.9778 20.2906 ]
2
-7.6080
[-12.6932 -2.5228 ]
3
0.6712
[0.2538 1.0887 ]
yˆ
yˆ
9
9
8.5
x2=6.5 8.5
8
8
7.5
-0.2
0
0.2
0.4
yˆ
10
9.5 解释性好
9
8.5
8
7.5
5
6
7
0.6 x1
7.5
-0.2
0
0.2
0.4
yˆ
10.5
x1=0.2
10 精度高
9.5
9
8 x2 没道理
8.5 8 5
6
7
0.6 x1 8 x2
更完整的模型:完全二次多项式 y 0 1x1 2 x2 3 x1x2 4 x12 5 x22
多元线性回归y = x+的方差分析
误差平方和分解: SST=SSE+SSR
SST
||
Y
Y
1 ||2 , SSE
||
Y
Yˆ
||2 , SSR
||
Yˆ
Y
1 ||2
总误差平方和SST: 代表直接用y的均值来估计y时的误差(即i=0时)
残差平方和SSE: 代表用回归模型不能解释的那部分误差
回归平方和SSR: 代表用回归模型可以解释的那部分误差
[-7.4989 0.1077 ]
3
0.3486
[0.0379 0.6594 ] F0.95(3, 26)
R2=0.9054, F=82.9409, p=0.0000 2 =0.0490 =2.97
y的90.54%可由模型确定 F远超过F检验的临界值
p远小于=0.05
模型从整体上看成立
2的置信区间包含零点 (右端点距零点很近)
yˆ
10 9.5
9 8.5
8 7.5
0
0.2
0.4
x1
从输出 Export 可得 ˆ,
5.5
6
6.5
7
x2
RMSE ˆ
SSE n p
小结
回归模型无机理分析,直接从数据建模; 可根据实际问题选择合适的变量(与被解释 变量相关性大,数据易取得)建模; 可选择间接变量建模, 以简化模型; 可考虑2次项和交叉项,以改进拟合度; 回归模型需经过检验\改进\优化; Matlab命令regress和rstool; 可以用多元线性回归建非线性函数模型.
习题 P365ex1
10.5 教学评估(逐步回归)
学生评价老师指标
Y: 对教师的总体评价
X1: 内容合理性 X2: 讲课逻辑性 X3: 答疑有效性 X4: 交流有助性 X5: 教材帮助性 X6: 考试公正性
12位教师, 15门课程
指标能否简化?
X1 ~ X6不是每个对Y 都有显著影响 X1 ~ X6有强相关性 简单有效的模型 给老师提出建议
bint~的置信区间
r ~残差向量y-xb
alpha(置信水平,0.05) rint~r的置信区间
参数
0 1 2 3
参数估计值 17.3244 1.3070 -3.6956 0.3486
参数置信区间 [5.7282 28.9206] [0.6829 1.9311 ] [-7.4989 0.1077 ] [0.0379 0.6594 ]
好的模型就是要使得SSE尽可能小,SSR尽可能大。
R2统计量:R2=SSR/SST表明模型能解释的信息比例. R2越接近 1, 说明模型越显著。
模型的显著性检验 H0: =0, H1: 0 (F检验)
F SSR /( p 1) ~ F ( p 1, n p) SSE /(n p)
的方差ˆ2
MSE
结果分析
Y=-1.2471+0.5099X1+0.7678X3+ 影响分数的主要指标是X1,X3
销售 周期
1
本公司价 格(元)
3.85
其它厂家 价格(元)
3.80
广告费用 (百万元)
5.50
价格差 (元)
-0.05
销售量 (百万支)
7.38
2
3.75
4.00
6.75
0.25
8.51
29
3.80
3.85
5.80
0.05
7.93
30
3.70
4.25
6.80
0.55
9.26
基本模型
y 10
9.5
y ~公司牙膏销售量
9
x1~其它厂家与本公司价格差
8.5 8ቤተ መጻሕፍቲ ባይዱ
x2~公司广告费用
y 0 1x1 2 x2 3 x22
7.5
7
-0.2
0
0.2
0.4
0.6
y 0 1x1 x1
y~被解释变量(因变量)
y 10
9.5
x1, x2~解释变量(回归变量, 自变量) 9 8.5
0, 1 , 2 , 3 ~回归系数
4
-1.4777
[-2.8518 -0.1037 ]
R2=0.9209 , F=72.7771, p=0.0000, 2 =0.0426
模型显著、参数显著, 且R2上升, 2下降
模型销售量预测比较
控制价格差x1=0.2元,投入广告费x2=6.5百万元
原始模型
yˆ ˆ0 ˆ1x1 ˆ2x2 ˆ3x22 yˆ 8.2933 (百万支)
x2对因变量y 的 影响不太显著
但由于x22项显著
可将x2保留在模型中
销售量预测 yˆ ˆ0 ˆ1x1 ˆ2x2 ˆ3x22
价格差x1=其它厂家价格x3-本公司价格x4
估计x3 调整x4 控制x1
通过x1, x2预测y
控制价格差x1=0.2元,投入广告费x2=6.5百万元
yˆ ˆ0 ˆ1x1 ˆ2x2 ˆ3x22 8.2933 (百万支)
1)*sqrt(stats(4)*(1+x0'*inv(X'*X)*x0)) [xb-d,xb+d]
SPSS软件
SPSS软件
复制数据进SPSS表,定义变量x2,x1,y 增加一行:x2=6.5, x1=0.2 转换计算变量: x3=x2*x2 分析回归线性 选因变量y, 自变量x1,x2,x3 “保存”按钮,“预测区间”选“单值” 选“确定”执行。
逐步回归
目标: 用尽量少的解释变量达到尽量好的 效果 思路:
1) 确定初始解释变量集合 2) 从集合外解释变量引入一个对因变量影响显
著性最大的 3) 检验集合中解释变量的显著性 4) 移出对因变量影响不显著的 5) 回到2), 直至无法有新变量引入或移出
Matlab实现: stepwise
Matlab实现: stepwise %数据复制到jye352.xls data=xlsread('jye352.xls','Sheet1','A1:G15'); X=data(:,1:6);Y=data(:,7); corrcoef([X,Y]) stepwise(X,Y) %一直执行next step
销售量预测区间为 [7.8230,8.7636](置信度95%)
预测置信区间 x0T ˆ t1 /2ˆ 1 x0T ( X T X )1 x0
上限用作库存管理的目标值 下限用来把握公司的现金流
若估计x3=3.9,设定x4=3.7,则可以95%的把握 知道销售额在 7.82303.7 29(百万元)以上
Stats~ 检验统计量
R2,F, P ,2
R2=0.9054 F=82.9409 P=0.0000 2 =0.0490
结果分析 y 0 1x1 2 x2 3 x22
参数
参数估计值
置信区间
0
17.3244
[5.7282 28.9206]
1
1.3070
[0.6829 1.9311 ]
2
-3.6956
%蓝色为inmodel变量, 红色为非inmodel变量
Matlab实现: stepwise
均方残差RMSE(Root Mean Squared Error)
RMSE =
ˆ
MSE
SSE Y Xˆ /
n p
n p
SPSS逐步回归
复制数据进SPSS表,定义变量x1-x6,y 分析回归线性 “方法”选“逐步”
SSE n p
当F统计量很大(相应P值很小), 拒绝H0
参数i的显著性检验: 若其置信区间不包含0点, 则显著
假设检验P值判别法
临界值法: F> F1-, 拒绝原假设H0 P值法: P<, 拒绝原假设H0 P值法更灵活(统计软件用)
P值
临界值F1-
F值 值
例子:P值判别法的解释
已知东华男生身高服从N(,0.12),现随机取25名东 华男生,计算得平均身高1.74cm,问是否认为显 著大于1.7?(显著性水平=0.05)
第十章 统计回归模型
10.1 牙膏的销售量(基本模型) 10.5 教学评估(回归模型精简) 10.2 软件开发人员的薪金 (带分组变量) 10.6 冠心病与年龄(Logistic回归) 10.4 投资额与国民生产总值(含时间序列)