数学建模:统计模型
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
ˆ y 略有增加
预测区间长度更短
9
ˆ 6. 比较:两模型 y与x1, x2的关系
ˆ ˆ 2 ˆ ˆ ˆ y 0 1 x1 2 x2 3 x2 ˆ y 9
8.5
ˆ ˆ ˆ 2 ˆ ˆ 0 1 x1 2 x2 3 x2 4 x1 x2 y ˆ y 9
y 0 1 x1 m x m jj x 2 j
j 1
n
0 1 x1 m xm
1 j k m
jk x j xk
quadratic(完全二次): y
0 1 x1 m xm
1 j , k m
15
方案
• 建立数学模型,反映该酶促反应的速度与底物 浓度以及经嘌呤霉素处理与否之间的关系 • 设计了两个实验 – 酶经过嘌呤霉素处理 – 酶未经嘌呤霉素处理 • 实验数据:
底物浓度(ppm) 反应速 度 处理 未处理 处理 未处理 0.02 76 67 159 131 47 51 152 124 0.06 97 84 191 144 107 86 201 158 0.11 123 98 207 160 139 115 200 /
16
底物浓度(ppm) 反应速 度
0.22
0.56
1.10
分 析
酶促反应的基本性质 底物浓度较小时,反应速度大致与浓度成正比; 底物浓度很大、渐进饱和时,反应速度趋于固定值
基本模型
酶促反应的速度
Michaelis-Menten模型 待定系数 =(1 , 2)
y
1 1/2
0
y
y f ( x, )
问 研究酶促反应(酶催化反应)中——嘌呤霉素 题 (处理与否)——对反应速度与底物(反应物)浓
度之间关系的影响.
• 酶促反应 – 由酶作为催化剂催化进行的化学反应 – 生物体内的化学反应绝大多数属于酶促反应 – 酶促反应中酶作为高效催化剂使得反应以极快的速度 (103~1017倍)或在一般情况下无法反应的条件下进行 – 酶是生物体内进行各种化学反应最重要的因素
x2
11
多元二项式回归
命令:rstool(x,y,’model’, alpha) nm矩阵 n维列向量
显著性水平 (缺省时为0.05)
由下列 4 个模型中选择 1 个(用字符串输入,缺省时为线性模型): linear(线性): y 0 1 x1 m xm purequadratic(纯二次): interaction(交叉): y
9.5 9 8.5 8 7.5 7 5 5.5 6 6.5 7 7.5
y 0 1 x1
多元回归模型
x1
2 y 0 1 x2 2 x2
x2
2 y 0 1 x1 2 x2 3 x2
4
3. 模型求解
回归系数
Matlab 统计分析
ˆ ˆ ˆ ˆ ˆ ˆ ˆ 从输出 Export 可得 (0 , 1, 2 , 3 , 4 , 5 )
鼠标移动十字线(或下方窗口输入)可改变x1, x2, 左边窗 ˆ y 口显示预测值 及预测区间
13
牙膏的销售量
建立统计回归模型的基本步骤
• 根据已知数据从常识和经验分析, 辅之以作图,
x2=6.5
0 0.2 0.4 0.6
8.5
8
8
7.5 -0.2
x1
7.5 -0.2
0
0.2
0.4
0.6
x1
10 9.5 9 8.5 8 7.5 5
ˆ y
10.5 10
ˆ y
x1=0.2
6 7 8
9.5 9 8.5
x2
8
5
6
7
10 8
x2
讨论:交互作用影响
• 价格差 x1=0.1 • 价格差 x1=0.3 x1 x2 7.5357
ˆ ˆ ˆ ˆ 2 ˆ 0 1x1 2 x2 3 x2 y
ˆ y 8.2933 (百万支)
区间 [7.8230,8.7636]
ˆ ˆ ˆ 2 ˆ ˆ 0 1x1 2 x2 3 x2 4 x1x2 y
ˆ y 8.3272(百万支)
区间 [7.8953,8.7592]
2
明确问题一 牙膏的销售量
• 确定关系: – 牙膏销售量——价格、广告投入 • 内部规律复杂数据统计分析 – 常用模型回归模型×数学原理软件 • 30个销售周期数据: – 销售量、价格、广告费用、同类产品均价
销售周期 公司价 (元) 它厂价 (元) 广告(百万元) 1 2 3.85 3.75 3.80 4.00 5.50 6.75 价差(元) -0.05 0.25 销售量(百万支) 7.38 8.51
1
线性回归实例选讲--牙膏的销售量
1. 问题 建立牙膏销售量与价格、广告投入之间的模型;
预测在不同价格和广告费用下的牙膏销售量. 收集了30个销售周期本公司牙膏销售量、价格、 广告费用,及同期其他厂家同类牙膏的平均售价 .
销售 周期 1 2 29 30 本公司价 格(元) 3.85 3.75 3.80 3.70 其他厂家 价格(元) 3.80 4.00 3.85 4.25 广告费用 (百万元) 5.50 6.75 5.80 6.80 价格差 (元) -0.05 0.25 0.05 0.55 销售量 (百万支) 7.38 8.51 7.93 9.26
5
4. 结果分析
参数
2 y 0 1 x1 2 x2 3 x2
0 1 2 3
R2=0.9054 即:
参数估计值 17.3244 1.3070 -3.6956 0.3486 F=82.9409
2 y 17.32 1.31x1 3.70 x2 0.35x2
由数据 y,x1,x2估计
statistics toolbox
y 0 1 x1 2 x2 n xn
随机误差:正态分布均值为零
2 x=[1 x1 x2 x2 ] 被解释变量:列
系数估计值 置信区间
残差向量y-xb 置信区间
解释变量:矩阵
[b , bint , r , rint , stats] = regress( y , X , alpha )
2 32.4535 8.0513 x 2 0.6712 x 2
ˆ y
ˆ y
x1 0.1
10.5 10 9.5 9 x1=0.3 x1=0.1
Fra Baidu bibliotek
x2
价格优势y 广告投入y ( x2大于6百万元) 价格差较小时 增加的速率更大
ˆ y
8.5 8 7.5 5 6 7 8
价格差较小广告作用大
底物浓度
250 200 150 100 50 0
2 x
250 200 150
1 x
2
x
2 (半速度点)
y
数据 分析
经嘌呤霉 素处理
0 0.5 1 1.5
…
29 30
…
3.80 3.70
…
3.85 4.25
…
5.80 6.80
…
0.05 0.55
…
7.93 9.26
3
2. 基本模型
y ~公司牙膏销售量 x1~其它厂家与本公司价格差 x2~公司广告费用 y 10
9.5 9 8.5 8 7.5 7 -0.2 0 0.2 0.4 0.6
被解释变量(因变量) 解释变量 (回归变量, 自变量) y 10
置信区间 [5.7282 28.9206] [0.6829 1.9311 ] [-7.4989 0.1077 ] [0.0379 0.6594 ] p<0.0001 s2=0.0490
显著性 :整体显著 y的90.54%可由模型确定、 F远超过F检验的临界 值、 p远小于=0.05 x2 :2 置信区间包含零点, 但右端点距零点很近 ——x2 对因变量 y 的影响不太显著; 3 显著 , 故x22项显著 但可将x2保留在模型中
置信区间 [5.7282 28.9206] [0.6829 1.9311 ] [-7.4989 0.1077 ] [0.0379 0.6594 ] p<0.0001 s2=0.0426
参数估计值 0 29.1133 1 11.1342 2 -7.6080 3 0.6712 4 -1.4777 R2=0.9209 F=72.7771
ˆ ˆ ˆ 2 ˆ ˆ y 0 1x1 2 x2 3 x2 4 x1x2
2 ˆ y 29.133 11.1342x1 7.6080x2 0.6712x2 1.4777x1 x2
ˆ y
ˆ y
x1 0.3
x1 0.1
x1 0.3
2 30.2267 7.7558 x 2 0.6712 x 2
置信区间 [13.7013 44.5252] [1.9778 20.2906 ] [-12.6932 -2.5228 ] [0.2538 1.0887 ] [-2.8518 -0.1037 ] 8 p<0.0001 s2=0.0490
比较: 两模型销售量预测
控制价格差 x1=0.2 元,投入广告费 x2=6.5 百万元
6
销售量预测
ˆ ˆ ˆ 2 ˆ ˆ y 0 1 x1 2 x2 3 x2
控制x1
价差x1=它厂价x3-公司价x4
估计x3,调整x4
预测y
控制价格差 x1=0.2元,投入广告费 x2=6.5 百万元
ˆ ˆ ˆ ˆ 2 ˆ 得 y 0 1 x1 2 x2 3 x2 8.2933(百万支)
jk x j xk
12
完全二次多项式模型
2 2 y 0 1 x1 2 x2 3 x1 x2 4 x1 5 x2
MATLAB中有命令rstool直接求解 Rstool(x,y,’model’,alpha,’xname’,’yname’)
ˆ y
10 9.5 9 8.5 8 7.5 0 0.2 0.4 5.5 6 6.5 7
检验统计量:R2,F,p 显著性水平:0.05
• rcoplot(r,rint) 残差及其置信区间作图 • MATLAB7.0版本 s增加一个统计量: 剩余方差s2 x=[ones(size(x1)),x1,x2,x2.^2]; 程序 [b,bint,r,rint,stats]=regress(y,x)
决定回归变量及函数形式(先取尽量简单的形式).
• 用软件(如MATLAB统计工具箱)求解.
• 对结果作统计分析: R2,F, p, s2是对模型整体评价, 回归系数置信区间是否含零点检验其影响的显著性. • 模型改进, 如增添二次项、交互项等.
• 对因变量进行预测.
14
非线性回归实例选讲--酶促反应
比较: 置信区间, R2
y 0 1 x1 2 x2 3 x
2 2
参数
0 1 2 3
R2=0.9054 参数
2 y 0 1 x1 2 x2 3 x2 4 x1 x2
参数估计值 17.3244 1.3070 -3.6956 0.3486 F=82.9409
建立实际回归模型的过程
• 实际问题 • 设置指标变量 – 解释变量的重要性;不相关性;用相近的变量代替或几个指标 复合;个数适当——这个过程需反复试算 • 收集整理数据 – 时间序列数据:随机误差项的序列相关,如人们的消费习惯 – 横截面数据:随机误差项的异方差性,如居民收入与消费 – 样本容量的个数应比解释变量个数多 – 缺失值,异常值处理 • 构造理论模型 – 绘制 yi 与 xi 的样本散点图,如生产函数、投资函数、需求函数 • 估计模型参数——最小二乘,偏最小二乘,主成分回归等,依靠软件. • 模型检验——统计检验和模型经济意义检验,从设置指标变量修改 • 模型运用 – 经济因素分析、经济变量控制、经济决策预测
销售量预测区间为 [7.8230,8.7636](置信度95%) 上限用作库存管理的目标值 下限用来把握公司的现金流
若估计 x3=3.9,设定 x4=3.7 则可以 95%的把握知道销售额在 7.83203.7 29(百万 7 元)以上
5. 模型改进
x1和x2对y 的影响独立 x1和x2对y 的影响有 交互作用