基于数据分析的建模方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

y 0 1 x1 2 x2 x
2 3 2
y 0 1 x1
y 10
9.5 9 8.5 8 7.5 7 5 5.5 6 6.5 7
x1
y~被解释变量(因变量) x1, x2~解释变量(回归变量, 自变量)
0, 1 , 2 , 3 ~回归系数 ~随机误差(均值为零的
2. y(0) A B;
3. y 是单调升函数. 也可以选择S 函数:
y
1 a be
x
,x0
15
S函数也满足:
1 1. 当 x , y ; a 1 2. y(0) ; ab
3. y 是单调升函数;
哪个模 型更好?
分析 S 模型所含参数更少, 另外若令
1 x y , x e , y 可得线性模型 y a bx.
2 3 2
参数
2 y 0 1 x1 2 x2 3 x2 4 x1 x2
参数估计值 置信区间 0 17.3244 [5.7282 28.9206] 1 1.3070 [0.6829 1.9311 ] 2 -3.6956 [-7.4989 0.1077 ] 3 0.3486 [0.0379 0.6594 ] R2=0.9054 F=82.9409 p=0.0000 参数估计值 置信区间 29.1133 [13.7013 44.5252] 11.1342 [1.9778 20.2906 ] -7.6080 [-12.6932 -2.5228 ] 0.6712 [0.2538 1.0887 ] -1.4777 [-2.8518 -0.1037 ] R2=0.9209 F=72.7771 p=0.0000 23
ˆ y
ˆ y
x1 0.3
x1 0.1
x1 0.3
ˆ x ˆ x ˆ x2 ˆ xx ˆ 0 y 1 1 2 2 3 2 4 1 2
2 30 .2267 7.7558 x 2 0.6712 x 2
2 32.4535 8.0513 x 2 0.6712 x 2
Stats~ 检验统计量 R2,F, p
20
2 结果分析 y 0 1 x1 2 x2 3 x2
参数
参数估计值 置信区间 0 17.3244 [5.7282 28.9206] 1 1.3070 [0.6829 1.9311 ] 2 -3.6956 [-7.4989 0.1077 ] 3 0.3486 [0.0379 0.6594 ] R2=0.9054 F=82.9409 p=0.0000
正态分布随机变量)
2 y 0 1 x2 2 x2
19
7.5 x 2
MATLAB 统计工具箱 模型求解 2 y 0 1 x1 2 x2 3 x2 由数据 y,x1,x2估计 [b,bint,r,rint,stats]=regress(y,x,alpha)
26
参数
0 1 2 3 4
两模型销售量预测比较
控制价格差x1=0.2元,投入广告费x2=6.5百万元
2 ˆ ˆ ˆ ˆ ˆ y 0 1x1 2 x2 3 x2
ˆ 8.2933 (百万支) y
区间 [7.8230,8.7636]
2 ˆ ˆ ˆ ˆ xx ˆ 0 1x1 2 x2 3 x2 y 4 1 2
销售 周期 1 2
29 30
3.80 3.70
3.85 4.25
5.80 6.80
0.05 0.55
7.93 9.26
18
基本模型
y ~公司牙膏销售量 x1~其它厂家与本公司价格差 x2~公司广告费用
y 10
9.5 9 8.5 8 7.5 7 -0.2 0 0.2 0.4 0.6
*选择适当的数学式对变量间的关系进行拟合. y
o
x
2
两 类 变 量 关 系
确定性关系 确定的函数关系 相关关系 存在相依关系,但未达到相 互确定的程度. 已知规律(函数)的测试数据(在特定时 间点或距离上的数据) 呈现随机性的数据,可看成具有某种概 率分布的随机样本值.
3
两 类 数 据
针对两种不同类型的数据, 有不同的建立模 型方法: 1. 数据拟合法(适用于第一类数据)
输入 y~n维数据向量
2 x= [1 x1 x2 x2 ] ~n4数 据矩阵, 第1列为全1向量
输出
b~的估计值
bint~b的置信区间
r ~残差向量y-xb
rint~r的置信区间
alpha(置信水平,0.05) 参数
0 1 2 3
参数估计值 置信区间 17.3244 [5.7282 28.9206] 1.3070 [0.6829 1.9311 ] -3.6956 [-7.4989 0.1077 ] 0.3486 [0.0379 0.6594 ] R2=0.9054 F=82.9409 p=0.0000
价格差x1=其它厂家价格x3-本公司价格x4 估计x3 调整x4 控制x1 通过x1, x2预测y 控制价格差x1=0.2元,投入广告费x2=650万元
ˆ ˆ x ˆ x ˆ x2 8.2933 (百万支) ˆ y 0 1 1 2 2 3 2
销售量预测区间为 [7.8230,8.7636](置信度95%)
1) 通过分析数据散点图可以获得对变量 间关系的感性认识, 形成初步的看法, 以便 于对问题做进一步的分析.
7
氮施肥量N -土豆产量数据散点图
8
磷施肥量 -土豆产量数据散点图
9
2)分析数据散布图; 对数据散布图进行分析,可以分析出变量的 关系是: 1)线性的还是非线性的? 2)有无周期性? 3)呈现何种变化趋势?变化率如何?
y的90.54%可由模型确定 p远小于=0.05
2的置信区间包含零点
F远超过F检验的临界值 模型从整体上看成立 x2对因变量y 的 影响不太显著
(右端点距零点很近)
x22项显著
可将x2保留在模型中
21
ˆ ˆ x ˆ x ˆ x2 销售量预测 y ˆ 0 1 1 2 2 3 2
φ(x), 在插值节点xi 上满足 φ( xi )=yi, (i=1,2,…,n), 其余点用φ(x)近似替代f (x ), 称φ(x)为f (x)的
插值函数.
yi
xi
f ( x)
x
5
最小二乘法基本思想 寻找 f (x)的近似替代 函数φ(x), 使 n 2 min . ( f ( xi ) ( xi ))
17
牙膏的销售量
问 题
建立牙膏销售量与价格、广告投入之间的模型 预测在不同价格和广告费用下的牙膏销售量 收集了30个销售周期本公司牙膏销售量、价格、 广告费用,及同期其它厂家同类牙膏的平均售价
本公司价 格 (元 ) 3.85 3.75 其它厂家 价格(元) 3.80 4.00 广告费用 (百万元) 5.50 6.75 价格差 (元) -0.05 0.25 销售量 (百万支) 7.38 8.51
9
ˆ y
9
ˆ y
8.5
x2=6.5
0 0.2 0.4 0.6
8.5
8
8
7.5 -0.2
x1
7.5 -0.2
0
0.2
0.4
0.6
x1
10 9.5 9 8.5 8 7.5 5
ˆ y
10.5 10
ˆ y
x1=0.2
6 7 8
9.5 9 8.5
x2
8
wk.baidu.com
5
6
7
25 8
x2
交互作用影响的讨论
价格差 x1=0.1
上限用作库存管理的目标值 下限用来把握公司的现金流
若估计x3=3.9,设定x4=3.7,则可以95%的把握
知道销售额在 7.83203.7 29(百万元)以上
22
模型改进
x1和x2对y 的影响独立 x1和x2对y 的影响有 交互作用
y 0 1 x1 2 x2 x
2. 随机分析方法 对于随机数据进行拟合,可用统计学中的 回归分析方法或时间序列分析方法.
i 1
二.经验模型的建立
以上两种建模方法都是建立在对数据进行 充分分析的基础上.
6
寻找或选择适当的函数拟合变量之间的关系
(函数关系或回归关系)是重要的环节.
一 般 步 骤 1)绘制数据散点图; 2)分析数据散点图; 3)选择函数关系形式.
价格差 x1=0.3
x2 7.5357
ˆ y
ˆ y
x1 0.1
10.5 10 9.5 9 8.5
ˆ y
价格优势会使销售量增加
加大广告投入使销售量增加 ( x2大于6百万元) 价格差较小时增加 的速率更大
x1=0.3
x1=0.1
8 7.5 5 6 7 8
x2
价格差较小时更需要靠广告 来吸引顾客的眼球
…,等等有用的初步结论.
10
例6.2.1 建立一个简洁的函数关系式来描述 某个地区人的身高和体重的对应关系, 数据 见表7.4(p156).
曲线特征是体重 W 随身高H 的增长 而单调增长,但可 以观察到是非线性
增长.
身高-体重数据散点图
11
练习
试分析以下问题
1. 氮施肥量N、磷施肥量 P 关于土豆产量 的数据散点图. 2. 海浪潮高度x 随时间t 的数据散点图.
y ax b.
2
变换为线性函数
例6.2.2 可选二次函数
y b0 b1 x b2 x
注:其中 b0= y(0) = 15.18.
描述氮肥施肥量与土豆产量间的变量关系. 关于磷肥施肥量和土豆产量的变量关系可 选择威布尔模型:
14
y A Be
Kx
,x0
合理性?
有 1. 当 x , y A;
16
数学建模的基本方法
机理分析
测试分析
由于客观事物内部规律的复杂及人们认识程度的限制, 无法分析实际对象内在的因果关系,建立合乎机理规 律的数学模型。 通过对数据的统计分析,找出与数据拟合最好的模型 回归模型是用统计分析方法建立的最常用的一类模型 • 不涉及回归分析的数学原理和方法 • 通过实例讨论如何选择不同类型的模型 • 对软件得到的结果进行分析,对模型进行改进
基本思想 已知函数 y= f(x) 的一组测试数据 (xi , yi), (i=1,2,…,n),
寻求一个函数ψ(x),使ψ(x)对上述测试数据 的误差较小,即ψ(xi)≈yi,于是可以用ψ(x) 来近似替代f (x). 常用的数据拟合方法:一般插值法、最小二
乘法、样条函数光顺法等.
4
插值法的基本思想 寻找 f(x)的近似替代函数
基于数据分析的建模方法
问题 * 在建立数学模型的过程中,经常需要建立 变量之间的关系. *由于对研究对象的内部机理不甚了解,不 能通过合理的假设,或根据物理定律、原理, 经过机理分析法而得到. 解决思路
1
* 借助于由实验或测量得到的一批离散数据. *通过对数据充分观察和分析, 获得数据所含 信息; *揭示变量间的内在联系;
12
3)选择函数关系形式
原 1. 形式尽可能简洁, 尽可能线性化; 则 2. 依据实际问题的精度要求,合乎实际规律.
续例6.2.1 选择幂函数 W= cH a , 描述身 高体重关系. 优点 此函数可以线性化. 两边取对数, 有
ln W a ln H ln c
13

y ln W , x ln H , b ln c
ˆ 8.3272(百万支) y
区间 [7.8953,8.7592]
ˆ 略有增加 y
预测区间长度更短
24
ˆ 与x1,x2关系的比较 两模型 y ˆ x ˆ x ˆ x2 ˆ xx ˆ ˆ x ˆ x ˆ x2 y ˆ ˆ y 0 1 1 2 2 3 2 4 1 2 0 1 1 2 2 3 2
相关文档
最新文档