数据分析建模方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
针对两种不同类型的数据, 有不同的建立模 型方法: 1. 数据拟合法(适用于第一类数据)
基本思想 已知函数 y= f(x) 的一组测试数据 (xi , yi), (i=1,2,…,n),
寻求一个函数ψ(x),使ψ(x)对上述测试数据 的误差较小,即ψ(xi)≈yi,于是可以用ψ(x) 来近似替代f (x). 常用的数据拟合方法:一般插值法、最小二
某小镇某天水塔水位散布图
x
假设 水位高度(或水塔的水容量)是连续 变化的.
可以选择n 次多项式Pn(x)
f ( x)
来近似描述水位随时间的变化规律. 问题归结为选择足够大的n 及估计各个系数值. 思考 为什么考虑用多项式函数?有什么优点?
曲线特征是体重 W 随身高H 的增长 而单调增长,但可 以观察到是非线性
No Image
身高-体重数据散布图
增长.
练习
试分析以下问题
1. 氮施肥量N、磷施肥量 P 关于土豆产量 的数据散布图(P153例7.1.1). 2. 海浪潮高度x 随时间t 的数据散布图.
No Image
3)选择函数关系形式
哪个模 型更好?
分析 S 模型所含参数更少, 另外若令
No Image
可得线性模型
y a b x .
重要定理(维尔斯脱拉斯 ) 若函数f(x)在有
限闭区间上连续, 则存在一个多项式序列
{Pn(x)}在有限闭区间[a , b]上一致收敛于f(x).
称 f(x) 在 [a ,b] 上可由多项式函数逼近.
No Image
磷施肥量 -土豆产量数据散布图
2)分析数据散布图; 对数据散布图进行分析,可以分析出变量的 关系是: 1)线性的还是非线性的? 2)有无周期性? 3)呈现何种变化趋势?变化率如何?
…,等等有用的初步结论.
例1 建立一个简洁的函数关系式来描述 某个地区人的身高和体重的对应关系, 数据 见表7.4(p156).
xi
yi
最小二乘法基本思想 寻找 f (x)的近似替代 函数φ(x), 使
2. 随机分析方法 对于随机数据进行拟合,可用统计学中的 回归分析方法或时间序列分析方法.
2 n P ( x ) a a x a x a x n 0 1 2 n
二.经验模型的建立
以上两种建模方法都是建立在对数据进行充 分分析的基础上.
乘法、样条函数光顺法等.
插值法的基本思想 寻找 f(x)的近似替代函数
φ(x), 在插值节点xi 上满足 φ( xi )=yi, (i=1,2,…,n), 其余点用φ(x)近似替代f (x ), 称φ(x)为f (x)的
插值函数.
No yaxb. Image
1 y , x ex, y
n
P ( x ) f ( x ), x [ a , b ] lim n
例6.2.3 估计供水塔的水流量 试用以下数据估计任意时刻(包括水泵正在 输水的时间内)从水塔流出的流量f(t),并估计 一天的总用水量.
时间(秒) 水位(0.01英尺) 0 3175 3316 3110 6635 3054 10619 2994 13937 2947 17921 2892 21240 2850 25223 2795 28543 2752 32284 2697 35932 水泵开动 39332 水泵开动 39435 3550 43318 3445
寻找或选择适当的函数拟合变量之间的关系
(函数关系或回归关系)是重要的环节.
一 般 步 骤 1)绘制数据散布图; 2)分析数据散布图; 3)选择函数关系形式.
见p156
1) 通过分析数据散布图可以获得对变量 间关系的感性认识, 形成初步的看法, 以便 于对问题做进一步的分析.
No Image
氮施肥量N -土豆产量数据散布图
原 1. 形式尽可能简洁, 尽可能线性化; 则 2. 依据实际问题的精度要求,合乎实际规律.
续例7.2.1 选择幂函数 W= cH a , 描述身 高体重关系. 优点 此函数可以线性化. 两边取对数, 有
ln W a ln H ln c
令 y ln W , x ln H , b ln c
变换为线性函数
令 y ln W ,x ln H , b ln c
2
例7.2.2 可选二次函数
y b b x b x 0 1 2
注:其中 b0= y(0) = 15.18.
描述氮肥施肥量与土豆产量间的变量关系. 关于磷肥施肥量和土豆产量的变量关系可 选择威布尔模型:
y A Be ,x 0
时间(秒) 水位(英尺) 46636 3350 49953 3260 53936 3167 57254 3087 60574 3012 64554 2927 68535 2842 71854 2767 75021 2697 79254 水泵开动 82649 水泵开动 85968 3475 89953 3397 92370 3340
Kx
合理性?
有 1 . 当 x , y A ;
2 .y ( 0 ) A B ;
3. y 是单调升函数. 也可以选择S 函数:
y
1 abe
x
, x0
S函数也满足:
1 1 .当 x , y ; a 1 2 . y(0) ; ab
3. y 是单调升函数;
第七章 数据分析建模方法(下)
问题 * 在建立数学模型的过程中,经常需要建立 变量之间的关系. *由于对研究对象的内部机理不甚了解,不 能通过合理的假设,或根据物理定律、原理, 经过机理分析法而得到. 解决思路
* 借助于由实验或测量得到的一批离散数据. *通过对数据充分观察和分析, 获得数据所含 信息; *揭示变量间的内在联系;
*选择适当的数学式对变量间的关系进行拟合. y
ቤተ መጻሕፍቲ ባይዱ
min . (f(x ) ( x )) i i
o
n
2
i 1
x
两 类 变 量 关 系 两 类 数 据
确定性关系 确定的函数关系 相关关系 存在相依关系,但未达到相 互确定的程度. 已知规律(函数)的测试数据(在特定时 间点或距离上的数据) 呈现随机性的数据,可看成具有某种概 率分布的随机样本值.