数据统计与预测模型与MATLAB实现
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(y
i
2 2 b1 x1i b2 x2i ) 2 [( yi b1 x1i ) 2 2 x2i ( yi b1 x1i )b2 x2 i b2 ]
[( yi b2 x2i ) 2 2 x1i ( yi b2 x2i )b1 x12i b12 ]
讨论 模型 I 与模型 II 拟合结果比较 xi 49 54 59 64 69 74 79 yi 5.4 6.0 6.7 7.0 8.1 9.1 9.8 5.24 5.97 6.70 7.43 8.16 8.90 9.62 yi 0.16 0.03 0.00 -0.43 -0.06 0.20 0.18 i1 5.55 6.06 6.62 7.23 7.90 8.64 9.44 yi -0.15 –0.06 0.08 –0.23 0.20 0.46 0.36 i2 i i1 =0.01 i i2 =0.37 Q 1 = 0.2915 Q 2 =0.7437 结论 1. 与指数模型相比较,线性模型更适合中国人口的增长。 2. 预报:1999 年 模型 I 12.55 亿,模型 II 13.43 亿 3. 人口白皮书:2005 年 13.3 亿, 2010 年 14 亿 模型 I 2005 年 13.43 亿,2010 年 14.16 亿 模型 II 14.94 亿, 16.33 亿 注意:线性最小二乘法 yi bxi i , i 1, , n 模型:y = bx, 数据 精度: 估计:
Q ( yi a b1 x1i b2 x2i ) 2 l11b1 l12b2 l1 y l21b1 l22b2 l2 y
a y b1 x1 b2 x2
估计:
l11 ( x1i x1 ) 2
l12 l21 ( x1i x1 )( x2i x2 ) lky ( xki xk )( yi y )
i
i
[( yi y ) b( xi x )]2
i
( y a bx )
i i
2
估计:
ˆ ( x x )( y y ) b i i
(x x)
i
2
l xy l xx
ˆx ˆ y b a
模型:y = b 1 x 1 +b 2 x 2 ,数据: yi b1 x1i b2 x2i i 精度: Q 估计:
ˆ ( x x )b ( x12i )b 1i 2i ˆ2 x1i yi 1 ˆ ( x 2 )b ( x1i x2i )b 2i ˆ2 x2i yi 1
l11b1 l12b2 l1 y l21b1 l22b2 l2 y
模型:y = a+b 1 x 1 +b 2 x 2 ,数据: yi a b1 x1i b2 x2i i 精度:
3
线性模型拟合图 模型 I: t = a + b x 参数: a= - 9.99, b = 0.145 t = - 9.99 + 0.145 x Q 1 = 82.04 检验: 当 x < 68.89 m 时, t < 0. 当 x = 100 m 时, t = 4.51 s 与实际情形差距较大! 中间数值偏低 b 模型II: t = a x , 令 z = ln t, u = ln x , 则有 z = ln t = ln a+b ln x = a* + bu 1.145 参数: a* = - 0.734, a = exp( a*) = 0.48, b = 1.145, t = 0.48 x . Q 2 = 23.55 x 100 200 400 800 1000 1500 t 9.95 19.72 43.86 102.4 133.9 212.1 I 4.56 19.10 48.20 106.4 135.5 208.2 II 9.39 20.78 45.96 101.68 131.29 208.9 讨论 1. 经验模型是众多因素作用综合在因果关系上的结论。 会因时因地发生变化且不宜在另外的环 境下套用和从机理作过多的分析。 2. 前面的最小二乘法实质上是近似求解(超定)线性方程组 a + x k b = y k ,k = 1,…,n, 3. 关于最小二乘计算:MATLAB 程序 x=49:5:94; y=[5.4 6. 6.7 7. 8.1 … ]; A=[ones(10,1), x’]; b=A\y’,或者 [b,r,j]=regress(y’,A); z=b(1)+b(2).*x; plot(x,z,’b’,x,y,’r*’) 4. 关于误差:纵轴误差: y k =a+bx k + k , 横轴误差: y k =a+b(x k + k ), 距离误差:
数据统计与预测模型
数据资料是数学模型与实际问题接轨的重要途径和手段,有时还可以直接从数据资料中发现规 律组建模型。数据分析和处理是统计学研究的主要内容,也是计算数学的工作领域,近年来随 着计算机科学的发展,对“海量”数据的分析形成了一门新的交叉学科“数据挖掘” 。这一章仅 介绍用统计学的最小二乘法构造拟合数据模型,以及用计算数学的函数插值方法处理数据解决 实际问题。 一. 数据资料与数学模型 1 数据资料 数据资料是在实际问题中收集到的观测数值,是组建数学模型的重要依据和检验 数学模型的重要标准。 数据获取 年鉴报表、学术刊物、网络资源、实验观测等等 数据误差 观测数据中一般都包含有误差。 正确对待和处理这些误差是数学建模中不可回避的问 题. 系统误差:偏差,来自于系统,有规律,可避免。 随机误差:无偏,来自随机因素,无规律,不可免 2. 资料与模型 0 1 . 数据资料可以直接应用于数学模型的组建。对于情况较复杂的实际问题(因素不易化 简,作用机理不详)可直接由数据寻找简单的因果变量之间的数量关系,从而对未知的情形作 预报。这样组建的模型为拟合模型。在统计学中有大量的利用数据组建的模型:判别模型、主 成分模型、聚类模型、因子模型、趋势面模型、时间序列模型等。 2°模型的设计、参数估计都依赖于现有的和可能获得的数据资料。当数据资料不全时,数 值分析的插值技术就将发挥作用。如信号和图像处理领域就广泛应用插值技术。 二. 拟合模型 拟合模型的组建是通过对有关变量的观测数据的观察、分析,选择恰当的数学表达方式得 到的。拟合模型主要是探讨变量间的内在规律,分析的数据具有明显的随机误差。模型侧重于 选择规律的简单的数学表达。在简单的数学表达式中选择拟合效果好的。因此,在数据拟合的 精度和数学表达式简化程度之间要取一个折中。折中方案的选择将取决于实际问题的需要。 例 4.1 人口预测 1949 年—1994 年我国人口数据资料如下: 年 份 x i 49 54 59 64 69 74 79 84 89 94 人口数 y i 5.4 6.0 6.7 7.0 8.1 9.1 9.8 10.3 11.3 11.8 建模分析我国人口增长的规律, 预报 1999、2005 年我国人口数。 建模分析步骤: 1. 在坐标系上作观测数据的散点图。 2. 根据散点分布的几何特征提出模型 3. 利用数据估计模型的参数 4. 计算拟合效果 散点图
yi a bxi 1 b 2 i
5. 关于精度:最小二乘精度 Q= =(y k -a-bx k ) . 最小一乘精度 Q= ||= |y k -a-bx k | 问题 1. 使用你收集的长度面积体积的数据分析它们之间的关系. 2. 利用赛艇比赛成绩的数据建模分析运动员的人数 n 与赛艇成绩 t 的关系. n 1 2 4 8 t 7.125 6.878 6.340 5.835 三. 插值技术 当数据量不够,需要补充,且认定已有数据可信时, 通常利用函数插值方法. 目 标 : 根 据 一 组 观 测 数 据 (x i , y i ) i=0,1,2,…,n. 寻 找 函 数 关 系 y=(x) , 要 求 满足y i =(x i ) i=0,1,2,…,n。 如果(x) 在每个区间段[x i-1 ,x i ]上是线性函数,则称(x) 是这组数据的分段线性插值函数. 例 4.3 设一水库将河道分为上、下游两个河段. 预测上游流量 Q(t) (立方米/秒)为 t(时) 8 12 16 24 30 44 48 56 Q(t)3600 5400 7800 9200 10100 3500 2500 1600 已知水库中水的库容量 V(10^8 立方米)与水位高程 H(米)的数值关系 V 23.93 24.06 24.02 24.33 24.47 24.6 24.75 H 168.75 168.8 168.85 168.9 168.95 169 169.05 降雨的开始时刻为 8 时, 这时水位的高程为 168 米, 水库容量为 21.9*10^8 立方米. 如果从当 日 8 时起,水库一直保持 1000 立方米的泄流量, 请按所给数据,预报当日 20 时水库中水的库容 量与水的高程. 假设: 1 已知数据准确, 无误差. 2 相邻两个时刻之间的流量变化是线性的.
i i i i i
84 10.3 10.36 -0.06 10.31 –0.01
89 11.3 11.09 0.01 11.26 –0.13
94 11.8 11.82 -0.02 12.31 –0.51
Q i2 ( yi bxi )Βιβλιοθήκη Baidu2 yi2 2b xi yi b 2 xi2
ˆ x y b i i
x
2 i
l xy l xx
2
模型:y = a + bx,数据: yi a bxi i , i 1, , n 2 精度: Q i ( yi a bxi ) 2 [( yi y ) a b( xi x ) y bx ]2
1
模型 I 人口线性增长模型, 假设:人口随时间线性地增加,模型:y = a + b x 参数估计 观测值的模型:y i = a + b x i + i ,i = 1,…,n 2 2 拟合的精度: Q = i = (y i - a – b x i ) , 误差平方和。 最小二乘法:求参数 a 和 b,使得误差平方和最小。 可以算出:a = – 1.93, b = 0.146 模型:y = – 1.93 + 0.146 x, 拟合精度 Q 1 = 0.2915 bx 模型II 人口自然增长模型, 模型 y=ae 等价形式 ln y=ln a+bx 设数据满足 ln y i =ln a+bx I + i 2 2 应用最小二乘法, 求a 和 b使得Q= i i = i (ln y i -ln a+bx i ) 最小 0.0177x 计算得到 a=2.33 b=0.0177, 因此 y=2.33e 拟合精度 Q=0.7437 (注意此时的随机 误差e i不设在y坐标方向) 拟合曲线
l22 ( x2i x2 )
2
3. 可化简的非线性最小二乘法 0 1 . y=a+b 1 f 1 (x)+b 2 f 2 (x)+…+b n f n (x), 令 u i = f i (x), 则有 y=a+b 1 u 1 +…+b n u n . 0 bx 2 . y=a e . 令 z=ln y, 则有 z = ln a + b x = a* + b x . 0 b 3 . y = a x . 令 z = ln y, u = ln x, 则有 z = ln y = lna+b ln x = a*+ b u 0 4 . y = 1/(a+bx), 令 z = 1/y, 则有 z = 1/y = a + bx . 0 5 . y = x/(b+ax) 令 z = 1/y, u=1/x, 则有 z = 1/y = a + b/x = a + b u 0 6 . y = (1+ax)/(1+bx) ? 例 4.2 赛跑的成绩与赛跑距离 表列数据为 1977 年以前六个不同距离的中短距离赛跑成绩的世界纪录. 距离 x(m) 100 200 400 800 1000 1500 时间 t (s) 9.95 19.72 43.86 102.4 133.9 212.1 试用这些数据建模分析赛跑的成绩与赛跑距离的关系。 散点图