第八讲 概率与统计模型
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第八讲 概率与统计模型
一、
曲线拟合
所谓曲线拟合是指从自变量和因变量的实现点列中得到反映自变量和因变量的函数关系。如下图蓝色点表明的是某个函数关系式,现需要知道有如此曲线表现的函数。
曲线拟合可以视为函数求值的逆运算,函数求值在已知函数关系式时带入自变量的值就可以得到对应的因变量,而曲线拟合恰好相反。要注意的是曲线拟合在大多数情况下只能得到反映大致的函数关系的表达式,而不能得到精确的关系式。如已知某个地区的温度C 与一种植物的生长速度V 之间有线性的关系(设为b aC V +=),为了确定两者之间的确切关系时,需要知道两组实际数据2,1),,(=i v c i i ,这样通过求解线性方程组
⎩⎨
⎧+=+=b ac v b
ac v 22
11 可以求出),(b a 的值。但是在实际问题中,由于测量的误差或者计算过程中的问题,给出来的数据可能不止两对,n i v c i i ,,2,1),,( =,这样如果还是将给出的数据带入方程中得到的是一个超定方程组,该方程组未必有解!从而就产生了如何确定系数的问题,曲线拟合方法就是解决这种问题的方法。
与曲线拟合相平行的另一个问题是插值问题,插值就是利用给出的一些数据作为提示,要得到一些未知点处的函数值。在这里我们将两个问题整合起来,因为在通过曲线拟合得到反映规律的曲线后将需要求值的点带入即可以得到函数值。
曲线拟合的基本方法如下: (1) 确定自变量与因变量,
(2) 确定自变量与因变量之间的函数关系类型(即自变量与因变量之间的粗略关系式,
含有参数)
(3) 选择合适的曲线拟合方法(其中使用最多的是最小二乘法) (4) 使用MATLAB 后者其他计算软件求解
最小二乘法简介
设自变量为x ,因变量为y ,给出的数据对一共有n 组n i y x i i ,,2,1),,( =,因变量和自变量之间的函数关系式为),,,(1m a a x f y =,其中m a a ,,1 为待定系数,为确定待定系数的值,利用下面的思想:待定系数的确定应当最大程度的反映所给出数据的真实性,因此待定系数的确定应当使得由函数关系式所得到的函数值与已知的数值之间的误差最小,即
])),,,((min[arg ),,(1
21**1
∑=-=n
k m k k m
a a x f y a a 。
在函数拟合中,最简单的拟合是线性拟合,即用一个最合适的直线来近似描述函数关系。但是要注意的是,用直线来描述函数关系的误差可能较大,因此在实践中应当先考察函数点列的分布,与一些已知函数的特征相比较,可以先考察一个函数族:如三角函数族,指数函数族等,通过不同函数族的拟合后比较拟合的效果,而选择其中的最合适的。
曲线拟合的一些技巧
在曲线拟合的过程中有几个关键的地方:一是确定自变量和因变量之间的函数关系类型,使用最多的是线性函数(确定线性函数的曲线拟合也称为线性拟合),在得到函数关系类型时可以先通过机理分析或者量纲分析、比例分析得到粗略的关系式,也可以先画出图形,考察图形的形状选择适当的函数作为拟合的目标;二是选择合适的拟合方法,常用的拟合方法是最小二乘法,但是往往有的时候需要采用其他方法,如多项式拟合等,拟合方法的选择以最适合(偏差最小为标准),可能会出现这样的情况函数的表现是分段的,此时可以先尝试用分段插值的方法考察函数的性质;三是在使用MATLAB 等工具求解时,注意可以先将需要拟合的函数化简,通常线性拟合是最准确并且速度是最快的,因此对于可以化为线性拟合的问题尽量用线性拟合的方法做;四是为了检验曲线拟合的有效性,可以在所给出的数据中预留几个数据,如给出50组数据,可以仅用其中的45个进行拟合,而将剩下的5个用于拟合曲线的检验。
曲线拟合举例:录像机计数器模型
在录像机计数器模型中,我们已经得到计数器读数n 与录像带转过的时间t 之间的函数关系为bn an t +=2
,其中b a ,为待定系数,为了确定这两个系数,可以用足够多的测试数
取其中的一部分数据进行拟合(184,40,20,0 =t ),而将余下的数据作为检验数据用,拟合得到2
6
1045.1,1061.2--⨯=⨯=b a ,检验发现拟合的效果相当好。
在得到了拟合函数关系式后,可以利用该关系式求任何计数器读数对应的录像时间。
二、
概率模型
概率模型一 报童问题
问题重述:报童每天清晨从报社购进报纸零售,晚上将没有卖掉的报纸退回。设报纸每份的购进价格为a ,零售价格为b ,退回价格为c 。报童应当如何确定每天购进报纸的数量以获得最大的收入?
模型分析:报童面临的问题是两个矛盾的进货方式:(1)进货太多,报纸不能完全卖出,将要赔钱;(2)进货太少,报纸不够卖,丧失了赚钱的机会。影响最终收入的两个因素:进货量n 与报纸的需求量r 。其中进货量是需要做出的决策变量,而需求量不是报童所能够控制的,是受到很多因素的影响(人流量、天气、行人对报纸的亲睐程度、其他报童的竞争),需求量是预先无法决定的,因此是一个不确定量,是一个随机变量。 模型建立与求解:
(1) 决策变量:进货量n ;
(2) 目标函数:收入G 与进货量之间的函数关系
⎩⎨
⎧
≤---->-==n
r r n c b r b a n
r n b a n G G )
)(()()()( (3) 需求量的分布:假设需求量r 的分布函数为 ,2,1,0),()(===k k f k r P 。 (4) 优化模型:)(max n G 。但是注意到)(n G 是一个随机目标,因此求其最大值是没
有意义的,需要对优化目标函数进行修改。修改的结果应当使得目标函数的最大值有意义,最典型的是化为确定函数,与随机变量相对应的确定函数是该随机变量的数学期望(可以理解为平均收入)。因此优化目标函数用期望收入)(n G 代替。下面主要是要计算)(n G (注意到报纸的份数取值为整数):
∑∑∞
+==-+
----=1
)()()()])(()[()(n r n
r r nf b a r f r n c b r b a n G
该问题很难求解,为了求解的需要将上述函数进行连续化,注意到离散求和的连续化为积分形式:
⎰⎰∞
+-+----=1
)()()()])(()[()(n n
dr r nf b a dr r f r n c b r b a n G
问题可以变形为)(max n G ,这是一个单变量无约束的函数最值问题,按照计算规则,由
0)(='n G 可以得到最终解
)()()()()()()()()()()()()(0
=-+--=-+-----='⎰⎰⎰⎰∞
∞
n
n
n
n
dr r f b a dr r f c b dr
r f b a n nf b a dr r f c b n nf b a n G