[1]数据分析处理
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
原因,作为处理异常值的依据。 3. 根据经验和实际背景知识做出实验数据的检
查修正,异常数据的舍弃处理。
例3 施肥效果分析
2020/4/27
9
§2 经 验 模 型
一.基于数据分析的建模方法 在建立数学模型的过程中,经常需要建立变
量之间的关系,但往往由于对研究对象的内部机 理不甚了解,不能通过合理的假设,或根据物理 定律、原理,经过机理分析法而得到。
2. 海浪潮高度x 随时间t 的数据散布图。
3)选择函数关系形式。
原则
1. 形式尽可能简洁,尽可能线性化;
2. 依据实际问题的精度要求,合乎实际规律。
续例2.1 选择幂函数 W= cH a , 描述身
高体重关系。
优点: 此函数可以线性化。
2020/4/27
16
两边取对数,有
lnW a ln H ln c 令 y lnW , x ln H,b ln c
第五讲 数据分析处理
Βιβλιοθήκη Baidu
建立数学模型 目的
解决现实问题
真实世界的背景不容忽视 需要收集、分析背景数据
数据作用于模型的形式:
初期:寻求变量间的关系 中期:模型参数估计 后期:模型检验
2020/4/27
1
1. 建立数学模型的初始研究阶段,对数据的 分析有助于寻求变量间的关系 部分模型完全建立在数据的基础上
如数据拟合以及经验模型
2. 利用数据来估计模型中出现的参数值,称 为模型参数估计
3. 利用数据进行模型检验:通常用实际数据 对模型得到的理论值进行检验
数据是建立数学模型的重要依据!
2020/4/27
2
§1 数据的收集与整理
各种类型的数据为我们认识事物的内在规律、 研 究事物之间的关系、预测事物今后的可能发 展等一 系列问题,提供了丰富的材料和科学依 据。
2020/4/27
25
称为一元线性回归模型,其残差平方和为 n S= ( yi a bxi )2
i 1
对S 分别求关于 a, b 的偏导数,并令其等于零
得
n
2
i 1
n
( yi
a
bxi )
0,
2 i1 ( yi a bxi )xi 0
整理得正规方程(组)如下:
2020/4/27
26
2020/4/27
23
x(109) = 2.4cos(5.11×109) -2.7sin(5.11×109) =2.4cos(55.7)-2.7sin(55.7) =2.4cos(5.430-2.7sin(55.7)≈3.6(米)
误差分析:这一时刻潮位的实际观察值为4.1
米,相对误差大约是12%,请考虑一下成因。 思考:仔细分析图5.5,可发觉图中
2020/4/27
19
§3 模型的参数估计
数学建模的一个重要工作是建立变量间的数 学关系式,但公式中几乎总是涉及一些参数。
如用下面三个数学式描述肥素的施肥水平对 土豆产量的影响:
氮肥: y=b0十b1x+b3x2
磷肥:y
a
1 be x
或 y=A-Be-Cx
要得到最终可应用于实际的经验模型, 必须确定公式中的各个参数。
2020/4/27
12
插值法的基本思想:寻找 f(x)的近似替代函数
φ(x), 在插值节点xi 上满足 φ(xi)=yi, (i=1,2,…,n),
其余点用φ(x)近似替代f(x ),称φ(x)为f(x)的
插值函数。
最小二乘法基本思想:寻找 f (x)的近似替代函数
φ(x),使
min.
n
(
f
( xi
x(t)=asin(bt)+ccos(bt)
(2)
需估计振幅 a 和 频率b
解决方法:直接量出高低浪之间的高度差为
6.6米,
aˆ 3.3(米)
2020/4/27
22
量出海浪变化周期约为12.3小时
2 12.3
bˆ 0.511 (每小时)
b
得经验模型 x(t)=3.3sin[0.511(t-t*)] t≥0。
土豆产量的经验公式
y
0.0232
1 0.0073
ex
x≥0
分析:有 lim y 43 ,与目测法的结论惊人一致。
x
例3.2 若 用威布尔函数作为磷施肥量和土
豆产量 的回归函数
y=43-Be-Cx, x≥0
令 z=43-y,得
z =Be-Cx, x≥0
两边取对数,有
2020/4/27
29
lnz=lnB-Cx 相对于新变量x,lnz,这是一元线性函数。
两 类
一类是已知规律(函数)的测试数 据(在特定时间点或距离上的数据)。
数 据
另一类数据呈现随机性,可看成具 有某种概率分布的随机样本值。
2020/4/27
11
针对两种不同类型的数据,有不同的建立 模型方法:
1. 数据拟合法(适用于第一类数据) 基本思想: 已知函数 y= f(x) 的一组测试数据 (xi,yi), (i=1,2,…,n), 要寻求一个函数ψ(x),使ψ(x)对上述测试数据 的误差较小,即ψ(xi)≈yi,于是可以用ψ(x)来 近似替代f (x)。 常用的数据拟合方法:一般插值法、最小二 乘法、样条函数光顺法等。
2020/4/27
30
变换为线性函数 y= ax + b
例2.2 可选二次函数 y=b0 + b1 x +b2 x2
描述氮肥施肥量与土豆产量间的变量关系。
注:其中 b0= y(0) = 15.18 关于磷肥施肥量和土豆产量的变量关系可选择 威布尔模型:
y A BeKx , x 0
2020/4/27
17
合理性 有 1. x , y A;
Y=μ(x)+ε,ε~N(0,σ2)
令 yˆ =μn(xi),i=1,2,…n ,n,称
S = ( yi yˆi )2 [ yi (xi )]2
i 1
i 1
为模型的残差平方和。
应选取μ(x)中的未知参数,使S达最小值。 当回归函数为μ(x)=a +bx,回归模型
Y=a + b x+ε,ε~N(0,σ2)
过失误差: 明显歪曲实验结果的误差。
❖ 可以识别、并加以处理。
2020/4/27
7
在实验数据中,三类实验误差常常 同时错综复杂的存在着。
重
控制实验数据的质量
要
整理实验数据
工
作
消除实验误差
2020/4/27
8
误差的处理方法: 1. 用统计检验方法检验出异常数据; 2. 尽可能寻找产生异常点的技术上或物理上的
特点:统计分析法应用于变量间存在相关关系 的情形,并且需要较多数据为基础。
3.机理分析法 通过对问题的内部机理进行分析,找出变量
间的因果关系,从而确定出参数。
例3.3 录像机磁带计数器模型
注 1.由于数据个数太少,不能用统计法估计参数
2. 这里采用机理分析法求参数的估计值,可 利用的数据个数已是允许的最少个数了。
例1 开水房拥挤成因分析数据采集 需要什么形式的数据,与建模目的和所选择 的模型的特点有关。
例2 渡口模型数据性质
收集数据并非多多益善 ,要善于剔除冗余数据
2020/4/27
5
用数学模型描述现实问题,模型中参数的估计、 模型的求解以及模型的合理性很大程度取决于数 据的准确可信。
实验数据中总存在实验误差
在建模工作的各个环节,实验误差都可能 造成失之毫厘,谬之千里的失误。
2020/4/27
6
随机误差: 由一系列偶然因素引起的一类 不易控制的测量误差。
❖ 无法避免,可增加试验次数,取算术
实 平均来减小。
验
系统误差:
实验观察过程中服从确定性规 律的误差。
误 ❖ 不能通过增加实验次数求算术平均值
差 来消除。但可用其他方法识别、消除。
(1 ) x=0似乎不是海浪高低潮位的中值;
(2) 振幅随时间的延续似乎在轻微地增大。
我们怎样考虑这些细节来修改模型,以获得 更准确的预报呢?
2. 统计法
参数估计的统计处理,往往运用最小二乘法
估计。 2020/4/27
24
设有一组样本值: (x1,y1),(x2,y2),…,(xn,yn), 对选定的一元回归函数μ(x),回归模型为
2020/4/27
21
例3.2(见P158例7.2.1) 表中给出了12月1日 (星期二)和12月2日(星期三)两天内的海浪 潮高度值(相对于海堤上的零标尺记号,以米 为单位)。我们能依据此表来预测12月5日(星 期六)下午1:00的海浪高度值吗?
分析: 根据对数据散布图的分析,采用函数
x(t)=asin[b(t-t*)], 其中x(t* )=0 (1) 或采用函数
将频率的估计代入(2)式,有
x(t)=asin(0.511t)+ccos(0.511t)
代入x(0)=c=2.4 及 x(23)=3.6
aˆ 2.7
得关于海浪潮随时间变化的另一经验模型
x(t)=2.4cos(0.511t)-2.7sin(0.511t), t≥0。 模型应用
预测12月5日下午1:00的海浪潮高度为
如何收集、整理和分析数据, 挖掘有用结果?
2020/4/27
3
着手建立模型时,关于数据需考虑以下问题:
1. 需要哪些以及何种形式的数据? 2.如何去获得数据? 怎样表达数据? 3. 如何对数据进行整理、分析?
图书馆文件检索
获 取
网上资料检索
方
询问相关部门人员
式
试验、观察并记录
2020/4/27
4
例1 有人想分析出一所大学开水房拥挤的 原因,并提出解决方案。
可借助于由实验或测量得到的一批离散数据, 通过对数据充分观察和分析,获得数据所含信息, 揭示变量间的内在联系,并选择适当的数学式对 变量间的关系进行拟合,建立经验模型,或者进 行数据曲线拟合。
2020/4/27
10
两 类
确定性关系:确定的函数关系。
变
量 相关关系:存在相依关系,但未达到
关 系
相互确定的程度。
)
( xi
))2
i1
2. 回归分析方法 对于随机数据进行拟合,用到统计学中的回归
分析方法。
2020/4/27
13
二.经验模型的建立
以上两种建模方法都是建立在对数据进行充分
分析的基础上。 寻找或选择适当的函数拟合变量之间的关系
(函数关系或回归关系)是重要的环节。
一
1)绘制数据散布图(或连线图);
般 2)分析数据散布图(或连线图) ;
i 1
部分非线性回归函数经变量代换可化为线性 函数,利用线性参数估计公式进行估计,如
例3.1 磷施肥量和土豆产量 的回归函数选为
y 1 a be x
令 y 1 , x ex y
y a bx
对数据进行相应变换,可估计出
2020/4/27
28
aˆ = 0.0232, bˆ = 0.0073,得到磷施肥量和
2. y(0) A B;
3. y是单调升函数;
也可以选择S 函数:
y
1
,x 0
a be x
S函数也满足:
1.当 x , y
2.
y(0)
1; ab
1 a
;
3. y 是单调升函数;
哪个模 型更好?
2020/4/27
18
分析:S 模型所含参数更少,另外若令
y 1 , x ex, y
可得线性模型 y a bx
例2.1 建立一个简洁的函数关系式来描述 某个地区人的身高和体重的对应关系,数据见表 7.4(p156)。
曲线特征是体重W 随身高H 的增长而单调增 长,但可以观察到是非线性增长。
2020/4/27
15
练习 试分析
1. 氮施肥量N、磷施肥量 P 关于土豆产量的数 据散布图(P157图7.2及图7.3)。
步
骤 3)选择函数关系形式。
通过分析数据散布图可以获得对变量间关系
的感性认识,形成初步的看法,以便于对问题
做进一步的分析。
2020/4/27
14
2)分析数据散布图; 对数据散布图进行分析,可以分析出变量的 关系是:
1)线性的还是非线性的? 2)有无周期性? 3)呈现何种变化趋势?变化率如何? …,等等有用的初步结论。
na
n
b xi
i 1
n
yi ,
i 1
ain1xi
b
n
xi2
i 1
n
xi yi
i 1
有
bˆ
lxy lxx
aˆ y bˆx
一元线性回 归模型参数 估计公式
其中
1n x n i1 xi ,
y
1 n
n i 1
yi
2020/4/27
27
n
lxx (xi x)2
i 1 n
lxy (xi x)( yi y)
2020/4/27
20
求模型中参数的估计值有三种常用方法: 图解法、统计法、机理分析法
1.图解法 对经验模型的精度要求不高,只需对参数做
出粗略估计时可采用图解法。 例3.1 磷施肥量与土豆产量的关系式
y=A-Be-Cx
需估计三个参数A、B、C,观察图7.3,数据 点都位于直线 y=43的下方,并且数据点越来越靠 近这条直线,可以估计A=43 。
查修正,异常数据的舍弃处理。
例3 施肥效果分析
2020/4/27
9
§2 经 验 模 型
一.基于数据分析的建模方法 在建立数学模型的过程中,经常需要建立变
量之间的关系,但往往由于对研究对象的内部机 理不甚了解,不能通过合理的假设,或根据物理 定律、原理,经过机理分析法而得到。
2. 海浪潮高度x 随时间t 的数据散布图。
3)选择函数关系形式。
原则
1. 形式尽可能简洁,尽可能线性化;
2. 依据实际问题的精度要求,合乎实际规律。
续例2.1 选择幂函数 W= cH a , 描述身
高体重关系。
优点: 此函数可以线性化。
2020/4/27
16
两边取对数,有
lnW a ln H ln c 令 y lnW , x ln H,b ln c
第五讲 数据分析处理
Βιβλιοθήκη Baidu
建立数学模型 目的
解决现实问题
真实世界的背景不容忽视 需要收集、分析背景数据
数据作用于模型的形式:
初期:寻求变量间的关系 中期:模型参数估计 后期:模型检验
2020/4/27
1
1. 建立数学模型的初始研究阶段,对数据的 分析有助于寻求变量间的关系 部分模型完全建立在数据的基础上
如数据拟合以及经验模型
2. 利用数据来估计模型中出现的参数值,称 为模型参数估计
3. 利用数据进行模型检验:通常用实际数据 对模型得到的理论值进行检验
数据是建立数学模型的重要依据!
2020/4/27
2
§1 数据的收集与整理
各种类型的数据为我们认识事物的内在规律、 研 究事物之间的关系、预测事物今后的可能发 展等一 系列问题,提供了丰富的材料和科学依 据。
2020/4/27
25
称为一元线性回归模型,其残差平方和为 n S= ( yi a bxi )2
i 1
对S 分别求关于 a, b 的偏导数,并令其等于零
得
n
2
i 1
n
( yi
a
bxi )
0,
2 i1 ( yi a bxi )xi 0
整理得正规方程(组)如下:
2020/4/27
26
2020/4/27
23
x(109) = 2.4cos(5.11×109) -2.7sin(5.11×109) =2.4cos(55.7)-2.7sin(55.7) =2.4cos(5.430-2.7sin(55.7)≈3.6(米)
误差分析:这一时刻潮位的实际观察值为4.1
米,相对误差大约是12%,请考虑一下成因。 思考:仔细分析图5.5,可发觉图中
2020/4/27
19
§3 模型的参数估计
数学建模的一个重要工作是建立变量间的数 学关系式,但公式中几乎总是涉及一些参数。
如用下面三个数学式描述肥素的施肥水平对 土豆产量的影响:
氮肥: y=b0十b1x+b3x2
磷肥:y
a
1 be x
或 y=A-Be-Cx
要得到最终可应用于实际的经验模型, 必须确定公式中的各个参数。
2020/4/27
12
插值法的基本思想:寻找 f(x)的近似替代函数
φ(x), 在插值节点xi 上满足 φ(xi)=yi, (i=1,2,…,n),
其余点用φ(x)近似替代f(x ),称φ(x)为f(x)的
插值函数。
最小二乘法基本思想:寻找 f (x)的近似替代函数
φ(x),使
min.
n
(
f
( xi
x(t)=asin(bt)+ccos(bt)
(2)
需估计振幅 a 和 频率b
解决方法:直接量出高低浪之间的高度差为
6.6米,
aˆ 3.3(米)
2020/4/27
22
量出海浪变化周期约为12.3小时
2 12.3
bˆ 0.511 (每小时)
b
得经验模型 x(t)=3.3sin[0.511(t-t*)] t≥0。
土豆产量的经验公式
y
0.0232
1 0.0073
ex
x≥0
分析:有 lim y 43 ,与目测法的结论惊人一致。
x
例3.2 若 用威布尔函数作为磷施肥量和土
豆产量 的回归函数
y=43-Be-Cx, x≥0
令 z=43-y,得
z =Be-Cx, x≥0
两边取对数,有
2020/4/27
29
lnz=lnB-Cx 相对于新变量x,lnz,这是一元线性函数。
两 类
一类是已知规律(函数)的测试数 据(在特定时间点或距离上的数据)。
数 据
另一类数据呈现随机性,可看成具 有某种概率分布的随机样本值。
2020/4/27
11
针对两种不同类型的数据,有不同的建立 模型方法:
1. 数据拟合法(适用于第一类数据) 基本思想: 已知函数 y= f(x) 的一组测试数据 (xi,yi), (i=1,2,…,n), 要寻求一个函数ψ(x),使ψ(x)对上述测试数据 的误差较小,即ψ(xi)≈yi,于是可以用ψ(x)来 近似替代f (x)。 常用的数据拟合方法:一般插值法、最小二 乘法、样条函数光顺法等。
2020/4/27
30
变换为线性函数 y= ax + b
例2.2 可选二次函数 y=b0 + b1 x +b2 x2
描述氮肥施肥量与土豆产量间的变量关系。
注:其中 b0= y(0) = 15.18 关于磷肥施肥量和土豆产量的变量关系可选择 威布尔模型:
y A BeKx , x 0
2020/4/27
17
合理性 有 1. x , y A;
Y=μ(x)+ε,ε~N(0,σ2)
令 yˆ =μn(xi),i=1,2,…n ,n,称
S = ( yi yˆi )2 [ yi (xi )]2
i 1
i 1
为模型的残差平方和。
应选取μ(x)中的未知参数,使S达最小值。 当回归函数为μ(x)=a +bx,回归模型
Y=a + b x+ε,ε~N(0,σ2)
过失误差: 明显歪曲实验结果的误差。
❖ 可以识别、并加以处理。
2020/4/27
7
在实验数据中,三类实验误差常常 同时错综复杂的存在着。
重
控制实验数据的质量
要
整理实验数据
工
作
消除实验误差
2020/4/27
8
误差的处理方法: 1. 用统计检验方法检验出异常数据; 2. 尽可能寻找产生异常点的技术上或物理上的
特点:统计分析法应用于变量间存在相关关系 的情形,并且需要较多数据为基础。
3.机理分析法 通过对问题的内部机理进行分析,找出变量
间的因果关系,从而确定出参数。
例3.3 录像机磁带计数器模型
注 1.由于数据个数太少,不能用统计法估计参数
2. 这里采用机理分析法求参数的估计值,可 利用的数据个数已是允许的最少个数了。
例1 开水房拥挤成因分析数据采集 需要什么形式的数据,与建模目的和所选择 的模型的特点有关。
例2 渡口模型数据性质
收集数据并非多多益善 ,要善于剔除冗余数据
2020/4/27
5
用数学模型描述现实问题,模型中参数的估计、 模型的求解以及模型的合理性很大程度取决于数 据的准确可信。
实验数据中总存在实验误差
在建模工作的各个环节,实验误差都可能 造成失之毫厘,谬之千里的失误。
2020/4/27
6
随机误差: 由一系列偶然因素引起的一类 不易控制的测量误差。
❖ 无法避免,可增加试验次数,取算术
实 平均来减小。
验
系统误差:
实验观察过程中服从确定性规 律的误差。
误 ❖ 不能通过增加实验次数求算术平均值
差 来消除。但可用其他方法识别、消除。
(1 ) x=0似乎不是海浪高低潮位的中值;
(2) 振幅随时间的延续似乎在轻微地增大。
我们怎样考虑这些细节来修改模型,以获得 更准确的预报呢?
2. 统计法
参数估计的统计处理,往往运用最小二乘法
估计。 2020/4/27
24
设有一组样本值: (x1,y1),(x2,y2),…,(xn,yn), 对选定的一元回归函数μ(x),回归模型为
2020/4/27
21
例3.2(见P158例7.2.1) 表中给出了12月1日 (星期二)和12月2日(星期三)两天内的海浪 潮高度值(相对于海堤上的零标尺记号,以米 为单位)。我们能依据此表来预测12月5日(星 期六)下午1:00的海浪高度值吗?
分析: 根据对数据散布图的分析,采用函数
x(t)=asin[b(t-t*)], 其中x(t* )=0 (1) 或采用函数
将频率的估计代入(2)式,有
x(t)=asin(0.511t)+ccos(0.511t)
代入x(0)=c=2.4 及 x(23)=3.6
aˆ 2.7
得关于海浪潮随时间变化的另一经验模型
x(t)=2.4cos(0.511t)-2.7sin(0.511t), t≥0。 模型应用
预测12月5日下午1:00的海浪潮高度为
如何收集、整理和分析数据, 挖掘有用结果?
2020/4/27
3
着手建立模型时,关于数据需考虑以下问题:
1. 需要哪些以及何种形式的数据? 2.如何去获得数据? 怎样表达数据? 3. 如何对数据进行整理、分析?
图书馆文件检索
获 取
网上资料检索
方
询问相关部门人员
式
试验、观察并记录
2020/4/27
4
例1 有人想分析出一所大学开水房拥挤的 原因,并提出解决方案。
可借助于由实验或测量得到的一批离散数据, 通过对数据充分观察和分析,获得数据所含信息, 揭示变量间的内在联系,并选择适当的数学式对 变量间的关系进行拟合,建立经验模型,或者进 行数据曲线拟合。
2020/4/27
10
两 类
确定性关系:确定的函数关系。
变
量 相关关系:存在相依关系,但未达到
关 系
相互确定的程度。
)
( xi
))2
i1
2. 回归分析方法 对于随机数据进行拟合,用到统计学中的回归
分析方法。
2020/4/27
13
二.经验模型的建立
以上两种建模方法都是建立在对数据进行充分
分析的基础上。 寻找或选择适当的函数拟合变量之间的关系
(函数关系或回归关系)是重要的环节。
一
1)绘制数据散布图(或连线图);
般 2)分析数据散布图(或连线图) ;
i 1
部分非线性回归函数经变量代换可化为线性 函数,利用线性参数估计公式进行估计,如
例3.1 磷施肥量和土豆产量 的回归函数选为
y 1 a be x
令 y 1 , x ex y
y a bx
对数据进行相应变换,可估计出
2020/4/27
28
aˆ = 0.0232, bˆ = 0.0073,得到磷施肥量和
2. y(0) A B;
3. y是单调升函数;
也可以选择S 函数:
y
1
,x 0
a be x
S函数也满足:
1.当 x , y
2.
y(0)
1; ab
1 a
;
3. y 是单调升函数;
哪个模 型更好?
2020/4/27
18
分析:S 模型所含参数更少,另外若令
y 1 , x ex, y
可得线性模型 y a bx
例2.1 建立一个简洁的函数关系式来描述 某个地区人的身高和体重的对应关系,数据见表 7.4(p156)。
曲线特征是体重W 随身高H 的增长而单调增 长,但可以观察到是非线性增长。
2020/4/27
15
练习 试分析
1. 氮施肥量N、磷施肥量 P 关于土豆产量的数 据散布图(P157图7.2及图7.3)。
步
骤 3)选择函数关系形式。
通过分析数据散布图可以获得对变量间关系
的感性认识,形成初步的看法,以便于对问题
做进一步的分析。
2020/4/27
14
2)分析数据散布图; 对数据散布图进行分析,可以分析出变量的 关系是:
1)线性的还是非线性的? 2)有无周期性? 3)呈现何种变化趋势?变化率如何? …,等等有用的初步结论。
na
n
b xi
i 1
n
yi ,
i 1
ain1xi
b
n
xi2
i 1
n
xi yi
i 1
有
bˆ
lxy lxx
aˆ y bˆx
一元线性回 归模型参数 估计公式
其中
1n x n i1 xi ,
y
1 n
n i 1
yi
2020/4/27
27
n
lxx (xi x)2
i 1 n
lxy (xi x)( yi y)
2020/4/27
20
求模型中参数的估计值有三种常用方法: 图解法、统计法、机理分析法
1.图解法 对经验模型的精度要求不高,只需对参数做
出粗略估计时可采用图解法。 例3.1 磷施肥量与土豆产量的关系式
y=A-Be-Cx
需估计三个参数A、B、C,观察图7.3,数据 点都位于直线 y=43的下方,并且数据点越来越靠 近这条直线,可以估计A=43 。