第七章-数据处理
第七章 结构试验的数据处理
第一节 数据的整理和换算 第二节 误差分析 第三节 数据的表达
第一节 数据的整理和换算
数据的整理:剔除不可靠或不可信数据和统一数据 精度;
数据的换算:把整理后的试验数据通过基础理论来 计算另一物理量的过程。 《数值修约规则》(P239页)。
四舍五入??
ห้องสมุดไป่ตู้
3、过失误差
人为产生的差错。
第二节 误差分析
误差:真值与测试值的差值,由于真值无法测试, 所以通常用平均值代替真值。
一、误差的分类(P238) 1、系统误差(准确度表示) 由某些固定原因所造成,在整个测试过程中始终存 在,其绝对值和符号保持一定规律变化。
2、随机误差(精密度表示)
由随机因素造成,其绝对值和符号变化无常,但是 符合正态分布。
第七章静态测试数据处理
而在一般测量工作中,测量次数远小于370次,因此,如果
出现绝对值大于3 的误差,就可以认为,这个误差属于过失 误差。因此,可以把3 作为区分随机误差和过失误差的一种
界限。
图7-3是标准差 与测量次数n的关系曲线,从图中可以
看出,当测量次数较少时,增加测量次数,可明显减小测量 误差;但当测量的次数超过15~20次时,再增加测量次数, 则测量误差几乎不变。
测试误差按其性质的不同分为三类,即: 系统误差 随机误差 过失误差(粗大误差 )
系统误差 保持一定数值或按一定规律变化的误 差,称为系统误差。如:由于仪器标度尺刻划的不 准确;测量者观察仪器指针时习惯于斜视等原因引 起的误差,就具有系统误差的特性。
随机误差 即使在相同的条件下,对同一参数重 复的进行多次测量,所得到的测定值也不可能完全 相同。其测量误差具有各不相同数值与符号,这种 误差称为随机误差。
分布检验法
因为随机误差服从正态分布,所以只包含随机 误差的测定值也服从正态分布。如果发现测定值不 服从正态分布,就有理由怀疑测定值中包含变化的 系统误差,这就是分布检验法的基本思想。显然, 分布检验法只适用于重复测量次数足够多的情况。
3)系统误差的消除
由于产生系统误差的原因非常复杂,消除系统误 差不可能有统一的方法,因此需根据具体情况,采取 适当的措施。消除系统误差可从以下两方面着手。
第七章 静态测试数据处理
本章的主要内容有测量误差、测量 列的处理步骤与测量结果的表达、一元 线性回归和多元线性回归方法等。
7.1 测量误差
一、测试精度与误差 测试精度:又称为精确度,用来描述测量结果与真值的接近 程度。 测试误差:在任何测量中,由于各种因素的影响,测量所 得到的数值与被测参数的真值不可能完全相同,而总会有差 别,这个差别称为测试误差。
误差理论与数据处理第七章动态测试数据处理基本方法
误差理论与数据处理第七章动态测试数据处理基本方法第七章《动态测试数据处理基本方法》是《误差理论与数据处理》一书中的重要章节。
本章主要介绍了动态测试数据处理的基本方法,包括对动态测试数据进行平均处理、标准差处理、最小二乘法拟合以及误差传递等内容。
首先,动态测试数据处理一般需要进行数据平均处理,通过多次测试得到的数据进行求和并取平均值,以提高测试结果的准确度和可信度。
对于多次测试的数据,可以使用算术平均法、几何平均法或加权平均法等方法进行平均处理。
其次,动态测试数据的标准差处理是对数据的离散程度进行衡量的一种方法。
标准差可以反映数据的稳定性和可靠性,通过计算数据的标准差可以判断数据的散布范围。
标准差越小表示数据集中度越高,数据的可信度也越高。
进一步,最小二乘法拟合是一种常用的数据处理方法,可以通过对实际测量数据进行拟合,得到一条或多条曲线,以求解相关物理参数或者确定拟合曲线的函数表达式。
最小二乘法拟合可以将实际测量数据与拟合曲线之间的差异最小化,得到最优解。
最后,误差传递是动态测试数据处理中一个重要的概念。
在实际测试中,各种测量仪器的误差是不可避免的,这些误差会传递到最终的测试结果中。
误差传递原理可以通过误差传递公式来描述,同时也需要考虑误差的传递规律和误差的传递方式。
总之,动态测试数据处理是现代科学实验中必不可少的一个环节。
通过对动态测试数据进行平均处理、标准差处理、最小二乘法拟合以及误差
传递等基本方法的应用,可以提高数据的准确性和可信度,为科学实验的研究结果提供有力支撑。
误差和分析数据处理
第二节 误差及其表示方法
为了减小误差,提高分析结果的准确度,必须了解 分析过程中各种误差的来源及规律,正确设计和控 制卫生分析的测试过程,对实验数据进行正确处理, 使分析误差减小到预期水平。 一、误差(error) (一) 误差的分类、产生的原因及消除方法 误差按其性质和产生的原因,可以分为系统误差、 随机误差和过失误差。
第七章 误差和分析数据处理
第一节 概述 第二节 误差及其表示方法 第三节 数据处理 第四节 质量控制简介
第一节 概 述
一、分析数据的质量 检测数据的质量包括:(1)代表性:决定
于调查或取样的方案,采样人员的资职和技能, 样品的采集、保存与运输的技术。(2)可靠 性:决定于分析技术,它由数据的精密度和准 确度组成。(3)可比性:是指在权威性
2、随机误差(random error)
(1) 在系统误差已消除的情况下,测量结果减去在相同条 件下对同一被测物进行无限多次测量结果的平均值即为随机 误差。
随机误差遵从正态分布,具有如下特点: a. 有界性; b. 单峰性; c. 对称性; d. 抵偿性。 (2) 产生的原因 是大量随机因素造成的误差的迭加。 (3) 减小随机误差的方法 增加测量次数。
不确定度的A类评定 用对观测列进行统计分析的方法来评定标准不确定度,
称为不确定度A类评定;所得到的相应标准不确定度称为A类 不确定度分量。它是用实验标准偏差来表征。 不确定度的B类评定
用不同于对观测列进行统计分析的方法来评定标准不确 定度,称为不确定度B类评定;所得到的相应标准不确定度 称为B类不确定度分量。它是用实验或其他信息来估计,含 有主观鉴别的成分。 对于某一项不确定度分量究竟用A类方法评定,还是用B类方 法评定,应有测量人员根据具体情况选择。B类评定方法应 用相当广泛。
第七章 工程的变形监测和数据处理
• 3、运动模型: • ①回归模型(缺点:回归多项式过于简 单;每个点都模拟相同的速度和加速度; 相邻点间相差很大,产生不连续。) • ②卡尔曼滤波模型(优点:有严密的递 推算法;不需要保留使用过的观测值序 列;可把模型参数预计与预报结合起 来。) • 4、动态模型: • 不仅研究点的运动,同时还研究引起运 动的作用力。
变形模型
• 一、变形影响因子和动态变形模型 变形影响因子和动态变形模型 • 1、变形影响因子--引起变形的原因。它包 括:地壳运动、基础变形、地下开采、地下 水位变化、建筑荷载等。 • 2、动态变形数学模型:
y (t ) = ∫ g (t ) x(t − T )dT
0
∞
• • • •
二、典型动态变形模型 典型动态变形模型 分类: 周期模型 非周期模型:[跳跃变化(突变)、线性变 化(渐变)] • 突变模型:
变形监测资料整理、 变形监测资料整理、成果表达和解释
• 一、资料整理 资料整理: • 1、资料整理——对原始资料进行汇集、 审核、整理、编排,使之集中、系统化、 规格化和图表化,并刊印成册。
• 2、资料整理的目的: • 便于应用分析; • 提供资料和归档保存。
• 3、资料整理的内容: • ①收集资料; • ②审核资料; • ③填表和绘图; • ④编写整理成果说明。 • 4、观测资料分析分类: • 定性分析;定量分析;定期分析; 不定期分析;综合分析。
• 三、测量方法选择所应考虑的问题: 测量方法选择所应考虑的问题: • 1、测量精度的确定: • 应尽可能采用所能获得的最好的仪器和技术, 达到其最高精度。 • 2、一周期内观测时间的确定: • 对于长周期可以考虑用大地测量技术; • 对于短周期可以考虑用摄影测量或自动化测 量。 • 3、监测费用的确定: • ①、建立检测系统的一次性花费。 • ②、每一个观测周期花费。 • ③、维护和管理费。
第7章 快速成型技术中的数据处理
第一节 CAD三维模型的构建方法
1.2 反求工程
新产品开发过程中的另一条重要路线就是样件的反求。反求工程技 术(Reverse Engineering,RE)又称逆向工程技术,是20世纪80年代末期 发展起来的一项先进制造技术,是以产品及设备的实物、软件(图纸、程
序及技术文件等)或影像(图片、照片等)等作为研究对象,反求出初始的
第二节 STL数据文件及处理
2. STL的二进制文件格式
二进制文件采用IEEE类型整数 和浮动型小数。文件用84字节的头文 件和50字节的后述文件来描述一个三 角形。 注意到每个面目录都是50个字节, 如果是所生成的 STL 文件是由 10000 个小三角形构成的,再加上84字节的 头文件,该二进制STL文件的大小便 是84+50×10000 =500084 B≈0.5MB。 若同样的精度下,采用 ASCII 形式输 出该 STL 文件,则此时的 STL 文件的 大小约为6×0.5MB=3.0MB。
第二节 STL数据文件及处理
2.1 STL文件的格式
STL文件的主要优势在于表达简单清
晰,文件中只包含相互衔接的三角形片面
节点坐标及其外法矢。STL数据格式的实 质是用许多细小的空间三角形面来逼近还
原CAD实体模型,这类似于实体数据模型
的表面有限元网格划分,如图7-5所示。 STL模型的数据是通过给出三角形法向量 的三个分量及三角形的三个顶点坐标来实 现的。STL文件记载了组成STL实体模型 的所有三角形面,它有二进制(BINARY) 和文本文件(ASCII)两种形式。
第七章 快速成型技术中的数据处理
1
2 3 4 5
CAD三维模型的构建方法
STL数据文件及处理 三维模型的切片处理 STL数据编辑与处理软件Magics RP CT图像数据处理软Mimics
误差理论第七章动态测量数据处理
Sx ( f )
Gx ( f )
(3) Gx ( f ), S x ( f )
0 (4) S x ( f ) 的特性 S x ( f ) 是非负实偶函数 S x ( )
f
傅立叶变换
Rx ( )
17
§7-3 随机过程特征量的实际估计
一、平稳随机过程及其特征量 (一)平稳随机过程
若随机过程x(t)的所有特征量与t无关,即其特征量不随 t 的推移而变化,则称x(t)为平稳随机过程。否则称为非平 稳随机过程。
(三)自相关函数(相关函数)
反映随机过程不同时刻之间的相关程度。即:
Rx (t , t ) E[{x(t ) mx (t )}{x(t ) mx (t )}]
Rx (t , t ) 标准自相关函数: x (t , t ) x (t ) x (t )
平稳随机过程据又分为各态历经和非各态历经。
8
动态测试数据
确定性数据 周期数据 正 弦 周 期 复 杂 周 期 非周期数据
随机过程数据
平稳过程 各 态 历 经 非 各 态 历 经
9
非平稳过程
准 周 期
瞬 态 数 据
§7-2 随机过程及其特征
一、研究随机过程理论的实际意义 由于被测量随时间、空间连续变化,导致测量过程和结果是 随时间而连续变化。
x(t )
x(t )
x(t )
0
平稳随 机过程
t 0
t 0
非平稳随 机过程
t
18
平稳随机过程的条件: ①随机过程是平稳的第一个条件是均值为常数;
mx (t ) mx C
②随机过程是平稳的第二个条件是其方差为常数;
第7章 调查数据的处理
录入 数据
利用SPSS进行数据管理
打开SPSS数据库→进入数据视图
(1)每一行代表一份问卷数据 (2)每一列代表一个变量
数据视图页面
本章结构
1. 审核数据的主要方法 2. 编码的规则 3. 利用SPSS管理数据 4. 清洗数据的主要方法
清洗数据
审核数据的主要方法
(2)审核数据的步骤
审核数据主要包括三个步骤,即检查问卷数据、接收问
卷数据和校对问卷数据。
第一步:检查问卷数据
内容包括: ①受访对象是否符合样本配额和问卷甄别要求; ②问卷回收是否超过了时限要求; ③问卷是否填写完整; ④是否存在规律性回答; ⑤是否存在没有按要求回答。 并尽可能了解其中的原因。
清洗数据
③离群值检测与处理
处理方法: 删除异常值个案 进行变量变换
不是关键变量时,设为缺失值。 ③放弃整份问卷。当不合要求问卷占样本量比例很小,且不
合要求的答案比例很大或者关键变量值缺失时,放弃整份问卷。 ④返回现场重新调查。当总体样本量很小,不合要求问卷比
例较高时(超过10%),根据问卷作业证明记载信息进行回访, 尽可能补上缺失值。
本章结构
1. 审核数据的主要方法 2. 编码的规则 3. 利用SPSS管理数据 4. 清洗数据的主要方法
利用SPSS进行数据管理
定义 打开SPSS数据库→进入数据视图→打开变量视图 变量
变量名
变量标签 变量值标签
需要定义
变量视图
变量度量标准
变量类型 缺失值
默认即可
变量显示格式
利用SPSS进行数据管理
定义变量名:
变量名建议采用 字母+数字形式
第七章 变形监测数据处理
i 0
§3 确定性模型和混合模型 第七章 变形监测数据处理
3.1 确定性模型 (2)确定性模型各分量的计算 ②温度分量: 分析资料,确定起始时刻,以此时刻测得的各测点温度、位 移、水位等为初始值,以初始温度代入有限元计算,得位移 值。逐次把每只温度计变化10℃,求出各温度计变化10 ℃ 时位移与初始位置差值,作为温度计系数:
T (t ) bi ( x, y, z )Ti (t )
i 1
k1
Ti (Ti T0 ), T (t ) Ti T0
k1 i 1
以参数y修正:
参数 y 是实际线胀系数与假设张胀系数之比。 co
fT (t ) y bi ( x, y, z)Ti (t )
1 统计模型及处理技术
2 统计模型在资料分析中的应用
3 确定性模型和混合模型
4 安全监测模型的数据诊断 5 变形监测的动态模型 6 灰关联分析及GM模型 7 人工神经网络基本原理及应用
§1 统计模型及处理技术 第七章 变形监测数据处理
变形分析任务:对具有一定精度的观测资料,通过合理 的数学模型,寻找出建筑物变形的时空分布情况及发展 规律;掌握变形量与各种内外因素的关系,确定出建筑 物变形是正常还是异常,防止变形朝不安全方向发展。
高层建筑物顶部位移:日照作用、大气温度、风力情况、 基础的不均匀沉陷、地下水位、渗流作用 大坝顶部位移:库水位、温度、坝基、渗流 回归分析:从数理统计理论出发,在进行了大量试验和 观测后,寻找出建筑物变形量与各种作用因素间关系的 方法。所建模型叫统计模型。
§1 统计模型及处理技术 第七章 变形监测数据处理
同步辐射应用基础(第七章XAFS 数据处理之) 研究生课程讲义
Athena软件功能简介
XAFS数据处理
1. 扣除边前本底及归一化 2. 确定E0及E‐k转换 3. 扣除原子吸收本底background 4. Fourier 变换 5. 反Fourier 变换
Athena软件功能简介 XAFS数据处理 - 1.扣除边前本底及归一化
Athena软件功能简介 XAFS数据处理 - 1.扣除边前本底及归一化
Athena软件功能简介 文件的打开和保存
Athena软件功能简介 文件的打开和保存
Athena软件功能简介 数据预处理 - 去除glitch和截断
数据预处理 - Deglitch
Athena软件功能简介
①选择plot方式 ②点击Choose a point ③ 在图形窗 口 上选 择需要去除的点(可 以放大显示) ④ 点击 Remove point
Athena软件功能简介 XAFS数据处理 - 3.扣除原子吸收本底Background
Athena软件功能简介 XAFS数据处理 -4.Fourier变换
Athena软件功能简介 XAFS数据处理 -4.Fourier变换
Athena软件功能简介 XAFS数据处理 -4.Fourier变换
XAFS数据处理的基本流程
充分理解 E空间、k空间、R空间三者之间的联系和转换关系是 掌握 XAFS 数据处理的关键
XAFS数据处理的一般步骤
在E空间中进行
XAFS数据处理的一般步骤
XAFS数据处理的基本流程
XAFS数据处理的一般步骤
Athena软件功能简介
Athena 软件简介 下载安装及界面介绍 Athena主要功能
Athena软件功能简介 XAFS数据处理 - 2.确定E0及E-k转换
C语言程序设计第七章 利用数组处理数据
一维数组的存储: 计算机中用连续的内存单元存放各个元素。 如:int a[5];其内存存储为:
保存数组所需内存量与数组元素的基本类型和数组大小有关。 总字节数=sizeof(基本类型)*数组元素个数 如上例:= sizeof(int)*5 第i个元素的地址=第1个元素的地址+i*sizeof(基本类型)
类型说明符 数组名[常量表达式]={值,值……值}; 其中在{ }中的各数据值即为各元素的初值,各值之间用逗号 间隔。 例如:
int a[10]={ 0,1,2,3,4,5,6,7,8,9 }; 相当于a[0]=0;a[1]=1...a[9]=9;
整理课件
C语言对数组的初始化赋值还有以下几点规定:
有 5个元素。但是其下标从0开始计算。因此5个元素分别为
a[0],a[1],a[2],a[3],a[4]。
不能在方括号中用变量来表示元素的个数, 但是可以是符
号常数或常量表达式。
例如:
#define FD 5
main( )
{ int a[3+2],b[7+FD];
……
}是合法的。
但是下述说明方式是错误的。
for (i=0; i<=9;i++) a[i]=i;
for(i=9;i>=0; i--) printf("%d ",a[i]);
printf("\n"); return 0; }
使a[0]~a[9]的值为0~9 先输出a[9],最后输出a[0]
整理课件
一维数组的初始化
数组初始化赋值是指在数组定义时给数组元素赋予初值。 初始化赋值的一般形式为:
for(i=0;i<1;i++) if (a[i]>a[i+1]) { ……}
第7章 分析化学中的数据处理 7.1 标准偏差(标准差或均方误差)
例1:某年全国参加高考的学生化学成绩平均值为μ=75分,
σ=10分,若满分为100分,总分为120分,计算:高于100分和 不及格(低于60分)学生的概率。
解:∵
∴
x =μ±σu
x =100时: | u ||
x
|
100 75 2.5 10
60 75 1.5 x =60时: 10 查P248-表7-2知:|u|=2.5时,P=0.4938 | u || |
y 1 0.399 2
(2)正负误差出现的机会均等;
(3)大误差出现的概率小,小 误差出现的概率大。
7.2.3随机误差的区间概率
实际分析工作中,对误差有两类问题需回答:
(1)某一给定范围的测定,这些测定出现的机会是
多少?
(2)为保证测定有一定把握,这些测定的误差可以
要求在什么范围内? 以上这些问题的回答都要知道误差的区间概率, (即概率密度的积分)
同理:
单次测量的 d (δ)与平均值的 d X ( X 间也有: )
X
n
(无限次测量)
dX
d n
(有限次测量)
7.2 随机误差的正态分布
7.2.1频数分布 频数(ni)——每组中出现的数据个数
ni n ni ——相对频数(或频率) ni
ni ns
——频率密度
ni 以频数(或频率密度) ~组值范围 ns 作图,得频数(或频率密度)分布
例4:某班学生117个数据基本遵从正态分布N(66.62,(0.21)2),
求测量值落在(66.15~67.04)中的概率。 x | u || | 解:∵μ=66.62,σ=0.21,而 ∴当 x1=67.04时, | u || 67.04 66.62 | 2.0 ,查得P1=0.4773
08_第七章_导线测量数据处理
第七章导线测量数据处理第七章导线测量数据处理根据不同类型的测量方法对测量原始数据进行处理,这个处理过程与物探测线(三维测线、二维测线、非地震测线)无关,只是在原始数据处理之后,生成了每个观测物理点的实测坐标结果,才对物理点进行类型的定义,并按照指定的物理点类型(接收点、激发点、重力点、磁力点、化探点、电法点、控制点)进行成果分离。
所有的原始数据处理都是按照项目进行管理的,因此在处理原始数据前,用户必须在某一数据库的数据树上已经成功地建立了工区—项目(见图7-1),只有在某一项目下才能进行原始数据的转换、编辑、处理、保存等工作。
图7-1测量原始记录的处理包括导线处理、RTK数据处理、太阳方位计算和水准测量处理(目前第一版本中没有实现水准测量处理)。
本章主要介绍导线数据处理,关于测量原始记录的处理的其他内容将在后续章节中介绍。
导线测量是传统的以全站仪测角、测距为原理进行施测的一种测量方法。
其实质就是由若干条直导线边连成的折线,导线边的长度由不同的测距法(包括红外测距、电磁测距、钢卷尺丈量等)来测定,相邻两导线边的水平夹角称为转折角,由全站仪水平测角观测而得。
另外,作为一种高程传递的测量方式,也可由全站仪竖盘测角观测的高度角(天顶距)实现高程的传递,称三角高程测量。
在这里将导线测量又分为三种类型:控制导线、放样导线、支站导线。
有关概念:控制导线:就是纯粹作为相对高等级控制而施测的导线,其特点是在测站上所观测的每一方向的测回数都等于(或大于)后视和前视的测回数(至少是一测回观测),即没有半测回观测的物理点,而导线的起始和闭合点都是高等级测量控制点。
●放样导线:以放样为目的采用导线方法进行的一种测量方式,其特点是在测站上除了后视和前视采用测回观测(至少一测回)外,还进行放样点的观测,而放样物理点观测是允许半测回观测的(这里所指的放样导线是指连续观测记录可进行平差处理的闭合导线)。
●支站导线:就是只有已知坐标及后视的起点而终点未知的导线段,或已知测站坐标及其后视的单站观测数据。
误差理论与数据处理-第七章 最小二乘法正式版
误差理论
与数据处理
7.1最小二乘法原理
设有一金属尺,在温度 t (C )条件下的长度
可表示为
yt y0 (1 t)
要求给出 y0 与 的数值。
设在 t1, t2 ,, tn温度条件下,分别测得金属
尺的长度l1,l2 , , ln共n个结果,可列出方程组
l1 y0 (1 t1)
v2
xt
2atl ata1x1 ata2 x2 at at xt
式中, aras a1ra1s a2ra2s anrans ;
arl a1rl1 a2rl2 anrln; r 1,2, , t; s 1,2, , t
等。
正规方程的矩阵形式:
误差理论
与数据处理
anr an将1x1正 a规n2x2方程中ant 第xt rl个n 方程a1rv式1 a改2rv写2 为 anrvn 0. a1r a11x1 a12x2 a1t xt l1 a2r a21x1 a22x2 a2t xt l2
为0,可获得一组有确定解的方程,其解即为
满足 v2 最小 的最小二乘估计量。
v2 分别对 x1, x2, , xt 求偏导数,可得
v2
x1
2a1l a1a1x1 a1a2 x2 a1at xt
v2
x2
2a2l a2a1x1 a2a2 x2 a2at xt
则可得关系: y1 f1x1, x2 , , xt
y2 yn
f2 x1, x2 ,
fn x1, x2 ,
,
xt
第七章测量误差及数据处理的基本知识
中误差 m 极限误差 Δ 允= 2 m 相对中误差 绝对误差 平均误差 θ 或然误差 ρ
11/18/2019 7:20 AM
7.3误差传播定律 误差传播定律描述观测值的中误差
与观测值函数的中误差之间的关系
设有一般函数:
zf(x1,x2,xn)
则函数的中误差与观测值中误差之间的关系式
m z( x f1)2m 1 2 ( x f2)2m 2 2 ( x fn)2m n 2
[2]
n n
11/18/2019 7:20 AM
π=3.1416 e=2.7183 σ 为标准差 σ2 为标准差的平方,称为方差。
11/18/2019 7:20 AM
甲
系统误差
11/18/2019 7:20 AM
乙
偶然误差
11/18/2019 7:20 AM
丙
偶然误差
11/18/2019 7:20 AM
例
水准测量测站高差计算公式为h=a-b。已知后视 读数的中误差为ma±1mm,前视读数的中误差 为mb±1mm,求每测站高差的中误差m h。 解:函数关系为
h= a – b
f1
h a
1
f2
h b
1
中误差式为
m h 212m a 2( 1 )2m b 22
m h=±1.41mm
DAB = 500 × dAB=25600 mm 中误差式为
m DAB =500 m dAB=±100 mm
DAB = 25.600 ±0.1 m
11/18/2019 7:20 AM
m z 2 ( x f 1 ) 2 m 1 2 ( x f 2 ) 2 m 2 2 ( x f n ) 2 m n 2
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第七章数据处理及应用【教学目的】:本章着重介绍数据的插值、拟合与多元回归分析,并利用Matlab相应工具结合具体案例进行分析。
【教学重点难点】:教学重点:插值与拟合,回归分析,聚类与分类。
教学难点:定性与定量的结合,如何在定性分析基础上给出适当的定量关系。
【课时安排】:8学时【教学方法】:采用多媒体教学手段,配合实例教学法,通过对典型例题的讲解启发学生思维,并给与学生适当的课后思考讨论的时间,加深知识掌握的程度。
安排一定课时的上机操作。
【教学内容】:7.1数据插值与拟合在工程和科学实验中,当研究对象的机理不清楚的时候,经常需要从一组实验观测数据(x i , y i) (i= 1, 2, …,n)中寻找自变量x与因变量y之间的某种函数关系y=f(x)。
比如测量了人的身高和体重的一些数据,要确定两者的函数关系,但身高与体重的机理我们不清楚,所以寻找尽量吻合这组测量数据的近似函数模型就很重要了。
函数f(x)的产生办法因观测数据与要求的不同而异,通常可采用数据插值与数据拟合的方法。
7.1.1数据插值1.插值问题的描述对给定的一组测量数据,要确定通过所有这些数据点的曲线或曲面的问题就是插值问题。
对一维插值问题可以这样描述:设f(x)在区间[a, b]上连续,x0,x1,…,x n为[a,b]上n 1个互不相同的点,且已知f(x)的一组实验观测数据(xi, yi ) (i = 1,2,…, n),要求一个性质优良、便于计算的近似函数ϕ(x),使得i i y x =)(ϕ,i =0,1,…,n (7.1)成立,这就是一维插值问题。
其中称[a , b ]为插值区间,点x0,x 1,…,x n 为插值节点,函数ϕ(x)为插值函数,f (x )为被插值函数,式(1)为插值条件。
求插值函数ϕ(x )的方法称为插值法。
关于高维插值可类似定义,本节只介绍一维和二维插值。
2.基本插值方法简介插值函数的取法很多,可以是代数多项式,也可以是三角多项式或有理函数;可以是[a ,b]上任意光滑函数,也可以是分段光滑函数。
对一维插值,最常用最基本的插值方法有:分段多项式插值与三次样条插值;二维插值根据数据分布规律可分为网格节点插值和散乱数据插值,相应的方法有双三次样条插值方法和改进的Sh ep ar d方法。
具体的方法原理请参阅计算方法的专业书籍,这里不再详细介绍。
下面我们着重介绍M atl ab 中如何实现数据插值。
3.插值方法的Matlab 实现 一维数据插值MATL AB 中用函数in terp1()来处理一维数据插值,它提供了四种插值方法供选择:线性插值、三次样条插值、三次插值和最临近插值。
命令 int er p1格式 y i = inter p1(x , y, x i, 'meth od') %对被插值节点x i , 用me thod 方法进行插值.说明 (1).输入参数说明:x ,y为插值节点,均为向量;x i 为任取的被插值点,可以是一个数值,也可以是一个向量;y i 为被插值点x i 处的插值结果;(2).其中m ethod 是选用的插值方法,具体有:'nearest'—表示最临近插值'linear'—表示线性插值,默认'cubic'—表示三次插值'spline'—表示三次样条函数插值注意上述method中所有的插值方法都要求x是单调的,并且x i不能超过x的取值范围,其中最后一种插值的曲线比较平滑;(3)三次样条插值函数的调用格式有两种等价格式:yi= interp1(x,y,xi,'spline')yi=spline(x, y, xi)例1:下表给出了12名成年女子的身高与腿长的测量数据:试研究身高与腿长的关系,并给出身高为148、150、160时腿长的预测值。
解:在matlab中输入代码:158ﻩ159ﻩ162 164];%插x=[143 145 146ﻩ149ﻩ153155ﻩ156 157ﻩ值节点ﻩ93 96 9897ﻩ96 98 70 72];y=[88 85ﻩ88ﻩ92x1=143:0.2:164; %被插值节点,用于确定插值函数.plot(x,y,'o');hold on%原始测量数据散点图.y1=interp1(x,y,x1,'spline');%求被插值节点处的函数值.yp=interp1(x,y,[148 150 160],'spline') %求身高为148、150、160时腿长.plot(x1,y1,x,y,'r:')%画出插值函数图形及测量数据的折线图.xlabel('身高'),ylabel('腿长') %加坐标轴标签输出结果为:yp=91.4561 92.194299.4787 %对应身高的腿长输出图形见图7.1:图7.1注意:1).matlab只会给出被插值节点处的函数值,而不会给出具体的函数解析表达式,这有点类似于我们求微分方程的数值解。
需要求点对应的插值(未知的),可以将被插值节点放在xi中;2).图7.1中有三条曲线,其中圆圈点是原始测量数据点(横坐标为插值节点),实线是插值函数图形,虚线是插值节点间的连接折线段。
二维数据插值针对二维插值中的插值基点为网格节点和散乱节点,MATLAB中分别提供了函数interp2()和griddata()来进行二维插值。
先介绍规则区域上给定数据有规律分布的二维插值。
命令interp2格式zi=interp2(x,y, z,x i, y i, 'method') %针对网格节点的二维插值.说明(1).输入参数说明:x,y,z为插值节点,其中x和y是自变量,x是m维向m 阶矩阵,表量,指明数据网格的横坐标,y是n维向量,指明数据网格的纵坐标,z是n示相应于网格点的函数值;z i 为被插值点(xi, yi) 处的插值结果;(2).其中method是选用的插值方法,具体有:'nearest'—表示最临近插值'linear'—表示双线性插值,默认'cubic'—表示双三次插值'spline'—表示双三次样条函数插值注意上述method中所有的插值方法都要求x和y是单调的网格,x和y可以是等距的也可以是不等距的。
xi和yi应是方向不同的向量,即一个是行向量,另一个是列向量。
几种方法中最后一种插值的曲面比较平滑。
例2:已知在某山区测得一些地点的高程如下表。
其平面区域为≤x,360040001200≤≤y,试用不同的插值方法作出该山区的地貌图。
1200≤解:输入程序代码:x=1200:400:4000;y=1200:400:3600;z=[1130 1250ﻩ1230ﻩ740 900 500 70012808501320 1450 1420 1400 1300 700 900ﻩ1390 1500 1500 1400900 1707609501500 1200170ﻩ1350ﻩ1450 1200 1150771500 1200ﻩ07115501600 1550 13807701500ﻩ1550ﻩ16001550 16001600ﻩ1600155014801500ﻩ1550 157 1430 1300ﻩ1200980]; %原始数据的山区地貌图figure(1)meshz(x,y,z)xlabel('X'),ylabel('Y'),zlabel('Z')title('原始数据地貌图')%为平滑曲面,加密网格x1=1200:50:4000;y1=1200:50:3600;%最临近插值figure(2)zn=interp2(x,y,z,x1,y1','nearest');surfc(x1,y1,zn)xlabel('X'),ylabel('Y'),zlabel('Z')title('最临近插值地貌图')%双线性插值figure(3)zl=interp2(x,y,z,x1,y1','linear'); surfc(x1,y1,zl)xlabel('X'),ylabel('Y'),zlabel('Z') title('双线性插值地貌图')%双三次插值figure(4)zc=interp2(x,y,z,x1,y1','cubic'); surfc(x1,y1,zc)xlabel('X'),ylabel('Y'),zlabel('Z') title('双三次插值地貌图')%双三次样条函数插值figure(5)zs=interp2(x,y,z,x1,y1','spline'); surfc(x1,y1,zs)xlabel('X'),ylabel('Y'),zlabel('Z') title('双三次样条函数插值地貌图') 输出可视化图形分别见图7.2—图7.6:图7.2图7.3图7.4 图7.5图7.6从图形可以看出,原始数据地貌图是很粗糙的,因为测量点比较少。
几种插值方法中最临近插值和双线性插值效果较差,而最后一种插值的曲面比较平滑,效果较好。
如果给定的数据是在规则区域上的散乱数据或随机分布的数据,即数据不是在网格上取的,则可用函数griddata()来解决二维插值问题。
命令griddata格式zi=griddata(x, y,z, x i,y i, 'method') %针对散乱数据的二维插值.说明(1).输入参数说明:x,y,z都是n维向量,分别指明所给插值节点的横坐标、纵坐标和z坐标;z i 为被插值点(x i, yi) 处的插值结果;x i和y i应是方向不同的向量,即一个是行向量,另一个是列向量;(2).其中method是选用的插值方法,具体有:'nearest'—表示最临近插值'linear'—表示双线性插值,默认'cubic'—表示双三次插值'v4'—表示matlab提供的插值方法其中'v4'方法比较好。
针对二维散乱插值问题,在matlab中还提供了两个插值函数:e01sef()和e01sff()。
通常两者要配合使用,其调用格式为:[fnodes, a, rnw, b,c] =e01sef(x,y,z)[sz(i,j), ifail] =e01sff(x, y,z,rnw, fnodes, sx(i),sy(j))其中:x, y, z—为插值节点,均为n维向量;sx(i), sy(j)—为被插值节点;sz(i, j)—为被插值点(sx(i),sy(j))处的插值结果;其他输出参数涉及插值算法。