数据处理方法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据处理方法
摘要:数据处理是对数据的采集、存储、检索、加工、变换和传输。数据是对事实、概念或指令的一种表达形式,可由人工或自动化装置进行处理。数据的形式可以是数字、文字、图形或声音等。数据经过解释并赋予一定的意义之后,便成为信息。数据处理的基本目的是从大量的、可能是杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。数据处理是系统工程和自动控制的基本环节。数据处理贯穿于社会生产和社会生活的各个领域。数据处理技术的发展及其应用的广度和深度,极大地影响着人类社会发展的进程。
关键词:方式数据处理最小二乘法和一元线性回归实时处理方式作图法
1.方式根据处理设备的结构方式、工作方式,以及数据的时间空间分布方式的不同,数据处理有不同的方式。不同的处理方式要求不同的硬件和软件支持。每种处理方式都有自己的特点,应当根据应用问题的实际环境选择合适的处理方式。数据处理主要有四种分类方式①根据处理设备的结构方式区分,有联机处理方式和脱机处理方式。
②根据数据处理时间的分配方式区分,有批处理方式、分时处理方式和实时处理方式。
③根据数据处理空间的分布方式区分,有集中式处理方式和分布处理方式。④根据计算机中央处理器的工作方式区分,有单道作业处理方式、多道作业处理方式和交互式处理方式。
2.数据处理对数据(包括数值的和非数值的)进行分析和加工的技术过程。包括对各种原始数据的分析、整理、计算、编辑等的加工和处理。比数据分析含义广。随着计算机的日益普及,在计算机应用领域中,数值计算所占比重很小,通过计算机数据处理进行信息管理已成为主要的应用。如侧绘制图管理、仓库管理、财会管理、交通运输管理,技术情报管理、办公室自动化等。在地理数据方面既有大量自然环境数据(土地、水、气候、生物等各类资源数据),也有大量社会经济数据(人口、交通、工农业等),常要求进行综合性数据处理。故需建立地理数据库,系统地整理和存储地理数据减少冗余,发展数据处理软件,充分利用数据库技术进行数据管理和处理。
3.最小二乘法和一元线性回归
从测量数据中寻求经验方程或提取参数,称为回归问题,是实验数据处理的重要内
容。用作图法获得直线的斜率和截距就是回归问题的一种处理方法,但连线带有相当大
的主观成分,结果会因人而异;用逐差法求多项式的系数也是一种回归方法,但它又受
到自变量必须等间距变化的限制。本节介绍处理回归问题的又一种方法――最小二乘
法。
一、拟合直线的途径
1. 问题的提出
假定变量x 和y 之间存在着线性相关的关系,回归方程为一条直线 y = b 0 + b 1x (8)
由实验测得的一组数据是x k 、y k (k =1,2,…,n ),我们的任务是根据这组数据拟合出(8)式的直线,即确定其系数b 0 、b 1。
我们讨论最简单的情况,假设 (1) 系统误差已经修正;
(2) n 次测量的条件相同,所以其误差符合正态分布,这样才可以使用最小二乘
法原理;
(3) 只有y k 存在误差,即把误差较小的最为变量x ,使不确定度的计算变得简单。 2. 解决问题的途径――最小二乘法原理
由于测量的分散性,实验点不可能都落在一条直线上,如图3。相对于我们所拟合的直线,某个测量值y k 在y 方向上偏离了v k ,v k 就是残差
v k =y k -y
=y -(b 0+b 1x k )
如果∑=n
k k
V
12的值小,那么标准偏差s (y )就小,能够使s (y )最小的直线就是我们所要拟 合的直线。这就是最小二乘原理。
最小二乘原理:最佳值乃是能够使各次测量值残差的平方和为最小值的那个值。
由(9)式可见,b 0和b 1决定v k 的大小,能够使∑=n
k k
V
1
2为最小值的b 0、b 1值就是回归方程的
系数。
二.回归方程的系数
1
(10) 使∑v ² k 为最小值,极小值条件是一级导数等于零和二级导数大于零。这里x k 、y k 是测量值,变量b 0和b 1,(10
(11)
整理后得
(12)
(13)
(14)
(13)式对b 0和b 1 再求一次导数,得到 的二阶导数大于零。这样(13)和
(14)式给出的b 0和b 1对应于
2
(15)
很容易证明
于是
(17)
3.测量点的重心
由(14)式,得到
称为(x k ,y k )的
三、回归方程系数的标准偏差 1. y k 的标准偏差
由(12)式,我们很容易求得y k 的标准偏差
(18)
式中分母n -2是自由度,可以作如下解释:两点决定一条直线,只需测量两个点,即可解出直线的斜率和截距,现在多测了n -2个点,所以n -2是自由度。
s(y)是因变量y k 的标准偏差,在满足本节开始的三个假设的条件下,我们可以对照测量列的标准偏差的意义来理解s(y):对于自变量的某一个取值,因变量是直线上相应的一个点,在重复条件下作任意次测量,实测点落在与直线上相应的距离在s(y)范围以内的概率是68。3%。s(y)描述了测量点对于直线的分散性。
2. 回归方程系数的标准偏差 (1) b 1的标准偏差s (b 1)
我们的任务是从s(y)求出b 0和b 1的标准偏差,所以首先要找到b 1和y k 之间的关系。由(17)
按照不确定度的传播与合成的方法,可求b 1的标准偏差。注意到(19)式,b 1由多项带有系数的y k s ²(b 1)为
将(19)式代入上式,整理后开方得到
s b
1s y() L
xx
(20)
(2).b0的标准偏差s(b0)
同理可推导出s b
x s b
1
(21)
3.讨论
(1)s(b0)是截距b0的标准偏差。如果得到s(b0) (2)从(20)式可见,当L xx较大时,s(b1)就较小。根据(15)式,若x的取值比较分散,L xx就大。这就告诉我们,在求回归直线时,自变量x取点不要集中,要在尽可能大的范围内进行测量,以减小斜率的不确定度s(b1)。 (3)从(21)式可以看出,s(b0)不仅与s(b1)有关,而且还直接受x的影响,若 x数值大,s(b 0)就会被“放大”。可见,在拟合直线(当然也包括用作图法处理数据)时,如果所取的测量点既远离原点且又密集,则测量结果会很糟糕。 四、相关系数 定义一元线性回归的相关系数 r L xy L xx L yy (22) 1.相关系数的正负:对照(22)和(17)两式,可见r与b1同号。即r>0,则b1>0,回归直线的斜率为正,称为正相关:r<0,则b1<0,回归直线的斜率为负,成为负相关。 图4 不同相关系数的数据点分布示意图