第四章 海洋信息处理技术
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第四章海洋信息处理技术
二十一世纪是海洋的世纪,我国是海洋大国,社会经济的发展越快越依赖于海洋,海洋资源的发掘和有效利用日渐被人们所关注,海洋油气等能源也成为各国争抢的对象。世界上各国也都制定海洋开发战略以抓住良好的发展机遇,海洋涉及国家安全、海洋权益维护、社会经济可持续发展,促进国内经济、军事等快速发展,我国在“十二五”规划中首次将发展蓝色海洋经济作为重点发展战略提出。海洋充满了神秘与未知,她的变化和运动时时刻刻影响着我们的生活,只有不断的探索和研究,才能更好的认识海洋,更好的保护和利用海洋。海洋信息处理技术的研究与应用是我国数字海洋建设的重要基础和根本保证。
海洋数据资料浩如烟海,它涵盖了海底地形数据、海洋遥感资料、船测数据、浮标资料、模式同化资料等诸多方面。由于海洋数据具有海量性、多类性、模糊性、时空过程性等特点。所以在对数据进行挖掘时要预先对数据进行清洗、转换、选择等预处理。在对数据进行挖掘时,常用的数据挖掘算法有回归算法、统计分析、聚类分析、关联规则挖掘。关联数据挖掘是能够有效的发现数据潜在的规律,聚类分析是一种不依赖于预先定义的类和带类标号的训练数据的非监督学习,实现了在未知类别标签样本集的非监督学习,回归分析是一个统计预测模型,用以描述和评估应变量与一个或多个自变量之间的关系。下面主要介绍了数据处理技术的基本方法。
4.1 海洋数据特征
4.1.1 海量性
海洋环境数据是大量不同历史、不同尺度、不同区域的数据的积累,需要对海量数据获取、处理和管理的技术支持。早期由于技术手段的匮乏、投入少等原因,海洋环境调查多以年、月为周期,数据量相对较少。近年来,随着各种长期定点观测设备的使用,大量专项调查的开展,以及海洋观测手段的丰富,获取的海洋环境数据量呈几何级数增长。如何将已有的和不断产生的海洋环境数据进行整合、存储、管理和利用已经成为一个急需解决的问题。
4.1.2 多类性
海洋环境数据资料的来源非常广泛:主要包括海洋调查、观测、检测、专项调查、卫星遥感、其他各专项调查资料,以及国际交换资料等,这些资料的质量和精度等相关技术类数据信息又各不相同,包括监测方法、数据提取方法与模型、技术指标、仪器名称及参数、鉴定分析和测试方法、订正与校正方法及所涉及的相关技术标准等。而通过各种专业手段获取的各类海洋基础性数据又分属不同学科,主要包括海洋水文、海洋气象、卫星遥感、海洋化学、海洋生物、海洋地质、海洋地球物理、海底地形、人文地理、海洋经济、海洋资源、海洋管理等。对这些数据来源、数据质量和精度以及数据格式等信息。另外,我国海洋系统不同的单位和部门业已形成了多种多样的数据环境,如数据文件、操作型数据库(或称应用数据库)、以及不甚规范的主题数据库(或称专题数据库、专业数据库)等等,这些现存的数据环境需要进行改造,以保证高效率高质量地利用数据资源。本课题都需要进行深入的调查分析,对在数据上进行的应用操作、数据量的大小及更新频率等信息,也要进行深入了解。才能在更深层次上理解数据、分析数据、规划数据。
4.1.3 模糊性
由于海洋现象具有动态性,有些定义无法像陆地那么明确。海洋中地理区域诸如海陆交接的海滨湿地、海岸带、领海界线、大陆架等界线无法像陆地区界线那样精确和清晰,同样环境分级界限都具有一定的模糊性。若人为划分出区域边界,似乎是给出了精确的边界,实质是给出了不精确的描述。
4.1.4 时空过程性
海洋现象体现出了很强的时空过程性,在持续的一定的时间范围、空间范围内,海洋现象都具有过程性。在海洋现象中,不同时刻的特点是不同的,有些特征会发生变化,以漩涡
为例,上一时刻与下一时刻其漩涡中心、漩涡边界、漩涡面积等都可能会发生变化4.1.5 动态更新频繁。
4.2 海洋数据预处理
4.2.1 数据清洗
数据清洗的原理,就是通过分析“脏数据”的产生原因和存在形式,利用现有的技术手段和方法去清洗“脏数据”,将“脏数据”转化为满足数据质量或应用要求的数据,从而提高数据集的数据质量。数据清洗主要利用回溯的思想,从脏数据产生的源头上开始分析数据,对数据集流经的每一个过程进行考察,从中提取数据清洗的规则和策略。最后在数据集上应用这些规则和策略发现“脏数据”和清洗“脏数据”。这些清洗规则和策略的强度,决定了清洗后数据的质量。
4.2.2数据转换
数据转换是用一种系统的数据文件格式读出所需数据,再按另一系统的文件格式将数据写入文件。但从根本上讲,系统之间的数据格式转换是系统数据模型之间的转换。两系统能否进行数据转换以及转换的效果如何,从根本上取决于两模型之间的关系。若模型之间差别较大,在转换过程中则必然会导致信息的丢失,在这种情况下,系统之间不适于进行数据格式转换。因此,对空间数据的描述是建立地理信息系统、实现空间数据转换的前提。
4.2.3数据选择
4.3 海洋数据挖掘和分析
4.3.1 回归预算
预测型挖掘就是由历史数据和当前数据来推测出未来数据的一种挖掘方式。从预测的主要功能上来看主要是对未来数据的分类和趋势的输出。分类与预测是两种数据分析形式,它们可用于抽取能够描述重要数据集合或预测未来数据趋势的模型。分类方法(classification)用于预测数据对象的离散类别;而预测(predication)则用于预测数据对象的连续取值。统计学中的回归方法等可以通过历史数据直接产生对未来数据的预测的连续值。
回归分析(regression analysis),一个统计预测模型,用以描述和评估应变量与一个或多个自变量之间的关系。回归分析预测法,是在分析自变量和因变量之间相关关系的基础上,建立变量之间的回归方程,并将回归方程作为预测模型,根据自变量在预测期的数量变化来预测因变量,它是一种具体的、行之有效的、实用价值很高的常用预测方法。
回归分析预测法有多种类型。依据相关关系中自变量的个数不同分类,可分为一元回归分析预测法和多元回归分析预测法。在一元回归分析预测法中,自变量只有一个,而在多元回归分析预测法中,自变量有两个以上。依据自变量和因变量之间的相关关系不同,可分为线性回归预测和非线性回归预测。而借助变量转换,也就是将一个非线性问题转化成一个线性问题,以使得利用线性回归方法可以帮助解决更多的问题。
4.3.2 统计分析
海洋要素的具体属性随着时间变化而变化,一段时间内的海洋要素变化的集合称为总体,而我们通过仪器所得到的实测数据只是总体的一个样本而已。为了研究实测数据所包含的规律,需要统计样本的数字特征。常见的海洋数据的统计特征量,比如位置特征量、离散特征量。
(1)位置特征量
海洋观测数据样本会分布在一定范围内,比如南海表层水温一般分布在23℃~28℃之间,但人们有时会更加关心样本数据集中分布在什么位置,可以使用平均值、众数和中位数等位置特征量来表示。平均值与数学期望既有联系又有区别。数学期望表示随机变量所有可能值的平均值,不会随着观测次数的变化而变化,代表了随机变量本身的固有属性;平均值表示若