数字海洋中数据体系结构研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第 28 卷第 4 期海洋通报V ol. 28,No. 4 2009 年 08 月 MARINE SCIENCE BULLETIN Aug., 2009
数字海洋中数据体系结构研究
张峰1,石绥祥1,殷汝广1,李四海1,宋杰2,鲍玉斌2
(1. 国家海洋信息中心,天津 300171;2. 东北大学信息科学与工程学院,辽宁沈阳 110004)
摘 要:海洋数据的多源性、多态性和多样性以及数据量庞大等特点决定了其不同于其它数据,如何更加合理有效地存储和管理海
洋数据,为海洋综合管理信息系统和“数字海洋”原型系统建设提供有力的数据支撑,是一个紧迫需要解决的问题。本文对各类海
洋资源、海洋环境、海洋经济、海洋管理等数据进行统一的体系规划,构建统一标准的海洋数据体系框架,以实现国家、省 ( 市 ) 等
各级海洋数据的有效管理,满足“数字海洋”海洋信息基础平台建设需要。
关键词:数字海洋;数据体系结构;数据仓库;数据集市;元数据
中图分类号:P7;TP392 文献标识码:A 文章编号:1001-6932(2009)04-0001-0008
引言
“数字海洋”随着“数字地球”[1]战略的提出应运而生,一经提出就备受瞩目[2]。“数字海洋”是指通过海洋调查、海洋监测监视 ( 包括卫星、飞机、船舶、浮标、岸站)、社会普查统计等数据获取手段,利用数据库、地理信息系统和网络等技术构建一体化的数字集成平台和虚拟环境,把真实的海洋重现及预现而形成的一个总体系统。“数字海洋”通过对当前现实海洋现象和过程的直接表达和对未来现实海洋场景的预测、模拟,促进人类对海洋的开发、利用的方式更趋于合理、有效,保证海洋可持续发展。当前,主要海洋国家如美国、俄罗斯、英国、法国、德国、日本、加拿大等国都正在积极推进各自的“数字海洋”信息系统建设。现实海洋、数字海洋之间的互动关联将成为21世纪人类社会开发利用海洋的基本模式。
要实现“数字海洋”系统,实现对各类海洋数据有效合理的存储和管理以及满足海洋领域相关应用需求,就必须有一个较完善的数据体系,其至少要具备以下7个特点:①完整性:能够将海洋数据完整地存储,保证需要的数据都可检索,并且满足涉海单位海洋管理、研究的需求;②合理性:设计合理的数据体系结构,其包括哪些部分和各部分的作用及其之间的关联关系,以及数据的交互等问题都应作合理的考虑;③独立性:数据体系框架每部分应具有相对独立性,能够独立完成相应的功能;④安全性:数据体系要最大程度上保证数据存储和数据访问修改等的安全性;⑤高效性:能够尽量节省空间并且提高响应速度,在这二者间取得一定的平衡,高效地满足应用的各种需求;⑥可靠性:即使数据量非常庞大,也能够高效装载,并且保证提供给应用系统的数据是真实可靠的;⑦一致性:数据体系中各部分的同一数据要保证一致性。
本文对海洋数据体系结构的布局和应用系统设计做了分析探讨,并以实际案例证明该数据体系结构的适用性。
1 研究背景
经过多年的资料调查和信息收集,国家海洋局局属各分局、业务中心、研究所已保存了大量珍贵的海洋科学数据和相关信息[3],包括海洋水文、海洋表面气象、海洋生物、海洋化学、海洋环境质量、海洋地质、海洋地球物理、海洋基础地理、海洋航空与卫星遥感、海洋经济、海洋资源等科学数据,数据总量多达千亿字节以上,范围涉及全球各大洋。海洋数据管理和应用的核心和关键是保障数据的可操作、可维护
收稿日期:2008-07-28;收修改稿日期:2008-12-23
基金项目:国家海洋局908专项(908-03-01-06,28070605C )
2 海洋通报28 卷
和安全性。其服务范围包括国家海洋局系统内和系统外各研究所和海洋管理部门间的信息交换,以及各种数量统计、年度统计、范围统计,社会化查询服务等。
同其他方面的数据资料相比,海洋信息资料呈现出多源性、多态性和多样性的特点[3]。数据的多源性是由于数据观测手段的不同而产生的,而观测手段的不同又引起了数据精度的差异和数据格式的不同,从而带来了数据结构的复杂性。数据的多态性意为海洋信息以不同的数据形式表现,例如图形、图像、文本等,不同的数据形态导致了数据处理手段的复杂化,数据的多样性即指海洋数据包括的学科种类繁多,由此带来数据管理的复杂性。
另一方面,尽管海洋部门拥有海量的海洋数据资源,但这些数据分散在各单位,尚未能有效地组织和利用,许多数据仍以原始形式存储于不同形式介质中,从而带来了数据管理、维护及查询检索的困难,特别是准确地获取特定应用分析所需的相关资料非常困难,需要耗费大量的人力和时间。目前,许多关于气象、海况、资源、经济、灾害等与海洋有关的研究分析、预测和决策仍然采用专家经验及传统的统计方法,这种非自动化的分析、预测和决策手段大大地影响了数据利用的效率。而海洋数据管理维护技术的落后又反过来影响了信息提供的准确性和时效性,进而影响了分析和决策的效率。
国家海洋局作为国家海洋主管部门,为了充分发挥海洋资料的应用服务作用,为“数字海洋”提供基础数据支撑,改造、更新和建立国家海洋资料数据库群,开发高质量的海洋资料基础产品,最大限度地实现海洋资料共享是一项重要的任务。因此,开展海洋数据体系结构的研究就尤为重要。
2 海洋数据体系结构
鉴于海洋数据体系结构庞大,各部分之间关系复杂[4],本研究在设计和实施过程中在满足需求的前提下尽可能地保证体系结构和流程、应用部署和维护的简洁轻量。
海洋数据体系总体上分为原始层、基础数据层、集成层、产品层和专题层 5 部分,如图 1 所示。2.1 原始层
原始层包含了整个数据体系的数据源,类型多样,各类型数据源特征显著,主要由分布在各个服务器上的原始文件组成。这些原始文件包括文本数据文件、二进制数据文件、描述元数据的 XML 文件 ( 由元数据录入工具生成 ) 以及其他应用系统产生的数据文件。从结构上可划分为结构化数据、半结构化数据和无结构数据。海洋数据体系的最大数据源来自于标准数据集。标准数据集属于一种半结构化非自描述数据,保存了海洋现场调查过程中得到的海洋各个学科的测量数据。这些测量数据经过基于文件的预处理和预计算,对数据文件进行修改和校正[5]后可装载到数据库中。本研究称此类数据源为半结构化科学文本数据源[6]。
结构化的关系型数据库也是海洋数据体系重要的数据源。目前,国家海洋局各单位和部门已建设了许多支撑专业数据处理和业务系统应用的关系型数据库,这些数据库构成海洋数据体系的重要数据源。另外,非结构化的超文本数据源 ( Web 页),如从互联网上采集的海洋经济、海洋权益 ( 包括海洋法律法规 ) 类数据,以及以网页形式存在于固定网站并且周期性更新的国际公开数据,国际交换数据也是海洋数据体系的主要数据来源。
海洋数据体系数据源还包括实时数据源 ( 如卫星数据)、矢量图像 ( 如遥感数据)、影音数据等复杂格式的数据源,如图 2 所示。本研究认为,海洋数据体系的数据源是一个典型的多类型数据源,但可以归纳为 Web 数据源 ( 无结构)、文本数据源 ( 半结构 ) 和关系型数据源 ( 结构化 ) 这三种数据源。2.2 基础层
基础层包含有数据集库、基础数据库以及基础元数据库。其中数据集库是以文件为单位对数据进行归档管理;基础数据库是数据集文件的关系化存储形式;元数据库保存 XML 元数据[7]、代码数据、导航数据、装载日志、访问日志等。