数据湖在气象数据管理中的应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
90科技视界
Science & Technology Vision
◼引言
随着现代信息技术的快速发展,气象信息系统近十年间历经了多次迭代升级,气象数据类型越来越丰富,个性化、便捷化、快速化的气象数据服务方式已成为刚需。
但因气象信息系统的分批建设,现行各业务系统服务节点均要挂载底层存储系统,多套存储设备共存的状况大大降低了存储空间有效利用率,用户调用不同年份、不同类型的气象数据时,要挂载多个存储目录,响应速度慢、操作复杂等现状都无形中降低了用户使用气象数据的体验感,且不利于气象数据的统一管理、共享和应用。
数据湖是一种以自然格式存储数据的方法,可以容纳结构化数据、半结构化数据、非结构化数据等多种数据类型,它的主要功能是实现对用户所有数据的统一存储,从原始数据转换为用于报告、可视化、分析和机器学习等各种任务的转换数据[1-2]。
数据湖技术的引入可以有效解决因数据分散造成的技术和管理壁垒、数据质量溯源困难、质量提升难度大等问题,提高数据集成和治理能力、安全管控能力,实现数据的统一管理、充分共享和开发应用 [3-4] 。
◼1 应用流程
2021年,气象大数据云平台“天擎”系统在全国气象部门正式业务化运行,该系统主要由加工流水线系统(Data Processing Line ,DPL )、气象数据统一服务接口系
统(Meteorological Unified Service Interface Community ,MUSIC )和存储管理系统(Service -Oriented Data Storage System ,SOD )等子系统构成,具备海量数据存储、全业务贯通、数据应用高效的能力,能够为天气预报、气候预测、公众服务、人工影响天气等各类气象应用的云化融入提供技术和平台支撑,构建“云+端”的业务应用模式[5],系统包括数据交换及质控、产品加工、挖掘分析、数据存储及服务、业务监控五大功能[6]。
目前,“天擎”系统提供统一资源定位符(Uniform Resource Locator ,URL )调用、客户端开发包、拼接URL 和数据湖四种数据调用方式,数据湖在调用文件级数据资料中凸显出了较大优势,“天擎”数据湖文件存储及使用架构如图1
所示。
图1 “天擎”数据湖文件存储及使用架构
"陶鑫1 陶睿1* 赵栋1 关虹
2
(1.内蒙古自治区气象数据中心,内蒙古 呼和浩特 010000;
2.内蒙古电力(集团)有限责任公司信息通信分公司,内蒙古 呼和浩特 010000)
摘要:数据湖在气象大数据云平台“天擎”系统中的应用集成了全国省级气象部门现有文件存储系统,实现了用户分级情况下的高效数据访问授权应用,在调用文件级数据资料中凸显出了较大优势,有助于用户应用各类分析手段挖掘气象数据价值。
关键词:数据湖 气象数据管理 技术融入应用
DPL系统通过建立算法库,实现对气象算法的统一管理,提升算法的汇集、使用、管理和共享效率。
在加工流水线系统挂载数据湖服务客户端,根据不同应用系统的数据访问需求开展目录授权,达到各用户即使登录相同计算节点也只可以访问自己所需目录的应用效果。
MUSIC系统负责对多种存储方式各类数据提供数据服务,在该系统所有节点挂载数据湖客户端并授权目录访问权限,当收到用户访问文件产品的请求后,查找文件索引库记录的文件位置信息,通过数据湖获取存储的文件内容返回用户。
目前使用最新的文件目录服务端与客户端对非结构化数据实体进行管理管控,对于非结构化数据的管理与申请使用,最新的管理流程削减了用户权限申请与管理员审核的环节,同时增加了权限自动同步功能,提高了数据管理分析效率,如图2
所示。
图2 优化流程示意图
SOD系统运用分布式存储技术存储各类气象数据资料,该系统利用数据湖提供的接口,处理底层网络附属存储(Network Attached Storage,NAS)与虚拟文件目录的映射关系。
◼2 授权管理
2.1路径及规则配置
2 1 1 在SOD系统中的路径及规则配置
登录SOD系统后,在数据清单中选中相关资料进行资料编辑,实现对统一服务路径及规则的配置。
需要注意的是,此处统一服务路径是数据湖管理的虚拟服务路径,规则值是用于进行权限控制时的规则匹配。
对于非固定存储路径配置需遵守两条规则,一是所有非固定存储路径都由{}标识;二是要用不同标识字符区分枚举类型、正则表达式类型和日期类型,枚举型的标识字符为#,正则类型标识符为$,日期类型为@,如枚举类型的存储路径应为{#CCCC},日期类型的存储路径应为{@ YYYY}、{@YYYYMMDD}等。
规则配置也需要按照数据类型进行编辑,对于枚举类型和正则表达式类型,需根据资料代码与标识名称查找对应的枚举值和正则表达式的匹配规则。
对于日期类型,
YYYYMMDDHHMISS 即代表年、月、日、时、分、秒,如图3所示。
图3 配置示例图
2 1 2 在MUSIC系统中的路径及规则配置
MUSIC系统支持由存储管理系统配置服务编码的标准数据源和由服务接口配置服务编码、针对原始文件提供服务的非标准数据源的路径规则配置。
对于标准数据源定义的服务编码,服务接口管理员将资料与该数据源绑定,进行简单配置后即可使用数据湖;对于非标准数据源,需要配置服务编码、文件路径、路径规则后,将资料与该数据源进行绑定,才可使用数据湖。
2 1
3 在MUSIC系统中的非结构化资料配置
在气象资料定义页面中编辑新增气象资料。
如果为标准数据源,填写好资料代码、资料名称后,剩余配置按需填写。
需要注意的是发布状态要选择标准数据源,数据实体要选择对应的服务编码并选择数据湖读/写控制权限。
如果为非标准数据源,发布状态要选择不是标准数据源,数据源要选择新增的服务编码。
另外,在配置读取接口时,非结构化数据一般勾选格点要素场和产品文件接口,其他接口按需勾选即可。
所有操作结束后,要点击保存,才能完成配置。
2.2客户端授权
数据湖提供 Linux 客户端和 Windows 客户端,在Linux 系统中,数据湖客户端是提供给 Linux 系统连接数据湖文件管理系统的一个服务,它类似于NAS,可以把目录信息直接挂载到 Linux 系统的某个目录上,提供用户使用[7]。
Linux 客户端的授权,需将客户端所在IP地址和操作系统用户与数据湖已授权的虚拟目录用户进行关联,操作系统用户便会拥有虚拟目录的相应权限,通过修改关联的虚拟目录用户权限来实现客户端用户权限的修改,删除客户端权限只需删除数据湖管理平台中客户端对应的 IP 地址便可达到。
科技视界
Science & Technology Vision91
92科技视界
Science & Technology Vision
2 2 1 Linux 系统安装授权方法
在挂载“天擎”MUSIC 系统文件目录服务Linux 客户端时,要注意被挂载的目录下必须为空,且要确保该目录的权限是安装用户的,如果相同目录下已经挂载了NAS ,则需要先卸载掉NAS 才可以挂载数据服务客户端,但卸载NAS 后可能会影响现有业务,故要在卸载之前把相关业务切走,避免影响业务正常运行。
同时,Linux 服务器需安装1.8版本 及以上的java 语言开发环境。
安装时需使用管理员用户执行,在确定服务器安装了用户空间文件系统后,修改系统配置,在用户目录解压安装包,修改配置文件,创建挂载目录。
如果安装配置成功,则会直接显示申请过的资料目录,如果显示权限受限,是由于该用户还未配置数据访问权限,需要确认账户信息是否配置正确,IP 是否在气象政务管理信息系统填写。
2 2 2 Windows 系统安装授权方法
Windows 客户端只需要输入气象大数据云平台用户的账号信息即可访问该用户对应的授权文件。
需要注意的是,数据湖安装的电脑IP 必须和账户IP 一致才可使用,这也是实现数据安全的措施之一。
安装前需要更改
配置文件,同时,安装路径中,不可以包含中文。
后续全部选择默认选项即可安装成功。
安装过程若提示文件已存在,则需先卸载后再重新安装。
页面如图4所示。
图4 Windows 客户端页面图
安装客户端成功后,输入账号密码,点击“更新”,若出现更新文件域列表成功,则表示登陆成功,点击“文件域”,盘符选择本机电脑没有的盘符名称,然后点击“挂载”,显示挂载成功即可使用目录服务。
在计算机的本地磁盘中,点开挂载的R 盘,就可以看到已申请的、有权限使用的数据。
若重新申请了数据,申请过后在客户端重新点击文件域的“更新”,并刷新计算机下挂载的盘,则会显示新申请的资料。
2.3资料编码授权及查看
2 3 1 资料编码授权
“天擎”用户通过MUSIC 系统申请资料访问权限,审核通过后可查看授权情况。
当目录访问权限存疑或不正确时,管理人员可通过资料编码授权功能确认资料授权是否与MUSIC 系统中的一致,如不一致,需要在MUSIC 系统中同步最新数据。
该功能还可为某个用户授权资料编码的访问权限,一般用于临时性工作或测试。
2 3 2 资料编码查看
所有资料编码都是从MUSIC 系统同步而来。
管理人员可以通过“选择目录”,来查看某一个目录对应的资料编码,也可通过输入框输入资料编码来查询对应的目录。
这里所指的目录都是数据湖解析后的目录接口,与存管中配置的原始路径格式是不一样的。
管理人员还可通过资料编码查看功能查看资料编码、服务编码、存管定义的目录表达式和数据湖解析后的表达式。
如果只有某个目录访问出现报错,很可能是目录规则配置错误,管理人员可通过该功能查找原因。
◼3 结语
数据湖技术在气象数据管理中的应用,集成了省级现有文件存储系统,可按照业务应用重新组织目录结构,实现了以统一的命名空间对外提供文件共享服务,让用户体验到更加高效的数据访问授权应用,有助于用户应用各类分析手段挖掘气象数据价值,提升气象部门数据管理水平。
参考文献
[1]胡军军,谢晓军,石彦彬,等.电信运营商数据湖技术实施策略[J].电信科学,2019,35(2):84-94.
[2]陈永南,许桂明,张新建.一种基于数据湖的大数据处理机制研究[J].计算机与数字工程,2019,47(10):2540-2545.[3]陈柯宇,吕昕蓓,孙韵,等.西南油气田数据湖入湖技术研究[J]. 数字通信世界,2020(12):58, 68.
[4]李言飞.数据湖架构在健康大数据科学计算应用中的构想[J]. 中国卫生信息管理杂志,2020,17(4):533-537.
[5]赵冰燕,郭彩莲,来志云.基于青海气象大数据云平台的数据服务接口[J].青海科技,2021,28(1):82-86,90.[6]冯勇,李微,朱辉,等.云计算环境下山东省气象大数据云平台的设计与实现[J].信息技术与信息化,2021(5):147-150.[7]徐娟,刘鑫,席晓慧,等.数据湖在气象信息系统中的应用[J]. 现代信息科技,2022,6(12):127-129.。