面向资源高效管理与可视化分析的检测大数据平台

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

面向资源高效管理与可视化分析的

检测大数据平台

刘朝阳1,李 越1,黄家怿1,2※,刘海峰1,2

(1.广州市健坤网络科技发展有限公司,广东 广州 510630;2.广东省现代农业装备研究所,

广东 广州 510630)

摘 要:随着国家对农药、兽药、化肥、饲料等农用物资监管力度的加强,使得农资检测需求明显增加,检测数据呈现出多源、高纬、异构等大数据特点。为满足大量农资现场抽检需求,提高检测效率,对发展农资快速检测技术提出了新要求。为了研究不同地区不同检测实验室记录的数据特征及相互关系,满足不同业务场景共性需求,以多源数据预处理、融合分析决策和可视化展示多平台协同分析技术为核心,构建可视化分析的检测大数据平台,为农业数据资源提供高效的管理策略。以全国13家检测机构在2011—2018年饲料检测数据为对象,应用大数据平台架构和关键技术,构建饲料检测大数据平台。通过饲料近红外光谱分析饲料蛋白质、水分含量和时间的变化规律,为饲料生产厂家提供生产建议。通过处理不同种类饲料的不同检测数据,证明该平台能有效提高数据处理效率,表明大数据技术可以为推动速测技术实用化发展提供新的解决途径。

关键词:农资;检测系统;大数据;分析策略

中图分类号:TP311:S23 文献标识码:A 文章编号:1673-2154(2019)03-0045-05

0 引言

随着国家对农药、兽药、化肥、饲料等农用物资监管力度的加强,农资检测的数据呈现出爆炸性增加态势。如何处理多源、高纬、异构等农业大数据,如何利用农业资源进行科学高效地管理,成为迫切需求,传统的管理手段和技术已不能满足目前我国农业发展的实际需要[1-3]。

目前,不同时期建设的种植、畜牧、农机等一系列应用系统并行存在,因缺乏统一顶层设计和数据规范,每个系统需要独立的服务器、存储和带宽资源,造成资源浪费和信息交换共享困难。在数据层面,存在数据孤岛,即缺乏顶层设计、数据标准不统一、数据理解缺乏共同的语言。在应用层面,存在应用孤岛,即各系统之间彼此独立、缺乏信息服务交换机制、信息不能交换共享。在业务层面,存在业务孤岛,即业务缺乏统一流程管控、存在断点、不能实现业务的完整顺利执行和处理。

为了打破农业信息资源的孤岛格局,更加高效地挖掘农业数据中的有效信息,设计并构建了面向资源高效管理与可视化分析的检测大数据平台,在近红外光谱技术的体系下对饲料农资进行数据分析。检测大数据平台批处理速度是开源Hadoop的10~100倍,是MPP的5~10倍,可以对从GB到PB级的数据量实现复制的查询和分析。此外,平台也具有可扩展性,用户可以通过增加集群节点数

收稿日期:2018-12-12

基金项目:广东省省级科技计划项目(2016A050503033)、广州市科技计划项目(201802030003、01704020072)。作者简介:刘朝阳(1986-),男,软件工程师,主要从事农业信息化建设方面研究。E-mail: 308542327@ ※通讯作者:黄家怿(1980-),女,高级工程师,主要从事农业信息化与智能装备方面研究。

E-mail: 2796426373@

45

46

现代农业装备2019年

量,线性提高系统的处理能力。在极致的性能与可扩展性之外,平台还具有简易的操作和管理、完整的SQL 和ACID 支持、低延迟的流处理、图形化的大数据开发工具套件等优势。

通过平台,结合红外光谱快速检验技术[4],使用大数据分析方法对搜集到的光谱大数据进行分析与挖掘,然后将分析结果以可视化的方式进行输出,可以有效地为产品的质量控制提供标准,为原料的管理与存储、产品的销售以及上级有关部门的监控与执法提供可靠依据。

1 检测大数据平台建设

1.1 资源管理的规范化

当前的农业农村数据资源存在缺乏顶层设计、数据标准不统一的问题,给数据后期处理带来不便。为了优化资源的管理效率,需要对大数据的来源、格式等进行规范。具体需要对外围设备的对接要求、通信规约、交换数据内容和格式加以规范化,以获得准确、一致、无延迟的管控结果。平台以数据交换和共享为基础、以接口规范为支撑、以精准管控为目标的标准体系,紧紧围绕外围设备的接入要求、通信规约、平台与外围设备交互数据的采集和表达、大数据平台接入安全性管理等重要环节开展标准研制。

目前,已开展2类标准规范的建设:一是大数据平台的数据接入标准。定义了大数据平台感知层、传输层、应用层的网络架构(硬件)、系统集成(软件)及数据/指令流;规定了大平台的工业通信网络端口及通信规约、不同协议下数据包的封装结构,以保证通信可以进行,数据包可以被平台解析;规定了外围设备接入大平台的安全管控方法和要求。二是大数据平台的数据采集规范。规定了采集数据的方式、频率和内容,以保证数据的有效性和完整性;基础数据统一的表达方式,即数据字典。以保证外围设备传输的数据可以被平台理解。1.2 系统建设关键技术及应用1.2.1 分布式数据库存储

传统的网络存储系统采用集中的存储服务器存放所有数据,存储服务器成为系统性能的瓶颈,也

是可靠性和安全性的焦点,不能满足大规模存储应用的需要。而分布式网络存储系统采用可扩展的系统结构,利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息,不但提高了系统的可靠性、可用性和存取效率,还易于扩展,这些优点都是传统的集中存储服务器所欠缺的。可视化分析的检测大数据平台是基于Transwarp Data Hub(简称TDH)企业级大数据平台(方法参考文献[5][6])。使用了以分布式文件系统、分布式数据库为代表的大数据技术,来存储和管理不同类型与来源的农业大数据,平台数据源管理界面如图1所示。

图1 平台数据源管理界面

图2 数据库管理界面

为了方便用户的使用,在TDH 数据库连接外,也提供了支持MySQL、MSSQL Server 等数据库的连接功能,如图2所示,同时也支持用户对本地的Excel 文件进行拖拽上传,方便、快捷的实现数据云存储,如图3所示。数据上传之后,能实时对已经上传的数据进行在线预览,如图4所示。1.2.2 可视化分析技术

在海量数据的基础上,为了将单纯的数据转换成有用的信息和知识,采用了可视化分析的技术对

数据进行处理和展示。数据可视化技术的基本思想

相关文档
最新文档