基于Hadoop农产品价格分析平台

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2017
年第19期
基金项目:2015年度海南省产学研一体化专项项目(cxy20150037)。

作者简介:黄启航(1975.12-),男,海南省儋州人,本科,工程师,海南易鼎天成电子科技有限公司软件技术经理。

曾广新(1964.12-),男,海南海口市人,本科,高级工程师,海南省科学技术信息研究所副所长。

谢建行(1976.1-),男,海南省儋州人,研究生,工程师,海南易鼎天成电子科技有限公司软件技术经理。

赵永(1987.7-),男,江苏省南京市人,研究生,博士生,海南省科学技术信息研究所科员。

本文DOI :10.16675/14-1065/f.2017.19.029
基于Hadoop 农产品价格分析平台
□黄启航曾广新谢建行
赵永
摘要:农产品价格分析平台是基于Hadoop 分布式文件系统和并行计算方法设计的大数据背景下海南农产品价格分
析及预测平台,主要是针对海南农产品历史价格信息及气候或自然灾害等影响价格波动的因素进行大数据分析,并预测未来几天的价格波动趋势,从而达到价格预警的作用,并为相关部门提供决策支持。

关键词:农产品;大数据;分析预测;数据分析;hadoop 文章编号:1004-7026(2017)19-0045-03
中国图书分类号:TP311.13文献标志码:A (海南易鼎天成电子科技有限公司
海南571100)
近年来,农产品价格的大幅度上升和频繁波动,成为影响了农业生产者决策又影响了消费者生活的重大经济问题。

为了保障生活质量,对农产品价格波动要做出预测和防范,对未来农产品价格波动做出分析,才能够很好的防范市场价格的变动,生活质量才得以保障。

如何对农产品价格分析就成为本次讨论的课题,首先,要深入多个区域的市场调查,找出影响农产品价格的因素,把各类因素进行统计,根据各影响因素的数据进行分析运算,最后得出未来农产品价格的趋向波动。

1分析农产品价格背景
随着社会突飞猛进的发展,农产品需求不仅仅表现在食用上,饲料使用、酒精、淀粉等工业深加工所占比重逐步增加,农产品的用途是越来越广,如果在产量方面出现了缺失将会大大影响到农产品的价格波动。

据相关数据表明,2015年海南省海口市出现空心菜二十五元一斤、香菜三十元一斤等农产品价格波动较高的现象,已经打破了人们常识中肉比菜贵的印象,对于这些突如其来的价格是难以理解和无法接受的。

然而有时候农产品的价格又过于低落,在过去,市场上曾经出现过一毛钱一斤的白菜还无人问津,这样的现象对于菜农来说是很大的打击。

因此,菜贵伤民、菜贱伤农,农产品价格的频繁波动会直接影响到人们的生活,为了防止菜贵伤民、菜贱伤农现象的发生,所以,分析农产品价格、抓住农产品价格走向是当今急需解决的问题。

2如何分析农产品价格
要对农产品价格进行分析就要找出影响农产品价格的因素,根据影响因素的历史数据为依据,结合相关算法,分析得出结果。

影响到农产品价格的因素有很多,如:产量、气象、品种类型等,各个地区相同的
农产品在价格上也有差异,要对各个地区的农产品价格进行分析,就要收集各个地区的历史农产品产量数据信息、历史气象数据信息和历史品种价格数据信息,这些信息量的特点是规模巨大,一般分布比较分散,分布式的组织和管理成为一种必要的手段。

Hadoop 作为一种开源的架构适合使用在廉价机器上对各种资源数据进行分布式存储和分布式管理,具有可伸缩性和高容错性。

本文在研究开源框架Hadoop 的基础上,开发实现基于Hadoop 农产品价格分析平台。

2.1平台结构与功能
农产品价格分析平台的设计目标是实现多区域多品种的价格分析、数据管理与信息服务。

平台由数据采集系统、大数据管理分析系统、信息服务平台三个部分组成。

平台在设计上采用分布式、分层结构,将采集到的数据进行分析集群于数据集市(Datat Mark )中,数据集市(Datat Mark )与信息服务平台构成映射检索关系,信息服务平台主要是为用户提供服务。

平台结构如图1所示。

2.2
数据采集系统
数据采集系统主要实现数据源的采集和清洗,数据采集系统根据指定网站URL 进行大规模的过滤挖掘网站公开数据,将各数据类型从来源端把数据进行清洗,根据数据类型的不同清洗过
程也不同,数据经图100系统结构与功能模块
农经研究
·45·
. All Rights Reserved.
2017年第19期
过抽取(Extract )、转换(Transform )、加载(Load )至数据仓库,清洗技术简称ETL ;或经过解析(Parsing )、转换(Transform )、加载(Load )至数据仓库,简称PTL 。

基本流程如图2所示。

2.3
大数据管理分析系统
大数据管理系统主要包括数据分析和数据管理两个模块,数据分析首先要从数据仓库中提取出需要分析的数据,每分析某个地区的某个农产品价格都需要很大的数据量,当同时分析多条数据时,要从海量的数据仓库中提取分析的数据源就会更多,系统运行也会很慢,导致分析过程的时间很长,采用Hadoop 分布式来进行数据提取分析,将会大大缩短分析过程的时间,工作效率也提高很多。

如图3中所示,Hadoop 分布式分析模块中有各种数据(气象数据、价格数据等)对应的解析引擎,解析引擎将快速的检索提取出全部同一类型的数据,Hadoop 分布式分析模块中的适配器再把这一类数据进行整合有序排列,适配器整合好的数据传输到匹配器中,匹配器根据日期匹配对应时间上各地区的各农产品价格和各气象状况和各农产品产量等信息结合起来(如图4所示),存储于局部存储库中。

数据解析模块根据区域名称和品种类型名称,从局部存储库中提取出需要分析的某个地区某个品种的全部历史信息,数据解析模块运用滤波算法和复杂的数学计算对提取到的数据进行运算分析,最后将分析出来的结果存储于数据集市(DataD Mark )中。

2.4信息服务平台
信息服务平台主要是为用户提供信息服务,为用户提供分析未来的数据信息查询、消息推送、产品展示等服务,在数据集市(DataD Mark )中存储着已经分析出来的结果数据,信息服务平台只需要和数据集市(DataD Mark )建立一种检索查询的关系,就可以实现用户信息服务。

3平台实现关键技术
对于市场变幻莫测的农产品价格,常常出现同一类型农产品在不同市场存在着很大的差异,也受天气、台风的影响,因此,很多农产品的价格台高了很多,也曾出现过一天一个菜价的形式,这些状况在生活中出现时都是难以接受的。

为了对以上各种状况的出现做出一定的预测和预防准备,该平台每天都对各个市场农产品的价格信息不断的收集,及结合以前的历史价格信息,以及气象对农产品价格产生影响度

图222
数据采集系统结构图
图322
大数据管理系统结构图
图422数据整合信息图
农经研究
·46·
. All Rights Reserved.
2017
年第
19期
图555分析曲线统计图
信息,统一起来做一系列的分析运算,分析预测出未来可能出现的价位,实现对自然灾害和市场变化做出预测结果,起到预防作用。

在实现价格分析模块中,分析每一个品种价格时需要提取的数据量都很大,同时分析多个农产品价格时需要提取的数据量就更大,以传统的查询提取方法会花费很多时间,降低工作效率,选用Hadoop 框架,构建了基于HDFS 的文件存储系统,并对原始的大文件进行分块,然后为分块设计存储管理策略,以增强对数据集的并发读写能力。

4平台实现及其效果4.1平台实现
本平台采集各个大小市场零散的价格数据信息,以及影响农产品价格因素信息,把各种信息集群于数据仓库中分类存储和管理,数据的管理和调度通过Hadoop 分布式方式进行管理调度,快速的提取数据和分析数据结果。

平台在JAVA 的Eclipse 开发环境上基于组件模式开发实现,用爬虫技术对相关网站的数据进行爬取挖掘,从数据的田头开始采集,时刻跟随着市场的变动;使用PTL 、ETL 对田头采集的数据进行过滤清洗至数据仓库中,在大数据管理分析系统中,以Hadoop 框架实现数据分布式调度和管理,准确快速的提取出需要分析的数据,采用滤波算法和复杂的数学计算对数据进行分析,分析出来的结果存储于数据集市(Datat Mark )中;数据集市(Datat Mark )与信息服务平台构建一种检索查询的方式为用
户提供服务。

4.2实验效果
在部署好的系统中进行相关的实验,验证本文提出的基于Hadoop 农产品价格分析是否实现未来价格的分析。

环境配置如下,CPU :3.30GHz ;硬盘:500GB ;内存:8GB ;以太网卡:11MB/S ;操作系统:Windows7。

实验开始由一个蔬菜网站源头的URL 和一个气象网站
源头的URL 进行数据爬取采集,每个网站都有大量的子URL ,平台以树状型的形式不断循环过滤URL 对每一个URL 进行爬取挖掘数据,经过对源头挖掘的数据进行过滤清洗,再提取出分析的数据进行分析,将分析出来的结果在信息服务平台上展示,如图5所示。

图5中实现部分的为历史价格,虚线部分为分析的未来价格,图中展示的只是某一地区某一品种的预测价格。

信息服务平台还以列表形式展示出各地区的所有品种的分析预测价格,展示效果如图6所示。

综上信息表明,该平台可以完成农产品价格的分析。

结束语
目前,基于Hadoop 农产品价格分析平台已经研发完成,也成功通过测试现实了农产品价格分析,即将投入于社会中使用,该平台的预测结果会给予相关部门作为价格参照模型,预防出现较大价格波动时,能够有效的对农产品价格出现过大波动做出相应的预防策略。

在今后,该平台也会对社会的需求而不断的改进和开发出新的功能模块,让平台不断的扩大和推广。

参考文献:
[1]大数据思维与决策[N].人民邮电出版社.[2]大数据处理之道[N].电子工业出版社.
[3]Hadoop 权威指南[N].清华大学出版社.
图655农产品价格信息表图
农经研究
·47·
. All Rights Reserved.。

相关文档
最新文档