基于大数据分析的茶叶质量评估

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

引言

茶叶是茶加工企业生存和发展的基本保障,是茶产品能够顺利发展的重要资源。茶叶的质量和产量,通常会遭受各种大气条件以及生态条件和生产措施的影响。为了保证茶叶质量,需要监测茶叶生产的整个周期。传统方法依靠现场采样,监测,大量消耗人力和物力,且信息量小。随着互联网技术的发展,网络数据信息可以被挖掘。大量的非结构化信息,如:天气信息,温度和湿度,病虫害预测,土壤和其他信息可通过网络进行收集,利用这些数据分析预测,建立面向大数据茶叶种植信息挖掘的茶叶质量评估平台,为茶产品提供保障。

1 系统的构建

1.1 大数据分析与云计算

大数据分析是指通过对大量的非结构化数据进行筛选,迅速提取有用信息的技术,并广泛地应用于工程设计、经济计划、交通运输、生产管理、金融等重要领域产生巨大的社会经济效益。大数据分

析并不是通过随机采集的方式分析数据,而是对所有数据进行分析,因此并不受采集方式以及采集样[1-2]本差异影响,能够获取更加准确的分析结果。随着数据分析技术的发展,产生了大量的新的分析方法。例如,Google公司通过对互联网中的流感数据进行分析,使用聚合的方式合理预测流感的发展情况,使得分析结果更加准确。本文通过现有的大数据分析技术筛选提取大量网络相关茶叶信息,并联合茶企业本身所具备的质量分析方法更好的预测茶叶质量。

目前基于云计算平台的数据分析方法广泛使用,其具有分析速度快,计算能力强,成本低等优点,适应本文的需求。云计算(Cloud Computing)指的是一种分布式并行计算方式,它能够对多种数据信息进行处理,并在不增加任何设备的前提下提高数据处理效率,且开发平台简单易于操作,节点扩充方便,容错性能好。1.2 平台设计框架

设计并实现一个基于云计算的大数据处理平台(DAP,Data Analysis Platform),可以对网络大规模数据进行实时的采集分析,处理以及数据导入导出等操作。其主要特点如下:1)利用Hadoop作为存储中心,方便从多个数据源读取数据;2)使用

流分析技术对各种实时数据进行分析处理;3)能够

摘要:文章设计并实现了一个基于数据挖掘的大数据收集分析平台,抓取网络上关于茶叶种植面积、种植周期的气候环境、土壤和植物病虫害等信息,利用大数据分析技术来评估和预测茶叶品质。应用结果表明,该平台能够很好为生产提供有力的保障。关键词:茶叶质量评估;数据分析;网络挖掘

中图分类号: 文献标识码文章编号TP39 :A :2095-0748(2015)09-0092-02

基于大数据分析的茶叶质量评估

现代工业经济和信息化

Modern Industrial Economy and Informationization

201年第期

59Total of 93 No.9 2015

总第93期信息化

周峰,冯小萍

(江西制造职业技术学院,江西 南昌 330095)

DOI:10.16525/ki.14-1362/n.2015.09.010

对处理过的数据进行导出操作,导出对象可以是任何关系或非关系数据库;4)能够对各种不同数据类型进行协同分析,提出有用信息。

完整平台由三部分组成分别为数据层、数据处理层、管理层,数据流驱动平台运转,数据层主要负责将不同数据源以流的方式发送至数据处理层;数据处理层基于云计算平台,主要对数据层传入的数据流进行分析处理,管理层主要用来对数据进行管理并将数据处理结果发送给终端客户。在DAP平台的基础上,考虑不同的茶叶质量估方法,并结合现有技术提出可行的执行方案,搭建面向大数据分析的茶叶质量评估平台(DAP-TQ,Data Analysis Platform for Tea Quality)。

2 关键技术

2.1 数据层

数据层的工作主要包括:数据采集和过滤,通过网络平台,实时监控互联网中搜索过滤提取数据的执行情况。利用Hadoop分布式文件系统存储所有处理过的数据信息。在云计算平台的基础上,数据层可以快速收集相关网络数据资源并能够适当的对采集需求进行更改,处理效率高操作简单。

对采集到的数据进行筛选过滤,通常利用各种环境和生态信息进行提取,主要原因是:1)茶叶的品质和收益通常会受到当地自然环境的影响,此外企业合理的生产措施也会影响茶叶质量。2)大气环境条件同样影响茶叶质量,重金属在环境中容易污染植物叶片。3)土壤是优质茶叶生产基础,土壤条件与茶叶品质产量密切相关。4)随着气候变暖,病虫害的威胁日益严重,这对茶叶质量和产量有非常重要的影响。高质量的茶叶需要对病虫害进行严格防止,只有这样才能能保证茶叶的质量和产量。以上所述的各种与信息均可以从网络中攫取,通过数据分析平台进行数据采集过滤存储等操作,联合企业本身具有的相关茶叶质量判别经验,满足数据层的各种需求。2.2 数据处理层

数据处理层的主要任务是对数据层处理后的数据进行分析,获取茶叶质量评估结果。在此本文使用关联模型作为核心的评估技术,其定义如下:

设定不同时间地点的各种气象生态信息的数据向量为X ,茶叶质量数据向量为Y ,其中(X ,Y )=X ∪Y ,任意向量 M (X ,Y ) ,其中Supp (M )=Count (M )为M 支持度,M 在向量集合{(X ,Y )}中的出现次数

使用Count (M )表示;对任意向量 ,此外我们定义X →Y 的关联可信度为Conf (X →Y )/Supp (X );i i i i i 设可信度阈值为λ,定义关联规则集合为{X →Y } k k ={X ,Y },where Conf (X →Y )≥λ。该模型的执k k k k 行流程为:1)通过数据层对各种数据向量{(X ,Y )}集进行过滤分析;2)设置阈值λ,计算规则集合{X ,Y },其中的{X }为条件集合;3)假设k k k 当前需要评估的的条件数据为x ,首先计算x 与集合{X }的各个向量的J a c c a r d 相似度k s i m (x ,X )= ,并记X 为使得k m s i m (x ,X )=min {sim (x ,X )}的条件向量;k k 4)取满足规则(X →Y )∈{X →Y }的Y ,即为评m m k k m 估预测结果。

本层是基于MapReduce和Hadoop框架云计算平台,通过并行处理技术降低成本投入,使单个节点能够高效的进行数据处理任务。2.3 管理层

管理层是基于SOA思想进行设计,面向需求的服务增删,前台页面使用HTML本身具备的相应设计,能够方便的和移动设备进行相互访问,使用大数据工作流的方式挖掘需要的数据信息。能够快速的将分析过程及结果数据导入或数据库。此外信息发布模块支持移动终端的交互,方便茶农获取各种种植和预警信息。

3 结语

该平台能够监控预测国内茶叶种植质量。在土壤检测方面,结合相关作物分析方法,提高分析预测的性能。而传统方法检测区域小,粒度大,效率低。随着大数据技术的发展,建立基于大数据的质量平台是非常必要的。目前DAP-TQ平台基本已开发完成,因为需要从网络采集数据,数据积累是一个漫长的过程,在数据量不足的情况下,很难得到准确的预测结果。后续工作是继续完善和增加DAP-TQ功能,积累更多数据。

参考文献

[1] 陈峰,马艳萍.网络核心机房设计与管理[M].北京:化学工

业出版社,2008.

[2] 林烈青.企业数据中心的研究与设计[J].制造业自动

化,2011(15):22-25.

(编辑:刘楠)

(下转第104页)

现代工业经济和信息化

xdgyjjxxhx@

·93·

第卷

5k k

x X

x X I U

相关文档
最新文档