基于海量数据的数据分析方案设计
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于海量数据的数据分
析方案设计
集团标准化小组:[VVOPPT-JOPP28-JPPTL98-LOPPNN]
基于海量数据的数据分析方案设计
dataanalysisprogramdesignbasedonmassdata
摘要:随着互联网,移动互联网和物联网的发展,谁也无法否认,我们来到了一个海量数据的时代。随着数据积累的越来越多,现在许多行业大多面临基于海量数据的分析问题,该文从基于海量数据挖掘的分析方法出发,利用河南省2005到2009年交通事故的数据,设计了一个数据分析方案。
关键词:海量数据,数据挖掘,回归模型,方案
Abstract:withthedevelopmentofInternet,mobileInternetanddevelopmentofIntern etofthings,nobodycandenythatwecometoamassivedataera.Asdataaccumulatemorean dmore,manyindustriesarefacingproblemsbasedonlargeamountsofdataanalysis.Thi spaperibasedontheanalysisofmassdataminingmethodofHenanprovincefrom2005to20 09,usingthedataoftrafficaccidents,designesadataanalysisprogram. Keywords:massdata,datamining,regressionmodel,scheme
一、引言
随着信息技术的发展,人们积累的数据越来越多。事实上,数据本身是没有意义的,只有用以进行分析处理才真正起到作用。因此,可以说激增的数据背后更重要的是隐含的信息,人们希望能够对这些数据进行更高层次的分析,以便更好地利用这些数据。
海量数据是发展趋势,对数据分析和挖掘也越来越重要,从海量数据中提取有用信息重要而紧迫,这便要求处理要准确,精度要高,而且处理时间要短,得到有价值信息要快,所以,对海量数据的研究很有前途,也很值得进行广泛深入的研究。
在实际的工作环境下,许多人会遇到海量数据这个复杂而艰巨的问题,它的主要难点有以下几个方面:数据量过大,数据中什么情况都可能存在;软硬件要求高,系统资源占用过高;要求很高的处理方法和技巧。
基于海量数据的数据挖掘正在逐步兴起,面对着超海量的数据,一般的挖掘软件或算法往往采用数据抽样的方式进行处理,这样的误差不会很高,大大提高了处理效率和处理的成功率。
数据挖掘是指从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取出隐含在其中的、可信、新颖、人们事先不知道的、但又是潜在有用的模式的高级处理过程。数据挖掘是由统计学、人工智能、数据库、可视化技术等多个领域相融合而
形成的一个交叉学科。除了进行关系和规则的描述之外,数据挖掘的一个很重要的任务是分析。根据在过去和现在的数据中寻找到的规律建模,这样的模式有时候也可以认为是以时间为关键属性的关联知识。
一个数据挖掘系统可以自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。一个典型的例子是数据挖掘在交通事故中的应用,交通事故数据挖掘应用分析的主要作用有:可以分析出影响交通安全的诸因素及其影响的轻重程度,预测交通事故的发展趋势;发现和识别事故高发区域、交叉口和路段;可以分析交通事故成因、特征、规律及交通安全工作中的薄弱环节,明确交通安全管理工作的重点和对策等。
一般情况下,分析的基本数据是时间序列数据,也就是按照时间先后存放在数据库中的数据。时间序列预测法可用于短期、中期和长期预测。根据对资料分析方法的不同,又可分为:简单序时平均数法、加权序时平均数法、移动平均法、加权移动平均法、、指数平滑法、季节性趋势预测法、市场寿命周期预测法等。由于大量的时间序列是非平稳的,其特征参数和数据分布随着时间的推移而发生变化,因此,仅仅通过对某段历史数据的训练,建立单一的神经网络模型,还无法完成准确的建模任务。为此,人们提出了基于统计学和基于精确性的再训练方法,当发现现存模型不再适用于当前数据时,对模型重新训练,获得新的权重参数,建立新的模型。也可以根据问题规模的不同采用并行算法的计算优势进行分析。
二数据挖掘分析的过程
(一)问题定义
一个行业或者机构面临的数据挖掘需求总是多种多样的,在问题形成之前甚至需要多次研究问题本身,再由问题提炼出模型。这样,一个数据挖掘的使用者最先也是最重要的就是熟悉背景知识,弄清需求,要想充分发挥数据挖掘的价值,必须对目标要有一个清晰明确的定义,即决定到底想干什么。
(二)获取数据资源,建立数据挖掘库
要进行数据挖掘必须收集到要挖掘的数据资源。更多情况下,这些数据资源分布在不同的数据源里,因为大部分情况下需要预处理,修改这些数据,而且常会遇到采用外部数据的情况,所以应该尽量将其收集到一个数据库或者数据仓库中。
(三)分析和调整数据
分析数据就是数据深入研究其规律的过程,从数据集中找出规律和趋势,可以采用聚类分类关联规则发现等具体的分析技术,最终要达到的目的就是搞清楚多因素相互影响的复杂关系,最后发现因素之间的相关性。调整数据是基于以上数据分析的过程和结论,在对数据状态和趋势有了进一步了解的基础上进行数据调整,这时对问题要进一步明确化、量化,针对问题的需求对数据进行增删,按照对整个数据挖掘过程的新认识组合或生成一个新的变量,以体现对状态的准确描述。
(四)模型化
这是数据挖掘的核心环节,在经过以上步骤的处理和分析后,问题进一步明确数据结构和内容进一步根据需求进行了调整,就可以建立数据挖掘模型。在预测过程中,一般是用神经网络、决策树、数理统计、时间序列分析等方法来建立模型。
三、数据模型的建立和分析
(一)收集数据
在全国道路交通事故情况中选取2005--2009年河南省交通事故情况进行分析;
其中X1为事故起数,X2为死伤人数,X3为受伤人数,Y为直接财产损失。
(二)分析方法简介
回归分析是实际工作中应用最广泛的统计方法之一,概括的讲,回归分析是描述两个或两个以上变量间关系的一种统计方法。在实际工作中回归分析的应用范围很广,回归分析可以求出自变量与因变量之间的经验公式,所以,只要需要定量分析多变量之间相关关系时都是必不可少的。尤其在现在流行的数据挖掘技术中,回归分析也是必不可少的。通过对已知训练数据进行回归分析得出经验公式,利用经验公式就可以在已知自变量的情况下预测因变量的取值。
(三)分析
从图二可以看出,直接财产损失和事故起数、死亡及受伤人数都有关系;
图2直接财产损失与事故起数、死亡人数和受伤人数的相关折线图
(一)简单相关分析
从简单相关系数(表二)可以看出,在不考虑相互影响的情况下,河南省交通事故直接