大数据分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

大数据分析

摘要:大数据分析是大数据技术的主要应用之一。文章介绍大数据分析的基本方法、类型、步骤、内容和预测分析等。

关键词:数据分析;预测分析;大数据分析

1.概述

数据分析是指收集、处理数据并获取信息的过程。具体地说,数据分析是建立审计分析模型,对数据进行核对、检查、复算、判断等操作,将被审计数据的现实状态与理想状态进行比较,从而发现审计线索,搜集审计证据的过程。通过数据分析,我们可以将隐没在杂乱无章的数据中的信息集中、萃取和提炼,进而找出所研究对象的内在规律。

数据分析有极广泛的应用范围。在产品的整个生命周期内,数据分析过程是质量管理体系的支持过程,包括从产品的市场调研到售后服务以及最终处置都需要适当运用数据分析,以提升有效性。如一个企业领导人通过市场调查,分析所得数据判定市场动向,从而制订合适的生产及销售计划。

2.数据分析的基本方法

数据分析的基本方法除了包括较简单数学运算之外,还包含下述几种常用方法。

2.1统计

统计有合计、总计之意,指对某一现象的有关数据进行搜集、整理、计算、分析、解释、表述等。在实际应用中,统计含义一般包括统计工作、统计资料和统计科学。

(1)统计工作。统计工作指利用科学方法对相关数据进行搜集、整理和分析并提供关于社会经济现象数量资料的工作的总称,是统计的基础。统计工作也称统计实践或统计活动。现实生活中,统计工作作为一种认识社会经济现象总体和自然现象总体的实践过程,一般包括统计设计、统计调查、统计整理和统计分析4个环节。

(2)统计资料。统计资料又称为统计信息,是反映一定社会经济现象总体或自然现象总体的特征或规律的数字资料、文字资料、图表资料及其他相关资料的总称。统计资料是通过统计工作获得反映社会经济现象的数据资料的总称,反映在统计表、统计图、统计手册、统计年鉴、统计资料汇编、统计分析报告和其他有关统计信息的载体中。统计资料也包括调查取得的原始资料和经过整理、加工的次级资料。

(3)统计学。统计学是统计工作经验的总结和理论概括,是系统化的知识体系,主要研究搜集、整理和分析统计资料的理论与方法。统计学利用概率论建立数学模型,收集所观察系统的数据,进行量化分析与总结,进而推断和预测,为相关决策提供依据和参考。

统计分析的流程是确定分析目标,收集、整理和分析数据,提出分析报告。

2.2快速傅里叶变换

1965年,Cooley和Tukey提出了计算离散傅里叶变换(DFT)的快速算法——快速傅氏变换(FFT)。FFT根据DFT的奇、偶、虚、实等特性,对离散傅立叶变换的算法进行改进,将DFT的运算量减少了几个数量级。从此,数字信号处理这门新兴学科也随FFT的出现和发展而迅速发展。根据对序列分解与选取方法的不同而产生了FFT的多种算法,基本算法是基2DIT和基2DIF。FFT 在离散傅里叶反变换、线性卷积和线性相关等方面也有重要应用。

2.3平滑和滤波

平滑和滤波是低频增强的空间域滤波技术,其目的是模糊和消除噪音。空间域的平滑和滤波一般采用简单平均法进行,就是求邻近像元点的平均亮度值。邻域的大小与平滑的效果直接相关,邻域越大,平滑的效果越好,但邻域过大,平滑会使边缘信息损失增大,从而使输出的图像变得模糊,因此需合理选择邻域的大小。

2.4基线和峰值

基线是项目储存库中每个工件版本在特定时期的一个快照。它提供一个正式标准,随后的工作基于此标准,只有经过授权后才能变更这个标准。建立一个初始基线后,每次对其进行的变更都将记录为一个差值,直到建成下一个基线。

峰值功率就是最高能支持的功率。电源的峰值功率指电源短时问内能达到的最大功率,通常仅能维持30s左右的时间。一般情况下电源峰值功率可以超过最大输出功率50%左右,由于硬盘在启动状态下所需要的能量远远大于其正常工作时的数值,因此系统经常利用这一缓冲为硬盘提供启动所需的电流,启动到全速后就会恢复到正常水平。峰值功率没有什么实际意义,因为电源一般不能在峰值输出时稳定工作。

2.5列表与作图

(1)列表。将实验数据按一定规律用列表方式表达出来是记录和处理实验数据最常用的方法。表格的设计要求对应关系清楚,简单明了,有利于发现相关量之间的物理关系;此外还要求在表栏中注明物理量名称、符号、数量级和单位等;根据需要还可以列出除原始数据以外的计算栏目和统计栏目等;最后还要求

写明表格名称,主要测量仪器的型号、量程和准确度等级,有关环境条件参数(如温度、湿度)等。

(2)作图。作图可以显式地表达物理量间的变化关系。从图线上还可以简便求出实验需要的某些结果,如直线的斜率和截距值等,读出没有进行观测的对应点(内插法),或在一定条件下从图线的延伸部分读到测量范围以外的对应点(外推法)。此外,还可以把某些复杂的函数关系通过一定的变换用直线图表示出来。

3.数据分析的类型

3.1探索性数据分析

探索性数据分析是指为了形成值得假设的检验而对数据进行分析的一种方法,是对传统统汁学假设检验手段的补充。探索性数据分析侧重于在数据之中发现新的特征。

3.2定性数据分析

定性数据分析又称为定性资料分析,是指定性研究照片、观察结果等非数值型数据(或者说资料)的分析。

3.3离线数据分析

离线数据分析用于较复杂和耗时的数据分析和处理。由于大数据的数据量已经远远超出单个计算机的存储和处理能力,离线数据分析通常构建在云计算平台之上,如开源的Hadoop的HDFS文件系统和MapReduce运算框架。Hadoop机群包含数百台乃至数千台服务器,存储了数PB乃至数十PB的数据,每天运行着成千上万的离线数据分析作业,每个作业处理几百MB到几百TB甚至更多的数据,运行时问为几分钟、几个小时、几天甚至更长。3.4在线数据分析

在线数据分析(OLAP,也称为联机分析处理)用来处理用户的在线请求,它对响应时间的要求比较高(通常不超过若干秒)。与离线数据分析相比,在线数据分析能够实时处理用户的请求,允许用户随时更改分析的约束和限制条件。尽管与离线数据分析相比,在线数据分析能够处理的数据量要小得多,但随着技术的发展,当前的在线分析系统已经能够实时地处理数千万条甚至数亿条记录。传统的在线数据分析系统构建在以关系数据库为核心的数据仓库之上,而在线大数据分析系统构建在云计算平台的NoSQLm系统上。如果没有大数据的在线分析和处理,则无法存储和索引数量庞大的互联网网页,就不会有当今的高效搜索引擎,也不会有构建在大数据处理基础上的微博、博客、社交网络等的蓬勃发展。

4.数据分析步骤

最初的数据可能杂乱无章且无规律,要通过作图、造表和各种形式的拟合来

相关文档
最新文档