大数据高职系列教材之大数据导论PPT课件:第5章 大数据分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据来源
数据作为第四次工业革命的战略资源,全球各国都在大力发展数据基础信息平台的建设, 用以改善数据的采集、存储、传输及管理的效率,从而提升信息服务水平。
数据分析 活动步骤
大数据分析包括五个阶段,1)数据获取及储存 2)数据信息抽取及无用信息的清洗 3 )数据整合及表示 4)数据模型的建立和结果分析 5)结果阐释
5.2数据分析方法
第五章 大数据分析
分析数据
统计分析基于统计理论,属于应用数学的一个分支。在 统计理论中,随机性和不确定性由概率理论建模。统计 统计分析 分析技术可以分为描述性统计和推断性统计。
数据挖掘可以认为是发现大数据集中数据模式的一种计算过 程。许多数据挖掘算法已经在机器学习、人工智能、模式识 数据挖掘 别、统计和数据库领域得到了应用。
在完成对数据的处理之后,最重要的就是根据既定目标需求对处理结果进行分
分析数据 析。目前,主要依靠四项技术:统计分析、数据挖掘、机器学习和可视化分析。
5.2数据分析方法
第五章 大数据分析
大数据分析方法的三种体系
面向数 据视角
面向数据视角的大数据分析方法主要是以大数据分析处理的对象 “数据”为依据,从数据本身的类型、数据量、数据处理方式以 及数据能够解决的具体问题等方面对大数据分析方法进行分类。
问题。
关联分析最主要的目的就是找出
隐藏在数据之间的相互关系和关
联性,即可以根据一个数据项的
出现推导出其他相关数据项的出
现。 关联分析
5.3 数据挖掘
第五章 大数据分析
Web网页挖掘涉及Web技术、计 算机语言、信息学等多个领域, 是一个综合性过程。
Web网页挖掘
特征分析是指从数据库中的一组数 据中提取出关于这些数据的特征式 ,这些特征式即为此数据集的总体 特征。 特征分析
Apriori算法
FP-Growth算法
大数据挖掘工具
Hadoop
如此复杂和庞大的数据集面前,传统的数据挖掘分析工具已经不能胜任大数据的挖掘分析。 针对大数据庞大的规模以及复杂的结构,目前业界已开发了众多的大数据挖掘分析工具。
Mahout
Spark MLlib
Storm
Apache Drill
RapidMiner
5.3 数据挖掘
第五章 大数据分析
Apache Apache DDrirllil在l 基于 SQL 的数据分析和 商业智能(BI)上引入了 JSON (JavaScript Object Notation, JS对象标记 )文件模型,使得用户能查询固定架构、 演化架构以及各种格式和数据存储中的 模式(columnar -free)无关数据。
第五章 大数据分析
数据分析的类型
根据数据分析深度,可将数据分 析分为三个层次:描述性分析 (descriptive analysis),预测 性(predictive analysis)分析和 规则性分析(prescriptive analysis)。 在统计学的领域当中,数据分析 可划分为描述性统计分析、探索 性数据分析及验证性数据分析三 种类型。 在人类探索自然的过程中,通常 将数据分析方法分为定性数据分 析和定量数据分析两大类。 按照数据分析的实时性,一般将 数据分析分为实时数据分析和离 线数据分析。
5.3 数据挖掘
第五章 大数据分析
Mahout
Mahout的主要数据目标集是大规模数据,因此Mahout能够建立运行在 Apache Hadoop平台上的可伸缩的机器学习算法,这些算法通过 Mapreduce模式实现,但并不局限于Hadoop平台。
5.3 数据挖掘
Spark MLlib
MLlib是构建在Apache Spark上 的一个可扩展的分布式机器学习 库,充分利用了 Spark 的内存计 算和适合迭代型计算的优势,将 性能大幅度提升。MLlib支持的 分类算法主要有:朴素贝叶斯、 逻辑回归、决策树和支持向量 机.MLlib支持的回归算法主要有: Lasso、线性回归、决策树和岭 回归。聚类算法属于非监督式学 习,MLlib目前支持广泛使用的 Kmeans算法。MLlib也支持基于 模型的协同过滤,其中用户和商 品通过一小组隐语义因子进行表 达,并且这些因子也用于预测缺 失元素。
Hadoop是一种能够对大数据进行并行分布式处理的计算框架, 以一种可靠、可伸缩、高效的方式对海量数据进行处理。
人工神经网络是一种模拟大
脑神经突触联接结构来进行
信息处理的数学模型,具有
强大的自主学习能力和联想
存储功能并具有高度容错性
,非常适合处理非线性数据
以及具有模糊性、不完整性
Hadoop实现了一个分、布冗式余文性件特系征统的(数H据a。doop Distributed File System),简称HDFS。HDFS具有高容错性的特点,并且设计用来 部署在低廉硬件上;而且它提供高吞吐量来访问应用程序的数据,适 合那些有着超大数据集(large data set)的应用程序。
聚类
聚类分析是把一组数 据按照差异性和相似性 分为几个类别,使得属 于同一类的数据之间相 似性尽可能大,不同类 之间的相似性尽可能小 ,跨类的数据关联性尽 可能低。
5.3 数据挖掘
第五章 大数据分析
回归分析
回归分析是确定两种或两种以上变
量相互之间依赖性关系的一种统计
分析方法,用以分析数据的内在规
律,常用于数值预报、系统控制等
大数据应用人才培养系列教材
第五章 大数据分析
5.1 数据分析概念和分类 5.2 数据分析方法 5.3 数据挖掘 5.4 上机与项目实训 习题
5.2数据分析方法
第五章 大数据分析
数据分析方 数据分析是指数据收集、处理并获取数据信息的过程。通过数据分析,人们可以从杂乱 法概述 无章的数据当中获取有用的信息,从而找出研究对象的内在规律。
第五章 大数据分析
Storm
Storm是一个开源的、分布式的 具有高容错性的实时计算系统。 Storm能够十分可靠地处理庞大 的数据流,能够用来处理 Hadoop的批量数据。Storm应用 领域广泛,包括:在线机器学习、 实时分析、分布式RPC(远过程 调用)、持续计算、ETL等等。 Storm的处理速度非常迅速,每 个节点每秒可以处理上百万个数 据元组,Storm支持多种语言编 程,具有容错性高、可扩展、易 于设置和操作的特点。
朴素贝叶斯算法 支持向量机SVM算法 AdaBoost算法
C4.5算法
CART算法
聚类
目的在于将数据集内具有相似特征属性的数据聚集在一起,同一个数据群中的数据特征要尽 可能相似,不同的数据群中的数据特征要有明显的区别。
BIRCH算法
K-Means算法
期望最大化算法(EM算法)
K近邻算法
关联规则
索系统中的所有数据,找出所有能把一组事件或数据项与另一组事件或数据项联系起来的规 则,以获得预先未知的和被隐藏的,不能通过数据库的逻辑操作或统计的方法得出的信息。
大数据应用人才培养系列教材
大数据导论
大数据应用人才培养系列教材
第五章 大数据分析
5.1 数据分析概念和分类 5.2 数据分析方法 5.3 数据挖掘 5.4 上机与项目实训 习题
5.1 数据分析概念和分类
数据分析概念和分类
数据分析是指收集、处理数据并获 取数据隐含信息的过程。大数据具 有数据量大、数据结构复杂、数据 产生速度快、数据价值密度低等特 点,这些特点增加了对大数据进行 有效分析的难度,大数据分析(Big Data Analytics, BDA)成为当前探索 大数据发展的核心内容。 数据分析主要作用包括: ● 推测或解释数据并确定如何使用 数据; ● 检查数据是否合法; ● 给决策制定合理建议; ● 诊断或推断错误原因; ● 预测未来将要发生的事情。
RapidMiner是德国多特蒙德工业大 学于2007年推出的世界领先的数据 挖掘工具,能够完成的数据挖掘任务
涉及范围广泛,并且能够简化数据挖
掘过程的设计和评价R。apidMine
r
5.3 数据挖掘
第五章 大数据分析
Pentaho BI
Pentaho BI是一个以流程为核心的,面向 解决方案(Solution)而非工具组件的框 架,其目的在于将一系列企业级BI产品、 API、开源软件等组件加以集成,方便商 务智能应用的开发。Pentaho BI包括多个 工具软件和一个web server平台,支持分 析、报表、图表、数据挖掘和数据集成等 功能,允许商业分析人员或研发人员分析 模型,创建报表,商业规则和BI流程。
大数据应用人才培养系列教材
第五章 大数据分析
5.1 数据分析概念和分类 5.2 数据分析方法 5.3 数据挖掘 5.4 上机与项目实训 习题
5.3 数据挖掘
第五章 大数据分析
数据挖掘基本概念
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其 中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这个定义包括几层含义:数据 源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理 解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。
4 大必 要的活 动步骤
第五章 大数据分析
(2)采集数据
数据采集就是运用合适的方法来有效收 集尽可能多的相关数据,从而为数据分 析过程的顺利进行打下基础。常用的数 据采集方法包括:系统日志采集方法, 这是目前广泛使用的一种数据采集方法。
(4)数据挖掘
数据挖掘的目的是在现有数据基础之上利 用各类有效的算法挖掘出数据中隐含的有 机质信息,从而达到分析推理和预测的效 果,实现预定的高层次数据分析需求。
第五章 大数据分析
数据来源
大数据的来源按照数据产生主体可划分为三层。最外层的 是巨量的各类机器产生的数据,次外层是人为产生的大量 数据。最内层主要是来自企业的数据。
巨量的各类机
1
器产生的数据
人为ห้องสมุดไป่ตู้生的大
2 量数据
3
企业的数据
5.2数据分析方法
数据分析活动步骤
数据获取及储存
1
数据信息抽取及无用信息的清洗
陈述问题
数据收集
进行预处理
挖掘数据
解释模型得出结论
5.3 数据挖掘
第五章 大数据分析
大数据挖掘
数据挖掘是创建数据挖掘模型的一组试探法和计算方法,通过对提供的数据进行分析,查找特定 类型的模式和趋势,最终形成创建模型。
分类
一种重要的数据分析形式,根据重要数据类的特征向量值及其他约束条件,构造分类函数或 分类模型,目的是根据数据集的特点把未知类别的样本映射到给定类别中。
2
数据整合及表示
3
数据模型的建立和结果分析
4
结果阐释
5
第五章 大数据分析
5.2数据分析方法
数据分析活动步骤
(1)识别目标需求
首先必须明确数据分析的目标需求,从而 为数据的收集和分析提供清晰的方向,该 步骤是数据分析有效性的首要条件。
(3)数据预处理
对数据进行必要的预处理,常用的 数据预处理方法包括:数据集成、 数据清洗、数据去冗余。
5.3 数据挖掘
人工神经网络
人工神经网络是一种模拟大 脑神经突触联接结构来进行 信息处理的数学模型,具有 强大的自主学习能力和联想 存储功能并具有高度容错性 ,非常适合处理非线性数据 以及具有模糊性、不完整性 、冗余性特征的数据。
第五章 大数据分析
5.3 数据挖掘
第五章 大数据分析
大数据挖掘工具
面向流 程视角
面向流程视角的大数据分析方法主要关注大数据分析的步骤 和阶段。一般而言,大数据分析是一个多阶段的任务循环执 行过程。
面向信息技术视角的大数据分析方法强调大数据本身涉及到
面向信息 技术视角
的新型信息技术,从大数据的处理架构、大数据系统和大数 据计算模式等方面来探讨具体的大数据分析方法。
5.2数据分析方法
Pentaho BI
5.3 数据挖掘
第五章 大数据分析
数据挖掘常用算法
大数据挖掘常用的算法有分类、聚类、回归分析、关联规 则、特征分析、Web页挖掘、神经网络等智能算法。
5.3 数据挖掘
第五章 大数据分析
分类
分类就是通过学习得 到一个目标函数,根据 目标数据的不同特点按 照分类模式将其划分为 不同的类别,其作用是 通过分类模型,将目标 数据映射到某个特定的 类别。
机器学习算法从数据中自动分析获得规律,并利用规律对未
机器学习
知数据进行预测。高性能的以机器学习算法为核心的数据分 析,为实际业务提供服务和指导,进而实现数据的最终变现。
可视化分析与信息绘图学和信息可视化相关。数据可视
可视化 分析
化的目标是以图形方式清晰有效地展示信息,从而便于 解释数据之间的特征和属性情况。
相关文档
最新文档