大数据分析方法与技术实务
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
External Data Sources
Users
HiveQL
Mahout
Processingwenku.baidu.comFramework (Map-Reduce)
Sqoop + Flume
HBase
HIVE
HDFS storage layer
分布式文件系统- HDFS
采用主从架构,由一个Namenode 和若干个Datanode组成; Namenode:负责管理名字空间 与客户端访问; Datanode:管理附带的存储, 存储文件的block; 一个文件分成多个block,Block是 HDFS最小存储与分配单位, 分布存
非交互式场景(1m~1h): MapReduce、Hive、Pig、Stinger等;
批处理场景(1h+) 运行时间较长,处理数据量较大,对容错性和扩展性要求较高 MapReduce、Hive、Pig、Stinger等。
9
Hadoop 生态系统
Data accessed through multiple entry points Oozie Hive 工作流引擎 Metastore Cloudera (HCatalog) Navigator 访问授权控制 Pig
要解决的问题
Streams Real time Near time Batch
Velocity 快速的数据流转
Value
Structured Unstructured Semi-structured All the above
TB
PB EB
大数据技术被设计用于在成 本可承受的条件下,通过非 常快速(velocity)地采集、 发现和分析,从大量(volu mes)、多类别(variety) 的数据中提取数据价值(va lue),将是IT 领域新一代 的技术与架构。
Variety 多样的数据类型
Volume 海量的数据规模
发现数据价值
数据处理相关技术
海量数据存储:
结构化数据:
• • • • • 海量数据的查询、统计、更新等操作效率低 图片、视频、word、pdf、ppt等文件存储 不利于检索、查询和存储 转换为结构化存储 按照非结构化存储
分析技术:
海量 数据存储
元 数 据 管 理 数 据 质 量 监 控
报表展示
数据应用 数据集市
数据 处理
数 据 应 用
HIVE
分布式 文件系统
Zoo Keeper
E T L
汇总加工数据 明细数据
数 据 仓 库
数据 采集 源
数 据
目录
第一部分
数据分析时代背景
第二部分 数据分析平台技术
HDFS+MapReduce+Hive Storm+Spark
第三部分 第四部分
数据仓库建模方法 数据分析与数据挖掘
8
不同分析场景解决方案
根据响应时长可以将应用需求进行如下划分: • • • • 实时应用场景(0~5s): – – – – – Storm、S4、Cloudera Impala,Apache Drill等;
交互式场景(5s~1m): 最好支持SQL,: Shark 、Cloudera Impala、Apache Drill等;
储,典型块大小为64MB或128MB;
一个block被复制存放于多个 datanode。
11
HDFS 文件写入流程
1. 客户端调用create()来创建文件;
2. FileSystem用RPC调用NameNode,
NameNode创建一个新的文件。 FileSystem返回OutputStream,用于客 户端写数据; 3. 客户端开始写入数据, OutputStreamer将数据分成块,写入 data queue。Data queue由Data 5. OutputStreamer为发出去的数据块保存了 ack queue,等待pipeline中的DataNode告 知数据已经写入成功。 6. 当客户端结束写入数据,则调用stream的 close函数。 OutputStreamer将所有的数据 块写入pipeline中的DataNode,并等待返回 成功。 7. 最后通知NameNode写入完毕。
• 大量的不相关信息 • 对未来趋势与模式的可预测分析 • 深度复杂分析(机器学习、人工智能Vs传统商务 智能(咨询、报告等) 实时分析而非批量式分析 • 数据输入、处理与丢弃 • 立竿见影而非事后见效
多样性Variety
价值密度Value
速度Velocity
“大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)”
TB PB EB ZB
这些由我们创造的信息背后产生的这些数据早已经远远超越了目前人力所能处理 的范畴 大数据时代正在来临…
大数据的4V特征
体量Volume
非结构化数据的超大规模和增长 • 占总数据量的80~90% • 比结构化数据增长快10倍到50倍 • 是传统数据仓库的10倍到50倍 大数据的异构和多样性 • 很多不同形式(文本、图像、视频、机器数据) • 无模式或者模式不明显 • 不连贯的语法或句义
统计和分析:A/B test; top N排行榜;地 域占比;文本情感分析 数据挖掘:关联规则分析;分类;聚类 模型预测:预测模型;机器学习;建模仿 真
非结构化数据
半结构化数据
大数据技术:
数据采集:ETL工具 数据存取:关系数据库;NoSQL;SQL 基础架构支持:云存储;分布式文件系统 计算结果展现:云计算;标签云;关系图
大数据分析技术与方法
目录
第一部分 数据分析时代背景
第二部分
数据分析平台技术
第三部分
数据仓库建模方法
第四部分
数据分析与数据挖掘
2
数据分析时代的背景
数据量增加
数据结构日趋复杂
大量新数据源的出现则导致了非结构化、 半结构化数据爆发式的增长
根据IDC 监测,人类产生的数据量正在呈指数级 增长,大约每两年翻一番,这个速度在2020 年之 前会继续保持下去。这意味着人类在最近两年产生 的数据量相当于之前产生的全部数据量。
数据采集
解决方案:
Hadoop(MapReduce技术) 流计算(twitter的storm和yahoo!的S4) Spark(基于内存的分布式计算)
数据管理
数据储存
数据分析与挖掘
数据处理与分析框架
数据平台技术 数据仓库架构
数据监控
智能 分析算法
数据挖掘 数据分析
Pig!
大规模 计算