大数据工作流程
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
分布式文件系统
数据预处理 数据采集
数据相互转移
数据抽取、转换、装载过程
一、大数据处理流程简析
分布式并行处理运算MapReduce
数据采集
数据预处理
数据存储
数据分析挖掘
结果展现
常 用 工 具
chukwa
Sqoop
HDFS HBASE
HIVE maout
PowerView
二、、分布式并行处理技术MapReduce
HDFS
三、各处理流程相关技术简析
数据展现
聚类算法结果展示
Map
HDFS/HIVE/HBas e
三、各处理流程相关技术简析
数据存储
HDFS结构
三、各处理流程相关技术简析
数据存储
三、各处理流程相关技术简析
Maout挖掘 数据价值
数据分析挖掘
机器学习、数据挖掘、语义搜索……
MapReduce
HIVE查询统 计用户行为 数据
HIVE数据仓库
MapReduce
MapReduce是一套软件框架,包括Map(映射)和Reduce(化简)两个阶段, 可以进行海量数据分割、任务分解与结果汇总,从而完成海量数据的并行处理。
单词技术问题
原文本
分割文本
生成新的文本
结果归拢排序
MapReduce工作流程
三、各处理流程相关技术简析
数据采集
数据采集是数据分析、挖掘的基础,常用的海量数据采集工具有Hadoop的 Chukwa,Cloudera的Flume,Facebook的Scribe等,这些工具均采用分布式架 构,能满足每秒数百MB的日志数据采集和传输需求。
数据源
提取 数据
转换 数据 格式
map/ reduce
存储 数据
目标数据 存储区
Chukwa数据采集原理
三、各处理流程相关技术简析
数据预处理
SQL与HBASE、HIVE之间进行内容传递时,需要一个数据转移工具,如 Sqoop。其工作过程如下:
SQL
Sqoop
Sqoop
Sqoop
Sqoop
Map
Map
大数据处理流程及 相关工具介绍
目录
1
大数据处理流程简析
2源自文库
分布式并行处理技术MapReduce
3
各处理流程相关技术简析
(基础常识、工作原理、常用工具)
一、大数据处理流程简析
结果展现 数据分析挖掘 数据存储
PowerView 动态图表
机器学习、数据挖掘、语义搜索
海量结构化存储系统
海量非结构化存储系统