大数据体系结构及原理
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Pig Hive Mahout MapReduce
NoSQL数据库
安全控制
图计算M架ap构Reduce及更丰富 Ham的a计算模型 监控报警
分布式文件存储 HDFS
配置管理
7 简单说说Map/Reduce
• 简单的说 • Map:问题读取器。将输入键值对(key/value pair)映射到一组中间格式的键值对集合。 • Reduce:归约器。将Map的输出中与一个Key关联的一组中间数值集归约为一个更小的数 值集。
其它
网页访问 日志
通话记录
其他
3 技术架构
大数 据应 用层
大数 据存 储和 处理
层
采集 层
索引查找
统计建模
行为分析
应用接入层
海量存储高性能在线查询库
分布式内存数据库
关系图谱
根据业务特征,多样组 合选择
通信
数据挖掘 结构化数据接入层
全文搜索
分析统计
数据加载、清洗、转换
NoSql离线库
网络爬虫引擎
非结构化/半结构化数据接入层
5 放大一下——计算框架
数数据据表表管管理理
文文件件管管理理
元元数数据据管管理理
应用接入
ZZooookkeeeeppeerr
数数据据导导入入 SSqqoooopp FFlluummee KKaaffkkaa
Pig Hive Mahout MapReduce
NoSQL数据库
图计算架构 Hama
分布式文件存储 HDFS
大数据体系结构及 原理
2 技术架构
大数 据应 用层
大数 据存 储和 处理
层
采集 层
索引查找
统计建模
行为分析
应用接入层
海量存储高性能在线查询库
分布式内存数据库
关系图谱
通信
数据挖掘 结构化数据接入层
全文搜索
分析统计
数据加载、清洗、转换
NoSql离线库
网络爬虫引擎
非结构化/半结构化数据接入层
酒店
机场
铁路
酒店
机场
铁路
其它
Baidu Nhomakorabea网页访问 日志
通话记录
其他
4 放大一下——计算框架
数据表管理
文件管理
元数据管理
应用接入
Zookeeper
数据导入 Sqoop Flume Kafka
Pig Hive Mahout MapReduce
NoSQL数据库
图计算架构 Hama
分布式文件存储 HDFS
账号管理 安全控制 监控报警 配置管理
账号管理 安全控制 监控报警 配置管理
6 放大一下——计算框架
数数据据表表管管理理
文文件件管管理理
ZZooookkeeeeppeerr
SQL,替代 Hive
元元数数据据管管理理
应用接入
流式计算数,据快挖速掘,图更计快算,实体
信息识别速的内存式关计系算图谱遍历
账号管理
数数据据导导入入 SSqqoooopp FFlluummee KKaaffkkaa