大数据体系架构及其应用介绍
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Variety 多样
Value 价值
Veracity 真实性
1 什么是数据仓库?
数据仓库
英文名称为Data Warehouse,可简写为DW或DWH。数据 仓库,是为企业所有级别的决策制定过程,提供所有类型数据 支持的战略集合。它是单个数据存储,出于分析性报告和决策 支持目的而创建。
数据仓库
Hadoop、Spark都可以看成是数据仓库的一种实现方式。
1 如果没有数据仓库?
业务源数据 客户
销售点 员工 库存 财务 订单
不一致 的报表
维护成 本高
报表创 建慢
数据不 准确
缺乏汇 总报表
重复工 作
商业用途 财务系统
客户管理 销售管理 产品服务
运营
1 具备了数据仓库
业务源数据 客户
销售点 员工 库存 财务 订单
➢ 一致性报表 ➢ 重用业务源中抽取的数据 ➢ 成本效益高的报表 ➢ 支持所有源和报表类型 ➢ 可扩展性
商业用途 财务系统
客户管理 销售管理 产品服务
运营
1 OLTP和OLAP
On-Line Transaction Processing (联机事务处理过程)
也称为面向交易的处理过程,其基本特征是前台接收的用户数据可以立即传送到计算中心进行处理,并 在很短的时间内给出处理结果,是对用户操作快速响应的方式之一。OLTP是传统的关系型数据库的主 要应用,主要是基本的、日常的事务处理,例如银行交易。
1 大数据典型应用场景二:交通大数据
UPS最新的大数据来源是安装在公司4.6万多辆卡车上的远程通信传感 器,这些传感器能够传回车速、方向、刹车和动力性能等方面的数据。收集 到的数据流不仅能说明车辆的日常性能,还能帮助公司重新设计物流路线。
大量的在线地图数据和优化算法,最终能帮助UPS实时地调配驾驶员 的收货和配送路线。该系统为UPS减少了8500万英里的物流里程,由此节 约了840万加仑的汽油。
On-Line Analytic Processing (联机分析处理过程)
OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结 果。典型案例:商品推荐。
1 大数据的理论基础一
分布式文件系统(Distributed File System):
当数据集的大小超过一台独立物理计算机的存储能力时,就有 必要对它进行分布式存储到若干台单独的计算机上。管理网络 中夸多台计算机存储的文件系统。这种系统构架于网络之上, 肯定会引入网络编程的复杂性,因此它比普通的磁盘文件系统 更为复杂。
模型发现,许多孕妇在第2个妊娠期的开始会买许多大包装的无香味护 手霜;在怀孕的最初20周大量购买补充钙、镁、锌的善存片之类的保健品。
最后塔吉特选出了25种典型商品的消费数据构建了“怀孕预测指数”, 通过这个指数,Target能够在很小的误差范围内预测到顾客的怀孕情况,因 此Target就能早早地把孕妇优惠广告寄发给顾客。
YARN的基本思想是主要方法是创建一个全局的资 源管理器和若干个针对应用程序的应用程序管理器, 将JobTracker的两个主要功能(资源管理和作业 调度/监控)分离。这里的应用程序是指传统的 MapReduce作业或作业的DAG(有向无环图)。
CHAPTER
2
大数据的核心体系架构
2 Hadoop的体系架构及其生态组件
2 Yarn:Hadoop的资源和任务管理器
YA RN (另 一种资 源协 调者, Yet A n o ther Resource Negotiator)是一种新的 Hadoop 资 源管理器,可为上层应用提供统一的资源管理和调 度,它是一个通用资源管理系统,它的引入为集群 在利用率、资源统一管理和数据共享等方面带来了 巨大好处。
1 PageRank模型如下:
ABLeabharlann CDAA→B、C 、 D
B→A、D
C→ A
D→B、C
1 大数据典型应用场景一:零售商品大数据
有一位父亲怒气冲冲地跑到塔吉特卖场,质问为何将带有婴儿用品优惠 券的广告邮件,寄送给他正在念高中的女儿?
然而后来证实,他的女儿果真怀孕了。这名女孩搜寻商品的关键词,以 及在社交网站所显露的行为轨迹,使沃尔玛捕捉到了她的怀孕信息。
Google File System:
是由Google开发并设计的一个面向大规模数据处理的一个分 布式文件系统。为了满足Google日益增长的数据存储和数据 处理需求,Google设计并实现了GFS。它是有几百甚至几千 台普通的廉价PC机组成。
1 分布式文件系统的典型架构:HDFS
NameNode
大数据(Big Data),指无法在一定时间范围内用 常规软件工具进行捕捉、管理和处理的数据集合, 是需要新处理模式才能具有更强的决策力、洞察发 现力和流程优化能力的海量、高增长率和多样化的 信息资产。
核心问题: ➢ 数据的存储 ➢ 数据的计算
1 大数据的5个特征(IBM提出)
Volume 大量
Velocity 高速
大数据体系架构 及其应用介绍
目录
1 大数据的基本概念和核心问题 2 大数据的核心体系架构 3 大数据的应用
CHAPTER
1
大数据的基本概念和核心问题
1 大数据的基本概念和核心问题
什么是大数据?及其要解决的核心问题 什么是数据仓库? OLTP和OLAP 大数据的理论基础
1 什么是大数据?及其要解决的核心问题
存储元数据
元数据保存在内存中
保存文件,block,datanode之间 的映射关系
DataNode
存储文件内容
文件内容保存在磁盘
维护了block id到datanode本地 文件的映射关系
1 大数据的理论基础二
Google在其发展的过程中,遇到了PageRank的问题。即:网页搜索排名。
过去的排序算法是比如使用网页名字,关键词出现的次数,人工等方法,但是这种方法一方面搜索结果不准确,另一方面搜索结果 容易被人为因素影响。所以,PageRank应运而生。 PageRank算法计算每一个网页的PageRank值,然后根据这个值的大小对网页的重要性进行排序。它的思想是模拟一个悠闲的上 网者,上网者首先随机选择一个网页打开,然后在这个网页上呆了几分钟后,跳转到该网页。 网页当中所指向的链接,这样毫无目地在网页上跳来跳去,PageRank算法提出就是估计这个悠闲上网者分布在各个网页上的概率。