大数据技术基础

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

云计算的模式是业务模式,本质是数据处理技术。 数据是资产,云为数据资产提供存储、访问和计算。 当前云计算更偏重海量存储和计算,以及提供的云服务,运行云应用,但是缺乏盘活数据资产的能力,挖掘价值性信息和预测性分析,为国家、企业、 个人提供决策和服务,是大数据核心议题,也是云计算的最终方向。
《大数据分析及应用实践》
2.4.2 数据的存储方式
大数据存储方式 开放系统的直连式存储(Direct Attached Storage, DAS)
直接连接于主机服务器的 一种储存方式。每一台主机服 务器有独立的储存设备,可以说是一种应用较为早的技 术实现。 DAS缺点: • • • 效率比较低 无法共享 数据保护流程复杂
数据采集的方法:
《大数据分析及应用实践》
www.labbigdata.com
2.3.1 数据采集的意义
数据采集:其实就是大数据抽取、转换和加载的过程 数据采集的工具:摄像头、麦克风等都是数据采集的工具。 数据采集的意义:足够的数据量是企业大数据战略建设的基础,数据采集成为大数据分析的前奏。数据采集是大数据价值挖掘中重
系统日志的采集
Cloudera的Flume Hadhoop 的Chukwa Cloudra的 Flume
• Flume是一个分布式、可靠、和高可用的海量日志聚合的系统, 支持在系统中定制各类数据发送方,用于收集数据;同时,
Flume提供对数据进行简单处理,并写到各种数据接受方(可
定制)的能力
《大数据分析及应用实践》
5.高可靠性和安全性:服务器使用数据多副本容错,计算节点同构
可互换等措施,保障服务的可靠性和安全性。
云计算的服务模式和类型
《大数据分析及应用实践》
www.labbigdata.com
2.2.2 云计算与大数据
云计算为大数据提供了技术基础,大数据为云计算提供了用武之地
商业模式驱动
应用需求驱动
• • •
2、数据库类型:MySQL、SQLSever、Oracle、PostgreSQL等。
3、数据集群类型:Hive、Spark等。
《大数据分析及应用实践》
www.labbigdata.com
本章小结
进行大数据的大分析,需要一定的架构支撑和技术支持。本章介绍了大数据处理过程中需要涉及的几个重要技术平台。 Hadoop被视为事实上的大数据处理标准,本章介绍了Hadoop的发展历程,并着重介绍了Hadoop的基础架构: HBase、MapReduce、Hive、Pig、R语言。
公有云
混合云
私有云
云计算的特点:
1.可扩展性:实现动态的,可伸缩的扩展
应用层 软件即服务(SaaS) 平台层 平台即服务(PaaS) 基础设施层 基础设施即服务(IaaS)
2.按需提供资源服务:按需求提供资源,按使用量付费 3.虚拟化:基于虚拟化技术快速部署资源或获得服务 4.超大规模:通过互联网提供、面向海量信息处理
简便而强大的编程语言
可操纵数据的输入和输出,可实现分支、 循环,用户可自定义功能
《大数据分析及应用实践》
www.labbigdata.com
2.云计算
2.2.1 云计算的特点
云计算是一种计算模型,它将计算任务分布在大量计算机构成的资源池上,使用户能够按照自己的需要获取计算、存储和信息服务。云计 算实现了通过网络提供可伸缩的、廉价的分布式计算能力,用户只需要在具备网络接入条件的地方,就可以随时随地获得所需的各种IT资 源
《大 数 据 分 析 及 应 用 实 践》
第二章:大数据技术基础
目录
CONTENTS
2.1基础架构支持 2.2云计算 2.3数据采集
2.4数据存储
《大数据分析及应用实践》
www.labbigdata.com
1.基础架构支持
2.1.1 Hadoop

Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构 Hadoop是基于Java语言开发的,具有很好的跨平台特性,并且可以部署在廉价的计算机集群中 Hadoop的核心是分布式文件系统HDFS(Hadoop Distributed File System)和MapReduce Hadoop被公认为行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力 几乎所有主流厂商都围绕Hadoop提供开发工具、开源软件、商业化工具和技术服务,如谷歌、雅虎、微软、思科、淘宝等,都 支持Hadoop
基于GPS的定位信息采集
基于GPS的定位信息采集
基于交通摄像头的视频采集 智能交通中 基于物联网 的数据采集 基于交通卡口的图像采集
基于路口的线圈信号采集
《大数据分析及应用实践》
www.labbigdata.com
2.3.2 数据采集的方法
2.系统日志采集方法
很多互联网企业都有自己的海量数据采集工具,多用于系统日志采集,如Hadoop的Chukwa,Cloudera的Flume,Facebook的Scribe等,这些工具均采 用分布式架构,能满足每秒数百MB的日志数据采集和传输需求。
7:将结果中有价值的数据写入HBASE数据库; 8:报表系统&应用程序端通过HBASE查询数据并展现;
《大数据分析及应用实践》
www.labbigdata.com
2.1.2 HBase
HBase是运行在Hadoop上的NoSQL数据库,它是一个分布 式的、可扩展的大数据仓库,是一个构建在HDFS上的分布式 列存储系统; 从逻辑上讲,HBase将数据按照表、行和列进行存储。 与hadoop一样,Hbase目标主要依靠横向扩展,通过不断增 加廉价的商用服务器,来增加计算和存储能力。
网络附加存储(Network Attached Storage,NAS)
是一种用高速(光纤)网络联接专业主机服务器的一种储存方式。 NAS优点: • • • 即插即用 存储简单 存储设备位置灵活
《大数据分析及应用实践》
www.labbigdata.com
2.4.3 常见数据源类型
1、文本类型:Excel、TXT、CSV等。
《大数据分析及应用实践》
www.labbigdata.com
2.1.1 Hadoop Hadoop技术架构
•经过多年的发展,Hadoop项目不断完善和成熟,目前已经包含多个子项目(如下图2-2所示) •除了核心的HDFS和MapReduce以外,Hadoop项目还包括Common、Avro、Zookeeper、HBase、Hive、Chukwa、Pig等子项目,它们提供了 互补性服务或在核心层上提供了更高层的服务
Hive与Hadoop关系
《大数据分析及应用实践》
www.labbigdata.com
2.1.5 Pig
Pig 简介

Pig是一个基于Hadoop的大规模数据分析平台,Pig包含两个部分:Pig Interface,Pig Latin。

它提供的SQL-LIKE语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转 换为一系列经过优化处理的MapReduce运算。
《大数据分析及应用实践》
www.labbigdata.com
4.数据存储
2.4.1数据存储的概念
概念:数据以某种格式记录在计算机内部或外部存储介质上。
数据存储方式与数据文件组织密切相关,其关键在于建立记录的逻辑与物理顺序间对应关系,确定存储地址,以提高数据存取 速度。
《大数据分析及应用实践》
www.labbigdata.com
2.Spider Data,爬虫从网页中抽取出来的数据;
3.DP Data,经过dp处理之后的数据
2)网络数据采集和处理的基本步骤
《大数据分析及应用实践》
www.labbigdata.com
2.3.2 数据采集的方法
4.其他数据的采集方法
对于企业生产经营数据或学科研究数据等保密性要求较高的数据, 可以通过与企业或研究机构合作,使用特定系统接口等相关方式采集数据。
www.labbigdata.com
2.3.2 数据采集的方法
3.网络数据的采集方法
1)四个主要模块及功能
网络爬虫
从Internet上抓取网页内容,
URL队列
为爬虫提供需要抓取数据
数据处理
对爬虫抓取的内容进行 处理
数据
1.Site Url,需要抓取数据网站的Url信息;
并抽取出需要的属性内容。
网络的URL
Hadoop技术架构图
《大数据分析及应用实践》
www.labbigdata.com
2.1.1 Hadoop
项目架构
1:日志采集; 2:传输日志; 3:将日志写入HDFS; 4:从HDFS中将日志装载入数据仓库中; 5:对装载的数据进行分析;
6:调用Hadoop集群的M/R执行并行计算,并返回结果;

Pig为复杂的海量数据并行计算提供了一个简单的操作和编程接口。
《大数据分析及应用实践》
www.labbigdata.com
2.1.6 R语言
R是一套完整的数据处理、计算和制图软件系统。
功能
数据存储和处理系统
数组运算工具(其向量、矩阵运算方面功 能尤其强大)
完整连贯的统计分析工具
优秀的统计制图功能
云计算技术师硬件技术和网络技术发展到一定阶段而出现的一种新的技术模型,它具有可扩展性、按需提供资源服务、
虚拟化、超大规模、高可靠性和安全性等特点,云计算与大数据相辅相成,相得益彰。 本章最后介绍了数据采集的作用及方法,并介绍了数据存储的方式和常见数据源的类型。
《大数据分析及应用实践》
www.labbigdata.com
要的一环,它是计算机与外部物理世界连接的桥梁。
数据采集的方法:
基于物联网的采集方法
系统日志采集方法
网络数据采集方法
其他数据采集方法
《大数据分析及应用实践》
www.labbigdata.com
2.3.2 数据采集的方法
1.基于物联网的采集方法
数据的采集有基于物联网传感器的采集,也有基于网络信息的数据采集。基于物联网的采集,例如在智能交通中,数据的采集有:基于GPS的定位信息采 集、基于交通摄像头的视频采集、基于交通卡口的图像采集、基于路口的线圈信号采集等。
THANKS!
THANKS!
HBase表特点:a.大 b.无模式 c.面向列 d.稀疏 e.数据多版本 f.数据类型单一
《大数据分析及应用实践》
www.labbigdata.com
2.1.3 MapReduce
MapReduce是一种编程模型,基于它写出来的应用程序能够运行在由上千个商用wenku.baidu.com器组成的大型集群上,并以一种可靠容错的方式并
Facebook的Scribe Facebook的Scribe
• Scribe是Facebook开源的日志手机系统,它能够从各种日志源上收集日
志,存储到一个中央存储系统上,以便于进行集中统计分析处理。它为日 志的“分布式收集,统一处理”提供了一个可扩展的,高容错的方案。
Hadoop的Chukwa
• chukwa 是一个开源的用于监控大型分布式系统的数据 收集系统。这是构建在 hadoop 的 hdfs 和 map/reduce 框架之上的,继承了 hadoop 的可伸缩 性和鲁棒性。Chukwa 还包含了一个强大和灵活的工 具集,可用于展示、监控和分析已收集的数据。
www.labbigdata.com
3.数据采集
2.3 数据采集
数据采集:其实就是大数据抽取、转换和加载的过程 数据采集的工具:摄像头、麦克风等都是数据采集的工具。 数据采集的意义:足够的数据量是企业大数据战略建设的基础,数据采集成为大数据分析的前奏。数据采集是大数据价值挖掘中重
要的一环,它是计算机与外部物理世界连接的桥梁。
行处理上T级别的数据集。
Map—映射
Reduce——归纳
MapReduce就是“任务的分解与结果的汇总”
MapReduce处理流程
《大数据分析及应用实践》
www.labbigdata.com
2.1.4 Hive
•Hive是建立在 Hadoop 上的数据仓库基础构架,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 •本质是将SQL转换为MapReduce程序
相关文档
最新文档