大数据下的资源整合和知识共享(下)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• Hive是基于Hadoop的一个数据仓库工具。 • 主要考虑大数据查询效率问题的解决,可以将结构化的 数据文件映射为一张数据库表,并提供完整的SQL查询功 能。 • 可以将SQL语句转换为MapReduce任务进行运行。
1 首先将任务分 配 给 HDFS 之 上 的 三 个 Node , 每 个 Node 代 表 一个机器。
计算路网的速度, 通过路网的速度,
来探测拥堵的事件。
问题二:全城的汽车油耗与尾气排放实时监控
需要解决:
过去一个小时,全城油耗是多少?排放多少尾气? 汽车尾气排放是不是城市污染的主要原因? 在任何时间任何路段估计出汽车汽油消耗和尾气排放。
出租汽车GPS轨迹数据 路网数据 POI数据 天气数据
目标:
POI
POI是地图上一些单位的属性。 难题: 无法用现有方法建模。
如何做到的?
1| 2| 3|
将城区划分成若干网格,提 取每个网格属性。 针对每种污染情况,进行区 间的分类。 利用半监督学习模型,构建 分类器。
分类器
时间 分类器
空间 分类器
这两个分类器,互相迭代、互相增强,最终能够 推理出未知区域的空气质量。
HDFS
HDFS包含了一个Namenodes,还有很多的Datanodes。 Namenodes进行一个元数据的管理,Datanodes保存在不同的 物理设备上。 Datanodes里面绿色的小方框,是存储块。
规模
10K nodes, 100 million files, 10 PB 适合数据批量处理;最大化吞吐率; 允许计算向数据迁移 数据块副本、数据块放置策略、 缓存策略等
2
在性能上提供 比Hadoop更上 层的API,同 样的算法只有 Hadoop的1/10 或者1/100的 长度。
3
Shark是一个 在Spark上数 据仓库的实现, 在兼容Hive的 情况下,性能 最高可以达到 Hive的一百倍。
2.数据挖掘与分析
数据挖掘是从大量的、不 完全的、有噪声的、模糊 的、随机的实际应用数据 中,提取隐含在其中的、 人们事先不知道的、但又 是潜在有用的信息和知识 的过程。
大数据下的 资源整合和知识共享 (下)
目 录
一、热词解释 二、国际大数据案例分析及相关技术介绍
(一)国际大数据案例分析 (二)大数据相关技术
三、大数据实际项目解析
二、国际大数据案例分析 及相关技术介绍
(二)大数据相关技术
1.数据获取与储存
Hadoop是一个能够对大量数 据进行分布式处理的开源软 件框架。它支持数据密集型 分布式应用并以Apache2.0为 许可协议发布。它支持在商 品硬件构建的大型集群上运 行应用程序。Hadoop是以一 种可靠、高效、可伸缩的方 式对大数据进行处理。
优势
传统的方法
我们的方法 考虑到了时 间和空间两 个因素,精 度比较高。
忽略了路网数 据和POI数据, 跟时间不相关, 精度低。
2.智能交通
城市拥堵情 况越来越严重, 原有的红绿灯控 制系统,已表现 出明显的缺点。
如何做
分析十字路口 的拥堵模式Байду номын сангаас 对全城的交通路 况进行模拟。
通过车的速度,来
使用数据:
大数据解决方案
通过TSE(Travel Speed Estimation),估计其他 路网车的速度。
核心
大数据的数据挖掘与机器 学习,是大数据技术的核 心,也是人工智能的核心。
数据挖掘案例:购物篮分析
顾客往往喜欢 将啤酒和尿布 同时购买。
机器学习
机器学习主要是设计和分析 一些让计算机可以自动学习的算 法,它是一类从数据中自动分析 获得规律,并且利用规律对未知 数据进行预测的算法。
3.数据交互与可视化
可视化就是利用计算机图形学以及图像处理技术,将数据转换 成图像,显示在电脑的显示器上。
信 息 可 视 化
提高人对大规模非结构
化数据的理解与感知,
降低大数据信息负载。
便于对科学技术数据 和模型的实时渲染与 处理。
科 学 可 视 化
技术: 分布式实时渲染(GPU/CPU) 多层次交互可视分析(Level of Details ) 结合数据挖掘/机器学习的智能可视化
三个层次
HADOOP
底层
集群的存储环境,HDFS
中间层
分布式的数据处理
有一个抽象PIG,Hive还 有Sqoop
顶层
Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬 件(commodity hardware)上的分布式文件系统。 HDFS能提供高吞吐量的数据访问,非常适合于大规模数据 集上的应用。 HDFS放宽了一部分POSIX的约束,来实现流式读取文件系 统数据的目的。
三、大数据实际项目解析
(一)智慧城市
1.空气质量监测
北京的空气监测站,离 散地分布在城区的,空 间分辨率是每 100 平方 公里有一个监测站,每 个监测站能够监测一平 方公里的空气质量。 城市空气质量全方位实时监控
存在问题和挑战
1
空气质量随着时空变迁非线性变化。
2
受天气、交通、建筑等因素影响。
特性
优化
MapReduce
它是一种并行式的计算模型,用于大规模数据集,通常是 大于1TB的并行计算。Map是映射,Reduce是规约。
• 应用程序开三个线程。一个线程产生 Master 结点,另外两 个Worker结点。
两个阶段
MapReduce 流程
HBase是一个开源的非关系型分布式数据库(NoSQL),它 参考了谷歌的BigTable建模,实现的编程语言为Java。 它是Apache软件基金会的Hadoop项目的一部分,运行于 HDFS文件系统之上,为 Hadoop 提供类似BigTable 规模 的服务。 因此,它可以容错地存储海量稀疏的数据。
2
3
Node3因为某种 原因失败,这 个任务只完成 了85%。
在Time3的时候, 这个任务可以 迁移到另外的 一个Node。
说明:
Hive具有容错 的机制。
Pig
Pig 为 复 杂 的 海 量数据并行计算, 提供了一个简单 的操作和编程接 口。
Spark
1
Spark是一个 高效的分布式 计算系统,它 有MapReduce 所有优点,同 时性能比 Hadoop高100 倍。