大数据下资源整合和知识共享(下)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
可视化就是利用计算机图形学以及图像处理技术,将数据转换 成图像,显示在电脑的显示器上。
信 息
提高人对大规模非结构
可 化数据的理解与感知,
视 降低大数据信息负载。
化
科
便于对科学技术数据和
学 可
模型的实时渲染与处理。 视
化
大数据可视化:以 易于人理解的方式 展示大数据。
技术: 分布式实时渲染(GPU/CPU) 多层次交互可视分析(Level of Details ) 结合数据挖掘/机器学习的智能可视化
核心
大数据的数据挖掘与机器 学习,是大数据技术的核 心,也是人工智能的核心 。
数据挖掘案例:购物篮分析
顾客往往喜欢 将啤酒和尿布 同时购买。
机器学习
机器学习主要是设计和分析一 些让计算机可以自动学习的算法, 它是一类从数据中自动分析获得 规律,并且利用规律对未知数据 进行预测的算法。
÷ 3.数据交互与可视化
Ø HDFS放宽了一部分POSIX的约束,来实现流式读取文件 系统数据的目的。
HDFS
Ø HDFS包含了一个Namenodes,还有很多的Datanodes。 Ø Namenodes进行一个元数据的管理,Datanodes保存在不
同的物理设备上。 Ø Datanodes里面绿色的小方框,是存储块。
优势
传统的方法 忽略了路网数 据和POI数据 ,跟时间不相 关,精度低。
我们的方法
考虑到了时 间和空间两 个因素,精 度比较高。
÷ 2.智能交通
城市拥堵情况 越来越严重,原 有的红绿灯控制 系统,已表现出 明显的缺点。
如何做
分析十字路口 的拥堵模式。
对全城的交通路 况进行模拟。
通过车的速度,来 计算路网的速度, 通过路网的速度, 来探测拥堵的事件 。
2
Node3因为某 种原因失败, 这个任务只完 成了85%。
3
在Time3的时 候,这个任务 可以迁移到另 外的一个 Node。
说明:
Hive具有容错 的机制。
Pig
Pig 为 复 杂 的 海 量数据并行计算, 提供了一个简单 的操作和编程接 口。
Spark
1
Spark是一个 高效的分布式 计算系统,它 有 MapReduce 所有优点,同 时性能比 Hadoop高 100倍。
三个层次
HADOOP
底层 中间层 顶层
集群的存储环境,HDFS
分布式的数据处理
有一个抽象PIG,Hive还 有Sqoop
Ø Hadoop分布式文件系统(HDFS)被设计成适合运行在通用 硬件(commodity hardware)上的分布式文件系统。
Ø HDFS能提供高吞吐量的数据访问,非常适合于大规模数 据集上的应用。
POI
Ø POI是地图上一些单位的属性。 Ø 难题: 无法用现有方法建模。
如何做到的?
1 | 将城区划分成若干网格,提 取每个网格属性。
2 | 针对每种污染情况,进行区 间的分类。
3 | 利用半监督学习模型,构建 分类器。
分类器
时间 分类器
空间 分类器
这两个分类器,互相迭代、互相增强,最终能够 推理出未知区域的空气质量。
• 应用程序开三个线程。一个线程产生Master结点,另外两 个Worker结点。
两个阶段
MapReduce 流程
÷ HBase是一个开源的非关系型分布式数据库(NoSQL),它 参考了谷歌的BigTable建模,实现的编程语言为Java。
÷ 它是Apache软件基金会的Hadoop项目的一部分,运行于 HDFS文件系统之上,为 Hadoop 提供类似BigTable 规模 的服务。
÷ 因此,它可以容错地存储海量稀疏的数据。
• Hive是基于Hadoop的一个数据仓库工具。 • 主要考虑大数据查询效率问题的解决,可以将结构化的
数据文件映射为一张数据库表,并提供完整的SQL查询 功能。 • 可以将SQL语句转换为MapReduce任务进行运行。
Hive
1
首先将任务分 配给HDFS之 上的三个 Node,每个 Node代表一 个机器。
问题二:全城的汽车油耗与尾气排放实时监控
需要解决:
÷ 过去一个小时,全城油耗是多少?排放多少尾气? ÷ 汽车尾气排放是不是城市污染的主要原因?
目标:
÷ 在任何时间任何路段估计出汽车汽油消耗和尾气排放。
使用数据:
÷ 出租汽车GPS轨迹数据 ÷ 路网数据 ÷ POI数据 ÷ 天气数据
大数据解决方案
三、大数据实际项目解析
(一)智慧城市
÷ 1.空气质量监测
wk.baidu.com
北京的空气监测站,离 散地分布在城区的,空 间分辨率是每100平方 公里有一个监测站,每 个监测站能够监测一平 方公里的空气质量。
城市空气质量全方位实时监控
存在问题和挑战
1 空气质量随着时空变迁非线性变化 。
2
受天气、交通、建筑等因素影响。
大数据下的 资源整合和知识共享
(下)
目录
一、热词解释 二、国际大数据案例分析及相关技术介绍
(一)国际大数据案例分析 (二)大数据相关技术
三、大数据实际项目解析
二、国际大数据案例分析 及相关技术介绍
(二)大数据相关技术
1.数据获取与储存
Hadoop是一个能够对大量 数据进行分布式处理的开源 软件框架。它支持数据密集 型分布式应用并以 Apache2.0为许可协议发布。 它支持在商品硬件构建的大 型集群上运行应用程序。 Hadoop是以一种可靠、高 效、可伸缩的方式 对 大数据 进行处理。
规模 10K nodes, 100 million files, 10 PB
特性 适合数据批量处理;最大化吞吐率;
允许计算向数据迁移
优化 数据块副本、数据块放置策略、
缓存策略等
MapReduce
它是一种并行式的计算模型,用于大规模数据集,通常是 大于1TB的并行计算。Map是映射,Reduce是规约。
通过TSE(Travel Speed Estimation),估计其他 路网车的速度。
2
在性能上提供 比Hadoop更 上层的API, 同样的算法只 有Hadoop的 1/10或者 1/100的长度 。
3
Shark是一个 在Spark上数 据仓库的实现 ,在兼容Hive 的情况下,性 能最高可以达 到Hive的一百 倍。
÷ 2.数据挖掘与分析
数据挖掘是从大量的、不 完全的、有噪声的、模糊 的、随机的实际应用数据 中,提取隐含在其中的、 人们事先不知道的、但又 是潜在有用的信息和知识 的过程。
信 息
提高人对大规模非结构
可 化数据的理解与感知,
视 降低大数据信息负载。
化
科
便于对科学技术数据和
学 可
模型的实时渲染与处理。 视
化
大数据可视化:以 易于人理解的方式 展示大数据。
技术: 分布式实时渲染(GPU/CPU) 多层次交互可视分析(Level of Details ) 结合数据挖掘/机器学习的智能可视化
核心
大数据的数据挖掘与机器 学习,是大数据技术的核 心,也是人工智能的核心 。
数据挖掘案例:购物篮分析
顾客往往喜欢 将啤酒和尿布 同时购买。
机器学习
机器学习主要是设计和分析一 些让计算机可以自动学习的算法, 它是一类从数据中自动分析获得 规律,并且利用规律对未知数据 进行预测的算法。
÷ 3.数据交互与可视化
Ø HDFS放宽了一部分POSIX的约束,来实现流式读取文件 系统数据的目的。
HDFS
Ø HDFS包含了一个Namenodes,还有很多的Datanodes。 Ø Namenodes进行一个元数据的管理,Datanodes保存在不
同的物理设备上。 Ø Datanodes里面绿色的小方框,是存储块。
优势
传统的方法 忽略了路网数 据和POI数据 ,跟时间不相 关,精度低。
我们的方法
考虑到了时 间和空间两 个因素,精 度比较高。
÷ 2.智能交通
城市拥堵情况 越来越严重,原 有的红绿灯控制 系统,已表现出 明显的缺点。
如何做
分析十字路口 的拥堵模式。
对全城的交通路 况进行模拟。
通过车的速度,来 计算路网的速度, 通过路网的速度, 来探测拥堵的事件 。
2
Node3因为某 种原因失败, 这个任务只完 成了85%。
3
在Time3的时 候,这个任务 可以迁移到另 外的一个 Node。
说明:
Hive具有容错 的机制。
Pig
Pig 为 复 杂 的 海 量数据并行计算, 提供了一个简单 的操作和编程接 口。
Spark
1
Spark是一个 高效的分布式 计算系统,它 有 MapReduce 所有优点,同 时性能比 Hadoop高 100倍。
三个层次
HADOOP
底层 中间层 顶层
集群的存储环境,HDFS
分布式的数据处理
有一个抽象PIG,Hive还 有Sqoop
Ø Hadoop分布式文件系统(HDFS)被设计成适合运行在通用 硬件(commodity hardware)上的分布式文件系统。
Ø HDFS能提供高吞吐量的数据访问,非常适合于大规模数 据集上的应用。
POI
Ø POI是地图上一些单位的属性。 Ø 难题: 无法用现有方法建模。
如何做到的?
1 | 将城区划分成若干网格,提 取每个网格属性。
2 | 针对每种污染情况,进行区 间的分类。
3 | 利用半监督学习模型,构建 分类器。
分类器
时间 分类器
空间 分类器
这两个分类器,互相迭代、互相增强,最终能够 推理出未知区域的空气质量。
• 应用程序开三个线程。一个线程产生Master结点,另外两 个Worker结点。
两个阶段
MapReduce 流程
÷ HBase是一个开源的非关系型分布式数据库(NoSQL),它 参考了谷歌的BigTable建模,实现的编程语言为Java。
÷ 它是Apache软件基金会的Hadoop项目的一部分,运行于 HDFS文件系统之上,为 Hadoop 提供类似BigTable 规模 的服务。
÷ 因此,它可以容错地存储海量稀疏的数据。
• Hive是基于Hadoop的一个数据仓库工具。 • 主要考虑大数据查询效率问题的解决,可以将结构化的
数据文件映射为一张数据库表,并提供完整的SQL查询 功能。 • 可以将SQL语句转换为MapReduce任务进行运行。
Hive
1
首先将任务分 配给HDFS之 上的三个 Node,每个 Node代表一 个机器。
问题二:全城的汽车油耗与尾气排放实时监控
需要解决:
÷ 过去一个小时,全城油耗是多少?排放多少尾气? ÷ 汽车尾气排放是不是城市污染的主要原因?
目标:
÷ 在任何时间任何路段估计出汽车汽油消耗和尾气排放。
使用数据:
÷ 出租汽车GPS轨迹数据 ÷ 路网数据 ÷ POI数据 ÷ 天气数据
大数据解决方案
三、大数据实际项目解析
(一)智慧城市
÷ 1.空气质量监测
wk.baidu.com
北京的空气监测站,离 散地分布在城区的,空 间分辨率是每100平方 公里有一个监测站,每 个监测站能够监测一平 方公里的空气质量。
城市空气质量全方位实时监控
存在问题和挑战
1 空气质量随着时空变迁非线性变化 。
2
受天气、交通、建筑等因素影响。
大数据下的 资源整合和知识共享
(下)
目录
一、热词解释 二、国际大数据案例分析及相关技术介绍
(一)国际大数据案例分析 (二)大数据相关技术
三、大数据实际项目解析
二、国际大数据案例分析 及相关技术介绍
(二)大数据相关技术
1.数据获取与储存
Hadoop是一个能够对大量 数据进行分布式处理的开源 软件框架。它支持数据密集 型分布式应用并以 Apache2.0为许可协议发布。 它支持在商品硬件构建的大 型集群上运行应用程序。 Hadoop是以一种可靠、高 效、可伸缩的方式 对 大数据 进行处理。
规模 10K nodes, 100 million files, 10 PB
特性 适合数据批量处理;最大化吞吐率;
允许计算向数据迁移
优化 数据块副本、数据块放置策略、
缓存策略等
MapReduce
它是一种并行式的计算模型,用于大规模数据集,通常是 大于1TB的并行计算。Map是映射,Reduce是规约。
通过TSE(Travel Speed Estimation),估计其他 路网车的速度。
2
在性能上提供 比Hadoop更 上层的API, 同样的算法只 有Hadoop的 1/10或者 1/100的长度 。
3
Shark是一个 在Spark上数 据仓库的实现 ,在兼容Hive 的情况下,性 能最高可以达 到Hive的一百 倍。
÷ 2.数据挖掘与分析
数据挖掘是从大量的、不 完全的、有噪声的、模糊 的、随机的实际应用数据 中,提取隐含在其中的、 人们事先不知道的、但又 是潜在有用的信息和知识 的过程。