大数据下的资源整合和知识共享(下)

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

• Hive是基于Hadoop的一个数据仓库工具。 • 主要考虑大数据查询效率问题的解决，可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能。 • 可以将SQL语句转换为MapReduce任务进行运行。
1 首先将任务分配给 HDFS 之上的三个 Node ，每个 Node 代表一个机器。
计算路网的速度，通过路网的速度，
来探测拥堵的事件。
问题二：全城的汽车油耗与尾气排放实时监控
需要解决：

过去一个小时，全城油耗是多少？排放多少尾气？汽车尾气排放是不是城市污染的主要原因？在任何时间任何路段估计出汽车汽油消耗和尾气排放。
出租汽车GPS轨迹数据路网数据 POI数据天气数据
目标：
POI

POI是地图上一些单位的属性。难题：无法用现有方法建模。
如何做到的？
1| 2| 3|
将城区划分成若干网格，提取每个网格属性。针对每种污染情况，进行区间的分类。利用半监督学习模型，构建分类器。
分类器
时间分类器
空间分类器
这两个分类器，互相迭代、互相增强，最终能够推理出未知区域的空气质量。
HDFS

HDFS包含了一个Namenodes，还有很多的Datanodes。 Namenodes进行一个元数据的管理，Datanodes保存在不同的物理设备上。 Datanodes里面绿色的小方框，是存储块。
规模
10K nodes, 100 million files, 10 PB 适合数据批量处理；最大化吞吐率；允许计算向数据迁移数据块副本、数据块放置策略、缓存策略等
2
在性能上提供比Hadoop更上层的API，同样的算法只有 Hadoop的1/10 或者1/100的长度。
3
Shark是一个在Spark上数据仓库的实现，在兼容Hive的情况下，性能最高可以达到 Hive的一百倍。

2.数据挖掘与分析
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
大数据下的资源整合和知识共享（下）
目录
一、热词解释二、国际大数据案例分析及相关技术介绍
（一）国际大数据案例分析（二）大数据相关技术
三、大数据实际项目解析
二、国际大数据案例分析及相关技术介绍
（二）大数据相关技术

1.数据获取与储存
Hadoop是一个能够对大量数据进行分布式处理的开源软件框架。它支持数据密集型分布式应用并以Apache2.0为许可协议发布。它支持在商品硬件构建的大型集群上运行应用程序。Hadoop是以一种可靠、高效、可伸缩的方式对大数据进行处理。
优势
传统的方法
我们的方法考虑到了时间和空间两个因素，精度比较高。
忽略了路网数据和POI数据，跟时间不相关，精度低。

2.智能交通
城市拥堵情况越来越严重，原有的红绿灯控制系统，已表现出明显的缺点。
如何做
分析十字路口的拥堵模式Байду номын сангаас 对全城的交通路况进行模拟。
通过车的速度，来

使用数据：

大数据解决方案
通过TSE（Travel Speed Estimation），估计其他路网车的速度。
核心
大数据的数据挖掘与机器学习，是大数据技术的核心，也是人工智能的核心。
数据挖掘案例：购物篮分析
顾客往往喜欢将啤酒和尿布同时购买。
机器学习
机器学习主要是设计和分析一些让计算机可以自动学习的算法，它是一类从数据中自动分析获得规律，并且利用规律对未知数据进行预测的算法。

3.数据交互与可视化
可视化就是利用计算机图形学以及图像处理技术，将数据转换成图像，显示在电脑的显示器上。
信息可视化
提高人对大规模非结构
化数据的理解与感知，
降低大数据信息负载。
便于对科学技术数据和模型的实时渲染与处理。
科学可视化
技术：分布式实时渲染（GPU/CPU）多层次交互可视分析(Level of Details ) 结合数据挖掘/机器学习的智能可视化
三个层次
HADOOP
底层
集群的存储环境，HDFS
中间层
分布式的数据处理
有一个抽象PIG，Hive还有Sqoop
顶层

Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。 HDFS能提供高吞吐量的数据访问，非常适合于大规模数据集上的应用。 HDFS放宽了一部分POSIX的约束，来实现流式读取文件系统数据的目的。
三、大数据实际项目解析
（一）智慧城市

1.空气质量监测
北京的空气监测站，离散地分布在城区的，空间分辨率是每 100 平方公里有一个监测站，每个监测站能够监测一平方公里的空气质量。城市空气质量全方位实时监控
存在问题和挑战
1
空气质量随着时空变迁非线性变化。
2
受天气、交通、建筑等因素影响。
特性
优化
MapReduce
它是一种并行式的计算模型，用于大规模数据集，通常是大于1TB的并行计算。Map是映射，Reduce是规约。
• 应用程序开三个线程。一个线程产生 Master 结点，另外两个Worker结点。
两个阶段
MapReduce 流程

HBase是一个开源的非关系型分布式数据库(NoSQL)，它参考了谷歌的BigTable建模，实现的编程语言为Java。它是Apache软件基金会的Hadoop项目的一部分，运行于 HDFS文件系统之上，为 Hadoop 提供类似BigTable 规模的服务。因此，它可以容错地存储海量稀疏的数据。
2
3
Node3因为某种原因失败，这个任务只完成了85%。
在Time3的时候，这个任务可以迁移到另外的一个Node。
说明：
Hive具有容错的机制。
Pig
Pig 为复杂的海量数据并行计算，提供了一个简单的操作和编程接口。
Spark
1
Spark是一个高效的分布式计算系统，它有MapReduce 所有优点，同时性能比 Hadoop高100 倍。