第3章大数据采集及预处理——大数据导论课件PPT

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

是Cloudera提供的一个可靠性和可用性都非常高的日志系统，采用分布
式的海量日志采集、聚合和传输的系统，支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume具有通过对数据进行简单的处理，并写到各种数据接受方的能力。
Scribe
Scribe是facebook开源的日志收集系统，它能够从各种日志源上收集日志，存储到一个中央存储系统（可以是NFS，分布式文件系统等）上，便于进行集中统计分析处理。它最重要的特点是容错性好。
第三章大数据采集及预处理
04
3.1 大数据采集
第三章大数据采集及预处理
Kafka的producer，broker和consumer三种主要角色
(1) Producer Producer的任务是向broker发送数据。为其提供了两种producer接口，一种是low_level接口，使用这种接口会向特定的broker的某个topic下的某个partition发送数据；另一种那个是high level接口，这种接口支持同步/异步发送数据，基于zookeeper的broker自动识别和负载均衡。
(2) Broker Broker采取了多种不同的策略来提高对数据处理的效率。
(3) Consumer consumer的作用是将日志信息加载到中央存储系统上。
2）在工作方式上：Flume-og采用了多Master的形式。为了保证配置数据的一致性，Flume引入了ZooKeeper，用于保存系统配置的数据，ZooKeeper本身具有可保证配置数据的一致性和高可用，同时，在配置数据发生变化时， ZooKeeper可以通知Flume Master节点。Flume Master间使用gossip协议同步数据。
第三章大数据采集及预处理
基础支撑层
提供大数据服务平台所需的虚拟服务器，结构化、半结构化及非结构化数据的数据库及物联网络资源等基础支撑环境。重点要解决分布式虚拟存储技术，大数据获取、存储、组织、分析和决策操作的可视化接口技术，大数据的网络传输与压缩技术，大数据隐私保护技术等。
3.1 大数据采集
第三章大数据采集及预处理
03
3.1 大数据采集
Scribe
Scribe为日志收集提供了一种容错且可扩展的方案。Scribe可以从不同数据源，不同机器上收集日志，然后将它们存入一个中央存储系统，便于进一步处理。当采用HDFS作为中央系统时，可以进一步使用Hadoop进行处理数据，于是就有了 Scribe+HDFS+MapReduce方案。
理多个 adaptor 的数据采集 3. Collectors：负责收集 agents 收送来的数据,并定时写入集
群中 4. Map/reduce jobs：定时启动,负责把集群中的数据分类、
排序、去重和合并 5. HICC：负责数据的展示
02
3.1 大数据采集
Flum
1）在数据处理方面：Flume提供对数据进行简单处理，并写到各种数据接受方处。他提供了从console（控制台）、 RPC（Thrift-RPC）、text（文件）、tail（UNIX tail）、syslog （syslog日志系统），支持TCP和UDP等2种模式），exec （命令执行）等数据源上收集数据的能力
大数据应用人才培养系列教材
大数据导论
刘鹏张燕总主编付雯主编
陈甫李法平副主编
大数据应用人才培养系列教材
第三章大数据采集及预处理
3.1 大数据采集 3.2 数据预处理 3.3 常用ETL工具习题
3.1 大数据采集
大数据采集概念
第三章大数据采集及预处理
数据采集（DAQ）又称数据获取，通过RFID射频数据、传感器数据、社交网络数据、移动互联网数据等方式获得各种类型的结构化、半结构化及非结构化的海量数据。
第三章大数据采集及预处理
常用日志系统的采集工具考数据类型
Chukwa
Apache 的开源项目 hadoop，被业界广泛认可，很多大型企业都有了各自基于 hadoop 的应用和扩展。当 1000+ 以上个节点的 hadoop 集群变得常见时， Apache 提出了用chukwa的方法来解决。
Flum
3.1 大数据采集
第三章大数据采集及预处理
常用的数据采集的方式
大数据的采集通常采用多个数据库来接收终端数据，包括智能硬件端、多种传感器端、网页端、移动APP应用端等，并且可以使用数据库进行简单的处理工作。
01
数据抓取
02 数据导入
03 物联网来自百度文库感设备自动信息采集
3.1 大数据采集
大数据采集的研究分类
3）Flume-ng取消了集中管理配置的 Master 和 Zookeeper，变为一个纯粹的传输工具。Flume-ng还有一个不同点是读入数据和写出数据现在由不同的工作线程处理（称为 Runner）。在 Flume-og 中，读入线程同样做写出工作（除了故障重试）。如果写出慢的话（不是完全失败），它将阻塞 Flume 接收数据的能力。这种异步的设计使读入线程可以顺畅的工作而无需关注下游的任何问题。
智能感知层
包括数据传感体系、网络通信体系、传感适配体系、智能识别体系及软硬件资源接入系统，实现对结构化、半结构化、非结构化的海量数据的智能化识别、定位、跟踪、接入、传输、信号转换、监控、初步处理和管理等。涉及有针对大数据源的智能识别、感知、适配、传输、接入等技术。随着物联网技术、智能设备的发展，这种基于传感器的数据采集会越来越多，相应对于这类的研究和应用也会越来越重要。
Kafka
Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理大规模的网站中的所有动作流数据。具有高稳定性、高吞吐量、支持通过Kafka服务器和消费机集群来分区消息和支持Hadoop并行数据加载的特性。
3.1 大数据采集
第三章大数据采集及预处理
01
Chukwa
主要的部件为： 1. Agents ：负责采集最原始的数据,并发送给 collectors 2. Adaptor ：直接采集数据的接口和工具,一个 agent 可以管

第3章 大数据采集及预处理——大数据导论课件PPT

第3章大数据采集及预处理——大数据导论课件PPT