大数据采集技术-大数据关键技术
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据来源 数据库
系统日志 网络数据
传感器
数据采集 DataX Flume
爬虫技术
业务特定的 数据采集器
大数据关键技术
大数据预处理技术 大数据预处理技术主要是指完成对已接收数据的辨析、抽取、清洗、填补、平 滑、合并、规格化及检查一致性等操作。因获取的数据可能具有多种结构和类 型,数据抽取的主要目的是将这些复杂的数据转化为单一的或者便于处理的结 构,以达到快速分析处理的目的。
Meta Store
Job Trackerຫໍສະໝຸດ Name NodeData
HDFS DN
Task Tracker
Hadoop
大数据关键技术
大数据处理技术
大数据的应用类 型很多,主要的 处理模式可以分 为流处理模式和 批处理模式两种。 批处理是先存储 后处理,而流处 理则是直接处理。
MapReduce是一种编程模型,用于大规模数据集的并行批量计算。概念Map和
SQL Syntax+ Compute Framework
Resource Management
Storage
Distribute File System
Column Database
谢谢
大数据关键技术
大数据存储技术 大数据存储及管理的主要 目的是用存储器把采集到 的数据存储起来,建立相 应的数据库,并进行管理 和调用。
数据
SQL
JDBC WUI
Thrift Serve
r
Driver (Compiler, Optimizer,
Executor)
Hive (Over Hadoop 0.20.X)
大数据关键技术
1.掌握大数据关键技术的分类 2.掌握大数据关键技术基础概念
大数据关键技术
大数据采集技术
大数据采集技术是指通过 数据库、 传感器数据、社交网络交互数据 及移动互联网数据等方式获得各 种类型的结构化、半结构化及非 结构化的海量数据。 因为数据源多种多样,数据量大, 产生速度快,所以大数据采集技 术也面临着许多技术挑战,必须 保证数据采集的可靠性和高效性, 还要避免重复数据。
Reduce当前的主流实现是指定一个Map函数,用来把一组键值对映射成一组新的键
值对,指定并发的Reduce函数,用来保证所有映射的键值对中的每一个共享相同的
键组。
Batch Processing
Ad-Hoc Query
Met a
Data
SQL Syntax
Parallel Compute Framework