大数据采集与清洗
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据采集应 用
5
技能准 备
数据库基础(SQL语句操作)
Linux操作系统基本操作
Python基础
环境准 备
数据库(mysql)
Jdk( java环境)
Python
Thank s
YOUR TITLE
Nothing is difficult to the man who will try.Nothing is difficult to the man who will try.
2
大数据的主要 特征
大数据主要 特征
Volu me
Varie ty
Veloc ity
Vera city
Valu e
容量大
种类多
速度快
真实性
价值密度低
(Volume), (Variety), (Velocity), (Veracity),(Value),
指大规模的数 指数据来自多 指的是数据被 即追求高质量 指随着数据量
Βιβλιοθήκη Baidu
Nothing is difficult to the man who will try.Nothing is difficult to the man who will try.Nothing is difficult to the man who will try.Nothing is difficult to the man who will try.
Nothing is difficult to the man who will try.Nothing is difficult to the man who will try.
YOUR TITLE
Nothing is difficult to the man who will try.Nothing is difficult to the man who will try.Nothing is difficult to the man who will try.Nothing is difficult to the man who will try.
2
OKPPT工 作室
YOUR TITLE
Nothing is difficult to the man who will try.Nothing is difficult to the man who will try.
Nothing is difficult to the man who will try.Nothing is difficult to the man who will try.
大数据采集 的概念
1、什么是数据采集 数据采集就是数据获取,数据源主要分为线上数据和内容数据
2、数据采集与大数据采集的区别 传统数据采集:来源单一,数据量相当小;结构单一;关系数
据库和并行数据库 大数据的数据采集:来源广泛,数量巨大;数据类型丰富;分
布式数据库 3、大数据采集技术方法
大数据采集技术就是对数据进行 ETL 操作,通过对数据进行 提取、转换、加载,最终挖掘数据的潜在价值。ETL指的是 Extract-Transform-Load,也就是抽取、转换、加载。
[数据采集与
清洗] 2019|02 |15 周 乐
什么是大数 据
大数据的主要 特征
大数据处理流 程
大数据采集的 概念
大数据采集应 用
什么是大
1
数据
淘宝 推荐
依据你最近的 阅读行为和消 费行为进行引 荐
依据时节改变 进行引荐
依据你用的设 备往来不断猜 特征.
依据购物行为 偏好引荐
行业现状与前景
Nothing is difficult to the man who will try.Nothing is difficult to the man who will try.
数据展示 就 是对以上处 理完的结果 进行分析, 或者形成报
表。 数据挖掘 是对数
据进行基于各种
算法的分析计算,
数据预处理 就是
从而起到预测的
将采集来的数据
效果,实现一些
从多种数据库导
高级别数据分析
入到大型的分布
的需求。
式数据库中(目
前主要是hfds或
hive),并同时做
一些简单的清洗
4
大数据采集 的概念
Nothing is difficult to the man who will try.Nothing is difficult to the man who will try.
Nothing is difficult to the man who will try.Nothing is difficult to the man who will try.
据量,并且数 种数据源,数 创建和移动的 的数据。
的增长,数据
据量呈持续增 据种类和格式。速度。
中有意义的信
长趋势。
息却没有成相
应比例增长。
大数据处理 流程
3
大数据处理
流程
数据统计分析 就是
对上面已经完成的
数据采集 就是 利用多种数据 库(关系型, NOSQL)去存 储不同来源的 数据。
存储在大型分布式 数据库中的数据进 行归类统计,可以 满足一般场景的分 析需求。
大数据工作 首先写入政 府工作报告
2014-03
『十三五规 划纲要』提 出『实施国 家大数据战
略2』 0』 16-03
2018 年 《 政 府工作报告》 提出:实施 大数据发展 行动,注重 用互联网、
2018 大 数 据 等 提
升监管效能
2015-08
国务院发布 《促进大数 据发展的行 动纲要》
2017-10
十九大提出 推动大数据 战略,与实 体经济深度 融合
2019年人社部拟最新发布1 5项新职业
1.大数据工程技术 人员
2.云计算工程技术 人员
3.人工智能工程技 术人员
4.物联网工程技术 人员
5....
什么是大 数据
大数据(Big Data)是
指无法使用传统和常用的软 件技术和工具在一定时间内 完成获取、管理和处理的数 据集
抽取->从各种数据源获取数据 转换->按需求格式将源数据转换为目标数据 加载->把目标数据加载到数据仓库中
大数据采集 系统
2.网络数据采 集系统 (Scrapy 框架、 Apache Nutch)
1.日志采集 系统 (Apache Flume、 Scribe)
3.数据库采集 系统(关系型、 nosql等各种 数据库)