大数据导论-思维、技术与应用 第3章 大数据预处理
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Bin的划分方法一般有两种,一种是等高方法,即每个Bin中的元素的个
数相等;另一种是等宽方法,即每个Bin的取值间距(左右边界之差)
相同。
b in 中个 数
b in中个 数
等高bin
属性 值
等宽bin
属性 值
噪声数据处理
例如:
排序后价格:4,8,15,21,21,24,25,28,34
划分为等高度bin: —Bin1:4,8,15 —Bin2:21,21,24 —Bin3:25,28,34
根据bin均值进行平滑: —Bin1:9,9,9 —Bin2:22,22,22 —Bin3:29,29,29
根据bin边界进行平滑: ——Bin1:4,4,15 ——Bin2:21,21,24 ——Bin3:25,25,34
首先对价格数据进行排序,然后将其划 分为若干等高度的Bin,即每个Bin包含 三个数值 Bin均值平滑 对每个Bin中所有值均用该Bin的均值替 换。图中第一个Bin中4、8、15均用该 Bin的均值9替换 Bin边界平滑 对于给定的Bin,利用每个Bin的边界值 (最大值或最小值),替换该Bin中的所 有值。一般讲,每个Bin的宽度越宽,其 平滑效果越明显。
数据质量问题分类
数据 质量问 题
单数 据源问 题
多数 据源问 题
定义 层
实例 层
定义 层
实例 层
缺少 完整性 约 束,糟糕 的模式 设计 1)缺少 唯一性 约 束 2)缺少 引用约 束
数据 记录错 误 1)拼写 错误 2)相似 重复记 录 3)相互 矛盾的 字 段
异质 的数据 模型 和模 型设计 1)命名 冲突 2)结构 冲突
Sqoop和 DataX
数据迁移
非结构化数据 凌潮(云谷)、华为(FusionInsight)、
IBM(BigInsights)、EMC(Pivotal)等
百度文库
在线(API)
离线
数据
来源
数据采集
数据交换 (贵阳大数据交易所, .)
大数据预处理整体架构
结构化数据可以存储在传统的关系型数据库中 非结构化数据可以存储在新型的分布式存储中 半结构化数据可以存储在新型的分布式NoSQL数据库中
冗余 、互相 矛盾 或不 一致的 数据 1)不一 致的汇 总 2)不一 致的时 间 选择
数据质量问题分类
单数据源定义层 违背字段约束条件 比如:日期出现6月31日 字段属性依赖冲突 比如:两条记录描述同一个人的某一个属性,但数值不一致 违反唯一性 比如:同一个主键ID出现了多次
单数据源实例层 单个属性值含有过多信息、拼写错误、空白值、噪音数据、数据重复、 过时数据等
PART 01 大数据预处理概述
大数据预处理负责将分散的、异构数据源中的数据如关系 数据、网络数据、日志数据、文件数据等抽取到临时中间 层后,进行清洗、转换、集成,最后加载到数据仓库或数 据库中,成为通过数据分析、数据挖掘等提供决策支持的
数据。
大数据预处理整体架构
数据预处理主要包括: 数据清洗(Data Cleaning) 数据集成(Data Integration) 数据转换(Data Transformation) 数据消减(Data Reduction) 大数据预处理将数据划分为结构化数据和半结构化/非结构化数据,分 别采用传统ETL工具和分布式并行处理框架来实现。
大数据导论 第三章
CONTENTS
目录
PART 01 大数据预处理概述 PART 02 数据清洗方法 PART 03 数据集成与转换方法 PART 04 数据削减
PART 05 离散化和概念层次树 PART 06 ETL工具Kettle PART 07 数据转换工具Sqoop PART 08 作业
噪声数据处理
噪声是指被测变量的一个随机错误和变化。下面通过给定一个数值型属 性,如价格,来说明平滑去噪的具体方法。方法被分为四种: Bin方法 聚类方法 人机结合检查方法 回归方法
噪声数据处理
Bin方法
Bin方法通过利用相应被平滑数据点的周围点(近邻),对一组排序数
据进行平滑。排序后数据分配到若干桶(称为Buckets或Bins)中。对
PART 02 数据清洗方法
现实世界的数据常常是有噪声、不完全的和 不一致的。数据清洗过程通过填补遗漏数据、 消除异常数据、平滑噪声数据,以及纠正不 一致的数据。
遗漏数据处理
假设在分析一个商场销售数据时,发现有多个记录中的属性值为空,如 顾客的收入属性,对于为空的属性值,可以采用以下方法进行遗漏数据 处理: 忽略该条记录。 手工填补遗漏值。 利用缺省值填补遗漏值。 利用均值填补遗漏值。 利用同类别均值填补遗漏值。 利用最可能的值填补遗漏值。 最后一种方法是一种较常用的方法。
大数据预处理整体架构
数据 资产
统一的数据视图
数据
传统清洗工具
分布式并处理模式
清洗 (DataWrangler、InfoSphere QualityStage) (内存计算Spark、批处理MapReduce、流计算Storm)
数据 储存
结构化数据 电子表格和传统的关系型数据库:甲骨文 (Oracle RDBMS)、阿里(RDS)、人大金仓等
大数据预处理整体架构
结构化数据和非结构化数据之间的数据可以按照数据处理的需求进行迁 移。 比如:为了进行快速并行处理,需要将传统关系型数据库中的结构化数 据导入到分布式存储中,可以利用Sqoop等工具,先将关系型数据库的 表结构导入分布式数据库(Hive),然后再向分布式数据库的表中导入 结构化数据。
数据质量问题分类
数据清洗在汇聚多个维度、多个来源、多种结构的数据之后,对数据进 行抽取、转换和集成加载。在这个过程中,除了更正、修复系统中的一 些错误数据之外,更多的是对数据进行归并整理,并储存到新的存储介 质中。其中,数据的质量至关重要。 常见的数据质量问题可以根据数据源的多少和所属层次分为四类: 单数据源定义层 单数据源实例层 多数据源的定义层 多数据源的实例层
数据质量问题分类
多数据源的定义层 同一个实体的不同称呼 比如:custom_id, custom_num 同一种属性的不同定义 比如:字段长度定义不一致、字段类型不一致等
多数据源的实例层 数据的维度、粒度不一致 比如:有的按GB记录存储量,有的按照TB记录存储量;有的按照
年度统计,有的按照月份统计 数据重复、拼写错误等