数据预处理分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

e.g. Salary = -10
不一致的
采用的编码或表示不同
e.g.过去的等级: “1,2,3”, 现在的等级: “A, B, C”
3
数据错误的不可避免性
数据输入和获得过程数据错误 数据传输过程所引入的错误 据统计有错误的数据占总数据的5%左

4
由于现实世界的数据一般是脏的、不完 整的和不一致的,且一些错误不可避免。 因此必须先进行预处理,改进数据的质量 ,从而有助于提高其后的挖掘过程的精度 和性能。
属性构造(特征构造):由给定的属性构造新
的属性并添加到属性集中,以帮助挖掘过程。可以帮 助提高准确率和对高维数据结构的理解。
17
规范化
1)最小-最大规范化:将原始数据v经线性变换, 映射到区间[new_minA, new_maxA]
v' v minA (new _ maxA new _ minA) new _ minA maxA minA
属性A、B之间的相关性可用下式度量:
rA,B
(A A)(B B)
(n 1) A B
其中,n是元组的个数。 (1)如果值>0,
则A、B正相关,意味着A的值随B的值增加而增加 。 该值越大,一个属性蕴含另一个的可能性就越 大。因此 ,一个很大的值表明A(或B)可以作为冗余而被去掉。
(2)值=0
A和B独立的,不相关
2.2.1 如何处理空缺值
忽略元组 人工填写空缺值:工作量大,可行性低 使用一个全局常量填充空缺值:将空缺的属性值
用一个常数替代,比如“unknown” 使用属性的平均值填充空缺值 使用与给定元组属同一类的所有样本的平均值 使用最可能的值填充空缺值:使用回归、贝叶斯
公式或者判定树推测空缺值。这是最常用的一种 方法。
(3)值<0
负相关,一个属性阻止另一个属性出现
2.4 数据变换
平滑:去掉数据中的噪声。技术包括分箱、回归、
聚类。
聚集:对数据进行汇总或聚集。 数据概化:使用概念分层,用高层概念替换低层或
“原始”数据。
规范化:将属性数据按比例缩放,使之落入一个小
的特定区间。最小-最大、Z-Score、小数定标规范化。
数据预处理
1
主要内容
2.1 为什么要预处理数据 2.2 数据清理 2.3 数据集成 2.4 数据变换 2.5 数据归约
2
2.1 数据预处理的原因
现实世界的数据
不完整的
缺少属性值或某些感兴趣的属性,或仅包含聚 集数据。
e.g., occupation=""
含噪声的
包含错误或存在偏离期望的离群值。
1.实体识别
e.g. A.cust_id = B.customer_no ?? 元数据可帮助避免错误
2.冗余问题
比如一个属性可以由另一个表推导出。 相关分析
3.数据值冲突的检测与处理
比如重量属性在一个系统中以公制单位存放,在另一个系 统中以英制单位存放。 表示、比例或编码不同
15
属性的相关性分析
2.5 数据归约 Data Reduction
什么是数据归约?
所谓数据规约,也就是数据消减,目的是缩小所挖掘数据 的规模,但却不会影响(或基本不影响)最终的挖掘结果
为什么需要进行数据归约?
1)数据仓库中往往存有海量数据 2)在整个数据集上进行复杂的数据分析与挖掘需要很长
的时间
数据归约策略
(1)数据立方体聚集:对数据立方体做聚集操作 (2)维归约:检测并删除不相关、弱相关或冗余的属性和
数据预处理的形式
数据清理
补充缺失数据、平滑噪声数据、识别或 删除离群点,解决不一致
数据集成
集成多个数据库、数据立方或文件
数据变换
规范化和聚集
数据归约
简化数据、但产生同样或相似的结果 6
数据预处理的形式
2.2 数据清理
数据清理的任务: 填充缺失的值 光滑噪声并识别离群点 纠正数据中的不一致
9
2.2.2 噪声数据
1.分箱 2.回归:通过让数据适应回归函数来平
滑数据 3.聚类:将类似的值聚集为簇,并且去除
孤立点 4.计算机和人工检查结合:计算机检测
可疑数据,然后对它们进行人工判断
10
分箱法光滑数据
price的排序后数据(单位:美元):4,8,15,21,21,24,25, 28,34
如:立方体内存储季度销售额,若对 年销售额感兴趣,可对数据执行聚集 操作,例如sum()等。
维。 (3)数据压缩: (4)数值归约:
用规模较小的数据表示、替换或估计原始数据
(5)离散化和概念分层产生
属性的原始数值用区间值或较高层的概念替换
注意:用于数据归约的时间不应当超过或“抵消”在归约 后的数据上挖掘节省的时间
2.5.1 数据立方体聚集
数据立方体存储多维聚集信息,提供 对预计算的汇总数据进行快速访问。
在最大最小值未知适用
3)小数定标规范化
v v'
10 j
其中,j是使 Max(| v' |)<1的最小整数 示例 :假设属性 A 的取值范围是从-986 到 917。属性 A 绝对值的最大值为 986。采用十基数变换规格化方法,就是 将属性 A的每个值除以1000(即j=3)因此-986映射为-0.986。
y=x+1
X1
x
聚类
聚类将类似的值聚成簇。直观的,落在簇集合之外的值 视为离群点
2.3 数据集成
数据集成合并多个数据源中的数据, 存放在一个一致的数据库(如数据仓 库)中。
源数据可能包括多个数据库,数据立 方体或一般文件。数据集成将数据转 换或统一成适合于挖掘的形式。
2.3.1 集成需要注意的问题
例如:income的Hale Waihona Puke Baidu大,最小值分别为9000,2000, 则将它的值映射到[0,1]时,若income的值6800 规范后为: (6800-2000)/(9000-2000)*(10)+0=0.686
规范化
2) z-score规范化(零均值规范化):属 性A的值基于A的平均值和标准差规范化。
v' v A A
划分为(等深的)箱: 箱1:4,8,15 箱2:21,21,24 箱3:25,28,34
用箱平均值平滑: 箱1:9,9,9 箱2:22,22,22 箱3:29,29,29
用箱边界平滑: 箱1:4,4,15 箱2:21,21,24 箱3:25,25,34
11
回归
y
Y1 Y1’
相关文档
最新文档