数据预处理
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
14
3.4
3.4.1
数据转换
数据标准化
数据的标准化是将数据按比例缩放,使之落入特定小区间。 小数缩放: 小数缩放移动小数点,但仍保留大多数原始数据值。常见的缩放是使 值在-1到1的范围内。小数缩放可以表示为等式
15
3.4
3.4.1
数据转换
数据标准化
最小—最大标准化(归一化):
16
3.4
3.4.1
27
3.5
3.5.2
数据归约
维度归约
属性子集选择的基本启发式方法包括以下技术(1): (1)逐步向前选择。该过程由空属性集开始,选择原属性集中最好 的属性,并将它添加到该集合中。
(2)逐步向后删除。该过程由整个属性集开始。在每一步,删除掉
尚在属性集中的最坏属性。
28
3.5
3.5.2
数据归约
维度归约
($600„$700]
($800„$900]
($100„$200]
($300„$400]
($500„$600]
($700„$800]
($900„$1000]
属性price的一个概念分层
19
3.4
3.4.2
数据转换
数据泛化
一些典型的方法产生分类数据的概念分层(1): (1)由用户或专家在模式级显式地说明属性的部分序。通常,分类 属性或维的概念分层涉及一组属性。 (2)通过显式数据分组说明分层结构的一部分。这基本上是人工地 定义概念分层结构的一部分。
24
3.5
3.5.1
数据归约
数据立方体聚集
D
分部
B
C
A
家庭娱乐 568 750 150 50 1997 1998 1999
25
商品类型
计算机 电话 安全
年
3.5
3.5.2
数据归约
维度归约
用于数据分析的数据可能包含数以百计的属性,大部分属性与挖掘 任务不相关,是冗余的。尽管领域专家可以挑选出有用的属性,但这可能 是一项困难而费时的任务,特别是当数据的行为不清楚时更是如此。遗漏 相关属性或留下不相关属性是有害的,会导致所用的挖掘算法无所适从。
划分”有一些划分规则,包括(1):
a)等宽。在等宽的直方图中,每个桶的宽度区间是一个常数。 b)等深(或等高)。在等深的直方图中,桶这样创建,使得每个桶 的频率粗略地为常数(即,每个桶大致包含相同个数的临近样本)。
此外,数据可能并非来自假定的样本母体(异常点,偶然/必然?)。
4
3.1
数据预处理的必要性
数据准备阶段的两个中心任务: ①把数据组织成一种标准形式,以便数据挖掘工具和其他基于计算机
的工具处理(标准形式是一个关系表)。
②准备数据集,使其能得到最佳的数据挖掘效果。
5
3.2
3.2.1
数据清洗
缺失数据处理方法
11
3.3
3.3.2
数据集成
冗余和相关分析
3、数值数据的协方差
用于评估两个属性是否一起变化
12
3.3
3.3.3
数据集成
元组重复数据的检测
除了检测属性间的冗余外,还应当在元组级检测重复(重复实体记
录)。去规范化表(数据冗余以减少库表连接)的使用是数据冗余的另 一个来源。不一致通常出现在各种不同的副本之间,由于不正确的数据 输入,或由于只更新了某些副本的数据,但未更新其他副本的数据。
④数值归约:用替代的、较小的数据表示替换或估计数据,如参数模 型(只需要存放模型参数,而不是实际数据)或非参数方法,如聚 类、选样和使用直方图。 ⑤离散化和概念分层产生:属性的原始值用区间值或较高层的概念替
换。概念分层允许挖掘多个抽象层上的数据,是一种强有力的工具。 22
3.5
3.5.1
数据归约
数据立方体聚集
29
3.5
3.5.3
数据归约
数据压缩
1、离散小波变换(DWT):
DWT与离散傅里叶变换(DFT)有密切关系。DFT是一种涉及正弦和余弦
的信号处理技术。DWT是一种较好的有损压缩。即,对于给定的数据向 量,如果DWT和DFT保留相同数目的系数,DWT将提供原数据更精确的近 似。因此,对于等价的近似,DWT比DFT需要的空间小。与DFT不同,小波 空间局部性相当好,有助于保留局部细节。
23
3.5
3.5.1
数据归约
数据立方体聚集
创建在最底层的数据立方体称为基本方体。最高层抽象的数据立方
体称为顶点方体。对不同层创建的数据立方体称为方体,因此“数据立
方体”可以看作方体的格。 基本方体应当对应于感兴趣的实体。换言之,最低层对于分析应当 是有用的。由于数据立方体提供了对预计算的汇总数据的快速访问,在 响应关于聚集信息的查询时应当使用它们。当响应 OLAP 查询或数据挖 掘查询时,应当使用与给定任务相关的最小方体。
2
3.1
数据预处理的必要性
用不同方式计算,采用不同的样本大小,选择重要的比率,针对时 间相关数据改变数据窗口的大小等,都会改进数据挖掘的效果。 数据在本质上应该是定义明确的、一致的和非易失性的。 数据量应足够大。
3
3.1
杂乱数据的原因: ①数据缺失
数据预处理的必要性
②数据的误记录,这在大数据集中非常常见。
第3章 数据预处理
3.1
3.2 3.3 3.4
数据预处理的必要性
3.5
3.6
数据归约
数据清洗
数据集成 数据转换
数据离散化
特征提取、选择和构造
3.7
1
3.1
数据预处理的必要性
数据预处理包括数据清理、数据集成、数据变换和数据归约等,可
以改进数据质量,提高数据挖掘过程的性能和精度。
失真数据、错误的步骤、滥用数据挖掘工具、未考虑数据中的各种 不确定性和模糊性,都可能导致方向错误。数据挖掘是一个批判性的鉴 定、考查、检验和评估过程。
这可能导致发现的模式质量很差。此外,不相关或冗余的属性增加了数据
量,可能会减慢挖掘进程。
26
3.5
3.5.2
数据归约
维度归约
维归约通过删除不相关的属性(或维)减少数据量。通常使用属性 子集选择方法。属性子集选择的目标是找出最小属性集,使得数据类的概 率分布尽可能地接近使用所有属性的原分布。在最小属性集上挖掘还有其 它的优点。它减少了发现模式上的属性数,使模式更易理解。
AllElectronics 1997到1999年每季度的销售数据。但感兴趣的是年销售
(每年的总和),数据再聚集使得结果数据汇总每年的总销售。
年=1999 年=1998 年 年=1997 季度 Q1 Q2 Q3 Q4 销售额 $224,000 $408,000 $350,000 $586,000 1997 1998 1999 $1,568,000 $2,356,000 $3,594,000 销售额
比,所需的I/O操作更少,更有效。对于同一个属性可定义多个概念分
层,以适合不同需要。
18
3.4
3.4.2
数据转换
数据泛化
($0„$1000]
($0„$200]
($200„$400]
($400„$600]
($600„$800]
($800„$1000]
($0„$100]
($200„$300]
($400„$500]
③生成一个预测模型来预测每个丢失值。
6
3.2
3.2.2
数据清洗
噪声数据平滑技术
数据值越多,越影响数据挖掘性能,而数据值的微小差别不重要,可进 行平滑处理。 ①计算类似测量值的平均值。如,数据值是有小数的实数,则把这些 值平滑为给定的精度就是应用大量样本的一种简单平整算法,其中
每个样本都有自己的实数值。
33
3.5
3.5.4
数据归约
数值归约
1、回归和对数线性模型:
回归和对数线性模型可以用来近似给定数据。在线性回归中,对 数据建模,使之适合一条直线。例如,可以用以下公式,将随机变量Y (称作响应变量)表示为另一随机变量X(称为预测变量)的线性函数
34
3.5
3.5.4
数据归约
数值归约
2、直方图:
通常,桶表示给定属性的一个连续区间。“如何确定桶和属性值的
析(搜索c(c≤k)个最能代表数据的k维正交向量。原来的数据投影到一 个较小的空间,导致数据压缩。PCA可以作为一种维归约形式使用。然 而,与属性子集选择通过保留原属性集的一个子集来减少属性集的大小不 同,PCA通过创建一个替换的、较小的变量集“组合”属性的本质。原数 据可以投影到该较小的集合中。
32
相关属性的一小部分。为处理部分说明的分层结构,重要的是在数据库
模式中嵌入数据语义,使得语义密切相关的属性捆在一起。
21
3.5
数据归约的策略如下:
数据归约
①数据立方体聚集:聚集(多角度汇总)数据立方体中的数据。
②维度归约:检测并删除不相关、弱相关或冗余的属性或维度。
③数据压缩:使用编码机制(如DWT和PCA)压缩数据集。
20
3.4
3.4.2
数据转换
数据泛化
一些典型的方法产生分类数据的概念分层(2):
(3)说明属性集,但不说明它们的偏序。用户可以说明一个属性
集,形成概念分层,但并不显式说明它们的偏序。系统自动产生序,形 成概念分层。一般地,底层概念的数据不同取值个数较高层概念多。 (4)只说明部分属性集。在定义分层时,有时用户可能不小心,或 对分层结构中应包含什么不清楚使得其可能在分层结构说明中只包含了
13
3.3
3.3.4
数据集成
冲突数据的检测与处理
数据集成还涉及数据值冲突的检测与处理。不同数据源对同一实体
因为表示、包含内容、比例或编码不同而属性值可能不同。数据这种语
义上的异种性,是数据集成的巨大挑战。 将多个数据源中的数据集成,能减少或避免结果数据集中数据的冗 余和不一致性。这有助于提高其后挖掘的精度和速度。
属性子集选择的基本启发式方法包括以下技术(2): (3)向前选择和向后删除的结合。向前选择和向后删除方法结合, 每一步选择一个最好的属性,并在剩余属性中删除一个最坏的属性。
(4) 决策树归纳。决策树归纳构造一个类似于流程图的结构,其每
个内部(非树叶)结点表示一个属性上的测试,每个分枝对应于测试的 一个输出;每个外部(树叶)结点表示一个判定类。在每个结点,算法 选择“最好”的属性,将数据划分成类。
30
3.5
3.5.3
数据归约
数据压缩
应用离散小波变换的一般过程:
① 输入数据向量的长度L必须是2的整数幂。可在数据向量后添加0补足。 ②每个变换涉及应用两个函数。第一个使用某种数据平滑,如求和或加权 平均。第二个进行加权差分,产生数据的细节特征。 ③两个函数作用于输入数据对,产生两个长度为L/2的数据集。一般地,
②减少特征中不同值的数目,即减少了数据空间的维度,这对基于逻 辑的数据挖掘方法特别有用。如将连续型特征分解成只包含“真 假”两个值的离散型特征。
7
3.2
3.2.3
数据清洗
时间相关数据的处理
实际的数据挖掘应用可能时间强相关、时间弱相关和时间无关。 最简单情况:隔一定(固定)时间间隔测量的单个特征。用以前的多 个(组-窗口)值预测以后的一或多个值。 时间序列的特征概括起来,主要成分如下:
①当前值。
②应用MA平整得到的值。 ③导出走向(预测)、差值和比率。
8
3.3
3.3.1
数据集成
实体识别与匹配
多个数据源的实体之间的匹配,包括含义、数据类型、
取值范围等,以达成一致表示。
9
3.3
3.3.2
数据集成
冗余和相关分析
10
3.3
3.3.2
数据集成
冗余和相关分析
2、数值数据的相关系数:
相关性不一定意味着因果关系。
3.5
3.5.3
Fra Baidu bibliotek
数据归约
数据压缩
主要成分分析的基本过程如下: ①对输入数据规范化,使得每个属性都落入相同的区间。
②PCA计算c个规范正交向量,作为规范化输入数据的基。
③对主要成分按“意义”或强度降序排列。 ④既然主要成分根据“意义”降序排列,就可以通过去掉较弱的成 分(即,方差较小的那些)来压缩数据。
数据转换
数据标准化
标准差标准化: 按标准差进行的标准化对距离测量值非常有效,但是把初始数据转化
成了未被认可的形式。对于特征v,平均值mean(v)和标准差sd(v)是针对
整个数据集来计算的。对于样本i,用下述公式转换特征的值:
17
3.4
3.4.2
数据转换
数据泛化
数据泛化是用高层次概念替换低层次“原始”数据。通过泛化,细 节丢失了,但泛化后的数据更有意义、更易解释,且所需的空间比原数 据少。在泛化后的数据上进行挖掘,与在大的、泛化前的数据上挖掘相
数据清理包括补漏,平滑噪声数据,识别、删除异常点,解决不一致。 ①手动检查缺值样本,再根据经验加入合理的、可能的、预期的值。 ②用常量自动替换丢失值。如: 用全局常量(全局常量的选择与应用有很大关系)替换丢失值。 用特征平均值替换丢失值。
用给定种类的特征平均值替换丢失值(样本预先分类)。
它们分别代表输入数据的平滑后或低频的版本和它的高频内容。
④两个函数递归地作用于前面的新数据集,直到数据集的长度为2。
⑤由以上迭代得到的数据集中选择值,指定其为数据变换的小波系数。
31
3.5
3.5.3
数据归约
数据压缩
2、主要成分分析(PCA,又称K-L方法):
假定待压缩的数据由N个元组或数据向量组成,取自k-维。主要成分分