数据挖掘——数据预处理

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。


A
空间变换
线性变换 小波变换 (高维空间变化,正交基,可保持多种属性不 变,在此后面我们将进行深入介绍)。

4 数据挖掘的预处理
4.1数据库与数据仓库 4.2数据选择与集成 4.4数据清理 4.4数据归约 4.5数据变换 4.6数据离散
连续属性离散化

离散属性也称符号的(symbolic)、或名称 的(nominal)、或类别的(categorical)
4.4 数据规约——基于粗糙集理论的约简法
概念树的基本思路 在数据库中,许多属性都是可以进行归类,各 属性值和概念依据抽象程度不同可以进行数据 归类并构成一个层次结构,概念的这种层次结 构通常称为概念树。 概念树一般由领域专家提供,它将各个层次的 概念按一般到特殊的顺序排列。
4.4 数据规约——基于概念树的数据浓缩
4.4 数据规约

有些数据属性对发现任务是没有影响的,这些 属性的加入会大大影响挖掘效率,甚至还可能 导致挖掘结果的偏差。 简化是在对发现任务和数据本身内容理解的基 础上,寻找依赖于发现目标的表达数据的有用 特征,以缩减数据规模,从而在尽可能保持数 据原貌的前提下最大限度地精简数据量。
4.4 数据规约
4.4 数据规约——基于统计分析的属性选择

主成分方法的特点是将描述某一事物的 多个变量压缩成描述该事物的少数几个 合变量或称主成分(通常用原变量的线 性组合表示),旨在用新的少数几个综 合变量代替原始变量,并使这 种替代所 蒙受的损失最少。主成分分析法具有变 差最优性。信息损失最小性。相关最优 性和回归最优性,使它得以成为多元降 维的重要工具之一。
(L)语言变量
体温、疼痛
(N) 语言值
低烧1
正常n2
…… nm
数值区间:[a0 ,a1] am] (D) 基础变量 数值: 35 37
[a1 ,a2]…
[am-1 ,
……
tm

定义4.1:在语言变量相应的基础变量论域中, 各个被划分的交叉区间的中点连同ε-邻域(ε 通常为允许误差值)内的点,称为标准样本 (点),其取值邻域称为标准值;其余诸点均 称为非标准样本(点),其取值称为非标准值。 它们分别构成标准样本空间与非标准样本空间, 并统称为一般样本空间。
粗糙集(Rough Set, RS) 一种研究不精确、不确定性知识的数据学工具, 目前受到了KDD研究者的广泛重视,用RS理 论对数据时行处理是一种十分有效的精简数据 维数的方法。我们所处理的数据一般存在信息 的含糊性问题,含糊性有三种,术语的模糊性, 知识自身的不确定性;数据的不确定性。
4.4 数据规约——基于粗糙集理论的约简法
4.2 数据清理


数据清理要去除源数据集中的噪声和无关数据 处理遗漏数据和清洗脏数据 去除空白数据域和知识背景上的白噪声 考虑时间顺序和数据变化等,主要包括重复数 据处理和缺值数据处理 完成一些数据类型的转换。
4.2 数据清理


数据清理可以分为有监督和无监督 有监督过程是在领域专家的指导下,分析收集 的数据,去除明显错误的噪音数据和重复记录, 填补缺值数据; 无监督过程是用样本数据训练算法,使其获得 一定的经验,并在以后的处理过程中自动采用 这些经验完成数据清理工作。
连续属性离散化

一般有这样几种: 等宽区间法(equal-width-intervals) 等频区间法(equal-frequency-intervals) 最大熵法(maximum entropy)
4.2.1 语言场及语言值结构



给定数据库D上的所有属性集合A={a1, a2, …,am} 其中,ai也称为语言变量,每个属性又可以由不同的 程度词来描述属性的状态,如对第一个属性ai可以表示 为ai={ai1, ai2, …,aik} 其中,aij也称为语言值,aij的i表示第i个属性,j表示 该属性的第j个程度词,如对温度而言,“很高”、 “高”等都是程度词,也即语言值。 属性程度词是把某一属性和它的一个程度词放在一起 (即语言变量+语言值),表示该属性的某种状态, 例如,“温度很高”是一个属性程度词。

属性的划分如下图所示,对于类别属性和取值 范围不宽的离散型数值属性,可以将每个属性 值映射到相应语言变量的语言值,但是对于连 续型属性、或取值范围很宽的离散型属性,必 须将其分为若干区间,然后将每个区间映射为 一个相应的语言值。

有了以上的算法就可以得到语言值所映射的区间, 其关键是求临界点,然后再对真实数据库进行处 理,转换为挖掘数据库。令真实数据库为D,属 性集为(e1,e2,…,em),属性ei所对应的数据精度 为Pi ,划分语言值的个数为Numi ,划分语言值 的标准样本点为aj,对应的ε-邻域的半径为rj,其 中j=1,2,…, Numi ,对应的临界点数值为Vk , 其中k=1,2,…, Numi-1,则其算法描述如下:
平滑:去噪,方法:回归、聚类 聚集:不同估量单位的聚集,如日-月-年 数据概化:抽象和提升 规范化:将数据转化到一定区间,[0,1] 最小-最大规范化:
v v min max
A A A
min
( new _ max
A
new _ min
A
) new _ min
A
零均值规范化:
v v A


基于概念树的数据预处理方法是一种归纳方法, 其实是数据库中元组合并的处理过程,其基本 思路如下 : 首先,一个属性的具体的值被该属性的概念树 中的父概念所代替,然后对相同元组进行合并, 构成更宏观的元组,并计算宏元组所覆盖的元 组数目仍然很大,那么用该属性的概念树中父 概念去替代或者根据另一个属性进行概念树的 提升操作,最后行成覆盖面更广、量更少的宏 元组。
4.4 数据规约——基于粗糙集理论的约简法
粗糙集(Rough Set, RS) 采用RS理论作为数据预处理方法具有许多的 优点:不需要预先知道额外信息;算法简单、 易于操作。应用RS的属性约简可以有效地去 除冗余现象,同样可以应用RS方法中的约简 技术删除 某些属性的多余值,从而使条件属 性的个数和取值得到约简。 但是,RS理论只能处理离散型属性。对于连续 的属性必须先进行离散化才能再运用RS理论 进行处理。
预处理的基本功能



预处理主要是接受并理解KDD要求,确定发现 任务 抽取与发现任务相关的数据源,根据背景知识 中的约束性规则对数据进行合法性检查 通过清理和归约等操作,生成供挖掘核心使用 的目标数据。 它汇集了原始数据库中与发现有关的所有数据 的总体特征,是知识发现状态空间的基底。
4 数据挖掘的预处理
预处理在知识发现中所占份量
预处理

各种不同的数据源和数据对象
数据的选择、集成与整合,对问题进行限定

数据库中的数据具有噪声、缺值、不易至
数据的去噪和规范化问题,提高挖掘精度

数据的变换
规范化、映射到不同的空间,提高挖掘效率

数据的规约
取出冗余、属性聚类来压缩数据
数据的预处理是KDD&DM的重要步骤
例如,设当前考察的属性是年龄,则一种可能的离散 化是[0...11] 小孩,[12...17] 少年,[18...44] 青壮年,[45-69]中年,[79...] 老年。

连续属性离散化


连续属性离散化的方法有很多种: ①是否自动离散化:完全由人手工离散化,完 全由机器自动离散化,机器辅助人离散化。一 般地,离散化是指机器自动离散化。 ②是否与分类或决策类别有关:一是考虑分类 类别;另一是不考虑分类类别,这种方法可用 于非监督学习或概念聚类学习,不过当用于带 有类别标记的分类学习时效果肯定不会好于上 面的方法。
4.1 数据集成——冗余


冗余的原因:数据库设计,不同来源的数 据引起的数据的相关性 冗余检验:属性的相关性——属性A,B 其 相关性度量
rA , B
(A
A )( b B )
B
( n 1 ) A
4.2数据清理
4.1数据选择与集成 4.2数据清理 4.4数据归约 4.4数据变换 4.5数据离散
4 数据挖掘的预处理
4.1数据库与数据仓库 4.2数据选择与集成 4.4数据清理 4.4数据归约 4.5数据变换 4.6数据离散
数据变换

数据变换主要是找到数据的特征表示,用维变 换或转换方法减少有效变量的数目或找到数据 的不变式,包括规格化、归约切换、旋转和投 影等操作。
简单变换




数据来自多个系统,存在着异构数据的转换问。多 个数据源的之间还存在许多不一致的地方,如命名、 结构、单位、含义等。因此,数据集成并非是简单 的数据合并,而是把数据进行统一化和规范化处理 的复杂过程。 需要统一原始数据中的所有矛盾之处,如字段的同 名异义、异名同义、单位不统一、字长不一致等, 把原始数据在最低层次上加以转换、提炼和聚集。 数据集成中还应考虑数据类型的选择问题 ,尽量选 择占物理空间较小的数据类型。
4.4 数据规约——基于统计分析的属性选择

可以采用统计分析中的一些算法来进行 特征属性的选取,比如主成分分析、逐 步回归分析。这些方法的共同特征是用 少量的特征元组去描述的原始数据。
4.4 数据规约——基于统计分析的属性选择

主成分分析的思想是:对于给定的输入数据 矩阵X,计算其相关系数矩阵R=X· X,取与R 中最大的几个特征值相应的特征向量作为主 成分。其中数据准则是希望每次取得一个综 合变量的方差,在原变量的全部方差(或剩 下的全部方差)中所占的比例最大。
数据挖掘与知识发现 (复杂数据对象的数据挖掘与知识发现)
4 数 据 挖掘的预处理
数据挖掘的困难所在



Noise Skewed distribution Missing values (incomplete info) Scalability High dimensionality Bias in data ...

连续属性也称实数的(real)、或有序的 (ordered)、或数值的(numerical)
Байду номын сангаас


连续属性离散化在KDD中是一个很重要的问题。很 多数据挖掘和知识发现算法要求连续属性数据必须预 先离散化之后才行。 离散化的任务是把连续属性的取值范围或取值区间划 分为若干个数目不太多的小区间,其中每个区间对应 着一个离散的符号。
4.2 数据清理



另一个重要内容是数据类型的转换,通常是指 连续属性的离散化 离散化方法有等距区间法、等频区间法和最大 熵法。 通过离散化,可以有效地减少数据表的大小, 提高分类准确性。
4 数据挖掘的预处理
4.1数据库与数据仓库 4.2数据选择与集成 4.3数据清理 4.4数据归约 4.5数据变换 4.6数据离散



主要有两个途径:属性选择和数据抽样,分别 针对数据库中的属性和记录。 属性选择包括针对属性进行剪枝、并枝、找相 关等操作。 数据抽样是进行数据记录之间的相关性分析, 用少量的记录基底的线性组合来表示大量的记 录。它主要得用统计学中的抽样方法如简单随 机抽样、等距抽样、分层抽样等。
4.4 数据规约——基于粗糙集理论的约简法
粗糙集(Rough Set, RS) RS理论的最大特点是无需提供问题所需处理 的数据集合之外的任何先验信息,其基本思路 是利用定义在数据集合U上等价关系对U进行 划分。对于数据表来说,这种等价关系可以是 某个属性,或者是几个属性的集合。因此按照 不同属性的组合就把数据表划分成不同的基本 类。在这些基本类的基础上进一步求得最小约 简集。



(1) for i:=1 to m do (2) for j:=1 to Numi-1 do (4) u:=aj (4) IsLarge:=True (5) while IsLarge do (6) u := u +Pi (7) if u>(aj+rj) and u<(aj+1-rj+1) then (8) (9) 求, //根据公式(4-2) (10) if < then (11) Vj=u (12) IsLarge:=False (14) end;
4.1数据选择与集成 4.2数据清理 4.4数据归约 4.4数据变换 4.5数据离散
4.1 数据选择


分析需求和应用,了解业务背景 确定分析主题 数据库或数据仓库中选择索要分析的数据 利用数据转换工具进行分析处理
4.1 数据集成
将多文件或多数据库运行环境中的异构数据 进行合并处理,解决语义的模糊性。解决数 据的冲突问题以及不一致数据的处理问题。
相关文档
最新文档