数据挖掘 第七章
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据挖掘(DM)
7.1.4 噪声数据和错误 平滑噪声的技术有以下几种: (2)聚类(clustering):聚类分析发现强相关的对象组,孤立 点检测发现不与其他对象强相关的对象。聚类可以用于探测独立 点。聚类将类似的值组织成群或“聚类”。直观地看,落在聚类 集 合之外的点被视为孤立点。孤立点的取值可以与它最近的聚类的 属性值相关。或者将孤立点删除掉。 例如:基于密度的聚类算法DBSCAN自动地将低密度的点分 类成噪声,并将其排除在聚类过程之外;基于图的聚类算法 Chameleon以及CURE算法在聚类过程中都能显式地处理噪声或 孤立点。 (3)计算机和人工检查结合:是一种识别孤立点的方法。孤 立点模式可能是提供信息的,也可能是“垃圾”。可以将孤立程 度 大于某个阈值的模式输入到一个表中,通过进一步审查表中模
数据挖掘(DM)
7.1 数据清理
7.1.1 重复数据 “重复”是指同一数据,存在于两个或多个实例中。之所以 会 产生重复数据,是由于数据集通常不是由一个组织收集的。如果 数据集中有一些重复实例,不仅会造成不好的后果,增加企业的 开支。而且很多数据挖掘工具都会产生不同的挖掘结果。所以重 复数据必须清理,并且要与其他已经收集到的数据进行整合。 假设有100 000个客户订阅某周刊,其中邮件列表中有0.1% 的记录是重复记录(例如这一现象是由姓名中的同音字造成 的)。这样,公司每周要额外印刷和邮寄100份该刊物,每年至 少要额外印刷和邮寄该刊物5200份。对公司来说,这无疑是一笔 不该有的开销。
数据挖掘(DM)Biblioteka Baidu
7.2.1 规范化(标准化) 常用的规范化方法有3种。 (1)小数缩放:通过移动小数点完成。典型的缩放是保持数 值型值落在-1到1范围内。可描述为v’(i)=v(i)/10k,其中v(i)是属 性值,v ’(i)是缩放后的值,k是保证|v’(i)|的最大值小于1的最小 比例。 (2)最小-最大规范化:最小-最大规范化对原始数据进行线性 变换。变换的公式为: v’(i)=(v(i)-min(v(i))) (max(v’(i))-min(v’(i)))/(max(v(i))-min (v(i))) +min(v’(i) 该公式将区间[min(v(i)), max(v(i))] 中的值v(i),映射到 [min(v’(i)), max(v’(i))]中的v’(i)。 最小-最大规范化能够保持原始数据值之间的关系。但如果将 来的输入落在属性v的原数据区域之外,将面临“越界”错误。
数据挖掘(DM)
7.2.2 属性构造 属性构造是指由给定的属性构造和添加新属性。有时利用已有 属性合成新属性,能更好地对数据挖掘目标进行说明,有助于提 高精度和对高维数据结构的理解。经常需要合成新的输出属性 (对输入属性也适用),如:股票数据构成的数据库(包含:当 前股票价格、季节收益等属性),价格与收益的比率能更有效地 预测将来的价格。常有的属性构造方法有: (1)合成新属性:其每个属性值为某两个属性值的比率。 (2)合成新属性,其每个属性值为某两个属性值的差。 (3)合成新属性,其每个属性值为两个现有属性的增长百分比 (v(2)相对v(1)的增长百分比:(v(2)-v(1))/v(1),其中 v(1)<v(2))或下降百分比(v(2)相对v(1)的下降百分比:(v(1)v(2))/v(1),其中v(1)>v(2))。
数据挖掘(DM) 7.1.3 残缺值 (4)使用属性的平均值:用属性的平均值替换该属性中的缺失值. (5)使用与给定实例属于同一类的所有样本的平均值:用属于给 定类别的属性的平均值替换缺失值。这种方法仅可用于样本预先 分类的分类问题。 (6)使用预测模型:可以使用回归、贝叶斯体系、决策树归纳、 聚类等技术生成预测模型来预测缺失值。不同技术的使用,与数 据的类型有关。一旦有了训练好的模型,就可以将有一值缺失的 样本作为新样本产生其“预测”值。如果缺失值与其他已知属性 高 度相关,就可以生成一个最好的值。但是,如果总能确切地预测 一个缺失值,则意味着这个属性在数据集中是冗余的,在进一步 的数据挖掘中是不必要的。与其他方法相比较,这种方法最大限 度地使用当前数据的信息预测缺失值,因而最受欢迎。 方法3到6由于替代值并不是正确值,可能会使数据倾斜。
数据挖掘(DM)
7.1.5 不一致数据 对于数据库中的数据不一致性,有两种处理方法。一种是 “离 线”的方法,即通过预处理程序或在数据挖掘过程本身中处理。 另一种可能的方法是利用数据挖掘过程的循环机制,返回到前面 的某个步骤,并对不同的参数重新执行。 消除不一致数据的方法有: (1))将多个名称字段合成一个字段。 (2)将日期字段划分为单独的年、月、日字段。 (3)将数据从一个表示法映射到另一个。如从True到1,从 FALSE到0。 (4)将数据从多个表示方法映射到单个表示方法。如不同的 信用等级,用“好”、“一般”、“不好”的表示法。 (5)属性值规范化将属性数据按比例缩放使之落入一个小的 特定区间,如[0,1]。
数据挖掘(DM)
7.3数据归约
对于小型或中等规模的数据集来讲,前面的数据预处理方法可 能已经足够。但对于真正的大型数据集来讲,在应用数据挖掘技 术之前,可能需要采取一个中间的、额外的步骤——数据归约。 虽说大型数据集有得到更加有价值的挖掘结果的潜力,但并不能 保证大型数据集就一定能获得比小型数据集更好的结果。而且当 数据集很大时,进行复杂的数据挖掘会需要很长时间。数据的高 维度引起数据超负,也会使一些数据挖掘算法不适用。使用数据 归约技术可以得到数据集的归约表示。数据集的规约表示小得 多,但仍接近于保持原数据的完整性。这样,在归约后的数据集 上挖掘将更有效,并产生相同或几乎相同的分析结果。 数据归约过程3个基本操作是删除列(属性)、删除行(样本或 实例)以及减少列中值的数量(平滑特征)。
数据挖掘(DM)
噪声数据和错误 通常有两种类型的错误:内部错误和外部错误。 内部错误是学习系统本身不好的性质造成的。如印刷错误会造 成错误的属性值。通常表现为分类型属性的值被拼错,这可能会 为分类属性制造一个额外的值。或者不是拼错,而是一个同义 词,如百事和百事可乐。印刷或测量在数值上造成的错误通常 导致超出范畴的值,可以通过一次取一个变量进行作图的方法检 查错误。错误的值往往会远离一个由其余值构成的模式。有时候 要找出错误值是困难的,尤其是在一个不熟悉的知识领域里。 外部错误是系统之外的的原因造成,是一个测量变量中的随 机错误或偏差,这种错误也被称为噪声。平滑噪声的技术有以下 几种:
7.1.4
数据挖掘(DM)
7.1.4 噪声数据和错误
平滑噪声的技术有以下几种: (1)分箱(binning):通过考察周围的值来平滑存储的数值。 存储的值被分到“桶”或“箱”中。由于分箱方法参考相邻的 值,因此它进行局部平滑。可以进行等深分箱(每个箱深度相 等,即数据项个数相同),也可以进行等宽分箱(每个箱宽度相 等,即每个箱值的区间范围是个常量)。分箱平滑分为按箱平均 值平滑,按箱中值平滑和按箱边界平滑。对于按箱平均值平滑, 箱中每一个值被箱中的平均值替换;对于按箱中值平滑,箱中的 每一个值被箱中的中值替换;对于按箱边界平滑,箱中的最大和 最小值被视为箱边界,箱中的每一个值被最近的边界值替换。一 般而言,宽度越大,平滑效果越明显。
数据挖掘(DM)
7.1.4 噪声数据和错误
平滑噪声的技术有以下几种: (4)回归(regression):可以通过让数据适合一个函数来平滑 数据。线性回归找出适合两个变量的最佳直线,使得一个变量可 以预测另一个。多元回归是线性回归的扩展,涉及多于两个的变 量,数据要适合一个多维面。使用回归找到适合数据的方程,能 帮助消除噪音。 说明:数据平滑是为了去掉数据中的噪声。有些分类器(如: 神经网络)在分类过程中完成数据平滑(称为内部数据平滑)。 外部数据平滑在分类前进行。上面的几种平滑技术属于外部数据 平滑。
数据挖掘(DM)
7.2 数据转换
数据转换与问题无关,但可能会改善数据挖掘的结果。数据 转换技术的选择和在特定应用下的使用与数据的类型、数据量和 数据挖掘任务的总体特征有关。以下是常用的数据转换技术。 7.2.1 规范化(标准化) 规范化是指将属性数据按比例缩放,使之落入一个小的特定 区间,如[-1,1] 或[0,1]以获得最佳结果。对于分类算法,如涉及 神经网络的算法或诸如最临近分类等,规范化很有用。如果使用 神经网络后向传播算法进行分类挖掘,对于训练样本属性度量输 入值规范化将有助于加快学习阶段的速度。对于基于距离的方 法,规范化可以帮助防止具有较大初始值域的属性与具有较小初 始值域的属性相比,权重过大的现象。 常用的规范化方法有3种。
数据挖掘(DM)
7.1 数据清理
7.1.2 数据整合 一个实际问题是什么程度的数据整合是合理的。例如,当电 信公司研究客户行为时,有一些电话访问的原始数据是用不到 的,这些数据就应该整合到客户层去。数据是按月使用还是按季 度使用,或者推迟几个月或几个季度?选择正确的数据类型和数 据整合的程度通常关系着数据挖掘的成功与否。 7.1.3 残缺值 残缺值地出现有多种原因。例如,测量设备出现故障,在数 据收集过程中改变了试验方法。被访问者拒绝回答诸如年龄、收 入等某些问题。很多数据挖掘应用将残缺值当作丢失值来处理, 在数据挖掘之前的数据准备阶段考虑将丢失值补上。
数据挖掘(DM)
7.2.1 规范化(标准化) 常用的规范化方法有3种。 (3)标准差规范化:在标准差规范化(或零-均值规范化)中,属 性v的值基于v的平均值和标准差规范化。v(i)的值被规范化为 v’(i),由下式计算: v’(i)=(v(i)-mean(v)) / sd(v) 当属性v的最大值和最小值未知,或孤立点左右了最大-最小规 范化时,该方法是有用的。
数据挖掘(DM)
7.1 数据清理
7.1.3 残缺值 (1)忽略:当类标号缺少时忽略该实例(假定挖掘涉及分类 或描述)。当一个实例有多个属性值缺少,或者大型数据集中, 缺失值仅出现在一小部分实例中时,该方法比较有效。而当每个 属性缺失值的百分比变化很大时,该方法的性能很差。 (2)人工填写:数据挖掘者和领域专家可根据经验手动检查 确值实例,并填入一个合理的、可能的、预期的值。对缺失值较 少的小数据集来说,这种方法简单明了。但当数据集较大、缺少 值较多时,该方法可能行不通。尤其当实例的值不明显,或似是 而非时,手动生成一个值,可能会把噪声引入到数据集中。 (3)使用一个全局常量:将缺失的属性值用同一个常量(如: 未知、未记录、未测试、-∞)替换。如果缺失值都用“未知”替 换,学习过程可能会误以为形成了一个有趣的概念。因此,该方 法虽简单,但并不被推崇。
数据挖掘(DM)
7.1 数据清理
7.1.3 残缺值 然而,一个值之所以残缺也许有一个很好的理由,这个理由 可能就是基于所了解的信息而做出的决策。如果是这样,这其中 所提供的关于实例的信息要比仅仅了解残缺值更有意义。这时, 将属性的可能值记录为“未测试”,或者由此产生数据集中的另 一 个属性会更好。对于这个问题,只有熟悉数据的人才能做出明智 的判断:一个特定值的残缺是否存在特别的意义,是否应该将它 作为一个丢失值来处理。当然,如果存在几种类型的残缺值,那 就意味着出现了异常状况,需要调查具体原因。 通常,数据挖掘的学习方案隐含地作了如下假设:一个实例 的某个属性值残缺并没有特别意义,这个值只是未知而已。这里 给出这种意义下残缺值地处理办法。
数据挖掘(DM)
第7章 数据预处理
数据预处理通过对输入数据集进行修改,使之更适合于学习 方 案,以便使数据挖掘的输出模型更为有效。数据预处理的方法很 多。按功能归纳起来可分为的四种:数据清理、数据转换、数据 归约(属性选择)以及属性离散化。
7.1 数据清理
现实世界中的数据一般是脏的、不完整和不一致的。数据清理 试图填充残缺值,识别孤立点,消除噪声和错误,纠正数据中的 不一致等现象。