SPSS_数据前期处理总结
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
©
第五章
数据预处理:16
5.1.3 数据变换
数据变换主要是找到数据的特征表示,用维变换或 转换方法减少有效变量的数目或找到数据的不变式, 包括规格化、归约、切换、旋转和投影等操作。
规格化是指将元组集按规格化条件进行合并,也就 是属性值量纲的归一化处理。
©
第五章
数据预处理:17
规格化条件定义了属性的多个取值到给定虚拟值的 对应关系。对于不同的数值属性特点,一般可以分 为取值连续和取值分散的数值属性规格化问题。
©
第五章
数据预处理:18
归约指将元组按语义层次结构合并。语义层次结构 定义了元组属性值之间的语义关系。规格化和归约 能大量减少元组个数,提高计算效率。同时,规格 化和归约过程提高了知识发现的起点,使得一个算 法能够发现多层次的知识,适应不同应Βιβλιοθήκη Baidu的需要。
©
第五章
数据预处理:19
5.1.4 数据归约
©
第五章
数据预处理:21
5.1.4.2数据压缩
数据压缩分为无损压缩和有损压缩,比较流行和有 效的有损数据压缩方法是小波变换和主要成分分析。
小波变换对于稀疏或倾斜数据以及具有有序属性的 数据有很好的压缩结果。
©
第五章
数据预处理:22
5.1.4.3数值归约
©
第五章
数据预处理:6
从数据预处理所采用的技术和方法来分:
基本粗集理论的简约方法; 复共线性数据预处理方法; 基于Hash函数取样的数据预处理方法; 基于遗传算法数据预处理方法; 基于神经网络的数据预处理方法; Web挖掘的数据预处理方法等等。
©
第五章
数据预处理:7
5.1数据预处理基本功能
在数据挖掘整体过程中,海量的原始数据中存在着 大量杂乱的、重复的、不完整的数据,严重影响到 数据挖掘算法的执行效率,甚至可能导致挖掘结果 的偏差。为此,在数据挖掘算法执行之前,必须对 收集到的原始数据进行预处理,以改进数据的质量, 提高数据挖掘过程的效率、精度和性能。数据预处 理主要包括数据清理、数据集成、数据变换与数据 归约等技术。
数据挖掘:为企业决策者提供重要的、有价值 的信息或知识,从而为企业带来不可估量的经 济效益。
数据预处理:3
©
第五章
数据挖掘过程一般包括数据采集、数据预处理、数 据挖掘以及知识评价和呈现。
在一个完整的数据挖掘过程中,数据预处理要花费 60% 左右的时间,而后的挖掘工作仅占总工作量的 10% 左右。
数据归约是将数据库中的海量数据进行归约,归约 之后的数据仍接近于保持原数据的完整性,但数据 量相对小得多,这样进行数据挖掘的性能和效率会 得到很大提高。
数据归约的策略主要有数据立方体聚集、维归约、 数据压缩、数值压缩、离散化和概念分层。
©
第五章
数据预处理:20
5.1.4.1 维归约
通过删除不相关的属性(或维) 减少数据量,不仅压 缩了数据集,还减少了出现在发现模式上的属性数 目,通常采用属性子集选择方法找出最小属性集, 使得数据类的概率分布尽可能地接近使用所有属性 的原分布。
第五章
数据预处理:14
5.1.2.2冗余问题
数据集成往往导致数据冗余,如同一属性多次出现、 同一属性命名不一致等,对于属性间冗余可以用相 关分析检测到,然后删除。
©
第五章
数据预处理:15
5.1.2.3 数据值冲突检测与处理
对于现实世界的同一实体,来自不同数据源的属性 值可能不同。这可能是因为表示、比例或编码、数 据类型、单位不统一、字段长度不同。
©
第五章
数据预处理:11
5.1.1.3清洗脏数据
异构数据源数据库中的数据并不都是正确的,常常 不可避免地存在着不完整、不一致、不精确和重复 的数据,这些数据统称为“脏数据”。脏数据能使 挖掘过程陷入混乱,导致不可靠的输出。
©
第五章
数据预处理:12
清洗脏数据可采用下面的方式:
手工实现方式 用专门编写的应用程序 采用概率统计学原理查找数值异常的记录 对重复记录的检测与删除
分箱法 聚类法识别孤立点 回归
©
第五章
数据预处理:10
5.1.1.2空缺值的处理
目前最常用的方法是使用最可能的值填充空缺值, 如用一个全局常量替换空缺值、使用属性的平均值 填充空缺值或将所有元组按某些属性分类, 然后用 同一类中属性的平均值填充空缺值。
例5.2:一个公司职员平均工资收入为3000元,则使 用该值替换工资中“基本工资”属性中的空缺值。
目前对数据挖掘的研究主要集中于挖掘技术、挖掘 算法、挖掘语言等。
数据预处理:4
©
第五章
数据挖掘的必要性:
在海量的原始数据中,存在着大量杂乱的、重复 的、不完整的数据,严重影响到数据挖掘算法的 执行效率,甚至可能导致挖掘结果的偏差。
©
第五章
数据预处理:5
数据预处理分类: 从对不同的源数据进行预处理的功能来分,数据预 处理主要包括数据清理、数据集成、数据变换、数 据归约等4个基本功能。 在实际的数据预处理过程中, 这4种功能不一定都 用到,而且,它们的使用也没有先后顺序, 某一种 预处理可能先后要多次进行。
数据挖掘原理与SPSS Clementine应用宝典
元昌安 主编 邓 松 李文敬
刘海涛
编著
电子工业出版社
©
第五章
数据预处理:1
第5章 数据预处理
本章包括:
数据预处理基本功能 数据预处理的方法
©
第五章
数据预处理:2
数据挖掘是从大量的、不完全的、有噪声的、 模糊的、随机的数据中,提取隐含在其中的、 人们事先不知道的、但有潜在的有用信息和知 识的过程。
©
第五章
数据预处理:8
5.1.1 数据清理
数据清理要去除源数据集中的噪声数据和无关数据,
处理遗漏数据和清洗脏数据、空缺值, 识别删除孤 立点等。
©
第五章
数据预处理:9
5.1.1.1噪声数据处理
噪声是一个测量变量中的随机错误或偏差,包括 错误的值或偏离期望的孤立点值。对于噪声数据 有如下几种处理方法:
©
第五章
数据预处理:13
5.1.2.1 实体识别问题
在数据集成时,来自多个数据源的现实世界的实体 有时并不一定是匹配的,例如:数据分析者如何才 能确信一个数据库中的student_id和另一个数据库 中的stu_id 值是同一个实体。通常,可根据数据 库或数据仓库的元数据来区分模式集成中的错误。
©