数据预处理
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 对结果的解释需要挖掘专家和领域专家的紧密 合作。他们一起将技术的结果解释为商业的意 义,并且评价从这些结果中得出结论的正确性。
• 当结果从技术上来说是正确的,但对商业上来 说并不意味着任何有价值的东西的时候,有必 要进行迭代。
商业应用
• 一个例子就是预测所有客户中的可创造高利润的群体, 必须决定如何去接近这些客户,同时还要决定如何判 断他们是否像模型预测的那样能带来利润。
– 人工填写 – 使用全局常量 – 取其他记录中对应属性的最频值,中间数或平均数。 – 取同类其他记录中对应属性的最频值,中间数或平均数。 – 对其他记录中这个属性的值分布做一个统计模型,然后根据
分布情况,随机选一个值。 – 试图用统计或挖掘技术从相似记录的值中预估空缺值。
噪声
• 这种噪声可能是由用户的错误输入或是顾客填写问卷时 的笔误造成的。如果这些错误不是发生的太频繁,数据 挖掘工具还是能够忽略它们,并且找出数据中存在的整 体模式。
• 领域专家依靠对挖掘结果解释中的信息,来支持商业 应用的决定。在小公司中,领域专家可能就是决策者, 但通常来说,决策者往往是一些顾问。
• 如果领域专家对决策是否为挖掘结果所支持不是很 确定,或者他和实际决策者中有任何的误解,都需要 回复到结果解释阶段。
商业反馈
• 商业环境中的结果被反馈到商业智能环境中, 并和数据挖掘模型的输出一起做分析。比如 说,假设你邮寄活动的预测回复与实际回复 作一个比较。当你试图了解是什么因素使得 你对某些客户的预测出现错误时,可能会引 发一轮新的数据挖掘过程。
• 有些冗余可以被相关分析检测到
• 仔细将多个数据源中的数据集成起来,能够减少 或避免结果数据中的冗余与不一致性,从而可以 提高挖掘的速度和质量。
• 卡方检验 • 相关系数
• 协方差
数据规约
• 数据立方体聚集 • 维规约 • 数据压缩(DWT) • 数据归约 • 离散化和概念分层 • 主成分分析
数据规约
数据归约-直方图
• 如何确定桶和属性的划分?
– 等宽 – 等频
三、数据变换
• 平滑 • 聚集 • 数据泛化 • 规范化:将数据按比例缩放,使之落入一个小的特定区间
• 属性构造 通过现有属性构造新的属性,并添加到属性集中;以增加对高维数据 的结构的理解和精确度
聚类 抽样
数据变化与数据离散化
• price的排序后数据(单位:美元):4, 8,15,21,21,24,25,28,34
聚类
• 通过聚类分析查找孤立点,消除噪声
回归
y
Y1
YLeabharlann Baidu’
y=x+1
X1
x
二、数据集成
• 数据集成:
– 将多个数据源中的数据整合到一个一致的存储中
• 模式集成:
– 整合不同数据源中的元数据 – 实体识别问题:匹配来自不同数据源的现实世界的实
数据立方体聚集
维规约
• 维规约:通过删除不相关的属性(或维)来减少 数据量。
– 把数据投影到较小的空间:PCA – 属性子集选择目标:找到最小属性集,使得数据类的
概率分布尽可能地接近使用属性的原分布。
维规约
• 属性选择的基本启发方法:
常用的算法:Decision tree, Relief
• PCA • 小波变换
• 空缺值 • 噪声数据
数据清理
空缺值
• 有些记录的值可能空缺,或者某一个属性可能 会有大量的空缺值。
– 对第一种情况,可以不使用这些记录; – 对第二种情况,可以丢弃这个属性。
猜测空缺值
• 另一种处理空缺值的方法是归咎(imputation)。可以 用几种技术来猜测空缺值,下面是一些相关技术,复杂 度逐渐增加:
数据预处理
占70%的工作 量,是最重要
的阶段
数据预处理
(占70%工作量)
占25%的工 作量
系统演示
数据建模(占25% 结果分析
工作量)
原始数 据库
定义业务 问题
抽取
目标数 据
预处理
数据挖 掘结果
数据挖掘
预处理 后数据
评估
部署
数据预处理
脏数据形成的原因
• 滥用缩写词 • 数据输入错误 • 不同的惯用语(如:ASAP对“at first chance”) • 重复记录 • 丢失值 • 拼写变化 • 不同的计量单位 • 过时的编码
• 分箱(binning):
– 首先排序数据,并将他们分到等深的箱中 – 然后可以按箱的平均值平滑、按箱中值平滑、按箱的
边界平滑等等
• 聚类:
– 监测并且去除孤立点
• 计算机和人工检查结合
– 计算机检测可疑数据,然后对它们进行人工判断
• 回归
– 通过让数据适应回归函数来平滑数据
数据平滑的分箱方法
体,比如:A.cust-id=B.customer_no
• 检测并解决数据值的冲突
– 对现实世界中的同一实体,来自不同数据源的属性值 可能是不同的
– 可能的原因:不同的数据表示,不同的度量等等
处理数据集成中的冗余数据
• 集成多个数据库时,经常会出现冗余数据
– 同一属性在不同的数据库中会有不同的字段名 – 一个属性可以由另外一个表导出,如“年薪”
• 光滑 • 属性构造 • 聚集 • 规范化 • 离散化 • 有标称数据概念分层
数据变换——规范化
• 最小-最大规范化 • z-score规范化 • 小数定标规范化
数据归约
• 离散化
– 将连续属性归约,减少属性的取值个数
• 概念分层
– 用区间或高层的概念替换
结果解释
• 对结果的解释完全依赖于数据挖掘步骤的可视 化输出。
• 当结果从技术上来说是正确的,但对商业上来 说并不意味着任何有价值的东西的时候,有必 要进行迭代。
商业应用
• 一个例子就是预测所有客户中的可创造高利润的群体, 必须决定如何去接近这些客户,同时还要决定如何判 断他们是否像模型预测的那样能带来利润。
– 人工填写 – 使用全局常量 – 取其他记录中对应属性的最频值,中间数或平均数。 – 取同类其他记录中对应属性的最频值,中间数或平均数。 – 对其他记录中这个属性的值分布做一个统计模型,然后根据
分布情况,随机选一个值。 – 试图用统计或挖掘技术从相似记录的值中预估空缺值。
噪声
• 这种噪声可能是由用户的错误输入或是顾客填写问卷时 的笔误造成的。如果这些错误不是发生的太频繁,数据 挖掘工具还是能够忽略它们,并且找出数据中存在的整 体模式。
• 领域专家依靠对挖掘结果解释中的信息,来支持商业 应用的决定。在小公司中,领域专家可能就是决策者, 但通常来说,决策者往往是一些顾问。
• 如果领域专家对决策是否为挖掘结果所支持不是很 确定,或者他和实际决策者中有任何的误解,都需要 回复到结果解释阶段。
商业反馈
• 商业环境中的结果被反馈到商业智能环境中, 并和数据挖掘模型的输出一起做分析。比如 说,假设你邮寄活动的预测回复与实际回复 作一个比较。当你试图了解是什么因素使得 你对某些客户的预测出现错误时,可能会引 发一轮新的数据挖掘过程。
• 有些冗余可以被相关分析检测到
• 仔细将多个数据源中的数据集成起来,能够减少 或避免结果数据中的冗余与不一致性,从而可以 提高挖掘的速度和质量。
• 卡方检验 • 相关系数
• 协方差
数据规约
• 数据立方体聚集 • 维规约 • 数据压缩(DWT) • 数据归约 • 离散化和概念分层 • 主成分分析
数据规约
数据归约-直方图
• 如何确定桶和属性的划分?
– 等宽 – 等频
三、数据变换
• 平滑 • 聚集 • 数据泛化 • 规范化:将数据按比例缩放,使之落入一个小的特定区间
• 属性构造 通过现有属性构造新的属性,并添加到属性集中;以增加对高维数据 的结构的理解和精确度
聚类 抽样
数据变化与数据离散化
• price的排序后数据(单位:美元):4, 8,15,21,21,24,25,28,34
聚类
• 通过聚类分析查找孤立点,消除噪声
回归
y
Y1
YLeabharlann Baidu’
y=x+1
X1
x
二、数据集成
• 数据集成:
– 将多个数据源中的数据整合到一个一致的存储中
• 模式集成:
– 整合不同数据源中的元数据 – 实体识别问题:匹配来自不同数据源的现实世界的实
数据立方体聚集
维规约
• 维规约:通过删除不相关的属性(或维)来减少 数据量。
– 把数据投影到较小的空间:PCA – 属性子集选择目标:找到最小属性集,使得数据类的
概率分布尽可能地接近使用属性的原分布。
维规约
• 属性选择的基本启发方法:
常用的算法:Decision tree, Relief
• PCA • 小波变换
• 空缺值 • 噪声数据
数据清理
空缺值
• 有些记录的值可能空缺,或者某一个属性可能 会有大量的空缺值。
– 对第一种情况,可以不使用这些记录; – 对第二种情况,可以丢弃这个属性。
猜测空缺值
• 另一种处理空缺值的方法是归咎(imputation)。可以 用几种技术来猜测空缺值,下面是一些相关技术,复杂 度逐渐增加:
数据预处理
占70%的工作 量,是最重要
的阶段
数据预处理
(占70%工作量)
占25%的工 作量
系统演示
数据建模(占25% 结果分析
工作量)
原始数 据库
定义业务 问题
抽取
目标数 据
预处理
数据挖 掘结果
数据挖掘
预处理 后数据
评估
部署
数据预处理
脏数据形成的原因
• 滥用缩写词 • 数据输入错误 • 不同的惯用语(如:ASAP对“at first chance”) • 重复记录 • 丢失值 • 拼写变化 • 不同的计量单位 • 过时的编码
• 分箱(binning):
– 首先排序数据,并将他们分到等深的箱中 – 然后可以按箱的平均值平滑、按箱中值平滑、按箱的
边界平滑等等
• 聚类:
– 监测并且去除孤立点
• 计算机和人工检查结合
– 计算机检测可疑数据,然后对它们进行人工判断
• 回归
– 通过让数据适应回归函数来平滑数据
数据平滑的分箱方法
体,比如:A.cust-id=B.customer_no
• 检测并解决数据值的冲突
– 对现实世界中的同一实体,来自不同数据源的属性值 可能是不同的
– 可能的原因:不同的数据表示,不同的度量等等
处理数据集成中的冗余数据
• 集成多个数据库时,经常会出现冗余数据
– 同一属性在不同的数据库中会有不同的字段名 – 一个属性可以由另外一个表导出,如“年薪”
• 光滑 • 属性构造 • 聚集 • 规范化 • 离散化 • 有标称数据概念分层
数据变换——规范化
• 最小-最大规范化 • z-score规范化 • 小数定标规范化
数据归约
• 离散化
– 将连续属性归约,减少属性的取值个数
• 概念分层
– 用区间或高层的概念替换
结果解释
• 对结果的解释完全依赖于数据挖掘步骤的可视 化输出。