数据挖掘2015最新精品课程完整课件(第2讲)---数据预处理

合集下载

数据挖掘2

数据挖掘2
22
五、数据清理
1、却失值处理 缺失值是指数据集中某些记录(元组)的部分属性值为空。 如:在客户表中的某些客户的收入一项为空值。 (1)导致数据缺失的原因 ➢ 数据采集设备的故障; ➢ 由于与其它信息的数据存在不一致性,因此数据项被删除; ➢ 由于不理解或者不知道而未能输入; ➢ 在当时数据输入的时候,该数据项不重要而被忽略; ➢ 数据传输过程中引起的错误;
■ 引言
数据挖掘把对数据的应用从低层次的简单查询,提升到高层 次的挖掘知识。
数据挖掘的研究一般集中在对挖掘技术、挖掘算法和挖掘语 言的研究上。
事实上,数据挖掘对所处理的数据是有严格要求的,因此, 对数据的预处理是至关重要的,一般需要花费整个挖掘过程 60%左右的时间。
本章讨论数据预处理的一些主要方法。
14
二、数据集类型
(2)具有图形对象的数据: 如果对象具有某种结构,即对象包含具有联系的子对象,则这样的对象常 常用图形表示。例如,化合物的结构可以用图形表示,其中结点是原子,节 点之间的链是化学键。
笨分子
15
二、数据集类型
4、有序数据 对于某些数据类型,属性涉及到时间或空间的顺序联系 时序数据:也称时间数据,可以看作是记录数据的扩充,其中 每个记录包含一个与之相关联的时间。即有一个时间属性。 序列数据:是一个数据集合,它是个体项的序列,如词或字母 的序列。 时间序列数据:是一种特殊的时序数据,其中每个记录都有一 个时间序列,即一段时间的测量序列。 空间数据:有些对象具有空间属性,如位置或区域。
学号 01 02
姓名 李刚 刘红
性别 男 女
年龄 16 15
身高 170cm 162cm
03
王强

15
174cm

数据挖掘第一与第二章PPT课件

数据挖掘第一与第二章PPT课件
散的目标变量;回归,用于预测连续的目标变 量。
预测建模可以用来确定顾客对产品促销活 动的反应,预测地球生态系统的扰动,或根据 检查结果判断病人是否患有某种疾病。
14
数据挖掘任务
• 关联分析 用来描述数据中强关联特征的模式。 关联分析的应用包括找出具有相关功
能的基因组、识别用户一起访问的Web页面、 理解地球气候系统不同元素之间的联系等。
12
数据挖掘任务
• 预测vs.描述 • 预测(Prediction)
– 根据其他属性的值,预测特定属性的值 • 描述(Description)
– 导出概括数据中潜在联系的模式
2020年9月29日星期二
13
数据挖掘任务
• 预测建模 涉及以说明自变量函数的方式为目标变量
建立模型。 有两类预测建模任务:分类,用于预测离
– 使用抽样技术或开发并行和分布算法也可以提高可 伸缩程度
2020年9月29日星期二
7
挑战2
• 高维性
– 具有数以百计或数以千计属性的数据集
• 生物信息学:涉及数千特征的基因表达数据 • 不同地区温度测量:如果在一个相当长的时间周期内进
行测量,维度(特征数)的增长正比于测量的次数
– 为低维数据开发的数据分析技术不能很好地处理高 维数据
异常检测的应用包括检测欺诈、网络攻 击、疾病的不寻常模式、生态系统扰动等。
– Jiawei Han的定义
• 从大型数据集中提取有趣的 (非平凡的, 蕴涵的, 先前未知的并且是潜在有用的) 信息或模式
4
数据挖掘技术的定义
• 定义:数据挖掘就是从大量的、不完全的、有 噪声的、模糊的、随机的实际应用数据中,提 取隐含在其中的,人们事先不知道的、但又是 潜在有用的信息和知识的过程.

大数据本科系列教材PPT课件之《数据挖掘》:第2章 数据预处理与相似性

大数据本科系列教材PPT课件之《数据挖掘》:第2章 数据预处理与相似性
这种方法的缺点是对异常点比较敏 感,倾向于不均匀地把实例分布到 各个箱中。
等宽分箱法
将数据总记录数均匀分为n等份,每 份包含的数据个数相同。如果n=10, 那么每一份中将包含大约10%的数 据对象。
等频法可能将具有不相同类标号的 相同属性值分入不同的箱中以满足 箱中数据固定个数的条件。
等频分箱法
19 of 44
x ' x min (new _ max new _ min) new _ min max min
将x转换到区间[new_min,new_max]中,结果为 。这种方法有一个缺 陷就是当有新的数据加入时,可能导致max,min值的变化,需要重新 定义。如果要做0-1规范化,上述式子可以简化为:
18 of 44
2.2 数据预处理
第二章 数据预处理与相似性
2.2.5 数据离散化
连续属性离散化的问题本质是:决定选择多少个分割点和确定分割点位置。任务可分为两个步骤 完成。首先将连续属性排序,并通过指定n-1个分割点把它们分成n个区间。然后,将一个区间中 的所有值映射到相同的分类值。
将排好序的数据从最小值到最大值 均匀划分成n等份,每份的间距是相 等的。假设A和B分别是属性值的最 小值和最大值,那么划分间距为 w=(B-A)/n
图形数据对象之间存在显式或隐式的联系,相互之间有一定的复杂依 赖关系,构成图形或网状结构,如互联网中的超链接。
6 of 44
高级大数据人才培养丛书之一,大数据挖掘技术与应用
第二章 数据预处理与相似性
2.1 数据类型 2.2 数据预处理 2.3 数据的相似性 习题
7 of 44
2.2 数据预处理
数据挖掘工作始终是以数据为中心开 展的,分类、聚类、回归、关联分析 以及可视化等工作的顺利进行完全是 建立在良好的输入数据基础之上。软 件开发行业有句格言:“Garbage-InGarbage-Out”,这句话同样适用于 数据科学。

数据挖掘PPT2

数据挖掘PPT2
•18
数据转换
所谓数据转换就是将数据转换或归并成一 个适合数据挖掘的描述形式。
数据转换包含以下处理内容:
•19
数据变换
平滑:去除数据中的噪声 (分箱、聚类、回归) 聚集(合计处理):对数据进行总结或合计
操作。例如:每天销售额(数据)可以进行合 计操作以获得每月或每年的总额。这一操作常 用于构造数据立方或对数据进行多细度的分析。
为什么要预处理数据?
数据预处理是数据挖掘(知识发现)过程 中的一个重要步骤,尤其是在对包含有噪 声、不完整,甚至是不一致数据进行数据 挖掘时,更需要进行数据的预处理,以提 高数据挖掘对象的质量,并最终达到提高 数据挖掘所获模式知识质量的目的。
•1
为什么要预处理数据?
现实世界的数据是“肮脏的”
不完整的:有些感兴趣的属性缺少属性值
箱3:29,29,29
用箱边界平滑:
箱1:4,4,15
箱2:21,21,24
箱3:25,25,34
•12
如何处理噪声数据
聚类方法:
通过聚类分析可帮助发现异常数据,相似或相 邻近的数据聚合在一起形成了各个聚类集合, 而那些位于这些聚类集合之外的数据对象,自 然而然就被认为是异常数据。
•13
等等
•11
数据平滑的分箱方法
给定一个数值型属性price:
price的排序后数据(单位:美元):4,8,15,21, 21,24,25,28,34
划分为(等深的)箱:
箱1:4,8,15
箱2:21,21,24
箱3:25,28,34
用箱平均值平滑:
箱1:9,9,9
箱2:22,22,22
•7
如何处理空缺值
人工填写空缺值:工作量大,可行性低 使用一个全局变量填充空缺值:对一个属性的

浙江大学王灿《数据挖掘》课程PPT_数据预处理

浙江大学王灿《数据挖掘》课程PPT_数据预处理
价值 可解释性 内在的、上下文的、表象的以及可访问性

跟数据本身的含义相关的

数据预处理的主要任务

数据清理

填写空缺的值,平滑噪声数据,识别、删除孤立点,解决不 一致性
集成多个数据库、数据立方体或文件 规范化和聚集

数据集成
median L1 ( n / 2 ( f )l f median )c

中位数:有序集的中间值或者中间两个值平均

度量中心趋势 (2)

众数(Mode,也叫模):集合中出现频率最 高的值


单峰的(unimodal,也叫单模态)、双峰的( bimodal)、三峰的(trimodal);多峰的( multimodal) 对于适度倾斜(非对称的)的单峰频率曲线,可以 使用以下经验公式计算众数
数据预处理
第二章 数据预处理



为什么对数据进行预处理 描述性数据汇总 数据清理 数据集成和变换 数据归约 离散化和概念分层生成
为什么进行数据预处理?

现实世界的数据是“肮脏的”——数据多了,什 么问题都会出现

不完整

缺少数据值;缺乏某些重要属性;仅包含汇总数据; e.g., occupation="" 包含错误或者孤立点 e.g. Salary = -10

有噪声


数据不一致


e.g., 在编码或者命名上存在差异 e.g., 过去的等级: “1,2,3”, 现在的等级: “A, B, C” e.g., 重复记录间的不一致性 e.g., Age=“42” Birthday=“03/07/1997”
数据为什么会变“脏”?

数据挖掘课件

数据挖掘课件

07
数据挖掘实践案例
电商用户行为分析
1 2
用户购买行为分析
分析用户的购买记录,识别用户的购买习惯和偏 好,为电商企业提供精准的产品推荐和营销策略 。
用户活跃度分析
分析用户的登录、浏览、搜索等行为,评估用户 的活跃度和兴趣,优化网站内容和结构。
3
用户满意度分析
通过用户评价和反馈,了解用户对产品的满意度 和需求,及时调整产品和服务,提高用户满意度 和忠诚度。
层次聚类算法的优缺点
层次聚类算法能够得到完整的聚类树,但计算复杂度高,且需要预先确定簇的数量或截断 线。
05
分类与回归
决策树算法
决策树算法概述
ID3算法
决策树是一种常见的分类与回归算法,通 过树形结构来表达决策过程。
ID3算法是决策树学习算法的一种,它根据 信息增益来选择划分属性。
C4.5算法
CART算法
C4.5算法是ID3算法的改进版,它引入了增 益率的概念,解决了ID3算法对可取值数目 较多的属性有所偏好的问题。
CART算法是一种采用二叉树结构的决策树 学习算法,概述
距离度量
K近邻算法是一种基本的分 类与回归算法,它根据距离 来衡量样本之间的相似性。
信用卡欺诈检测
01
异常交易检测
监测信用卡交易记录,及时发现 异常交易,如大额交易、异地交 易等,防止欺诈行为。
02
欺诈模式识别
03
实时监控与警报
通过对历史欺诈行为进行分析, 发现欺诈模式和特征,建立欺诈 检测模型。
实时监测信用卡交易,触发警报 机制,及时通知银行和持卡人, 防止欺诈行为。
股票价格预测
填充缺失值
对于缺失的数据,可以采 用不同的方法进行填充, 如用平均值、中位数或模 式匹配等方法。

数据挖掘——数据预处理 共48页PPT资料共50页文档

数据挖掘——数据预处理 共48页PPT资料共50页文档
60、人民的幸福是至高无个的法。— —西塞 罗
ห้องสมุดไป่ตู้
谢谢你的阅读
❖ 知识就是财富 ❖ 丰富你的人生
71、既然我已经踏上这条道路,那么,任何东西都不应妨碍我沿着这条路走下去。——康德 72、家庭成为快乐的种子在外也不致成为障碍物但在旅行之际却是夜间的伴侣。——西塞罗 73、坚持意志伟大的事业需要始终不渝的精神。——伏尔泰 74、路漫漫其修道远,吾将上下而求索。——屈原 75、内外相应,言行相称。——韩非
数据挖掘——数据预处理 共48页PPT资 料
56、极端的法规,就是极端的不公。 ——西 塞罗 57、法律一旦成为人们的需要,人们 就不再 配享受 自由了 。—— 毕达哥 拉斯 58、法律规定的惩罚不是为了私人的 利益, 而是为 了公共 的利益 ;一部 分靠有 害的强 制,一 部分靠 榜样的 效力。 ——格 老秀斯 59、假如没有法律他们会更快乐的话 ,那么 法律作 为一件 无用之 物自己 就会消 灭。— —洛克

数据挖掘原理与算法02精品PPT课件

数据挖掘原理与算法02精品PPT课件

2020/10/8
8
数据的选择与整理
没有高质量的数据就不可能有高质量的挖掘结果。为了得 到一个高质量的适合挖掘的数据子集,一方面需要通过数 据清洗来消除干扰性数据,另一方面也需要针对挖掘目标 进行数据选择。数据选择的目的是辨别出需要分析的数据 集合,缩小处理范围,提高数据采掘的质量。数据选择可 以使后面的数据挖掘工作聚焦到和挖掘任务相关的数据子 集中。不仅提高了挖掘效率,而且也保证了挖掘的准确性。
2020/10/8
3
1.问题定义阶段的功能
KDD是为了在大量数据中发现有用的令人感兴趣 的信息,因此发现何种知识就成为整个过程中第 一个也是最重要的一个阶段。
在问题定义过程中,数据挖掘人员必须和领域专 家以及最终用户紧密协作
一方面了解相关领域的有关情况,熟悉背景知识,弄清 用户要求,确定挖掘的目标等要求;
本章也对KDD系统项目的过程化管理、交互式数据挖掘过 程以及通用的KDD原型系统进行讨论,使读者从软件项目 管理角度来更好地理解KDD过程。最后对数据挖掘语言的 类型和特点进行介绍。

2020/10/8
2
知识发现是一个系统化的工作
从源数据中发现有用知识是一个系统化的工作。 首先必须对可以利用的源数据进行分析,确定合 适的挖掘目标。然后才能着手系统的设计和开发。
2020/10/8
7
数据清洗与预处理
在开始一个知识发现项目之前必须清晰地定义挖掘目标。虽然挖掘的 最后结果是不可预测的,但是要解决或探索的问题应该是可预见的。 盲目性地挖掘是没有任何意义的。如果所集成的数据不正确,数据挖 掘算法输出的结果也必然不正确,这样形成的决策支持是不可靠的。 因此,要提高挖掘结果的准确率,数据预处理是不可忽视的一步。

数据挖掘——第二章认识数据PPT课件

数据挖掘——第二章认识数据PPT课件

合计
200
1
100
Mo=商品广告
定序数据:中位数(median)
• 排序后处于中间位置上的值
• 用Me表示 • 不受极端值的影响
• 主要用于定序数据,也可用数值型数据, 但不能用于定类数据
• 各变量值与中位数的离差绝对值之和最小
,即
最小 n
Xi Me
i 1
中位数
中位数位置N1 2
Me 12XNX21N2当 NX为 N2奇 1 数 当 时N为偶数时
• 定类尺度(列名尺度):按照事物的某种 属性对其进行平行的分类或分组。
– 例:人口的性别(男、女);企业的所有制性 质(国有、集体、私营等)
• 计量层次最低 • 对事物进行平行的分类 • 各类别可以指定数字代码表示 • 具有=或的数学特性 • 数据表现为“类别”
定类尺度
• 定类尺度只测度了事物之间的类别差,而对各 类之间的其他差别却无法从中得知,因此各类 地位相同,顺序可以任意改变。
四种计量尺度的比较
四种计量尺度的比较
定类尺度 定序尺度 定距尺度 定比尺度
分类(=,≠ )




排序( < ,> )



间距( + ,- )


比值( × ,÷)

“√”表示该尺度所具有的特性
四种计量尺度的区别与联系
• 高层次的计量尺度具有低层次计量尺度的全部特 性,但反之不行
• 可将高层次计量尺度的计量结果转换为低层次计 量尺度的计量结果,但不能反过来
• 对事物分类的同时给出各类别的顺序 • 比定类尺度精确 • 不仅可以测度类别差(分类),还可以测

《数据挖掘基础及其应用》课件第2章

《数据挖掘基础及其应用》课件第2章

第2章 数据
3.序列数据 记录型数据与图数据都忽视了时间和空间因素,而序列 数据的特点是强调顺序关系,其信息提取与模式解释需要兼 顾顺序关系。典型的序列数据包括时间序列数据、遗传序列 数据及空间序列数据等。 (1)时间序列数据:在不同时间上收集的数据,用于描述与 刻画事物随时间变化的情况,反映了某一事物、现象等随时 间的变化状态或程度。很多计量经济学的模型也用到了时间 序列数据。
合,其中记录之间不存在明显的关联关系,而且每个记录具有 相同的属性。这些特性使得数据可以采用表格或者矩阵的 形式来展示与存储,例如关系型数据库中的数据表格都属于 记录型数据。典型的记录型数据包括表格数据、事务数据、 数据矩阵、词频矩阵等,如图2-2所示。
第2章 数据
图2-2-典型的记录型数据
第2章 数据
交易事务数据(又称购物篮数据)是一类特殊的记录型数 据,其中每一个事务(记录)包含顾客某次所购买商品的集合, 例如图2-2(b)中就是某超市5条交易事务数据,每一行表示一 条交易事务,所对应的表格记录该交易事务所包含的商品。
第2章 数据
2.图数据 图数据是指包含数据对象之间存在关联关系的数据,其 中图节点表示数据对象,边表示对应的数据对象之间存在一 定的关联关系。记录型数据对象具有都不存在关联性的特 点,而图数据比记录型数据包含更多的信息。 在生物网络中,基因采用节点表示,基因之间的相互作用 利用边来表示,如图1 8所示。
第2章 数据
定义2.6(严格定义) 相似度是一个函数f,给定数据对象a、 b,相似度函数f 刻画数据对象之间的相似程度,同时应满足如 下三个条件:
(1)非负性,即f(a,b)≥0; (2)对称性,即f(a,b) =f(b,a); (3)有界性,即f(a,b) ∈[0,1]。 相似度与相异度的区别与联系如图2-3所示。

数据挖掘2015最新课程完整

数据挖掘2015最新课程完整

? 如果 T值太大 ,Boosting 会导致过适应
(overfit )
第十六页,编辑于星期一:二十点 五十一分。
AdaBoost generalization error(2)
? 许多的试验表明 : Boosting 不会导致 overfit
第十七页,编辑于星期一:二十点 五十一分。
AdaBoost generalization error(3)
? 在一定的权重条件下训练数据,得出
分类法 Ct
? 根据Ct的错误率调整权重
Set of
weighted
instances
train classifier
adjust weights Classifier C t
第十页,编辑于星期一:二十点 五十一分。
Boosting
? AdaBoost ? AdaBoost.M1 ? AdaBoost.M2
Bagging & Boosting
第一页,编辑于星期一:二十点 五十一分。
提高分类法的准确率
? Bagging
? Boosting
C1
新数据
样本
数据
C2
组合得票
···
Ct
类预测
第二页,编辑于星期一:二十点 五十一分。
Bagging
? 基本思想 :
? 给定一个弱学习算法 ,和一个训练集 ;
? 单个弱学习算法准确率不高 ; ? 将该学习算法使用多次 ,得出预测函数
序列 ,进行投票 ;
? 最后结果准确率将得到提高 .
第三页,编辑于星期一:二十点 五十一分。
Bagging
? 算法 :
For t = 1, 2, …, T Do

数据挖掘基础知识培训精品PPT课件

数据挖掘基础知识培训精品PPT课件

2020/10/13
7
数据挖掘系统的结构
智慧数据 财富未来
图形用户接口
模式评价 数据挖掘引擎
数据库或数据仓库服务器
数据清洗和集成
过滤
数据库
数据仓库
2020/10/13
知识库
8
数据挖掘标准流程
业务理解、数据预处理(数据理解和 数据准备)包含60%工作量;
60
CRISP-DM1999年欧盟机构联合起草. 通过近几年的 发展,在各种KDD过程模型中成为标准流程。
联机分析处理( OLAP) 对数据汇总、合并、聚集,验证假设
数据挖掘(DM,Data Mining) 数据建模、算法(非常规方法)
上世纪70年代以来,关系式数据库
上世纪80年代后期,数据仓库
1995年后,数据挖掘
数据挖掘是一门交叉学科,融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。 知识发现(Knowledge Discovery in Database, KDD)
-美林数据挖掘研究中心
© 2011 MERIT. All Rights Reserved. MERIT & its logo, are trademarks of MERIT.
目录
2020/10/13
智慧数据 财富未来
1.数据挖掘基本原理 2.数据预处理技术 3.数据挖掘技术 4.最优化技术 5.文本挖掘技术 6.图像和视频分析技术 7.可视化技术
需要注意的是,以上6个步骤并非完全按照此顺序 来执行。在实际应用中,需要针对不同的应用环境 和实际情况作出必要的调整。
此外,一个数据挖掘项目通常并不是一次性地执行 了上述6个步骤就结束了,它往往是一个反复迭代、 不断完善的过程。

数据挖掘培训ppt课件

数据挖掘培训ppt课件
p.item(k-1)<q.item(k-1)
23
Prune算法:从C[k]中除去大小为k-1且不在 L[k-1]中的子集
(1) For all itemsets c∈C[k] do (2) For all (k-1)-subsets s of c do (3) if (sL[k-1]) (4) then delete c from C[k]
用户规定的关联规则必须满足的最小支持度。
最小可信度minconf
用户规定的关联规则必须满足的最小可信度。
大项集(大项集、大物品集largeitemset)
支持度不小于最小支持度minsup的物品集
18
关联规则发现任务
给定一个事务数据库D,求出所有满足最小支 持度和最小可信度的关联规则。该问题可以分解 为两个子问题: 1) 求出D中满足最小支持度的所有大项集; 2) 利用大项集生成满足最小可信度的所有关联规
模糊集(fuzzy set) Zadeh 1965 支持向量机(Support Vector Machine) Vapnik 90
年代初 粗糙集(Rough Set) Pawlak 80年代初
9
知识发现的方法(2)
机器学习:
规则归纳:AQ算法 决策树:ID3、C4.5 范例推理:CBR 遗传算法:GA 贝叶斯信念网络
41
数据仓库的相关概念
事实表(Fact):存储用户需要查询分析的数据,事实表中 一般包含多个维(Dimension)和度量(Measurement)。 维:代表了用户观察数据的特定视角,如:时间维、地区维、 产品维等。每一个维可划分为不同的层次来取值,如时间维 的值可按年份、季度、月份来划分,描述了不同的查询层次。 度量:是数据的实际意义,描述数据“是什么”,即一个数 值的测量指标,如:人数、单价、销售量等。

数据挖掘工程师:数据预处理与挖掘模型构建培训ppt

数据挖掘工程师:数据预处理与挖掘模型构建培训ppt

电商用户行为分析案例
要点一
总结词
电商用户行为分析通过数据挖掘技术分析用户的购买行为 、浏览行为等,从而了解用户需求和偏好,优化产品推荐 和营销策略。
要点二
详细描述
电商用户行为分析主要采用关联规则挖掘、聚类分析等方 法,对用户的购买记录、浏览记录、搜索记录等数据进行 处理和分析。通过关联规则挖掘可以发现商品之间的关联 关系,优化产品推荐策略;通过聚类分析可以将用户划分 为不同的群体,针对不同群体制定不同的营销策略。数据 预处理同样重要,包括数据去重、异常值处理、特征选择 等步骤。
数据标准化和归一化
将数据缩放到特定的范围,如[0,1]或 [-1,1],以便在模型中使用。
数据集成与整合
01
02
03
数据匹配和去重
去除重复数据,确保数据 的一致性和准确性。
数据关联和连接
根据关联规则将不同数据 源的数据进行关联和整合 。
数据融合和集成
将多个数据源的数据进行 融合和集成,形成一个统 一的数据集。
K最近邻(KNN)分类
根据待分类样本与已知类别样本的距离进行分类。
聚类模型
K均值聚类
将数据划分为K个簇,使得每个数 据点与其所在簇的中心点距离最 小。
层次聚类
根据数据点之间的距离进行聚类, 形成层次结构。
DBSCAN聚类
基于密度的聚类方法,能够发现任 意形状的簇。
关联规则挖掘
Apriori算法
用于挖掘频繁项集和关联规则,适用于市场篮子分析等场景 。
和提高推荐精度。
THANKS
谢谢
特征工程
提取和创建新的特征,以增强数据的表示 能力。
数据挖掘的应用场景
商业智能
通过数据挖掘发现市场趋势和 消费者行为模式,帮助企业做
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

规范化(2)

Z-值规范化 (μ: 均值, σ: 标准差):
v'

v A

A
Ex. Let μ = 54,000, σ = 16,000. Then
73,600 54,000 1.225 16,000
优点:不需要知道数据集的最大 和最小 ,对离群点规范化效果好; 缺点:计算复杂度高。
数据预处理
数据挖掘的过程
模式解释和评估
Data Mining
数据预处理 数据搜集
问题定义
数据挖掘步骤

问题定义(和领域知识专家一道)

挖掘何种知识?明确要求 确定可用算法 确定需要用到的数据库和数据集 去噪、缺失值处理、数据类型转换、数据简化等

数据搜集


数据预处理


数据挖掘算法(分类、聚类和序列模式发现等)

连续属性

属性的值为实数 如: 温度、高度、重量 常用浮点型变量来表示
数据集的类型

记录

数据矩阵 文档数据 事务数据 World Wide Web 分子结构
空间数据 时间数据 序列数据 基因序列数据





顺序的

记录数据

记录的集合,每条记录又包含了固定的属性。
平滑噪声数据(2)

聚类(clustering),把相近的值组织为群或簇 (cluster),那些不在任何簇之内的点将被视为孤立 点(outlier)。
平滑噪声数据(3)

回归(regression),将数据拟合成一个数学函数, 与期望值有一定距离的点就被视为是孤立点。
平滑噪声数据(4)

计算机与人工检查相结合
Taxable Income Cheat 125K 100K 70K 120K No No No No Yes No No Yes No Yes

如: 人眼睛的颜色, 体温等。
对象
5 6 7 8 9 10
10
Divorced 95K Married 60K

通过一组属性描述一个对象

Divorced 220K Single Married Single 85K 75K 90K

有些令人感兴趣的属性无法得到,如女士的年龄。 有些属性在数据录入的时候可能被认为是不重要的,如 身高。 数据输入设备有时会出现故障。 不一致的数据已被删除。

数据中的噪声

主要是在数据搜集的过程中造成的

数据输入设备有时不够精确,如用秒表来测量风速。

数据输入设备有时会出现故障。

数据传输中的错误,如网络故障。
使用编码或者变换得到原数据的一个压缩表示。
无损压缩(lossless compression). 原始数据可以 由变换数据重构,且没有任何信息损失。
有损压缩(lossy compression).原始数据可以由变换 数据重构,有可容差的信息损失,如主成分分析 (Principal Component Analysis, PCA),小波变换 (Wavelet transformation)。 数据压缩主要是以有损压缩为主。
图数据
2 5 2 5 1
顺序数据

事务序列
Items/Events
An element of the sequence
顺序数据

基因序列数据
GGTTCCGCCTTCAGCCCCGCGCC CGCAGGGCCCGCCCCGCGCCGTC GAGAAGGGCCCGCCTGGCGGGCG GGGGGAGGCGGGGCCGCCCGAGC CCAACCGAGTCCGACCAGGTGCC CCCTCTGCTCGGCCTAGACCTGA GCTCATTAGGCGGCAGCGGACAG GCCAAGTAGAACACGCGAAGCGC TGGGCTGCCTGCTGCGACCAGGG

数据特点 结果表示:描述性或预测性知识 去除冗余 可视化

结果解释和评估


关于数据
数据
属性

数据(data)对象与其属性的 集合。 属性(attribute)是对象具有 的性质或特征

Tid Refund Marital Status 1 2 3 4 Yes No No Yes No No Yes No No No Single Married Single Married

有噪声


数据不一致


e.g., 在编码或者命名上存在差异 e.g., 过去的等级: “1,2,3”, 现在的等级: “A, B, C” e.g., 重复记录间的不一致性 e.g., Age=“42” Birthday=“03/07/1997”
数据的不完全性

主要是在数据搜集的过程中造成的

数据归约

数据归约 (2)

常用的数据归约策略

数据立方体聚集 维归约,e.g. 移除不重要的属性 数据压缩 数值归约,e.g. 使用模型来表示数据 离散化等

用于数据归约的时间不应当超过或“抵消”在 归约后的数据上挖掘节省的时间
数据压缩(Data compression)

Single Married Single Married
Divorced 95K Married 60K
Divorced 220K Single Married Single 85K 75K 90K
数据矩阵


若数据对象有固定数目的数值型的属性,则这些数据对象 可以看做是多维空间中的点,这其中的每个维代表不同的 属性。 这类数据可以看做是一个由m个对象,n个属性组成的 mn的矩阵。

http://fimi.ua.ac.be/
为什么对数据进行预处理
为什么进行数据预处理?

现实世界的数据是“肮脏的”——数据多了,什 么问题都会出现

不完整

缺少数据值;缺乏某些重要属性;仅包含汇总数据; e.g., occupation="" 包含错误或者孤立点 e.g. Salary = -10

数据预处理常常会占用整个挖掘60%的工作量
数据预处理的主要任务(1)

数据清洗(Data cleaning)
过滤缺失数据,平滑噪声数据,确定或去掉孤立点,解决 不一致问题。
数据预处理的主要任务(2)

数据集成(Data integration)
集成多个数据库,数据立方体,文件等。

数据变换(Data transformation)

如,假设把收入范围 $12,000~$98,000规范化到 [0.0, 1.0],则$73,600将映射到
73,600 12,000 (1.0 0) 0 0.716 98,000 12,000

保留了原有数据的关系,可以消除不同属性之间 的权重差异。
缺点:需要预先知道该属性的最大值与最小值
属性的类型

属性有若干种类型

名词性的

如: 眼睛的颜色, 籍贯 如: 成绩{优,良,中,差}, 身高{高, 中, 矮} 如: 日程表 如: 长度、时间、数量

顺序的


区间值的


数值型的

离散属性与连续属性

离散属性

只有有限可数的属性值 如: 邮政编码,一篇文章中词的数目 经常用整形变量来表示 布尔属性是特殊的离散属性

如何将来自不同数据源的实体结合在一起。 可以使用元数据来避免模式集成中的错误。 语义的异构:对真实世界的同一个实体,不同数据源的 属性往往也不同。 原因可能是表示、尺度及编码的不同,如长度的表示, 可以用“米”,也可以用“千米”。

检测并解决数据值的冲突


数据集成(2)

处理冗余

多数据库经常会产生冗余
顺序数据

时空数据
大陆与海洋的 月平均气温
数据挖掘研究的标准数据库

UCI Knowledge Discovery in Databases Archive

/

Frequent Itemset Mining Implementations Repository
先使用程序来发现某些可能为噪声的数据,然后 再用人工来确定这些是否为噪声。
修正不一致数据

有些知识工程工具可以自动发现一些不一致的 数据。 有些不一致的数据需要手工修正。 修改不一致的数据主要靠用户的参与。


数据集成
数据集成(1)


将来自多个数据源的数据集成为一个一致的数据 集市。 模式集成
timeout season coach game score team
ball
lost
pla y
wi n
Document 1 Document 2 Document 3
3 0 0
Байду номын сангаас
0 7 1
5 0 0
0 2 0
2 1 1
6 0 2
0 0 2
2 3 0
0 0 3
2 0 0
事务数据

记录数据的一种特殊类型,其中:
Tid Refund Marital Status 1 2 3 4 5 6 7 8 9 10
10
Taxable Income Cheat 125K 100K 70K 120K No No No No Yes No No Yes No Yes
相关文档
最新文档