数据挖掘2015最新精品课程完整课件(第2讲)---数据预处理
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
图数据
2 5 2 5 1
顺序数据
事务序列
Items/Events
An element of the sequence
顺序数据
基因序列数据
GGTTCCGCCTTCAGCCCCGCGCC CGCAGGGCCCGCCCCGCGCCGTC GAGAAGGGCCCGCCTGGCGGGCG GGGGGAGGCGGGGCCGCCCGAGC CCAACCGAGTCCGACCAGGTGCC CCCTCTGCTCGGCCTAGACCTGA GCTCATTAGGCGGCAGCGGACAG GCCAAGTAGAACACGCGAAGCGC TGGGCTGCCTGCTGCGACCAGGG
如何将来自不同数据源的实体结合在一起。 可以使用元数据来避免模式集成中的错误。 语义的异构:对真实世界的同一个实体,不同数据源的 属性往往也不同。 原因可能是表示、尺度及编码的不同,如长度的表示, 可以用“米”,也可以用“千米”。
检测并解决数据值的冲突
数据集成(2)
处理冗余
多数据库经常会产生冗余
平滑噪声数据(2)
聚类(clustering),把相近的值组织为群或簇 (cluster),那些不在任何簇之内的点将被视为孤立 点(outlier)。
平滑噪声数据(3)
回归(regression),将数据拟合成一个数学函数, 与期望值有一定距离的点就被视为是孤立点。
平滑噪声数据(4)
计算机与人工检查相结合
数据预处理
数据挖掘的过程
模式解释和评估
Data Mining
数据预处理 数据搜集
问题定义
数据挖掘步骤
问题定义(和领域知识专家一道)
挖掘何种知识?明确要求 确定可用算法 确定需要用到的数据库和数据集 去噪、缺失值处理、数据类型转换、数据简化等
数据搜集
数据预处理
数据挖掘算法(分类、聚类和序列模式发现等)
先使用程序来发现某些可能为噪声的数据,然后 再用人工来确定这些是否为噪声。
修正不一致数据
有些知识工程工具可以自动发现一些不一致的 数据。 有些不一致的数据需要手工修正。 修改不一致的数据主要靠用户的参与。
数据集成
数据集成(1)
将来自多个数据源的数据集成为一个一致的数据 集市。 模式集成
规范化(3)
十进制规范化(小数定标规范化) v v' j 10 其中j 是使 Max(|ν’|) < 1的最小整数 如896可以规范化为0.896
优点:直观简单。 缺点:并没有消除属性间的权重差异。
数据规约
数据归约 (1)
为什么需要进行数据规约?
数据仓库中往往存有海量数据 在整个数据集上进行复杂的数据分析与挖掘需要很 长的时间 数据归约可以用来得到数据集的归约表示,它小得 多,但可以产生相同的(或几乎相同的)分析结果
规范化(2)
Z-值规范化 (μ: 均值, σ: 标准差):
v'
v A
A
Ex. Let μ = 54,000, σ = 16,000. Then
73,600 54,000 1.225 16,000
优点:不需要知道数据集的最大 和最小 ,对离群点规范化效果好; 缺点:计算复杂度高。
如,假设把收入范围 $12,000~$98,000规范化到 [0.0, 1.0],则$73,600将映射到
73,600 12,000 (1.0 0) 0 0.716 98,000 12,000
保留了原有数据的关系,可以消除不同属性之间 的权重差异。
缺点:需要预先知道该属性的最大值与最小值
Single Married Single Married
Divorced 95K Married 60K
Divorced 220K Single Married Single 85K 75K 90K
数据矩阵
若数据对象有固定数目的数值型的属性,则这些数据对象 可以看做是多维空间中的点,这其中的每个维代表不同的 属性。 这类数据可以看做是一个由m个对象,n个属性组成的 mn的矩阵。
连续属性
属性的值为实数 如: 温度、高度、重量 常用浮点型变量来表示
数据集的类型
记录
数据矩阵 文档数据 事务数据 World Wide Web 分子结构
空间数据 时间数据 序列数据 基因序列数据
图
顺序的
记录数据
记录的集合,每条记录又包含了固定的属性。
数据的不一致性
主要是在数据集成的过程中造成的
同一个属性在不同的数据库中可能会有多个名字,如 customer, cust, cust_id。
同一个属性在不同的数据库中可能又有多种度量方式, 如1.75m和175cm。
数据传输中的错误,如网络故障。
数据集成还会造成冗余
有些数据可以由其它数据推出。
过滤缺失数据(1)
忽略元组
进行分类训练时,类别属性值缺失 枯燥乏味 有时甚至是不可行的 如 “unknown” 有些挖掘方法会把这些全局常量当作是令人感兴趣 的属性
手工填充缺失数据
使用全局常量
过滤缺失数据(2)
使用属性的均值
使用最有可能出现的值
平滑噪声数据(1)
分箱(binning),对已排序的数据,通过其邻居进行平滑。
有噪声
数据不一致
e.g., 在编码或者命名上存在差异 e.g., 过去的等级: “1,2,3”, 现在的等级: “A, B, C” e.g., 重复记录间的不一致性 e.g., Age=“42” Birthday=“03/07/1997”
数据的不完全性
主要是在数据搜集的过程中造成的
http://fimi.ua.ac.be/
为什么对数据进行预处理
为什么进行数据预处理?
现实世界的数据是“肮脏的”——数据多了,什 么问题都会出现
不完整
缺少数据值;缺乏某些重要属性;仅包含汇总数据; e.g., occupation="" 包含错误或者孤立点 e.g. Salary = -10
数据预处理的动机
no quality data, no quality mining results 直接挖掘原始数据
尽管绝大多数挖掘算法都有处理不完全数据和噪声数 据的功能,但不够健壮。 绝大多数数据挖掘算法都无法处理不一致的数据。 即便没有以上三种数据,直接在原始数据集上挖掘常 常也是效果不佳。
数据预处理常常会占用整个挖掘60%的工作量
数据预处理的主要任务(1)
数据清洗(Data cleaning)
过滤缺失数据,平滑噪声数据,确定或去掉孤立点,解决 不一致问题。
数据预处理的主要任务(2)
数据集成(Data integration)
集成多个数据库,数据立方体,文件等。
数据变换(Data transformation)
数据特点 结果表示:描述性或预测性知识 去除冗余 可视化
结果解释和评估
关于数据
数据
属性
数据(data)对象与其属性的 集合。 属性(attribute)是对象具有 的性质或特征
Tid Refund Marital Status 1 2 3 4 Yes No No Yes No No Yes No No No Single Married Single Married
使用编码或者变换得到原数据的一个压缩表示。
无损压缩(lossless compression). 原始数据可以 由变换数据重构,且没有任何信息损失。
有损压缩(lossy compression).原始数据可以由变换 数据重构,有可容差的信息损失,如主成分分析 (Principal Component Analysis, PCA),小波变换 (Wavelet transformation)。 数据压缩主要是以有损压缩为主。
Tid Refund Marital Status 1 2 3 4 5 6 7 8 9 10
10
Taxable Income Cheat 125K 100K 70K 120K No No No No Yes No No Yes No Yes
Yes No No Yes No No Yes No No No
数据归约
数据归约 (2)
常用的数据归约策略
数据立方体聚集 维归约,e.g. 移除不重要的属性 数据压缩 数值归约,e.g. 使用模型来表示数据 离散化等
用于数据归约的时间不应当超过或“抵消”在 归约后的数据上挖掘节省的时间
数据压缩(Data compression)
有些令人感兴趣的属性无法得到,如女士的年龄。 有些属性在数据录入的时候可能被认为是不重要的,如 身高。 数据输入设备有时会出现故障。 不一致的数据已被删除。
数据中的噪声
主要是在数据搜集的过程中造成的
数据输入设备有时不够精确,如用秒表来测量风速。
数据输入设备有时会出现故障。
数据传输中的错误,如网络故障。
Projection of x Load 10.23 12.65 Projection of y load 5.27 6.25 Distance Load Thickness
15.22 16.22
2.7 2.2
1.2 1.1
文档数据
每篇文档均作为一个词语向量
• 每个词语都是这个向量的一个分量 • 分量的值可以是该词语在文档中出现的次数
规范化与聚集 (-2, 32, 100, 59, 48) (-0.02, 0.32, 1.00, 0.59, 0.48)
数据预处理的主要任务(3)
数据约简(Data reduction)
目标是得到规模小,且与原数据具有相同或相似功能的数据
数据清洗
数据清洗的目标
过滤缺失数据 平滑噪声数据 修正不一致数据
timeout season coach game score team
ball
lost
pla y
wi n
Document 1 Document 2 Document 3
3 0 0
0 7 1
5 0 0
0 2 0
2 1 1
6 0 2
0 0 2
2 3 0
0 0 3
2 0 0
事务数据
记录数据的一种特殊类型,其中:
Taxable Income Cheat 125K 100K 70K 120K No No No No Yes No No Yes No Yes
如: 人眼睛的颜色, 体温等。
对象
5 6 7 8 9 10
10
Divorced 95K Married 60K
通过一组属性描述一个对象
Divorced 220K Single Married Single 85K 75K 90K
顺序数据
时空数据
大陆与海洋的 月平均气温
数据挖掘研究的标准数据库
UCI Knowledge Discovery in Databases Archive
http://kdd.ics.uci.edu/
Frequent Itemset Mining Implementations Repository
- 同一个属性在不同的数据库中常常会有不同的名字。
- 有些属性可以由其它属性导出。
- 有些元组存在重复现象。
规范化
规范化(1)
最小最大规范化: 目标[new_minA, new_maxA]
v min A v' (new _ max A new _ min A) new _ min A max A min A
• 每条记录(事务)包含若干项目; • 如:在购物数据中,每个商品都是一个项目。
TID Items
1 2 3 4 5
Bread, Coke, Milk Beer, Bread Beer, Coke, Diaper, Milk Beer, Bread, Diaper, Milk Coke, Diaper, Milk
属性的类型
属性有若干种类型
名词性的
如: 眼睛的颜色, 籍贯 如: 成绩{优,良,中,差}, 身高{高, 中, 矮} 如: 日程表 如: 长度、时间、数量
顺序的
区Βιβλιοθήκη Baidu值的
数值型的
离散属性与连续属性
离散属性
只有有限可数的属性值 如: 邮政编码,一篇文章中词的数目 经常用整形变量来表示 布尔属性是特殊的离散属性
对象往往也称作记录、实体 或实例。
属性的值
赋予属性的数或符号。 属性与属性的值
同样的属性可映射为不同的属性的值
如: 高度可以用米来度量,也可以用英尺来度量。
不同的属性可以映射为相同的属性的值
如: ID和年龄这两个属性的值均可为整数。 但属性值的性质会有不同 ID没有限制,但年龄有