数据挖掘与知识发现(第二章)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
29
四、处理非记录数据
记录数据 非记录数据
子结构1 化合物1 化合物2 化合物3
子结构2
子结构3
子结构4
1 1 …
0 1 …
0 0 …
1 0 …
30
注意:尽管容易用记录形式表示非记录数据,但不能捕获所有信息
时间相关性
Jan
位点1 位点2 位点3
Feb
Mar
Apr
空 间 相 关 性
27.2 28.7 29.2 31.1 30.1 33.5 35.9 37.3 … … … …
数据挖掘者 统计人员
。。。有意思,还有其他问题吗? 啊?我没听到任何问题 没有。。。。。。。。 哦,你得到了所有病人的数据? 是的。字段 2和字段 3 也有不少问题。我猜 是的,我还没有足够的时间分 真棒,病人数据集的数据问题 哦,首先是字段 5 ,这是我们要预测的 那你一定听说过字段 4的问题了吧?他的测量范围应当是 哼哼。我的结果那是相当的好。字 什么?字段 1只是一个标识号。 是的。但是这些这些字段只是字段 5 无论如何,尽管有这些问题,你还能够完 无论如何,我的结果在那。 。。。。。。。。。。。。。。。 啊!不!我才想起来,按字段 5排序之后, 想你可能已经注意到了。 太多,我没什么进展。。 析,但是我的确有了一些有趣 1 到 10 ,而 0 表示有遗漏的值。但是,由于数据输入错 变量。地球人都知道,如果使用这些值 段 1 是字段 5 的很强的预测子。你们 的弱预测子。 成一些分析。真厉害啊! 。。。。。。。。。。。。。。。 我们加上了一个ID号。他们之间存在很 的结果。 误,所有的10的日志,结果会更好,但是我们后来才 都变成了0。可是,由于有些病人这个字 这些人竟然没注意到。 。。。。。。。。。。。。。。。 强的联系,但是毫无意义,抱歉。。。 发现这一点。他们告诉你了吗? 段的值有遗漏,所以不能确定该字段上的 0实际是0还是 。。。。。。。。。。。。。。。 10。不少记录都存在这个问题。
28
空间数据
除具有其他类型的属性外,还具有空间属性,如位臵或区域 分析该类数据时,需要考虑空间自相关 空间自相关:物理上靠近的对象,趋向于在其他方面也相似
例子:
地球科学数据集记录在各种分辨率下经纬度球面网格点上测量的温度和气压 瓦斯气流模拟中,可以针对模拟中的每个网格点记录流速和方向
课程1 课程2 课程3 课程4 课程5 课程6 课程7 课程8 课程9 学生1
学生2 学生3
0
1 0
0
0 1
0
0 0
0
0 0
1
1 0
0
0 0
0
0 0
0
0 1
1
0 0
只有非0值才重要的二元属性称为非对称二元属性 只有非0值才重要的离散属性称为非对称二元属性(学分) 只有非0值才重要的连续属性称为非对称二元属性(成绩)
偏倚=均值-标准重量=1.001-1.000=0.001 精度=标准差=0.013
准确率:被测量的测量值与实际值之间的接近度
准确率依赖于精度和偏倚,他是一个一般化的概念
37
四、离群点
某种意义上具有不同于数据集中其他大部分数据对象的特征的数据对象 离群点可以是合法的数据对象或值 与噪声不同,有时是人们感兴趣的对象
15
属性的类型也可以用不改变属性意义的变换来描述:
例: 如果长度分别用米和英尺度量,其属性意义是否有变化。计算平均长 度时,有什么变化? 例:温度 我们说“温度2度是1度的两倍”,用下列哪种测量有意义? 绝对标度?摄氏度?华氏度?
16
三、非对称的属性
对于非对称的属性,只有非零值才是重要的
例1:对象是学生,属性是学生是否选修某门大学课程。对某个学生,如果他选 择了对应某属性的课程,则该属性取1,否则取0。
TID
Items
1 2 3 4 5
Bread, Coke, Milk Beer, Bread Beer, Coke, Diaper, Milk Beer, Bread, Diaper, Milk Coke, Diaper, Milk
21
数据矩阵
数据集族中的所有数据对象都具有相同的数值属性集 数据对象可看作是多维空间中的向量 可以使用标准的矩阵操作对数据进行变换和处理
35
二、噪声和伪象
噪声:测量误差的随机部分
例: 在老旧电话上说话时的声音的干扰 电视屏幕上的雪花
伪象:确定性现象造成的测量误差
例: 一组照片在同一地方出现条纹
36
正弦波+ 噪声
两个正弦波
三、精度、偏倚、准确率
精度:(同一个量)重复测量值之间的接近程度 偏倚:测量值与被测量值之间的系统变差
例: 某样品的标准重量为1克,为了评估实验室新天平的精度和偏倚,我们称重5次 {1.015, 0.990, 1.013, 1.001, 0.986}
3
考虑你收到了某个医学研究者发来的邮件,内容如下:
你好, 我已附上先前邮件提及的数据文件。每行包含一个病人的信息,由5个字 段组成。我们想使用前面4个字段预测最后一个字段。因为我要出去几天,所 以没有时间为你提供关于这些数据的更多信息,但希望不会耽误你太多时间。 如果你不介意的话,我回来之后是否可以开会讨论你的初步结果?我可能会 邀请我们小组的其他成员参加。 谢谢!几天之后见!
38
五、遗漏值
一个数据对象遗漏一个或多个属性值 信息收集不全 属性不能用于所有对象
处理策略 ① 删除数据对象或属性,如遗漏数据对象很少 ② 估计遗漏值,如插值或最近邻法 ③ 在分析时忽略遗漏值,如忽略属性计算相似度
39
六、不一致的值
如地址字段包含城市和邮编,但是有的邮编区域不包含在城市中 如人的身高出现了负值
41
从商业或科学的角度看
只有当数据适合预期应用时,他才是高质量的!
时效性:有些数据收集后就开始老化 例如:顾客的购买行为,WEB浏览模式
相关性:可用的数据必须包含应用所需要的信息 例如:预测交通事故发生率,忽略驾驶员的年龄和性别 例如:调查数据只反应对调查做出响应的人的意见(抽样偏倚) 关于数据的知识:数据解释文档的好坏决定了他是否干扰分析 例如:文档说明属性是强相关的,则说明属性可能提供高度冗余 的信息,我们可以只选择一个属性。 若文档没有告诉我们某特定字段遗漏值用-9999表示,则 数据分析就会出错。
每条后继线段都是通过最上面的线段自我添加而形成的
5 A B 7 C 8 3 2 1
D 10 4
E
15
5
14
Βιβλιοθήκη Baidu
二、属性的不同类型
属性包括四种类型: 标称(nomial) 序数(ordinal) 区间(interval) 比率(ratio)
相异性 序 加法 乘法 =和≠ <、≤、>、≥ +、×、÷
17
1.2、数据集的类型
18
一、数据集的一般特性
维度:数据集中对象的属性数目
稀疏性:具有非对称属性的数据集
S1
S2 S3
0
1 0
0
0 1
0
0 0
0
0 0
1
1 0
0
0 0
0
0 0
0
0 1
1
0 0
S1
S2 S3
1
1 1
1
0 1
0
1 0
1
1 0
1
1 0
0
0 0
1
0 0
1
1 1
1
0 0
分辨率:对数据描述的精细程度
22
稀疏数据矩阵
数据矩阵的特殊形式 属性类型相同 非对称
23
三、基于图形的数据
带有对象之间联系的数据
数据对象映射到图中的结点 对象之间的联系用对象之间和链、方向、权值表示
2 5 2 5 1
24
具有图形对象的数据
若对象具有结构(包含具有联系的子对象),则对象常用图形表示
25
此时,不要在进行数据挖掘任务时假设属性之间在统计上是相互独立的!
31
2、数据质量
32
数据挖掘使用的数据通常是为其他用途收集的,或 收集时无明确目的 因此,数据质量问题往往无法避免
对数据挖掘任务来说,需要着眼于 (1)数据质量问题的检测和纠正
(2)使用容忍低质量数据的算法
33
2.1、测量和数据收集问题
四、有序数据
时序数据
也称为时间数据,可看作记录数据的扩充 每个记录包含一个与之相关联的时间 用途举例: 万圣节前糖果销售达到高峰 购买dvd播放机的人趋向于在其后不久购买DVD
26
序列数据
是各个实体的序列,如词或字母 需要考虑项的位臵
27
时间序列数据 特殊的时序数据,每个记录都是一段时间以来的测量序列 分析该类数据时,需要考虑时间自相关 时间自相关:如果两个测量的时间很接近,则测量值通常非常相似
数据挖掘与知识发现
第二章 数据
这是不是数据?
2.3 1.2 1.7 5.0 2.3 2.2 1.3 2.2 3.7 2.1 3.3 2.2 3.3 1.3 2.1 2.2 3.1 5.2 1.2 2.2 3.5 2.9 5.1 3.1
2
• • • •
数据类型 数据质量 数据预处理 相似性和相异性度量
10
1.1、属性与度量
11
一、先来看看什么是属性
属性是对象的性质或特质,因对象而异,或随时间而变化
例如:眼球的颜色因人而异,物体的温度随时间而变
属性本身并非数字或符号!
测量标度是将数值或符号值与对象的属性相关联的规则或函 数
例如:踏上浴室的磅秤称体重;将人分为男女;清点会议室的椅子数, 确定是否能为与会者提供足够的座位
Yes No No Yes No No Yes No No No
Single Married Single Married
Divorced 95K Married 60K
Divorced 220K Single Married Single 85K 75K 90K
20
事务数据或购物篮数据
特殊类型的记录数据 每个记录中的项是购物篮中的商品 可以将它转换为标准记录数据, 记录的字段是非对称属性 属性可以是离散或连续的,例如商品数量或费用
34
一、测量误差和数据收集错误
测量误差:
测量过程中导致的问题,在某种程度上,记录的值与实际值不符 例: 一个人连续两次测量体重,得到的值不一样
数据收集错误:
遗漏数据对象或属性值,或不当的包含了其他数据对象 例: 一类特定种类动物研究可能包含了其他相关种类的动物,他们只是表面上与要 研究的种类相似。
9
下表显示包含学生信息的数据集 每行对应于一个学生,而每列则是一个属性,描述学生的 某一方面,如平均成绩(GPA)或标示号(ID)
学生ID
1034262 1052663 1082246
年
级
平均GPA
3.24 3.51 3.62
…
… … …
四年级 二年级 一年级
这种数据集最常见,但还有其他类型的数据集
19
二、记录数据
标准记录数据
许多数据挖掘任务都假定数据集是记录的汇集 记录之间或字段(属性)之间没有明显的联系 每个记录具有相同的属性集 记录数据通常存放在平展文件或关系数据库中
Tid Refund Marital Status 1 2 3 4 5 6 7 8 9 10
10
Taxable Income Cheat 125K 100K 70K 120K No No No No Yes No No Yes No Yes
12
二、属性类型
属性的性质不必与用来度量他的值的性质相同 属性类型告诉我们,属性的哪些性质反映在用于测量他的 值中。 例1:雇员年龄与ID号 这两个属性都可以用整数表示 雇员的平均年龄有意义,而平均ID却无意义 年龄有最大最小值,而整数却无此限制 但用整数来表示时,并未暗示有限制
13
例2:线段长度
6
1、数据类型
7
数据集的不同表现在很多方面
用来描述数据对象的数据可以具有不同的类型-定量或定 性的 数据集可能具有特定的性质,如数据集包含时间序列或彼 此之间具有明显联系的对象 数据的类型决定我们应使用何种技术和工具来分析数据!
8
1、数据集全称是什么? 数据对象的集合 2、数据对象是什么? 记录、点、向量、模式、事件、案例、样本、观测、实体 3、数据对象用什么来描述? 属性、变量、特性、字段、特征、维
4
尽管有些疑虑,你还是开始着手分析这些数据。
字段1 012 020 027 … 字段2 232 121 165 字段3 33.5 16.9 24.0 字段4 0 2 0 字段5 10.7 210.1 427.6
你好,我叫数据。这几 天就暂时拜托你了!
5
看起来没有什么不对。你开始分析,数据只有1000行, 两天后你认为取得了一些进展。去参加会议,并与一位负 责参与该项目的统计人员交谈。
不一致的原因是次要的,重要的是检测出来,并尽可能的更正
七、重复数据
通常,如两个对象实际代表同一对象,则对应的属性值必然不同 (为什么),必须解决不一致的值 需要避免将两个相似但非重复的数据对象(如两个人重名)合并
若允许多个不同对象具有相同的属性,则算法设计时需谨慎
40
2.2、关于应用的问题