数据挖掘 认识数据 ppt课件

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

分位数图
分位数图 Q3
中位数 Q1
15
分位数-分位数图
分位数-分位数图 Q3
中位数 Q1
16
直方图
直方图
➢ 如果X是标称的,则对于X的每个已知值,画一个柱或竖直条 ➢ 如果X是数值的,X的值域被划分成不相交的连续子域,通常来讲,诸桶是等宽的 ➢ 对于比较单变量观测组,它可能不如分位数图、分位数图-分位数图、盒图方法有效
25
邻近性度量
对称的二元属性相异性
➢ 对于对称的二元属性,每个状态都同样重要。 ➢ 对象i和j的相异性为:
非对称的二元属性相异性
➢ 对于非对称的二元属性,两个状态不是同等重要的。此时,i与j的相异性表示为:
➢ 对象i与j之间的非对称的二元相似性可以用下式计算: (式的系数sim(i,j)被称作Jaccard系数)
sim(x,y) xy x y
30
作业
➢ 假设所分析的数据包括属性age,它在数据元组中的值(以递增序)为13, 15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70
(1)该数据的均值是多少?中位数是什么? (2)该数据的众数是什么? (3)该数据的中列数是多少? ➢ 给定两个元组(22,1,42,10)和(20,0,36,8)表示的对象 (1)计算这两个对象之间的欧氏距离和曼哈顿距离 (2)使用q=3,计算这两个对象之间的闵科夫斯基距离 (3)计算这两个对象的上确界距离
➢ 如果属性不是离散的,则它是连续的。在文献中,数值属性与连续属性可以 互换使用
7
• 数据的基本统计描述
中心趋势度量
中心趋势度量:均值、中位数和众数、均值:
N
xi
xi1
ห้องสมุดไป่ตู้
x1x2x3... xN
N
N
加权平均:
N
wi xi
x
i1 N
wi
w1x1w2x2 wNxN w1w2 wN
i1
主要问题:对极端值很敏感
12
盒图
盒图
➢ 一种流行的分布的直观表示。体现了五数概括: ➢ 盒的端点一般在四分位数上,使得盒的长度是四分位数极差IQR ➢ 中位数用盒内的线标记 ➢ 盒外的两条线(称作胡须)延伸到最小(Minimum)和最大(Maximum)
13
盒图
盒图示例
➢ 如图在给定的时间段ALLElectronics的4个销售部门的商品单价数据的盒图。对
26
相异性
数值属性的相异性
➢ 闵可夫斯基距离
➢ 是曼哈顿距离和欧氏距离的推广 ➢ 上确界距离是h趋向无穷时闵科夫斯基距离的推广。
1
p
hh
p
d(i,j)lhi m f1xif xjf
m a fxxif
xjf
27
邻近性度量
序数属性的邻近性度量
➢ 假设f是用于描述n个对象的一组序数属性之一,关于f的相异性计算涉及一下步骤:
相异性
混合类型属性的相异性
➢ 假设数据集包含p个混合类型的属性,对象i与j之间的相异性d(i,j)定义为:
d(i,j)pf 1
d (f) (f)
ij ij
p (f) f 1 ij
➢ f是数值型的:用标准化的距离公式。
d( f ) ij
maxh
xif xhf
xjf minh
xhf
➢ ➢
f是标称或二元的:如果xif f是序数的:计算排位rij和
数据矩阵
➢ 又称对象-属性结构:存放n个 对象两两之间的临近度。每行 对应一个对象
x 11 ...
... x1f ... ...
... ...
x 1p ...
x
i1
...
x if
...
x ip
... ... ... ... ...
x
n1
... x nf
...
x np
相异性矩阵
➢ 又称对象-对象结构:存放n个对象 之间的相邻度
➢ 如果其状态的结果不是同等重要的,则称一个二元属性是非对称的。如:HIV化 验的阴性、阳性结果。
5
序数属性及数值属性
序数属性
➢ 序数属性是一种属性,其可能的值之间具有有意义的序或秩评定,但是相继值之 间的差是未知的,其中心趋势可以用众数和中位数来表示。
➢ 如:professional_rank(职位)可以按顺序枚举,如对于教师有助教、讲师、副 教授和教授
于部门1,我们看到销售商品单价的中位数是80美元,Q1是60美元,Q3是100
美元。注意,该部门的两个边远的观测值被个别的描绘出,因为它们的值175和
202都超过IQR的1.5倍,这里IQR=40.
200 180 160 140 120 100 80 60 40 20
0
部门1
部门2
部门3 部门4
14
标称属性
➢ 标称意味着与名称相关。标称属性的值是一些符号或事物的名称 ➢ 如:hair_color(头发颜色)和marital_status(婚姻状况)是描述人的两个特征。
hair_color的可能值为黑色、棕色、淡黄色等,marital_status的可能取值是单 身、已婚、离异和丧偶 ➢ 标称属性值并不具有有意义的序,并且不是定量的。给定一个对象集,找出这种 属性的均值或中位数是没有意义的,但可以用众数来表示
21
• 度量数据的相似性和相异性
相似性及相异性
相似性
➢ 量化两组数据的相似性 ➢ 物体相似性越大时,值越大 ➢ 取值范围是[0,1]
相异性
➢ 量化两组数据的不同的程度 ➢ 物体相似性越大时,值越小 ➢ 最小的差异值取0 ➢ 上限值根绝实际不同而不同
相似性和相异性都称邻近性
23
数据矩阵及相异性矩阵
✓ 第一个四分位数Q1 ✓ 第三个四分位数Q3 ✓ 四分位数极差IQR=Q3-Q1
➢ 方差和标准差
2N 1i n1(xi)2N 1i n1xi22
➢ 标准差是方差的平方根
11
五数概括
五数概括
➢ 分布的五数概括由中位数Q2、四分位数Q1和Q3,最小和最大观测值组成, 按次序Minimum、Q1、Median、Q3、Maximum。
数据挖掘与商务智能
物流研究中心
第二章 认识数据 1 数据对象与属性类型 2 数据的基本统计描述 3 度量数据的相似性和相异性
• 数据对象与属性类型
属性及标称属性
什么是属性?
➢ 属性是一个数据字段,表示数据对象的一个特征。在文献中,属性、维数、特征 和变量可以互换的使用,属性可以是标称的、二元的、序数的或数值的。
9
中心趋势度量
中位数
➢ 有序数据值的中间值 ➢ 适用于倾斜数据
众数
➢ 集合中出现最频繁的值 ➢ 可能最高频率对应多个不同值,导致多个众数
中列数
➢ 数据集的最大值和最小值的平均值
10
度量数据散布
度量数据散布:极差、四分位数、方差、标准差和四分位数极差
➢ 极差:极差(range)=max()-min() ➢ 四分位数
数值属性
➢ 数值属性是定量的,即它是可度量的量,用整数或实数值表示。数值属性可以是 区间标度的或比率标度的,其中心趋势度量可以用均值、中位数或众数来表示
➢ 区间标度属性用相等的单位尺度度量,比如温度 ➢ 比率标度属性是具有固定零点的数值属性,比如重量、高度
6
离散属性与连续属性
离散属性与连续属性
➢ 离散属性具有有限或无限可能个值,可以用或不用整数表示。如:属性 hair_color、smoker、medical_test和drink_size都有有限个值,因此是 离散的
31
17
散点图
散点图
确定两个数值变量之间是否存在联系、模式或趋势的最有效的图形方法之一
18
散点图
散点图还可以用来发现属性之间的相关性
a.正相关
b.负相关
19
相关性
三种情况,其中每个数据集中两个属性之间都不存在观察到的相关性
20
数据统计
数据描述和图形统计显示提供了数据总体情况的有价值的洞察。这有助 于识别噪声和离群点,因此,它们对于数据清理特别有用
=
xjf
zif
,则dij(f)
r if 1 Mf 1
= 0 if ;否则, dij(f) = 1 并将zif作为属性值对待
上述步骤与前面的各种单一属性类型的处理相同,唯一不同的是对于数值属性的处理
29
余弦相似性
余弦相似性
➢ 余弦相似性是一种度量,它可以用来比较文档,或针对给定的查询词向量对文档排 序。令x和y是两个待比较的向量,使用余弦度量作为相似函数,有:
4
二元属性
二元属性
➢ 二元属性是一种标称属性,只有两个类别或状态:0或1,其中0通常表示该属性 不出现,而1表示出现。如果两种状态对应于true和false的话,二元属性又称布 尔属性。
➢ 如果一个事物的两种状态具有同等价值并且携带相同的权重,则称一个二元属性 是对称的。如:属性gender中的男、女。
✓ 1.第i个对象的f值为xif, 属性f有Mf个有序的状态,表示排位1,...,Mf.用对应的排
位来取代xif。 rif {1,..M .,f}
✓ 2.通过zif代替第i个对象的rif来实现数据规格化:
zif
rif M
1 f 1
✓ 3.利用数值属性的距离度量计算,使用zif作为第i个对象的f值。
28
0
d(2,1)
0
d(3,1 ) d (3,2) 0
:
::
d (n,1) d (n,2) ... ... 0
24
邻近性度量
标称属性的邻近性度量
➢ m: # of matches, p: total # of variables
d(i,j)p pm 二元属性的邻近性度量
➢ 二元属性只有两种状态:0或1,0表示该属性不出现,1表示该属性出现 ➢ 二元属性的列联表
相关文档
最新文档