数据挖掘 第2章--认识数据PPT

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

.
12
盒图
盒图
➢ 一种流行的分布的直观表示。体现了五数概括: ➢ 盒的端点一般在四分位数上,使得盒的长度是四分位数极差IQR ➢ 中位数用盒内的线标记 ➢ 盒外的两条线(称作胡须)延伸到最小(Minimum)和最大(Maximum)
.
13
盒图
盒图示例
➢ 如图在给定的时间段ALLElectronics的4个销售部门的商品单价数据的盒图。对
✓ 第一个四分位数Q1 ✓ 第三个四分位数Q3 ✓ 四分位数极差IQR=Q3-Q1
➢ 方差和标准差
2N 1i n1(xi)2N 1i n1xi22
➢ 标准差是方差的平方根
.
11
五数概括
五数概括
➢ 分布的五数概括由中位数Q2、四分位数Q1和Q3,最小和最大观测值组成, 按次序Minimum、Q1、Median、Q3、Maximum。
.
17
散点图
散点图
确定两个数值变量之间是否存在联系、模式或趋势的最有效的图形方法之一
.
18
散点图
散点图还可以用来发现属性之间的相关性
a.正相关
b.负相关
.
19
相关性
三种情况,其中每个数据集中两个属性之间都不存在观察到的相关性
.
20
数据统计
数据描述和图形统计显示提供了数据总体情况的有价值的洞察。这有助 于识别噪声和离群点,因此,它们对于数据清理特别有用
.
21
• 度量数据的相似性和相异性
.
相似性及Байду номын сангаас异性
相似性
➢ 量化两组数据的相似性 ➢ 物体相似性越大时,值越大 ➢ 取值范围是[0,1]
相异性
➢ 量化两组数据的不同的程度 ➢ 物体相似性越大时,值越小 ➢ 最小的差异值取0 ➢ 上限值根绝实际不同而不同
相似性和相异性都称邻近性
.
23
数据矩阵及相异性矩阵
标称属性
➢ 标称意味着与名称相关。标称属性的值是一些符号或事物的名称 ➢ 如:hair_color(头发颜色)和marital_status(婚姻状况)是描述人的两个特征。
hair_color的可能值为黑色、棕色、淡黄色等,marital_status的可能取值是单 身、已婚、离异和丧偶 ➢ 标称属性值并不具有有意义的序,并且不是定量的。给定一个对象集,找出这种 属性的均值或中位数是没有意义的,但可以用众数来表示
0
d(2,1)
0
d(3,1 ) d (3,2) 0
:
::
d (n,1) d (n,2) ... ... 0
24
邻近性度量
标称属性的邻近性度量
数据矩阵
➢ 又称对象-属性结构:存放n个 对象两两之间的临近度。每行 对应一个对象
x 11 ...
... ...
x 1f ...
x i1
...
x if
... ... ...
x
n1
...
x nf
... ...
x 1p ...
...
x ip
... ...
...
x np
.
相异性矩阵
➢ 又称对象-对象结构:存放n个对象 之间的相邻度
于部门1,我们看到销售商品单价的中位数是80美元,Q1是60美元,Q3是100
美元。注意,该部门的两个边远的观测值被个别的描绘出,因为它们的值175和
202都超过IQR的1.5倍,这里IQR=40.
200 180 160 140 120 100 80 60 40 20
0
部门1
部门2
部门3
部门4
.
14
.
9
中心趋势度量
中位数
➢ 有序数据值的中间值 ➢ 适用于倾斜数据
众数
➢ 集合中出现最频繁的值 ➢ 可能最高频率对应多个不同值,导致多个众数
中列数
➢ 数据集的最大值和最小值的平均值
.
10
度量数据散布
度量数据散布:极差、四分位数、方差、标准差和四分位数极差
➢ 极差:极差(range)=max()-min() ➢ 四分位数
.
4
二元属性
二元属性
➢ 二元属性是一种标称属性,只有两个类别或状态:0或1,其中0通常表示该属性 不出现,而1表示出现。如果两种状态对应于true和false的话,二元属性又称布 尔属性。
➢ 如果一个事物的两种状态具有同等价值并且携带相同的权重,则称一个二元属性 是对称的。如:属性gender中的男、女。
数值属性
➢ 数值属性是定量的,即它是可度量的量,用整数或实数值表示。数值属性可以是 区间标度的或比率标度的,其中心趋势度量可以用均值、中位数或众数来表示
➢ 区间标度属性用相等的单位尺度度量,比如温度 ➢ 比率标度属性是具有固定零点的数值属性,比如重量、高度
.
6
离散属性与连续属性
离散属性与连续属性
➢ 离散属性具有有限或无限可能个值,可以用或不用整数表示。如:属性 hair_color、smoker、medical_test和drink_size都有有限个值,因此是 离散的
数据挖掘与商务智能
范勤勤 物流研究中心
.
第二章 认识数据 1 数据对象与属性类型 2 数据的基本统计描述 3 度量数据的相似性和相异性
.
• 数据对象与属性类型
.
属性及标称属性
什么是属性?
➢ 属性是一个数据字段,表示数据对象的一个特征。在文献中,属性、维数、特征 和变量可以互换的使用,属性可以是标称的、二元的、序数的或数值的。
分位数图
分位数图
Q3 中位数 Q1
.
15
分位数-分位数图
分位数-分位数图
Q3 中位数 Q1
.
16
直方图
直方图
➢ 如果X是标称的,则对于X的每个已知值,画一个柱或竖直条 ➢ 如果X是数值的,X的值域被划分成不相交的连续子域,通常来讲,诸桶是等宽的 ➢ 对于比较单变量观测组,它可能不如分位数图、分位数图-分位数图、盒图方法有效
➢ 如果其状态的结果不是同等重要的,则称一个二元属性是非对称的。如:HIV化 验的阴性、阳性结果。
.
5
序数属性及数值属性
序数属性
➢ 序数属性是一种属性,其可能的值之间具有有意义的序或秩评定,但是相继值之 间的差是未知的,其中心趋势可以用众数和中位数来表示。
➢ 如:professional_rank(职位)可以按顺序枚举,如对于教师有助教、讲师、副 教授和教授
➢ 如果属性不是离散的,则它是连续的。在文献中,数值属性与连续属性可以 互换使用
.
7
• 数据的基本统计描述
.
中心趋势度量
中心趋势度量:均值、中位数和众数、均值:
N
xi
xi1
x1x2x3... xN
N
N
加权平均:
N
wi xi
x
i1 N
wi
w1x1w2x2 wNxN w1w2 wN
i1
主要问题:对极端值很敏感
相关文档
最新文档