数据挖掘 第2章 认识数据
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
中位数
? 有序数据值的中间值 ? 适用于倾斜数据
众数
? 集合中出现最频繁的值 ? 可能最高频率对应多个不同值,导致多个众数
中列数
? 数据集的最大值和最小值的平均值
.
10
度量数据散布
度量数据散布:极差、四分位数、方差、标准差和四分位数极差
? 极差:极差(range )=max()-min() ? 四分位数
? 如果其状态的结果不是同等重要的,则称一个二元属性是 非对称的。如:HIV 化 验的阴性、阳性结果。
.
5
序数属性及数值属性
序数属性
? 序数属性是一种属性,其可能的值之间具有 有意义的序或秩评定,但是相继值之 间的差是未知的,其中心趋势可以用众数和中位数来表示。
? 如:professional_rank( 职位)可以按顺序枚举,如对于教师有助教、讲师、副 教授和教授
? 离散属性具有有限或无限可能个值,可以用或不用整数表示。如:属性 hair_color 、smoker 、medical_test 和drink_size 都有有限个值,因此是 离散的
? 如果属性不是离散的,则它是连续的。在文献中,数值属性与连续属性可以 互换使用
.
7
? 数据的基本统计描述
.
中心趋势度量
中心趋势度量:均值、中位数和众数、均值:
N
? x ?
xi
i?1
?
x1 ? x2 ? x3 ? ... ? xN
N
N
加权平均:
N
?? x ?
wi ?xi
i?1 N
wi
?
w1 ?x1 ? w2 ?x2 ? ???wN ?xN w1 ? w2 ? ???wN
i?1
主要问题:对极端值很敏感
.
9
中心趋势度量
数值属性
? 数值属性是定量的,即它是可度量的量,用 整数或实数值表示。数值属性可以是 区间标度的或比率标度的,其中心趋势度量可以用均值、中位数或众数来表示
? 区间标度属性用相等的单位尺度度量,比如温度 ? 比率标度属性是具有固定零点的数值属性,比如重量、高度
.
6
离散属性与连续属性
离散属性与连续属性
.
4
二元属性
二元属性
? 二元属性是一种标称属性,只有两个类别或状态: 0或1,其中0通常表示该属性 不出现,而1表示出现。如果两种状态对应于 true 和false 的话,二元属性又称布 尔属性。
? 如果一个事物的两种状态具有同等价值并且携带相同的权重,则称一个二元属性 是对称的。如:属性gender 中的男、女。
.
14
分位数图
分位数图
Q3 中位数 Q1
.
15
分位数-分位数图
分位数-分位数图
Q3 中位数 Q1
.
16
直方图
直方图
? 如果X是标称的,则对于X的每个已知值,画一个柱或竖直条 ? 如果X是数值的,X的值域被划分成不相交的连续子域,通常来讲,诸桶是等宽的 ? 对于比较单变量观测组,它可能不如分位数图、分位数图-分位数图、盒图方法有效
.
17
散点图
散点图
确定两个数值变量之间是否存在联系、模式或趋势的最有效的图形方法之一
.
18
散点图
散点图还可以用来发现属性之间的相关性
a.正相关
b. 负相关
.
19
相关性
三种情况,其中每个数据集中两个属性之间都不存在观察到的相关性
.
20
数据统计
数据描述和图形统计显示提供了数据总体情况的有价值的洞察。这有助 于识别噪声和离群点,因此,它们对于数据清理特别有用
数据挖掘与商务智能
范勤勤 物流研究中心
.
第二章 认识数据 1 数据对象与属性类型 2 数据的基本统计描述 3 度量数据的相似性和相异性
.
? 数据对象与属性类型
.
属性及标称属性
什么是属性?
? 属性是一个数据字段,表示数据对象的一个特征。在文献中,属性、维数、特征 和变量可以互换的使用,属性可以是标称的、二元的、序数的或数值的。
.
12
盒图
盒图
? 一种流行的分布的直观表示。体现了五数概括: ? 盒的端点一般在四分位数上,使得盒的长度是四分位数极差IQR ? 中位数用盒内的线标记 ? 盒外的两条线(称作胡须)延伸到最小(Minimum )和最大(Maximum )
.
13
来自百度文库图
盒图示例
? 如图在给定的时间段 ALLElectronics 的4个销售部门的商品单价数据的盒图。对
标称属性
? 标称意味着与名称相关。标称属性的值是一些符号或事物的名称 ? 如:hair_color( 头发颜色)和marital_status (婚姻状况)是描述人的两个特征。
hair_color 的可能值为黑色、棕色、淡黄色等, marital_status 的可能取值是单 身、已婚、离异和丧偶
? 标称属性值并不具有有意义的序,并且不是定量的。给定一个对象集,找出这种 属性的均值或中位数是没有意义的,但可以用众数来表示
数据矩阵
? 又称对象-属性结构:存放n个 对象两两之间的临近度。每行 对应一个对象
???x.1..1
... ...
x1f ...
? ?
xi1
...
xif
? ... ... ...
??xn1 ... xnf
... ...
x.1..p???
...
xip
? ?
... ... ?
... xnp??
.
相异性矩阵
? 第一个四分位数Q1 ? 第三个四分位数Q3 ? 四分位数极差IQR=Q3-Q1
? 方差和标准差
? ? ? ? ? 2
?
1 N
n
(xi ?
i?1
)2 ?
1 N
n
xi 2 ?
i?1
2
? 标准差是方差的平方根
.
11
五数概括
五数概括
? 分布的五数概括由中位数 Q2、四分位数 Q1和Q3, 最小和最大观测值组成, 按次序Minimum 、Q1、Median 、Q3、Maximum 。
于部门1,我们看到销售商品单价的中位数是 80美元,Q1是60美元,Q3是100
美元。注意,该部门的两个边远的观测值被个别的描绘出,因为它们的值 175 和
202 都超过IQR 的1.5 倍,这里IQR=40.
200 180 160 140 120 100 80 60 40 20
0
部门1
部门2
部门3 部门4
.
21
? 度量数据的相似性和相异性
.
相似性及相异性
相似性
? 量化两组数据的相似性 ? 物体相似性越大时,值越大 ? 取值范围是[0,1]
相异性
? 量化两组数据的不同的程度 ? 物体相似性越大时,值越小 ? 最小的差异值取0 ? 上限值根绝实际不同而不同
相似性和相异性都称邻近性
.
23
数据矩阵及相异性矩阵