数据挖掘导论第3章_探索数据
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
散布度量: 极差和方差(Range and Variance)
极差:最大值和最小值的差 方差:
均值和方差对离群值很敏感,这样常常需要使用值 集散布更稳健的估计. 绝对平均偏差、中位数绝对 偏差、四分位数极差
多元汇总统计
包含多个属性的数据(多元数据)的位置度量可以 通过分别计算每个属性的均值或中位数得到。
年级 一年级 二年级 三年级 四年级
人数 200 160 130 110
频率 0.33 0.27 0.22 0.18
百分位数(Percentiles)
对于有序数据,考虑值集的百分位数更有意义. 给定一个有序的或连续的属性x和0与100之间
的数p,第p个百分位数xp是一个x值,使得x的 p%的观测值小于xp。
主要用于数据矩阵可视化,将数据矩阵的每个 元素与图像中的一个像素相关联 这使得容易检查一个类的所有对象是否在某些 属性上具有相似的属性值。 如果不同的属性具有不同的值域,则可以对属 性标准化,使其均值为0,标准差为1
鸢尾花数据矩阵的可视化
鸢尾花相关矩阵的可视化
可视化技术: 平行坐标系
平行坐标系
本章用到的数据集鸢尾花.
150种鸢尾花的信息,每50种取自三个鸢尾花种之一 三种花类型 (classes): Setosa(带刺的) Virginica (杂色的) Versicolour(处女花) 四个属性描述 萼片长度和宽度(厘米) 花瓣长度和宽度(厘米)
汇总统计(Summary Statistics)
这等价于由整个数组定义子数组
在实践中,两个操作都可以通过在某些维上聚集来 实践
分析多维数据: 上卷和下钻(Roll-up and Drill-down)
属性值有一些可以组织成树或格.
例子:日期由年、月、日组成
我们可以按月聚集(上卷)销售数据 我们可以将月销售总和分解(下钻)成日销售
对于连续数据,两个使用最广泛的汇总统计是均值 (mean)和中位数(median),它们是值集位置 的度量。 均值和中位数定义
位置度量:均值和中位数( Mean and Median)
均值对于离群值很敏感;对于包含离群值的
数据,中位数又一次提供值集中间的一个更 稳健的估计。
截断均值(trimmed
成功的可视化需要将数据转化成可视的形 式,使得能够借此分析或报告数据的特征 和属性之间的关系。 可视化的目标是可视化信息的人工解释和 信息的意境模型的形成
例子:海洋表面温度
以摄氏度为单位显示1982年7月的海洋表面温度 (SST) 这张图汇总大约250000格数据,容易看出,海洋 温度在赤道最高,而在两极最低。
表示
表示:将数据映射到图形元素(如:用点表示
对象)
可视化是将信息映射成可视形式,即将信息
中的对象、属性和联系映射成可视的对象、 属性和联系。就是说,数据对象、它们的属 性,以及数据对象之间的联系要转换成诸如 点、线、形状和颜色等图形元素。
选择
选择:删除或不突出某些对象和属性(如:
PCA)
散布图矩阵例子:鸢尾花
可视化技术: 等高线图(Contour Plots)
等高线图
对于某些三维数据,两个属性指定平面上的位置,而第 三个属性具有连续值,如温度或海拔高度。 对于这样的数据,一种有用的可视化工具是等高线图
Celsius
可视化技术: 矩阵(Matrix Plots)
矩阵
数据挖掘导论: 探索数据
第3章 探索数据
什么是数据探索?
对数据进行初步研究,以便更好地理解它 的特殊性质.
数据探索的主要目的
有助于选择合适的数据预处理和数据分析技术 可以通过对数据进行直观检查来发现模式 数据探索中使用的某些技术(如可视化)可以 用于理解和解释数据挖掘结果。
鸢尾花(Iris)
例3.6 考虑图3-3a,该图显示一个图的可视化如 果将连通子图分开,如图3-3b所示,结点和图之 间的联系就变得更加简单易 懂
可视化技术: 直方图(Histograms)
直方图
通常显示单个变量值的分布
通过将可能的值分散到箱中,并显示落入 每个箱中的对象数. 高度表示对象数
可视化技术: 直方图(Histograms)
例3.2
从1到10的整数的百分位数x0%, x10%,..., x90%, x100%依次为:1.0, 1.5, 2.5, 3.5, 4.5, 5.5, 6.5, 7.5, 8.5, 9.5, 10.0。 按照惯例,min(x) = x0%,而max(x) = x100%。
位置度量:均值和中位数( Mean and Median)
星形坐标(Star Plots)
与平行坐标系相似,但坐标轴从一中心点向四周发散 所有的属性值都映射到[0,1]区间 每个对象映射成一个多边形
Chernoff 脸(Chernoff Faces)
Star Plots for Iris Data
Setosa
Versicolour
Virginica
例子:
花瓣宽度 (10 和 20 个箱)
二维直方图
每个属性划分成区间,而两个区间集定义值的二维 长方体 例子: 花瓣宽度和花瓣长度
从这个二维直方图,我们能看出什么特点?
可视化技术: 盒状图(Box Plots)
盒状图: 它是另一种显示一维数值属性分布的方法
outlier
90th percentile
汇总统计是量化的(如均值和标准差),用
单个数或数的小集合捕获可能很大的值集的 各种特性
例子:家庭平均收入 大部分汇总统计只需要简单的计算就可得到结果
频率和众数(Frequency and Mode)
频率定义为
具有属性值vi的对象数 frequency(vi ) m
众数定义:具有最高频率的值
对于具有连续变量的数据,数据的散布更多地用协 方差矩阵(covariance matrix)S表示
两个属性的协方差是两个属性一起变化并依赖于变 量大小的度量。
可视化
动机1:是人们能够快速吸取大量可视化信息
,并发现其中的模式
动机2:解释模式
可视化
数据可视化是指以图形或表格的形式显
示信息.
这要求基本销售数据的时间粒度是按天的
分析多维数据
分享快乐
属性值需要离散化 目标值可以是计数或连续值等
例子: 鸢尾花多维数组
离散花瓣长度、宽度为低、中、高 我们得到下面的表 – 注意计数属性
例子: 鸢尾花多维数组
例子: 鸢尾花多维数组
二维表切片 这些表告诉我们什么?
分析多维数据: 数据立方体
数据的多维表示,连同所有可能的总和(聚集)称 为数据立方体
mean):指定0和100之 间的百分位数p,丢弃高端和低端(p/2)%的数 据,然后用常规的方法计算均值,所得的结 果即是截断均值。
位置度量:均值和中位数( Mean and Median)
中位数是p
= 100%时的截断均值,而标准均 值是对应于p = 0%的截断均值。
例3.3
考虑值集{1, 2, 3, 4, 5, 90}。这些值的 均值是17.5,而中位数是3.5,p = 40%时的 截断均值也是3.5。
经验累计分布函数和百分位数图
一个累计分布函数(cumulative distribution function,CDF)显示点小于该值的概率。
可视化技术: 散布图(Scatter Plots)
散布图
二维散布图,使用数据对象两个属性的值作为x 和y坐标值,每个数据对象都都作为平面上的一 个点绘制 一般附加的属性可用如大小、颜色、形状等来 表示 散布图矩阵可同时考察许多散布图
Chernoff Faces for Iris Data
Setosa
Versicolour
Virginica
OLAP和多维数据分析
联机分析处理On-Line Analytical Processing (OLAP) 由关系数据库之父 E. F. Codd提出. OLAP一般用多维数组表示数据 如何将数据转化成多维数组?
75th percentile
50th percentile 25th percentile
10th percentile
盒状图的例子
盒状图相对紧凑,因此可以将许多盒状图放在一个 图中。
饼图
百度文库
饼图(pie chart)类似于直方图,但通常用于具有 相对较少的值的分类属性。饼图使用圆的相对面积 显示不同值的相对频率,而不是像直方图那样使用 条形的面积或高度。
散布度量: 极差和方差(Range and Variance)
连续数据的另一组常用的汇总统计是值集的
弥散或散布度量。这种度量表明属性值是否 散布很宽,或者是否相对集中在单个点(如 均值)附近。
最简单的散布度量是极差(range)。
x的极差定义为:给定一个属性x,它具有m
个值{x1,..., xm} range(x) = max(x) - min(x) = x(m) x(1)
每个属性一个坐标轴 与传统的坐标轴不同,平行坐标系不同的坐标轴 平行 ,而不是正交的。对象用线而不是用点来 表示。 当对象过多时会产生混乱,但,对象趋于分成少 数几组时,而且对象数少时,结果有可能揭示有 趣的模式。 平行坐标系显示结果可能依赖于坐标轴的序
鸢尾花的平行坐标系
其他可视化技术
当数据点的个数很多(例如超过数百个)或
者数据的极差很大时,显示每个对象的足够 信息是困难的,有些数据点可能遮掩其他数 据点,或者数据对象可能占据不了足够多的 像素来清楚地显示其特征。
安排
重新安排表中数据的重要性
例3.5:左图为具有6个二元属性的9个数据对象, 对象和属性之间看起来没有明显的联系,但经重新 安排后,右图显示出了数据的特点
分析多维数据:转轴(pivoting)
转轴是指在除两个维之外的所有维上聚集。结果是 一个二维交叉表,只有两个指定的维作为留下的维
分析多维数据:切片和切块(Slicing and Dicing)
切片是通过对一个或多个维指定特定的值,从整个 多维数组中选择一组单元. 切块通过指定属性值区间选择单元子集.