《大数据探索性分析》教学课件—第4章探索性数据分析方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 这样做的优点是能够减小平行坐标图的复杂程度, 同时还能减低不重要数据对结果的干扰,便于我们 更好地对数据进行分析。
• 刷技术突显部分数据但不减少维数,因此,刷常被 看作是行分解,而对维数的控制改变了坐标的数量, 因此被看作是列分解。
数据的抽象
• 平行坐标图本身就是一个抽象图形,它将多维数据 抽象地表示在二维平面上,但是我们还可以对其进 行更高层次的抽象,即数据的平均值显示,数据的 平均值度量数据的中心趋势。
• 下图展示了鸢尾花数据在四个变量(花萼长、花萼 宽、花瓣长、花瓣宽)下的分布形态
基于多变量的多维可视化技术
• 该技术是近来空间多维数据可视化技术的基础,它 绝大部分都是采用通过高速图形计算生成的彩色图 形来表示的。
• 这种方法处理的数据量一般比较大,且可以处理复 杂数据类型的多维信息。
Chernoff face方法
第四章 探索性数据分析方法
本章的主要内容
• 第1节 多维数据的可视化技术 • 第2节 投影寻踪 • 第3节 独立成分分析 • 第4节 探索性数据分析案例 • 第5节 探索性数据分析综合应用
第1节 多维数据的可视化技术
基于2变量的多维可视化技术
• 目前采用基于2变量多维可视化技术的方法主要有 散点图矩阵等
• 漫游法是典型的基于动画的多维可视化技术
• 不足:无法表示数量很大的数据。
பைடு நூலகம்
平行坐标法
• 平行坐标技术将多维数据点映射成二维平面上的折 线且不损失信息,人们可以从折线的变化规律中发 掘有价值的信息,显得相对简便直观。
• 平行坐标的基本思想是在二维空间中采用等距离的 竖直的 个平行坐标轴表示 维空间, 个变量值对应 到 个平行坐标轴上,再将 个坐标轴上的点用连续 线段连接起来表示一个空间点,这 条线段与 条坐 标轴相交的 个点分别代表了数据点的 维数据。连 接 个坐标轴上点的 条线段的折线可以用 个线性无 关的方程所表示。
这时就可以将该子区域的数据用全局范围来显示, 将局部放大的平行坐标图与全局的平行坐标图结合 起来观察,可以避免对数据的片面理解。
• 当数据量小且分散时,采用维缩小将更加易于集中 观察数据的变化趋势。
交换坐标轴
• 交换坐标轴可以把我们认为属性关系较密切的坐标 轴相邻,更好地呈现属性间的关系。在未知属性间 的关系时,可以试探地调换坐标轴次序,进而发现 不同属性间隐含的关系。
• 折线的抽象基于边缘数据的汇总,在普通平行坐标 中,用一系列折线的平均值来取代这些折线。
• 当折线彼此交叠,数据直观分析比较困难时,用这 种方式可以增强对数据变化趋势的理解,减少折线 带来的混乱影响。
维放缩
• 主要应用在需要对局部数据放大观察的情况下。 • 比如在完成刷的操作后,刷出的数据范围比较小,
• 目前有很多对平行坐标的改进技术,例如层次化的 平行坐标技术。
基于平行坐标数据可视化方法
• 刷技术 • 维数的控制 • 数据抽象 • 维度放缩 • 交换坐标轴 • 上钻下卷
刷技术
• 刷技术能够在平行坐标中将一部分折线突显而使其 他折线不明显,如此能让用户更清晰直观地了解局 部数据变化规律,更好地对关注部分进行集中分析。
• 基于结构的刷技术与平行坐标形成结构有很大的关 系。被刷出的数据能够以不同的详细程度显示,数 据范围比较灵活,可以是分层结构中的平均值,也 可以是一段完整的区间范围。通过基于结构的刷技 术能够实现将所选范围内的数据折线以更清晰的程 序显示出来。
维数的控制
• 在平行坐标中,我们通过对数据属性数量进行控制, 控制平行坐标维数,将我们关心的属性显示出来。
• 美国统计学家Chernoff于20世纪70年代最早提出用 脸谱来表示多变量。
• 按照Chernoff于1973年提出的画法,采用15个指标, 各指标代表的面部特征为:1表示脸的范围;2表示 脸的形状;3代表鼻子的长度;4代表嘴的位置;5 代表笑容曲线;6表示嘴的宽度;7-11分别表示眼睛 的位置、分开程度、角度、形状和宽度;12表示瞳 孔的位置;13-15分别表示眉毛的位置、角度和宽度。
• 根据各变量的取值,按照一定的数学函数关系,我 们就可以确定脸的轮廓、形状和五官的位置、形状。
Chernoff face方法
• Chernoff faces方法适合于在大量相似数据中发现奇 异点,或者根据表情对数据进行聚类。
• 不同的制图者可能会对同一变量选择不同的脸谱部 位,因此对于同样的数据,可能会产生不同的显示 结果。
• 散点图矩阵画出多个变量两两间的散点图以考察多 变量关系。
• 如果给定p个变量,则可以通过创建一个包含p行p 列的散点图矩阵,其中的每行每列均唯一定义一个 散点图。
• 利用散点图矩阵,我们可以回答诸如两个变量之间 是否具有成对关系,数据当中是否存在孤立点以及 数据当中是否存在聚类等问题
鸢尾花数据的散点图矩阵
鸢尾花数据的平行坐标图
平行坐标法的优缺点
• 优点:表达数据关系非常直观,易于理解,能够使 用户快速、简便地从传统直角坐标系转换到平行坐 标系,而不必使用矢量或其它可视图标。
• 缺点:表达维数决定于屏幕的水平宽度,当维数增 加,引起垂直轴靠近,辨认数据的结构和关系稍显 困难,坐标间的依赖关系很强,垂直平行轴之间的 安排序列性也是影响发现数据之间关系的重要因素, 而且多维结构也是复杂的。
• 平行坐标表示的多维数据集上,我们可以利用刷技 术交互选择数据区间和聚簇。
• 常用的刷技术有两种,基于角度的刷技术以及基于 结构的刷技术。
刷技术
• 基于角度的刷技术是根据相邻的两坐标轴间线段的 斜率范围来确定需要刷的数据。在两条线段夹角范 围内的数据将被突显,而没有涉及到的数据将不明 显,便于用户具有针对性的分析和研究。
• 如果是p维数据,有p个坐标轴。根据排列组合,应 当有p!种排列。然而,实际上有相当多的冗余在这 个排列中,让相关的坐标相邻排列的最小组合实际 上是(p+1)/2。
基于动画的多维可视化技术
• 随着计算机技术的不断发展,传统的动画技术不仅 可以用于简单的结果显示,还能根据已知数据进一 步发现数据中隐藏的或者不可预测的重要信息。
相关文档
最新文档