数据可视化技术分析ppt
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
研究背景及意义
一幅图胜过千言万语.人类从外界获得 的信息约有 80%以上来自于视觉系统, 当大数据以直观的可视化的图形形式 展示在分析者面前时,分析者往往能够 一眼洞悉数据背后隐藏的信息并转化 知识以及智慧. 如图 所示是互联网星际图,将 196 个 国家的 35 万个网站数据整合起来,并根 据 200 多万个网站链接将这些星球通 过关系链联系起来,每一个星球的大小 根据其网站流量来决定,而星球之间的 距离远近则根据链接出现的频率、强 度和用户跳转时创建的链接. 我们可以立即看出,Facebook 以及 Google 是流量最大的的网站。 返回
数据挖掘的可视化
数据挖掘中的可视化可分为以下三类:
(1)数据可视化。数据库和数据仓库中的数据可看作具有不同的粒度或不同的抽象级别。离散点 图可能是数据挖掘中用的最广泛的可视化工具,帮助人们分析数据聚类,观察数据的分布,有 无奇异点。对于只有两个或三个属性的数据,可采用平面或立体的表现形式,多个属性的数据 集,要用到离散点矩阵,矩阵的每一单元为数据基于某两维的表示。
可视化的主要方法
人类的认知系统可以识别空间三维物体,对于抽象的无线识别很困难。目前对于构 成可视化的方法中主要的方法,有以下几个方面。 1) 空间三维图形:通过图形的密度颜色分布,大致能够了解数据的分布,数据之间 的相似性和数据之间的关系。 2) 颜色图:分为彩色图和灰度图。彩色图的每一种颜色,对应着不用的属性维,灰 度图可以利用颜色的深浅来标记数据量的属性值的大小,颜色越深数值越大。 3) 亮度:对于特定的区域,用不同的亮度来辅助人眼对视点的观察。 4) 数学的方法:利用数学中统计的方法,先对数据关系进行分析,得到数据的大体 分布信息,然后再结合其他可视化方法来进行细节数据分析。或者利用数学统计 方法对数据中的关系进行映射,映射成为图形图像关系来帮助分析。
数据可视化技术分析
学生姓名:王修岩
C
目录 Contents
01 研究背景及意义 02 数据可视化的主要方法
03 数据挖掘的可视化
04 大数据环境下数据可视化
05 问题与挑战
结论
研究背景及意义
课题背景及意义
当前,我们的世界已经迈入大数据(big data)时代。截至 2012 年,全世界每天产生 2.5EB 的数据。 然而,无论数据有多大,最终,信息必须流经一个最紧的瓶颈,人脑吸收和处理新信息 的能力所能达到的速度。人类视觉系统不足以满足人类以数据本身的形式来工作的要求, 因此迫切需要提供可视化的工具。 所谓数据可视化,是对大型数据库或数据仓库中的数据的可视化,它是可视化技术 在非 空间数据领域的应用,使人们不再局限于通过关系数据表来观察和分析数据信息, 还能以更直观的方法看到数据及其结构关系。 数据可视化技术的基本思想是将数据库中每一个数据项作为单个图元元素表示,大 量的数据集构成数据图像,同时将数据的各个属性值以多维数据的形式表示,可以从不 同的维度观察数据,从而对数据进行更深入的观察和分析。
返回
可视化的主要方法
2 几何图技术 1)星型图:每个星型标记的构造方法如下:任选空间的某一点作为一 个 星型标记的中心点,由中心点作出 n 条线段来代表 n 个数据 维,这 n 个线段把平面平均分成 n 份。一般地,每一个线段 长度代表一个数据维的值的大小。把一个星型标记线段的终点全部用直 线连接起来,就构成了一个星型图(图 4)。每一个星型图都代 表数据库中一条记录,这样一组数据就用一组星型来代表。 2)雷达图:类似于星型图的构造方法。 3)Andrew’s Gurves:对于多维数据的数据点 x=(x1,x2,*,*,*,*,xn),被周期函数 Fx(t)= X1/sqrt(2)+ X2sin(t)+ X3cot+ X4Sin(2t)+cos(2t)作用于一个多维数据点或者(一个多维)数据集 合,被显示成为一组曲线,曲线的分布情况反映了数据的性质。 4)shapecoding 技术:主要思想是每一个数据点位于一个已经分解成 n 个细胞表格的长方形中, 而且每一个细胞表格的颜色由每一维来控制。 5)Grand-tour 技术:从不同的视角看待多维数据,投影数据在可能的 d-planes 通过泛化的旋转。 返回
返回
来自百度文库 数据挖掘的可视化
在数据挖掘算法所生成的大量的模式中,最终只有 少量的信息能够以文字形式解释和评估。 因而可视化技术作为服务于计算机与用户之间的沟 通纽带,为用户提供关于数据和知识的直观信息。 传统的数据挖掘过程不可见、不可观,用户无法干 预挖掘过程,对用户来说好像一个黑箱子。使用适 当的可视化技术,帮助用户更紧密地与整个过程结 合,解决挖掘系统中的存在的一些问题。 传统的数据挖掘过程如图1所示,是以机器为中心 的;而新的吸纳了可视化技术的数据挖掘过程是以 人为中心的,如图2所示。以人为中心的数据挖掘 过程,将数据挖掘与可视化技术完美结合,提高了 数据挖掘过程的灵活性、有效性、与用户的交互性。 返回
可视化的主要方法
3 平行坐标技术 平行坐标技术是最早提出的以二维形式表示 n 维空间的数据可视化技术之一。它的 基本思想是将 n 维数据空间用n 条等距离的平行轴映射到二维平面上,每条轴线都 对应于一个属性维。坐标轴的取值范围,从对应数据维属性的最小值到最大值均匀 分布(名词性属性依次在数据维上标出即可),这样数据库中的每一条数据记录都 可以转换成为图形的形式,都可以用一条折线表示在 n 条平行轴上(图 6)。
返回
可视化的主要方法
目前主要的多维数据可视化技术 1 Scatterplot Matrix (散点图矩阵) Scatter plot 是显示多个数据维中任意两个数据维之间的 依赖关系的矩阵图,分别把多维数据中的每一个维数对称地 标注在横轴和纵轴上,把它们在数据集中每一对出现的频度 作为关系依赖的评价,这样每两维的关系被显示在这个平面 网格图中(图 3)。在 Scatter plot 的 matrix n 维矩阵中, scatterplots 会产生 n*(n-1)/2 对维之间的关系。