数据可视化技术实现流程探讨
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
图 源 放大查看部分地图数据
员.愿 各步骤相互影响和联合 前面介绍的数据可视化步骤并不是顺序不变的袁每个步骤
是相互影响而紧密联系的遥图 缘不仅顺序列出每个步骤袁而且 显示了后面的步骤是如何影响到早期的遥
图 缘 七个步骤之间的相互影响
渊员冤表示阶段是一个关键点遥在这个阶段袁用户能够通过初 步的视图来了解所显示的数据是否是满足需求袁是否有冗余遥 如果显示的数据不满足需求袁可回到获取步骤重新获取数据曰 如果显示的数据中包含有大量冗余袁从而淹没有用信息袁分散 用户注意力袁应当返回到过滤阶段袁设置条件进行删除遥
本例的挖掘采用一种简单数学处理院程序通过遍历整个数 据来确定经度和纬度的最大值和最小值袁确定在屏幕上显示地 图比例尺袁达到以最大比例尺的地图显示全部网点图标的目 的遥通过挖掘处理后袁得到的屏幕地图比例尺即不会因为太大 无法全图显示所有的网点图标袁又不会太小使网点图标无法清 晰显示遥
表 源 数据 源
网点编码 经度
纬度 网点类型 建立时间 是否营运
Index 101345 101346 101347 101348
Float 100.3243 115.3643 1116.4937 1116.5632
Float 30.5422 40.1522 40.3222 40.7537
String 销售点 销售点 维修站 销售点
噎
建立时间 19990314 19950521 19880724 20030930
噎
是否营运 N Y Y Y 噎
员.圆 分析 在获取数据后袁所得数据需要被分析转换袁让数据按照其
使用目的标示格式遥在这阶段袁数据被分为独立的列袁每一列 都被格式化为将在数据转换过程中处理的数据格式遥注院此处 的分析与前章节中的数据分析的概念不同袁此处的分析是根 据数据的内容对数据格式进行整理袁为可视化的下一步操作 做准备遥
枣则燥皂粤赃宰阅月曰 提交数据库后获取如下数据院
表 员 数据 员
网点编码 经度
101345 100.3243
101346 115.3643
101347 1116.4937
101348 1116.5632
噎
噎
纬度 30.5422 40.1522 40.3222 40.7537
噎
网点类型 销售点 销售点 维修站 销售点
纬度 网点类型 建立时间 是否营运
Index 101346 101347 101348
噎
Float 115.3643 1116.4937 1116.5632
噎
Float 40.1522 40.3222 40.7537
噎
String 销售点 维修站 销售点
噎
Date 19950521 19880724 20030930
常用转换的数据格式有 远类院淤字符串院一个字符集构成 一个单词或者句子遥表 员中野网点类型冶被指定为一条字符串遥 注院有些数字组成的数据并不表示数量的大小袁因此也可以看 做字符串袁例如邮政编码院源猿园园员园曰于浮点数院一个包含小数点 的数字遥表 员中野经度冶尧野维度冶是浮点数曰盂整数院一个没有分 数的数字袁与浮点比没有小数点遥例如院原员缘尧圆源曰榆布尔院再辕晕判 断逻辑的是和否遥表 员中野是否营运冶是布尔类型曰虞时间院按照 一定格式排列的数字袁表示时间遥表 员中野建立时间冶是时间类 型曰愚索引院数据对应于另一个数据表中的映射遥表 员中野网点 编码冶就是一个索引袁指向 粤公司固定资产表遥固定资产表中 存放所有厂房尧仓库尧网点的编号尧名称尧所属地等信息袁用于对 各种固定资产集中管理遥
Date 19990314 19950521 19880724 20030930
Boolean N Y Y Y
噎
噎
噎
噎
噎
噎
员.源 挖掘 挖掘是在大量的数据中寻找某种规律的行为袁涉及数学尧
统计和数据挖掘等多种学科的知识遥在数据可视化过程中袁挖 掘是一个重要步骤袁通过它才能在一堆杂乱的数据集中袁找出 规律袁为数据表示提供有组织的数据袁让数据对于用户变的有 意义遥可以不夸张的说袁挖掘是可视化的灵魂遥
在本例中袁我们感兴趣的是北京范围内的网点袁因此袁根据
北京地区经纬度的范围袁删除表中的一部分数据遥北京地区的经 纬度大致范围为院经度渊员员缘.圆缘源员袁员员苑.缘园员缘冤袁纬度渊猿怨.圆远园园袁源员.园 源愿圆冤袁编号为 员园员猿源缘的网点经纬度不在此范围内袁因此删除该 记录遥
表 猿 数据 猿
网点编码 经度
噎
Boolean Y Y Y 噎
员.缘 表示 该步骤将数据集中的数据袁按照挖掘得到的规律袁以一定
的格式映射显示遥可视化设计者在该阶段袁需要结合用户的 需求袁找出数据的主要描述属性袁选择最佳的可视化显示方 式遥
在本例中袁我们选取二维数据可视化袁每个网点都有一个 经度和纬度袁所以将网点以类型定义的图标格式映射到二维地 图上显示袁如图 员所示遥
图 员 网点在二维地图上的映射表示
窑44窑
软件导刊
2010 年
数据的表示是一个关键环节袁因为该步骤完成后袁你可以 重新审视早期所完成的工作质量袁判断是否达到需求袁如果不 符合要求袁可以返回各步骤重新处理遥 员.远 修饰
数据可视化主要旨在借助于图形化手段袁清晰有效地传达 与沟通信息遥因此可视化的美学形式与功能需要齐头并进袁直 观地传达信息的关键方面与特征袁从而实现对于数据集的深入 洞察遥设计人员往往并不能很好地把握设计与功能之间的平 衡袁常常要么创造出华而不实的可视化形式袁要么展现的图形 粗鄙简陋或者过于杂乱袁让用户难于解读遥可以说设计人员如 何协调两者的关系袁是数据可视化能否成功的重要因素遥
下面将结合笔者在实际的项目开发过程中对数据可视 化的处理流程的一些经验袁探讨如何具体实现数据的可视 化遥
初始的数据可视化是单一地从视觉设计尧数据挖掘尧图像 设计和信息视觉化等领域获取解决方案遥但在当前日益复杂的 数据面前袁这种单一的解决方案已无法满足用户的需求遥例如院 视觉设计袁通过把数据映射到一个视觉表上袁很难表述怎么处 理成千上万的数据项曰数据挖掘有能力解决视觉设计不能完成 的工作袁但在与数据的交互方面无能为力曰基于软件的信息视 觉化能够增加和各种形式的抽象数据的交互来表述这些数据袁 但这种方法低估了视觉设计中的美学原理袁无法将视觉设计作 为一种有效的交流方式吸收进来遥如果要很好地实现数据可视 化袁必须将以上几个领域统一起来遥整个过程由以下 苑个步骤 组成院淤获取院得到数据袁无论是数据库的表或者来自网络上的 源文件曰于分析院为数据的意义构造一个结构图袁并按分类排
实例袁详细论述数据可视化技术展现数据的工作流程遥
关键词院数据可视化曰获取曰分析曰过滤曰交互
中图分类号院TP311.5
文献标识码院A
文章编号院1672-7800渊2010冤园5原园园42原园3
1 数据可视化处理流程
在研究过程中袁人们发现不但需要通过图形图像来分析已 经计算出来的数据袁而且还需要了解在计算过程中数据的变 化遥因此袁将局限于对计算结果展现的科学计算可视化扩展为 数据可视化袁使它除了包括科学计算数据的可视化袁还涵盖工 程数据和测量数据的可视化遥数据可视化技术指的是运用计算 机图形学和图像处理技术袁将数据转换成为图形或图像在屏幕 上显示出来袁并进行交互处理的理论尧方法和技术袁涉及到计算 机图形学尧图像处理尧计算机辅助设计尧计算机视觉及人机交互 技术等多个领域袁是一门综合性的学科遥
渊圆冤交互阶段是最终阶段遥用户在这一阶段常常需要调整 数据显示的内容和角度袁试图获取最大的信息量遥因此需要返 回到挖掘阶段袁改变数据的排列尧统计方式或者维度等等曰返回 修饰步骤改变数据在图形中的颜色尧大小和形状等等遥
可视化流程的各个步骤之间的相互联系表明袁在处理一个 可视化项目时必须将它视为整体遥这与程序员只负责技术部 分袁比如获取和分析数据袁而视觉设计者只负责选择颜色和字 样的流水线方式不同遥各步骤所涉及的视图设计尧数据挖掘尧软 件设计等领域必须形成一个交集袁表明出结合的优势遥
序曰盂过滤院删除多余的袁只保留感兴趣的数据曰榆挖掘院应用数 学尧统计学或数据挖掘方法来辨析数据格式曰虞表述院选择一个 基本的视觉模型袁比如一个条形图尧列表或树状结构图曰愚修 饰院改善基本的表述方法袁使它变得更加清晰和更容易视觉化曰 舆交互院增加方法来操作数据或控制其可见的特性遥
本文结合一个可视化 粤公司在北京地区的销售尧维护网 点的例子袁贯穿讲解各步骤处理的内容尧使用方法尧注意事项遥 1.员 获取
第9卷摇第5期 2010年 5 月
软件导刊 Software Guide
Vol.9 No.5 May. 2010
数据可视化技术实现流程探讨
源自文库姚远
渊中国人民解放军通信指挥学院袁湖北 武汉 430010冤
摘 要院数据可视化技术广泛应用于各个领域袁备受人们关注遥阐述了数据可视化的概念袁结合对数据可视化应用的
噎
String 销售点 销售点 维修站 销售点
噎
Date 19990314 19950521 19880724 20030930
噎
Boolean N Y Y Y 噎
员.猿 过滤 过滤就是删除数据中不使用的部分遥在数据可视化的获取
阶段袁本文已经讨论了过多冗余数据的害处袁并要求在获取阶 段就尽量减少冗余数据遥但有些数据只有通过分析和表示袁才 能判断它们是否有冗余袁因此我们在分析和挖掘的步骤之间增 加过滤操作袁删除冗余数据遥
作者简介院姚远渊员怨苑远原冤袁男袁湖北武汉人袁中国人民解放军通信指挥学院讲师袁研究方向为数据工程尧信息系统遥
第5期
姚 远院数据可视化技术实现流程探讨
窑43窑
杂藻造藻糟贼宰阅月酝 粤杂网 点 编 码 袁允阅 粤杂经 度 袁宰阅 粤杂纬 度 袁 宰阅蕴载粤杂网 点 类 型 袁允蕴杂允粤杂建 立 时 间 袁杂云再再粤杂是 否 营 运
在本步骤中袁视觉设计的方法被更多的关注袁如通过颜色尧 大小尧形状等等袁使之符合美学原理袁提高数据的可读性遥如图 圆为修饰过的图袁从网点在图中所显示的图标大小袁可以看出 网点的级别渊大的为一级网点袁小的为二级网点冤曰从颜色上可 以看出网点当前状态渊黑色为正常袁红色为暂定营运冤遥图 圆同 表示阶段的图 员相比袁易读易懂袁信息量也更大遥
圆 结束语
渊圆冤确保数据的质量遥在获取的数据集中有太多的坏数据袁 不但导致整个展现工作毫无意义袁甚至对用户产生误导袁因此 获取优质数据是数据可视化的基础遥
本例中的 粤公司网点的数据袁是从数据库的 粤公司网点 表渊粤赃宰阅月冤利用 杂匝蕴语句直接读取遥粤公司网点表包含院网点 编码渊宰阅月酝冤尧经度渊允阅冤尧纬度渊宰阅冤尧网点类型渊宰阅蕴载冤尧建立 时 间 渊允蕴杂允冤尧是 否 营 运 渊杂云再再冤尧网 点 负 责 人 渊宰阅云在砸冤等 字 段 遥 其中网点负责人在本例中不关注袁可以认为是冗余数据袁不予 读取遥杂匝蕴语句如下院
图 圆 经过修饰的 粤公司网点地图
员.苑 交互 在交互部分袁用户能够控制和探索数据遥用户通过交互在
已有的数据集中选择子集或者改变观察数据角度袁关注自身感 兴趣的内容袁获取最大信息量遥
在 本 例 中 袁通 过 用 户 的 选 择 袁地 图 中 分 别 显 示 销 售 点 尧维 护站渊如图 猿所示冤遥此外袁用户还可以通过野放大冶尧野缩小冶功 能袁通过改变地图的比例尺袁观察网点的具体方位渊如图 源所 示冤遥
表 员中的数据经过分析袁格式化后得到表 圆遥
表 圆 数据 2
网点编码 经度
纬度 网点类型 建立时间 是否营运
Index 101345 101346 101347 101348
噎
Float 100.3243 115.3643 1116.4937 1116.5632
噎
Float 30.5422 40.1522 40.3222 40.7537
数据获取袁又称为野数据采集冶或野数据收集冶袁是指对现实 世界进行采样袁以便产生可供计算机处理的数据的过程遥这个 过程可以极度复杂渊例如院从一个大型系统中收集有用的数据冤 或非常简单渊读取一个可用的文本文件冤遥但不论对数据的获取 简单与否袁都必须考虑以下两个问题院
渊员冤获取的数据不是越多越好遥在收集数据不困难的情况 下袁人们习惯一开始就着手积累一些海量的数据袁但过多的数 据不但对真实反映事物没有明显的帮助袁还会让人淹没在数据 中袁不知所措遥寻找最小的数据集来揭示数据集内容中的意义袁 是获取数据应当遵循的原则遥