基于移动数据的可视化分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

相关研究
研究小组获得了城市出租车大量的 GPS 定位数 据,我们以此为基础做了一些研究工作,例如用轨 迹聚类、热点区域、异常、用户行为等。下面我们 选择其中的异常模式进行简要的介绍。 异常是一种重要的数据模式。针对异常移动数 据,进行异常的挖掘有着重要的实际意义,例如 逆向行驶的车辆或交通事故的检测等。因此,我 们采用基于主动学习的半监督式的异常模式可视 化检测方法,在我们的系统中同时存在三个部分, 分别是异常检测模型、主动学习模型和可视化交互 界面 [8]。
浙江大学计算机科学与技术学院研究 生。主要研究方向为信息可视化,移 动数据库的知识发现。 bodi1984@gmail.com
陈宝权
中科院深圳先进技术研究院先进计算 与数字工程研究所研究员。主要研究 方向为计算机图形学,可视化和人机 交互。baoquan.chen@gmail.com
参考文献
[1] Fosca Giannotti, Dino Pedreschi. "Mobility, Data Mining and Privacy: Geographic Knowledge Discovery", Springer Publishing Company, Incorporated, 2008 [2] E. Tufte. "Visual Display of Quantitative Information", Graphics Press, 1983. [3] D. Kingston. "Implementation Issues of Real-time Trajectory Generation on Small UAVs", Master's thesis, Brigham Young University, 2004 [4] GeoKDD website. http:// www.geopkdd.eu [5] Reality Mining website. http://reality.media.mit.edu/ [6] G. Schohn and D. Cohn. "Less is more: Active learning with support vector machines", International Conference
Dn T
D1 T+1
Dt-s
Dt-1
Dt T+t
Dn T+n
D1 T
T+t-s T+t-1
图1 基于线性链条件随机场的数据标记 条件随机场虽然能够高效地区分正常模式和异 常模式,但需要较大的标注集作为训练集,而GPS 数据是没有正反例标注的,而且全人工标注也不可 能。因此,采用基于池的主动学习方法 ,它能够
专题
第 7 卷 第 4 期 2011 年 4 月
基于移动数据的可视化分析
关键词:移动数据 可视化分析 随着定位技术和跟踪技术的发展,从昆虫到车 辆,从候鸟到飞行器,利用定位传感器收集个体的 运动信息变得切实可行。同时,生活中携带的智能 设备也能随时随地记录人们的移动信息。这些技术 的应用极大地增强了人们收集、分析和利用数据的 深度和广度,同时也带来了巨大的挑战。 可视化提供了解决这一问题的新方法。它以图 形化方法表示数据、信息和知识,使复杂数据能够 更容易和快速地被人理解并获得更深层次的认识。 作为一种可以放大人类感知的表示方法,人们可以 发现新的线索、关联、结构和知识,促进人机系统 的有机结合和科学决策。 与基于事务数据库或地理信息系统的挖掘不同 的是,基于移动数据的可视化分析强调利用先进定 位技术和计算机科学技术去记录,去感知现实世界 中的个体行为和群体移动行为,并以可视化分析的 方法进行知识发现,其目的在于理解个体和群体的 时空移动规律和分布特征,为城市建设、科学研究 和商业活动等提供智能辅助和决策支持。本论文通 过对具体案例的介绍,如对出租车GPS轨迹数据的重 建、量化和挖掘,再用可视化的方式呈现出结果, 展示了这一新兴技术在提高人类的社会生产生活如 市政设施、交通监管以及基于位置的服务等方面能 提供有效的信息支持。
起源和发展
从古代开始,人类就从没停止过对现实世界
30
第 7 卷 第 4 期 2011 年 4 月
带来了新的数据来源和挑战。大规模的便携移动智 能设备能够获取大量移动信息,使用这些设备的计 算资源对数据进行处理,可将普适计算和移动数据 分析融合起来。但是,如何成功的在有限计算资源 和显示资源的移动设备上部署可视化挖掘系统目前 仍然是一个难题。 2005年由福斯卡领导的GeoKDD 是较早从事移 动数据可视化分析的研究项目之一,它通过研究多 种类型的移动数据,如时序数据、地理参考数据 等,研究基于移动数据的可视化分析的理论、工具 和技术,在保护用户隐私的前提下以可视化的方法 将人的能动性与知识发现结合起来,发掘数据中隐 含的用户模式和行为特征。 另外,由纳森·依格勒(Nathan Eagle)创立并领 导的美国麻省理工学院人类动力学实验室通过100位 手机用户的移动信息、蓝牙接近数据以及通讯记 录,研究用户的日常行为模式和社会网络等 。通 过分析,可以对用户的行为模式进行建模并预测, 同时,可以理解社会网络的形成、组织变迁以及社 会生活的节奏性和移动性等。
[6]
展望
随着定位传感器和无线网络的发展,越来越多 的移动数据得到积累。通过对这些数据进行挖掘, 可以获得很多信息,例如用户的行为特点、分布模 式等。通过可视化分析方法可以从海量移动数据中
(a)
(b)
(c)
Yn Xn
Y1 X1
Yt-1 Xt-1
Yt Xt 时间窗
Yt+1 Xt+1
Yn Xn
Y1 X1
方图,其中a图中的红色轨迹是错误的驾驶方向,b图中 的是过高的速度(可能是仪器误差造成),c图中红 色轨迹周围的邻居过多(可能是交通事故造成)。 图 3 表示的是在不同的尺度上对信息进行探索,其 中a图是GPS轨迹的概略图,而b和c图则是信息更加详 细的尺度展示。
31
专题
第 7 卷 第 4 期 2011 年 4 月
基于主动学习的条件随机场
采用拉弗蒂(Lafferty)在2001年提出的条件随 机场模型,给定GPS数据流,系统就要自动检测出 异常的驾驶行为,也就是模型的状态变量限定为 {normal, abnormal},而观察序列就是从GPS数据流 抽取出来的特征矢量。首先,根据时间对GPS数据 流进行分段,然后在每一个窗口内提取观察矢量, 包括速度、位置、时间以及乘客上下车状态等,最 后采用条件随机场计算观察矢量对应的隐藏变量的 值。具体过程如图 1 所示,其中 D t表示时间段 t 内的 的状态序列为Y。 GPS分段,Xt表示从Dt中抽取的观察矢量,模型输出
图2 异常轨迹的模式
32
第 7 卷 第 4 期 2011 年 4 月
(a)
(b)
(c)
图 3 异常信息在不同尺度的可视化 获得这些信息,使得人们能够更好地理解用户行为 和与环境的关系,进而对很多实际的应用提供决策 支持。本文介绍了基于移动数据的可视化分析的主 要研究内容和发展方向,并对学术界进行的一些研 究项目和本研究小组的项目进行了简单介绍。 在可见的未来,我们认为基于移动数据的挖掘 系统必然会得到更广泛地拓展和应用,而且,可视 化分析作为一种增强感知的分析方法也将得到更大 的发展。同时,对于目前研究所面临的问题,例如 多数据流的处理、标注问题以及用户隐私保护等问 题,在未来必然会做进一步的研究,以更好地解决 这些问题。■ 陈 刚
海量数据的感知和处理 利用大规模部署的
定位传感器和无线网络实时记录物理世界中的物体 移动数据,设计有效的抽象方法和可视化方法以促 进海量移动数据的重建、存储以及分布情况和特性 表现的可视化等。
实时移动数据流的可视化 已有的可视化算
法和工具大多用于显示已存在的静态数据结构,但 静态结构无法描述现实中的持续演变情况。因此,
主要内容
可视化分析是指通过交互式可视化界面促进 数据分析的知识发现方法。利用可视化分析,人们 可以从海量、多维、多源、动态等数据中综合出信 息,获得知识,并能够对这些知识进行评价,与用 户进行有效地沟通。因此,可视化分析技术具有其 他数据挖掘技术无法取代的优势。在移动数据分析 中,它主要涉及以下几个方面:
陈宝权1 陈 刚2 1 中国科学院深圳先进技术研究院 2 浙江大学
中移动物体的观测,例如行星、昆虫 以及洄游鱼 类等,并以此来观察它们的运动规律,从而对人们 的生产生活提供帮助。尽管今天所用的观察方法、 度量方法以及计算方法等发生了很大的变化,但是 对移动数据的分析方法和角度却与古代是一脉相承 的,例如运动的属性(轨迹、方向、速度等)或与 移动相关的现象等。但从时间轴上看,从研究方法 和记录方法的角度,移动数据分析主要经历了三个 阶段。 早期,人们主要通过肉眼或简单的器械观察, 收集移动个体的信息,并采用统计归纳或简单的可 视化方法,分析理解移动物体的规律和特征。例 如,1861年查尔斯(Charles)发表了关于拿破仑远征 俄国的行军路线信息 [2]。在这幅远征图中,查尔斯 使用箭头表示行军方向,并采用箭头大小表示军队 的数量。通过这幅图,读者可以很容易地理解法国 军队的行军路线和军队伤亡情况。但这种方法通常 只能进行小范围采样,数据量少,而且只能通过静 态的展示方法显示数据规律。 计算机和定位技术的发展,为大规模移动数据 提供了高效的计算资源,并提供了有效的移动仿真 工具 [3]。大规模部署的定位传感器能够累积大量的 移动数据,而计算机能够在一定的算法和模式定义 的前提下对这些数据进行处理,能够采用可视化的 互动方式对计算结果进行评估。另外,移动轨迹的 仿真工具能够为人们的研究工作提供大量的仿真数 据,从而在一定程度上避免了真实数据的采集。 普适计算概念的提出,为移动数据可视化分析
主动的从大量的未标记数据中选出一个样本集作为 训练集,并能够保证训练集的精度。同时,为了保 证主动学习过程能够顺利展开,我们采用了Symons提 出的CRF-related采样方法[7]。
Hale Waihona Puke Baidu
可视化交互界面
在该项目中,我们采用Prefuse[9]实现了一个可视 化系统,它负责连接后台的学习模型和前台的交互 界面。它包括三个交互模式,分别是基本模式、监 督模式和标记模式。其中,基本模式是可视化基本 的GPS数据,允许用户对原始数据的探索和查看;监 督模式是进行异常检测的组件,用户可以查看学习 模型产生的异常标记数据;而标记模式是显示主动 学习训练过程的。系统的主要可视化界面如图 2 和 图3所示。图2中的a~c是三个异常模式和CRF特征的直
[5] [4]
设计良好的动态可视化技术是目前可视化分析领域 中的一大研究热点。
可视化表示和交互技术 建立基于认知和感
知原理的可视化表示理论,使之能够处理各种数 据,各种尺度和信息复杂度,并开发一种新的支持 推理分析的可视化凡是,提供从低级交互到复杂交 互的技术来处理不同的显示环境和任务。
可视化模式识别 采用多元图表示几何特征
原理,将多维移动数据中的领域知识转化成几何图 形知识,将多维数据的模式识别问题转换为几何问 题,利用计算几何、模式识别、图论等理论挖掘其 中的模式,将模式识别和可视化技术结合起来,为 移动数据分析开辟新的研究空间。
移动数据可视化集成工具和框架 移动数据
知识发现虽然已经研究多年,但目前还是缺乏一 种针对移动数据集成的开发工具和框架,因此, 研究移动数据知识发现中涉及的组件、集成工具和 框架等,对于推动该领域的发展会提供很好的技术 支撑。 除了上面提到的主要研究内容外,未来特别值 得注意的研究方向是,移动数据的标注问题、移动 可视化的终端部署问题以及海量、异构、时变、多 维移动数据的协同和同化问题。同时,基于可视化 的数据挖掘系统以及可视化架构的研究等。
相关文档
最新文档