面向海量物联网的数据处理技术
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据库新技术
课 程 报 告
题 目: 面向物联网的海量数据处理研究
学 院: 数学与计算机科学学院
专 业: 计算机软件与理论
年 级: 2012级1班
学 号: 120320042
姓 名: 贾福运
成 绩:
[摘要] 物联网近年来受到人们的广泛关注 伴随各种感知技术的综合应用,
物联网所处理的数据量较之以往的任何网络都巨大,呈现真正意义上的海量特征,如何高效自动智能化地处理这些数据是物联网亟待解决的关键技术之一提出一种基于多级数据处理的嵌入式中间件系统的体系结构,采用数据分级和分布式处理技术,实现实时信息处理的负载均衡,并提出当今流行的多种数据降维算法,从而尽可能多地保留原始信息的基础上,减少信息处理的数据量,从而提高物联网应用系统的整体效率.
关键词:物联网;海量数据;分级处理;降维处理
1 引言
物联网(The Internet of Things,IoT)的概念是1999年提出的。简单来讲就是把各类物品通过射频识别(RFID)、传感器件与设备、全球定位系统等种种装置与互联网结合起来而形成一个巨大的网络,实现智能化的识别与管理,进而实现各类物品的远程感知和控制,由此生成一个更加智慧的生产和生活体系[1].根据丁明治,高需等人的分析,物联网的以下4个特点对数据处理技术形成了巨大的挑战[1]:
(1)首先物联网数据的海量性.物联网系统通常包含着海量的传感器结点。其中,大部分传感器(如温度传感器、GPS传感器、压力传感器等)的采样数据是数值型的,但也有许多传感器的采样值是多媒体数据(如交通摄像头视频数据、音频传感器采样数据、遥感成像数据等).每一个传感器均频繁地产生新的采样数据,系统不仅需要存储这些采样数据的最新版本,且在多数情况下,还需要存储某个时间段(如1个月)内所有的历史采样值,以满足溯源处理和复杂数据分析的需要.可以想象,上述数据是海量的,对它们的存储、传输、查询以及分析处理将是一个前所未有的挑战.
(2)传感器结点及采样数据的异构性.在同一个物联网系统中,可以包含形形色色的传感器,如交通类传感器、水文类传感器、地质类传感器、气象类传感器、生物医学类传感器等,其中每一类传感器又包括诸多具体的传感器.如交通类传感器可以细分为GPS传感器、RFID传感器、车牌识别传感器、电子照相身份识别传感器,交通流量传感器(红外、线圈、光学、视频传感器)、路况传感器、车况传感器等.这些传感器不仅结构和功能不同,而且所采集的数据也是异构的.这种异构性极大地提高了软件开发和数据处理的难度.
(3)物联网数据的时空相关性.与普通互联网结点不同,物联网中的传感器结点普遍存在着空间和时间属性——每个传感器结点都有地理位置,个数据采样值都有时间属性,而且许多传感器结点的地理位置还是随着时间的变化而连续移动的,如智能交通系统中,每个车辆安装了高精度的GPS或RFID标签,在交通网络中动态地移动.与物联网数据的时空相关性相对应,物联网应用中对传感器数据的查询也并不仅仅局限于关键字查询.很多时候,我们需要基于复杂的逻辑约束条件进行查询,如查询某个指定地理区域中所有地质类传感器在规定时间段内所采集的数据,并对它们进行统计分析.由此可见,对物联网数据的空间与时间属性进行智能化的管理与分析处理是至关重要的.
(4)物联网数据的序列性与动态流式特性.在物联网系统中,要查询某个监控对象在某一时刻的物理状态是不能简单地通过对时间点的关键字匹配来完成的,这是因为采样过程是间断进行的,查询时间与某个采样时间正好匹配的概率极低.为了有效地进行查询处理,需要将同一个监控对象的历次采样数据组合成一个采样数据序列,并通过插值计算的方式得到监控对象在指定时刻的物理状
态.采样数据序列反映了监控对象的状态随时问变化的完整过程,因此包含比单个采样值丰富得多的信息.此外,采样数据序列表现出明显的动态流式特性—— 随着新采样值的不断到来和过时采样值的不断淘汰,采样数据序列是不断的动态变化的.
针对物联网海量数据管理所面临的上述挑战,目前尚没有有效的解决方法.本文提出处理这些海量数据的两种方法:(1)对这些数据进行分级处理;(2)对这些数据进行降维处理.分级处理可以有效的减轻系统的负荷;降维处理可以有效的压缩数据量,并且降维处理是处理一些数据必须进行的步骤,降维处理已经在大规模的图像处理算法中得到应用.
2 物联网的海量数据分级处理策略
2.1 海量数据分级的必要性
2010年JiKui Wang 论证并提出了数据分级存储的必要性[4].他认为:
由此,我们可以把2000年的292TB 的总数据可以分为:
(1)115TB 的活跃数据
(2)77TB 的非活跃数据
截止到2010年,JiKui Wang 得出如下图所示的活跃数据与非活跃数据之间的关系:
分级与具体的环境相关,比如说,它与下面的几个方面相关:
(1)服务属性质量,速率,可靠性
(2)分级可以被专业化,比如合规存档
(3)分级可以无硬盘存储,比如用CDR,磁带存储等
如下图所示则很好地处理了数据分级处理问题:
2.2 海量物联网数据分级处理
2.2.1海量物联网数据分级模型
海量物联网分级存储系统是针对基于服务需求和成本构建的层次存储系统。它由具有不同性能、可用性和单位价格等指标的存储级别构成, 数据存放在不同的存储级别中(固态磁盘、光纤盘阵、IDE盘阵、SATA盘阵和磁带库)。该系统可满足海量数据存储的高性能、大容量和低成本等要求。
分级存储系统的核心是数据迁移技术。该技术在不同存储层次之间迁移数据, 同时保证迁移过程中数据访问的一致性。数据迁移分为离线迁移和在线迁移两种。离线迁移需要将应用停止服务后再进行迁移,它避免了迁移过程中对数据一致性的维护。由于目前企业级应用都要求7*24h在线, 离线迁移已不适合大规模