IoT 的数据管理与智能处理
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
IoT 的数据管理与智能处理
物联网(IoT) 是通过射频标签(RFID)、红外感应器、全球定位系统、激光扫描器等信息传感设备,按约定的协议,把任何物品与互联网连接起来,进行信息交换和通信,以实现智能化识别、定位、跟踪、监控和管理的一种网络。它是继计算机、互联网与移动通信网之后的又一次信息产业浪潮。物联网通过标识、感知、处理和信息传送4 个关键环节,将整个世界无缝地连接在一起,智能地感知、推理和分析。物联网具备3个特征,一是全面感知,即利用RFID、传感器、二维码等随时随地获取物体的信息;二是可靠传递,通过各种电信网络与互联网的融合,将物体的信息实时准确地传递出去;三是智能处理,利用云计算、模糊识别等各种智能计算技术,对海量数据和信息进行分析和处理,对物体实施智能化的控制。
物联网要实现人与物、物与物的智慧对话,必须对数据进行管理和智能处理,主要包括数据的采集、存储、查询、分析( 融合与挖掘) 等关键环节。这些数据智能处理技术已渗透在信号处理、传感网、数据库、信息检索技术、智能控制等领域。这些不同的领域都侧重于数据处理的不同方面:传感网研究中侧重于网络节点上数据分布、数据路由策略的研究,数据库中的数据管理技术侧重于数据模型、存储方式、索引策略和查询实现的研究,智能控制中的数据处理侧重于数据融合、特征提取和实时响应等。物联网中的数据智能处理技术不仅涵盖了这些数据处理方式,同时具有自己的特点。因此,要实现物联网的数据管理与智能处理,必须在合理运用已有技术的基础上引入新的技术和方法。
1 物联网中数据的特点
物联网中数据的特点主要表现在以下几个方面:
(1)异构性
在物联网中,不仅不同的对象会有不同类型的表征数据,同一个对象也会有各种不同格式的表征数据。比如在物联网中为了实现对一栋写字楼的智能感知,需要处理各种不同类型的数据,如探测器传来的各种高维观测数据,专业管理机构提供的关系数据库中的关系记录,互联网上提供的相关超文本链接标记语言(HTML)、可扩展标记语言(XML)、文本数据等。为了实现完整准确的感知,必须综合利用这些不同类型的数据来全面地获得信息,这也是提供有效的信息服务的基础。
(2)海量性
物联网是一个网络的海洋,更是一个数据的海洋。在物联网中,世界中的各个对象都连接在一起,每个对象都可能在变化,表达其特征的数据在不断地积累。如何有效地改进已有的技术和方法或提出新的技术和方法来高效地管理和处理这些海量数据将是从数据中提取信息并进一
步融合、推理和决策的关键。
(3)不确定性
物联网中的数据具有明显的不确定性特征,主要包括数据本身的不确定性、语义匹配的不确定性和查询分析的不确定性等。为了获得客观对象的准确信息,需要去粗取精、去伪存真,以便人们更全面地进行表达和推理。
2 物联网涉及的技术
由于物联网是一个综合了已有技术并具有自己特色的新兴的产业,因此到目前为止,尚无能适应上述物联网数据特点的系统化研究结果面世,但是一些思想和已有的技术是可以借鉴的。
除了传统的数据库技术之外,近年来兴起的数据空间技术、云计算数据管理技术、数据挖掘与融合技术、不确定性数据管理技术、语义Web 技术等都可为物联网所用。
2.1 数据空间技术
数据空间是近几年提出的数据管理新技术。按照文献[1] 和文献[2]的描述,数据空间是与主体相关的数据及其联系的集合,其中的所有数据对主体来说都是可控的。主体相关性和可控性是数据空间数据项的基本属性。文献[3] 指出数据空间有3个基本要素:主体、数据集和服务,其中主体是指数据空间的所有者;数据集是与主体相关的所有可控数据的集合,包括对象和对象
之间的关系;主体通过服务对数据空间进行管理和使用,服务包括分类、查询、更新、索引等。可以说一个数据空间应该包含与某个组织或个体相关的一切信息,无论这些信息是以何种形式存储、存放于何处。数据空间技术包括信息抽取、分类、模式匹配、数据模型、数据集成与更新、数据查询、存储索引、数据演化等多个方面。提出数据空间的初始目标是解决Web 应用中多源、异构、海量数据的管理和使用问题。典型的例子是通过构造个人数据空间,用户可以实现复杂的语义查询,实现随时随地对个人数据的快速访问,可以方便地备份个人重要数据,保持异地数据同步。通过构造群组数据空间,群组成员之间可以方便地进行信息的共享与交流。
2.2 云计算技术
云计算是并行计算、分布式计算和网格计算的发展,或者说是这些计算机科学概念的商业实现[4]。作为一种以数据为中心的密集型的超级计算技术,云计算的技术特点如下:
(1)海量分布式存储
云计算采用分布式存储的方式来存储数据,采用冗余存储的方式来保证存储数据的可靠性以高可靠软件来弥补硬件的不可靠,从而提供廉价可靠的系统。
(2)并行编程模式
为了高效地利用云计算的资源,云计算采用MapReduce 编程模式,将任务自动分成多个子任务,通过映射(Map)和化简(Reduce)两步实现任务在大规模计算节点中的调度与分配。
后台复杂的并行执行和任务调度对用户和编程人员透明。
(3)数据管理
云计算系统对大数据集进行处理、分析,向用户提供高效的服务,数据管理技术必须能够高效地管理大数据集。基于以上技术,云计算使得云用户不需要了解“云”的技术构架和专业知识就可以轻松便捷地完成应用的部署或迁移,只需要联网便可以在网络上实现各种应用,甚至包括完成超级计算任务。与传统应用模式相比,云计算具有超大规模、虚拟化、可靠性强、通用、高度可扩展、按需服务等特点[5]。目前提供的云计算服务形式有:软件即服务(SAAS)、实用计算、网络服务、管理服务提供商(MSP)、商业服务平台、互联网整合等。
2.3 数据挖掘与融合技术
数据挖掘是从大量的数据中提取潜在的、事先未知的、有用的、能被人理解的模式的高级处理过程。被挖掘的数据可以是结构化的关系数据库中的数据,半结构化的文本、图形和图像数据,或者是分布式的异构数据。数据挖掘是决策支持和过程控制的重要技术支撑手段。
数据融合[6-7]是一个多级,多层面的数据处理过程,主要完成对来自多个信息源的数据的自动检测、关联、估计及组合等的处理,是基于多信息源数据的综合、分析、判断和决策的新技术。数据融合有数据级融合、特征级融合、决策级融合,其中:
(1) 数据级融合直接在采集到的原始数据上进行融合,是最低层次的融合,它直接融合现场数据,失真度小,提供的信息比较全面。
(2) 特征级融合先对来自传感器的原始信息进行特征提取,然后对特征信息进行综合分析和处理,这一级的融合可实现信息压缩,有利于实时处理,它属于中间层次的融合。
(3)决策级融合在高层次上进行,根据一定的准则和决策的可信度做最优决策,以达到良好的实时性和容错性。
数据挖掘与数据融合是两种功能不同的数据处理过程,前者发现模式,后者使用模式。两者的目标、原理和所用的技术各不相同,但功能上相互补充,将两者集成可以达到更好的多源异构信息处理效果。
2.4 不确定性数据管理技术
在经济、军事、物流、金融、电信等领域,数据的不确定性普遍存在。不确定性数据的产生原因比较复杂。文献[8]将之概括为5 个方面:
(1) 原始数据不准确。这是产生不确定性数据最直接的因素。比如:数据的准确度会受仪器的精度、传输过程中网络的带宽、传输延时、能量等因素影响;在传感器网络与RFID等应用中,原始数据的准确度会受周围环境的影响。
(2) 从粗粒度数据集合转换到细粒度数据集合的过程可能会引入不确定性。