物联网中海量数据处理技术
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
物联网中的海量数据处理技术
摘要:物联网近年来得到了迅速的发展。伴随着各种传感设备的使用,物联网所处理的数据量呈现出海量特征。如何对这些数据进行高效处理,从中获取有用信息,进而提供智能决策,是物联网面临的关键问题。该文对物联网中使用的海量数据处理技术进行了介绍。
关键词:物联网海量数据技术
中图分类号:g64 文献标识码:a 文章编号:1674-098x(2013)01(c)-0182-01
物联网中传感设备种类繁多,需要对来自不同网络、不同子系统的海量异构数据进行统一的处理及存储,从而要求物联网的海量数据处理机制能融合多网、多源、异构的海量数据并对这些数据进行高效快速的处理,从中获取有价值的信息,进而提供智能决策。同时,海量数据处理任务需要多种资源,包括计算资源、存储资源、网络资源等,对这些资源的统一规划和调度,可以有效地加快海量数据处理的速度。
下面对物联网中涉及到的海量数据处理技术分别进行介绍。
1 多源数据融合技术
物联网中数据的存储方式、组织结构以及时效性呈现出多样性。如何从跨域、异构、动态、海量的数据资源中提取用户所需的知识,是面临的一个重要问题。将多源异构的数据资源有效地聚合在一起,提供统一的数据操作方法是解决这个问题的有效途径。有效聚
合多源异构数据的重点是建立数据参考模型。而基于元数据的目录体系和交换体系是数据参考模型建立的基础性保障。在进行融合前必须对来自多个传感器数据源的数据和信息进行预处理以精简处
理的数据量,针对融合的水平和特点还要考虑不同层次的数据融合方法。
(1)海量数据预处理技术。通过对传感数据进行预处理可以有效去除明显的错误和冗余的数据,精简所选数据中的有用部分。传感器观测到的数据由事件组成,监测采集的事件有确定性和异常及突发事件,采用海量数据异常事件提取技术,以异常信息识别理论为基础,通过快速识别冗余、修正错误等无效事件对数据进行预处理,以滤除数据采集过程中的干扰和噪声,进一步过滤并分组形成有效事件集,提高实时处理的速度和精度。
(2)目录交换体系研究技术。为了支持统一数据参考模型,目前已研究出了多个数字对象标识管理和服务系统,例如,提出了cdoi系统。该系统采用uuid(universally unique identifier,通用唯一识别码)进行编码,提供了cdoi注册、定位、收费以及增值服务,能够满足分布式、海量数字资源标识的需要。
(3)多源数据融合中数据参考模型建立技术。物联网中的数据可以分为结构化数据,非结构化数据和半结构化数据。对于结构化数据一般采用关系数据库的方式进行管理,非结构化数据采用数字对象的方式进行管理,而半结构化数据则采用xml的方式进行管理。通过目录交换体系可以建立不同类型数据之间的联系,为多源数据
融合提供标准的格式。
(4)多层次数据融合技术。根据物联网中海量数据的特点以及融合的目标,分别从数据级、特征级、决策级三方面进行融合。数据级融合是最低层次的融合,是在各传感器的原始数据未经预处理之前就进行的数据综合和分析。特征级融合是指从各个传感器提供的原始数据中提取特征,然后对这些特征进行融合。决策级融合是指将单个传感器做出的决策进一步融合,为指挥控制决策提供依据。
2 海量数据挖掘技术
mapreduce架构可以作为海量数据资源知识元挖掘算法的统一处理机制,在hadoop分布式系统平台上,能够实现分类、聚类和关联知识挖掘等算法。
3 物联网海量数据存储查询技术
物联网广布传感设备,采集生成大量实时、海量、多源、多粒度、多纬度流数据,其规模可达到tb甚至是pb级,研究物联网海量数据的存储、归档和查询,集中有效地处理这些数据,并高效地进行管理,高实时性地统一定制数据给用户,以达到与用户信息系统间的完美结合。
(1)存储技术
物联网数据存储于大量网络节点上,为了减小数据迁移时对网络带宽资源的占用,采用就近存储原则,同时,借鉴bloom filter 算法的思想,可以快速定位到数据所在节点,避免泛洪式查询。另
外,设计磁盘容量耗尽时的数据回收机制,结合查询历史统计结果和系统当前存储容量,为不同种类数据动态设置数据生存周期。
(2)索引技术
物联网数据包括时态流数据和空间流数据,对于时态流数据,主要查询类型为间隔查询,可以采用b-tree、bitmap索引等。对于空间流数据,常用查询操作是寻找某个区域内所有符合某个条件的对象,可以采用多维索引技术,如r-tree等,在有限空间里建立最优索引,使系统满足效率要求。
(3)移动数据查询管理技术
物联网是一个移动计算环境,其特点具有移动性、频繁断接性、带宽多样性、网络通信非对称性等。
通过对移动对象的位置进行表示与建模来对移动对象进行有效管理;通过对移动对象进行索引,减小搜索空间从而提高查询的性能;通过对移动对象和静态对象分别建立相应的索引结构来完成不同种类对象的查询处理;通过将某一时间区内查询结果的变化信息随时传递给查询用户,来完成位置相关的持续查询和环境感知的查询处理。
4 物联网资源管理与调度技术
从高性能到高效能,再到高吞吐,计算系统所能提供的计算和存储能力越来越强。相对来讲如何以一种安全、可靠、低成本的方式将大规模的计算能力提供给用户,是海量数据处理任务的关键问题。
采用云计算技术搭建资源组织管理体系框架,可以实现计算存储等资源的整合、调度和安全管理,为海量数据处理服务提供计算、网络和存储能力。