大数据时代计算机信息处理技术分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据时代计算机信息处理技术分析
发表时间:2018-09-10T17:13:35.547Z 来源:《基层建设》2018年第19期作者:刘敏
[导读] 摘要:“大数据”为我们的云用户、企业以及网络服务提供商都带来了好处,但就目前的信息处理技术发展现状来看,离真正实现“大数据” 的价值还有不小差距。
身份证号码:13242819770918XXXX
摘要:“大数据”为我们的云用户、企业以及网络服务提供商都带来了好处,但就目前的信息处理技术发展现状来看,离真正实现“大数据” 的价值还有不小差距。笔者坚信,随着各种技术的不断纵向发展,人类社会在不久的未来必将创新出更加高效、完善和可靠的计算机信息处理技术,以真正发挥“大数据”在推动经济社会发展中所具有的作用,帮助我们迈向全新的信息化时代。基于此,本文着重分析大数据时代计算机信息处理技术。
关键词:大数据;计算机信息;处理技术
引言
大数据处理技术作为一项高级的计算机技术,能够处理大量的数据资料,同时也能够计算大量的数据,因此具广阔的市场发展前景。大数据处理技术是计算机处理技术在大数据背景下脱颖而出的一项新技术,其以完善的软件资源和硬件资源为基础,模拟完成所有数据服务功能。
1、大数据的定义
对于大数据的理解,从字面上来说就是巨大的数据,但是其具体含义不仅仅局限于大量的数据,在国外的某研究机构中对于大数据的概念给出了这样的定义:大数据是一种具有非常钱的决策能力和洞察能力同时能够对巨大的数据进行处理的信息资源。面对大数据很多的常规的数据软件都没法及时进行处理,然而网络当中每天仍在不停的产生这数据,大数据包括了产生的数据量的巨大、产生的数据信息的多样化和数据信息的重复化。
2、“大数据”时代信息的特点
信息具有数据量大、传播快、多样化等特点。数据量大是大数据时代信息最大的特点,计算机需要处理的信息量随着时间的推移越来越大,完全可以用海量来形容;传播快也是大数据时代信息一个很突出的特点,计算机有非常广泛的传播途径,它传播信息的速度是非常惊人的,传播效率很高。在进行高效传播的时候,还要进行合理的信息处理,随着信息量不断变大,信息处理工具也在时时刻刻进行更新;信息多样化特点专指的是数据的类型,在大数据时代,数据的类型也千差万别,包括视频、图片、文字等很多类型的信息。数据的格式也不断的变化,给计算机信息处理带来了很大的困难和挑战。随着计算机系统的处理能力、存储能力、打印能力和通信能力的提高,特别是计算机软件技术的发展,使用计算机越来越方便,加上微电子技术的突破,使微型计算机日益商品化,从而为计算机在管理中的应用创造了极好的物质条件。
3、大数据处理技术
传统的数据采集来源单一,且存储、管理和分析数据量也相对较小,大多采用关系型数据库和并行数据仓库即可处理。对依靠并行计算提升数据处理速度方面而言,传统的并行数据库技术追求高度一致性和容错性,根据 CAP 理论,难以保证其可用性和扩展性。传统的数据处理方法是以处理器为中心,而大数据环境下,需要采取以数据为中心的模式,减少数据移动带来的开销。因此,传统的数据处理方法,已经不能适应大数据的需求!大数据的出现也必然伴随着新的处理工具和新技术的出现。
3.1、基于数据采集的大数据处理技术
(1)系统日志采集方法。很多互联网企业都有自己的海量数据采集工具,多用于系统日志采集,如 Hadoop 的 Chukwa,Cloudera 的Flume,Facebook 的 Scribe 等,这些工具均采用分布式架构,能满足每秒数百 MB 的日志数据采集和传输需求。
(2)网络数据采集方法:对非结构化数据的采集。网络数据采集是指通过网络爬虫或网站公开 API 等方式从网站上获取数据信息。该方法可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。它支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。除了网络中包含的内容之外,对于网络流量的采集可以使用 DPI 或DFI 等带宽管理技术进行处理。
(3)其他数据采集方法。对于企业生产经营数据或学科研究数据等保密性要求较高的数据,可以通过与企业或研究机构合作,使用特定系统接口等相关方式采集数据。
3.2、基于数据存储的大数据处理技术
分布式数据存储处理技术的具体实现时由谷歌公司提出的GFS 技术。此技术在 IBM,百度等公司得到了大量的应用和快速发展。分布式存储利用的是列存储的概念。列存储是以列为单位进行存储,姓比于行存储,其具有数据压缩,快循环等优点。当今流行的技术的行列混合式存储结构,该结构能够快速加载海量数据,缩短查询时间,高效利用磁盘空间等。
3.3、基于数据分析及挖掘的大数据处理技术
(1)虚拟化技术。虚拟化技术是指利用虚拟的信息网络资源对数据进行存储和管理,由虚拟化技术构建的“大数据”信息处理技术一方面可以对当前的信息存储资源进行优化配置,方便对海量数据的存储;另一方面可以通过灵活调度信息处理单元来提高对大规模数据的处理能力和效率。可见虚拟化处理技术是“大数据”下的信息处理关键技术。
(2)云存储和云计算技术。云存储实际上是由多个存储单元组成,它通过集群功能、分布式文件系统等功能联合起来协同工作,以共同对外提供数据的存储和管理服务。由此可知,云存储技术就是应“大数据”时代而生,它对解决海量信息数据的存储管理需求提供了一个最佳的解决方案。因为云系统需要同时满足大量用户的需求服务,而这些服务往往又牵扯到对大规模数据的高效处理和分析,所以仅仅具有数据的存储和管理功能还不够。为了解决数据的处理和分析需求,云计算技术也应运而生。云计算技术与传统信息处理技术的最大不同之处在于其具有分布式计算的特点,通过整合和调配整个云系统所能调用的数据计算单元,从而可以快速完成对海量信息数据的计算处理,这对提高“大数据”下的数据处理效率而言是必不可缺的。
(3)自动化资源调度技术。“大数据”系统在提供服务时,需要对数据的存储和计算等资源进行优化配置,所以离不开自动化资源调度技术。所谓资源调度就是将信息资源进行合理的配置和整合,以更好地满足为用户提供高效、高质服务的目的。这些资源除了重要的数据