大数据时代企业所面临的挑战与应对-2019年文档

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

大数据时代企业所面临的挑战与应对

近年来, 伴随着移动互联网的高速发展, 图片、音频、视频、 地理位置信息、传感数据等半结构化、非结构化数据大量涌现, 同时社交网络、物联网、云计算也得到了广泛应用。这些使得互 联网中的个体发布和获取数据的行为变得更加准确和快速。 在以 互联网应用、 电子商务等为首的应用领域中, 相关数据的规模与

种类都在以极快的速度增长。国际数据公司(IDC )的数字宇宙 研究报告称, 2011 年全球被创建和被复制的数据总量是 同时该报告预测,到2020年,全球数据量规模将达到 35ZBo 显 然,大数据时代已悄悄来临。

1 大数据时代

目前来看,“大数据”还没有统一的定义。 IT 行业的大型 机构和组织都提出了“大数据”定义,其中以麦肯锡 2011 年在 题为《大数据:下一个竞争、创新和生产力的前沿》的研究报告 中的定义被引用最频繁。 麦肯锡认为, “大数据”是指其大小超 出了传统意义上的尺度,且典型数据库软件难以对其进行采集、 储存、管理和分析等处理的数据集。 [1] 一方面,大数据标准下 的数据集大小是变化的,会随着时间推移、技术进步而增长;另 一方面, 应用大数据的不同领域中, 符合其行业标准的大数据集 规模也有差别。该报告同时指出,当前,数据已经渗透到各个行

广泛应用将预示着新一波生产率增长和消费者盈余浪潮的到来。 [1]

目前,信息技术领域认为大数据具有 4V 的特点。一是数据

规模巨大(volume )。目前全球的数据量已经达到

ZB 级别,并 且现行的单个大型应用的数据库中的数据通常也都是在 PB 级别 或以上。二是数据类型众多( variety )。传统数据库以文本格 式等结构化数据为主要内容的,大数据时代的数据库包括了图 片、音频、视频、网络日志、地理位置信息、传感数据等多种半 结构化和非结构化数据, 而且这些数据通常占据了系统中的大部 分存储资源。三是数据价值密度低

1.8ZB 。 业和业务职能领域, 并逐步上升成为重要生产因素; 而大数据的

( value )。以目前广泛应用的监控系统为例,监控系统24 小时不间断地产生监控音视频数据,但是真正能提供有效信息的可能是几个月数据中的几分钟,甚至是几年数据中的几分钟。另一个例子是医学检查通常也会产生大量数据,但是,医生往往是通过其中的少量甚至个别数据对患者进行诊断和治疗。四是数据变化快( velocity )。这包含两方面的要求:既要保证对大数据的整体的高效处理,又要保证对部分数据进行实时的处理和反馈。

大数据的开放和应用,对社会、商业和个人已经产生了巨大

的影响,从某些角度,已经上升到了国家战略层面。2012 年3 月,奥巴马政府出台了“大数据研究和发展计划”,计划投入2 亿美元,用于推动大数据相关的收集、存储、保留、管理、分析和共享大数据技术的研究,以提高美国的科研、教育及国家安全能力。我国“核心电子器件、高端通用芯片及基础软件产品” (简称“核高基”) 科技重大专项也将非结构化数据管理作为需要重点突破的关键技术加以重点支持。2012年5月联合国推出了名为“全球脉动”( Global Pulse )的新项目。该项目旨在通过为各国提供对互联网实时数据的分析,更及时地了解人们所面临的困难和挑战,尤其是全球性危机的影响,并提出改善决策,为宏观经济的发展决策提供支持数据及信息。[2] 大组织、大机构通过资金支持大数据的科学研究,进而推动大数据科学相关核心技术发展,大数据科学的发展趋势已不可阻挡。

当前大数据几乎推动着生活的方方面面。在科学研究领域,大数据完全改变了天文学、生物信息学、生命科学和物质科学等领域的工作方式。在应用领域,在移动服务、零售制造业、金融业等一批应用较早的领域中,大数据已达到史无前例的规模,而在教育、医疗、城市规划、智能交通、环境建模、节能减排、智能材料、社会计算、金融风险、国土安全、计算机安全等新领域中,大数据也开始展现自己强大的推进力。

2企业发展大数据所面临的挑战

2.1数据异构性和不完整性

由于传感器的存在以及人的参与度的提高,在各种应用系统的运行过程中,自动、主动数据大量涌现,这些数据构成了大数据的主要来源。目前,计算机分析算法只能处理同构的数据,并自动忽略细节上的差异。保持数据结构和尺寸的相对一致,能有

效提高信息化系统的运算效率。身处大数据时代,人们使用信息时,必然会产生大量的半结构化和非结构化数据。因此,大数据技术首先便是将数据结构化。此外,在数据获取的过程中,如何根据特定应用的需求,在大数据中摒除可能影响判断的错误数据和无关数据,保证数据质量,高效抽取相关的有效数据将非常重要。

2.2数据量持续性的爆炸式增长

数据量大是大数据的一个基本属性。大数据的数据增长速度已经超过了计算资源的增长速度。由于理器的时钟速度已经很难继续提升,当前主要以增加计算核心数目的方法来提升系统计算

能力。计算能力的提升思路已经从提升单核计算能力转变到了如

何平衡多个计算节点间的资源调配和并发管理。现在大的计算集群开始出现,如何设计、布置和运行计算节点群变得越来越重要。

数据具有广泛可用性,从高速膨胀的大数据中提取价值的能力正是大数据时代我们所欠缺的。一些数据的价值被挖掘出来,但更多的数据其价值却一直被隐藏或丢弃,没能被充分利用起来,两种数据数据量之间差距巨大,形成了大数据鸿沟,对多种类型数据构成的异构数据集进行交叉分析的技术将在大数据时代创造巨大的价值。

2.3数据处理的时效性要求

在大数据背景下,许多应用要求对分析结果进行实时交互。

这要求系统预先计算好部分结果,在新数据到达并分析完毕后,

再对结果进行增量结合, 迅速得出结果。 大数据具有规模大及增 长快的双重特性, 对于一个给定的大数据集, 通常需要迅速定位

要设计新的索引结构来支持这类查询。 当数据量不断增长而处理 时效又很有要求的时候,如何设计和建立索引将变得很重要。

2.4 数据隐私的保护

数据的隐私保护从来既是技术问题, 又是社会问题。 要保障 大数据健康有序地快速发展, 必须从这两方面妥善解决数据隐私 保护的问题。 如何分享隐私数据, 才能让数据在正常使用的同时 不会泄露,就目前而言,还没有特别有效的方法。通常我们共享 很多看起来不那么重要的私人数据, 如地理位置信息等, 似乎不 共享的信息就是安全的。但对于有些并不由自己保管的一些信 息,如健康记录信息、消费信息等,也很有可能泄露。数据泄露 会带来什么直接后果, 泄漏后的数据和我们共享的数据会以怎样 的形式与其它数据一同被交叉连接起来, 连接分析后的数据有多 少价值和用途我们根本不知道。 虽然现有的关于隐私保护的探究

在学术领域取得了一定的成果, 但是这些研究成果还不能在实际 中广泛应用。 大数据时代如何确保信息共享的安全性, 信息共享安全控

制将会成为一个重要的研究方向。

2.5 跨平台数据的关联与整合

目前企业中的几个现状: 不同的业务模块的数据分布在不同 的系统平台,各项数据相互独立, 难以在一个平台进行集成整合; 所搜索的数据。在实际应用中 ,同样的搜索可能会反复出现。需

如何做好

相关文档
最新文档