大数据技术浅析

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

大数据技术浅析

1.定义大数据

大数据通常是指以下类型的数据:

●传统的企业数据; 包括CRM系统中的客户信息、事务性 ERP 数据、网店交易、总账数

据等。

●机器生成的数据/传感器数据—包括呼叫详情记录 (CDR)、Web 日志、智能仪表、制

造传感器、设备日志(常称为数字信息)、交易系统数据。

●社交数据—包括客户反馈、Twitter 等微博网站、Facebook 等社交媒体平台

Gartner分析,数据量每年增长 40%,2009 年到 2020 年之间将增长 44 倍。但是,虽然数据量是可见度最高的参数,但却并非唯一重要的特性。实际上,大数据是由四个关键特性来定义的:

●数据量。机器生成的数据量远大于非传统数据量。例如,一架喷气发动机 30 分钟内

即可生成 10 TB 数据。如果每日的航班超过 25,000 架次,则仅此一个数据源每日即可生成数 PB 数据。智能仪表和重型工业设备(如炼油设备和钻井平台)生成的数据量与此类似,这加剧了问题的严重性。

●速度。社交媒体数据流—虽然没有机器生成的数据量大,但会生成对客户关系管理

有用的大量观点和关系。即使是在每条微博只有 140 个字符的情况下,Twitter 数据的生成速度(或频率)之高也足以产生大量数据(每天超过 8 TB)。

●种类。传统数据格式的描述往往比较详尽,格式变化也较慢。而非传统数据格式变化

极快。随着新服务的添加、新传感器的部署或新市场营销活动的进行,也需要新的数据类型来捕获相应的信息。

●价值。不同数据的经济价值大不相同。通常,大量的非传统数据中往往隐藏着有用的

信息;面临的挑战是确定哪些数据有用,然后转换和提取这些数据进行分析。

为了充分利用大数据,企业必须改进其 IT 基础架构,以处理快速生成且类型不一的海量数据,之后可将这些数据与要进行分析的其他企业数据集成。

2.大数据的重要性

将大数据提取出来并结合传统企业数据进行分析时,企业可以更全面、更深入地了解其业务,从而提高生产力、增强竞争优势和加强创新—这一切都会对经营业绩产生重大影响。例如,在医疗保健服务中,慢性病或长期疾病的管理成本很高。使用家用监测设备来测量生命体征和监测病情只是利用传感器数据来改善患者健康状况以及减少门诊和住院的方法之一。

制造企业通过在其产品中部署传感器来返回遥测数据流。有时这是为了提供 OnStar 等服务,OnStar 提供通信、安全和导航服务。也许更重要的是,此遥测还会展现使用模式、故障率以及其他可以降低开发和装配成本的产品改进机会。

随着智能电话和其他 GPS 设备的迅速流行,广告商也能将商店、咖啡店或饭店附近的消费者作为目标了。这为服务提供商开辟了新的收入来源,并使许多企业得以锁定新客户。

零售商通常都知道谁会购买其产品。社交媒体和来自其商业网站的 Web 日志文件可以帮助零售商了解谁未购买及其原因,而眼下他们尚无从获得此类信息。这可实现更为有效的微观客户细分、有针对性的市场营销并提高供应链效率。

最后,如果没有大数据,Facebook 和 LinkedIn 等社交网站根本不会存在。它们的业务模式需要个性化 Web 体验,而这只能通过捕获并使用用户或会员的所有可用数据来实现。

3.构建大数据平台

和数据仓储、网店或任何 IT 平台一样,大数据基础架构也有独特的要求。在考虑大数据平台的各个组件时,必须记住最终目标是要实现大数据与企业数据的轻松集成,以便能够深入分析合并后的数据集。

基础架构要求

大数据的基础架构要求涉及数据获取、数据组织和数据分析。

获取大数据

获取阶段是基础架构有别于大数据出现之前的一个主要变化。因为大数据是指速度更高、种类更多的数据流,所以支持大数据获取的基础架构必须以可预测的低延迟来捕获数据和执

行简短查询;能够处理极高的事务量,通常是在分布式环境中;并支持灵活的动态数据结构。

获取和存储大数据经常使用 NoSQL 数据库。此类数据库非常适用于动态数据结构,并且伸缩性强。NoSQL 数据库中存储的数据通常多种多样,因为系统的用途就是捕获所有数据,而不作分类和分析。

例如,NoSQL 数据库经常用于收集和存储社交媒体数据。虽然面向客户的应用不断变化,但底层存储结构却一直都很简单。通常,这些简单的结构并不是要设计一个模式来包含实体间的关系,而只是包含一个主键来标识数据点以及包含一个内容容器来容纳相关数据。这种简单的动态结构既支持各种变化,又无需成本高昂的存储层重组。

组织大数据

在传统的数据仓储术语中,组织数据称作数据集成。大数据的数据量之大造成了很多情况下都是在其原始存储位置组织数据,而不迁移大量的数据,这样做既省时又省钱。组织大数据所需的基础架构必须能够在原始存储位置处理和操作数据;支持极高的吞吐量(通常成批)以支持大数据处理步骤;处理从非结构化到结构化的各种数据格式。

Apache Hadoop 是一种新技术,支持在原始数据存储集群中组织和处理大量数据。例如,Hadoop 分布式文件系统 (HDFS) 就是 Web 日志的长期存储系统。通过在同一集群上运行MapReduce 程序并生成聚合结果,这些 Web 日志就会转变成浏览行为(会话)。然后,这些聚合结果会加载到关系 DBMS 系统中。

分析大数据

由于数据移动并不总发生在组织阶段,因此分析也可在分布式环境中进行,这种情况下某些数据将停留在其原始存储位置,并可从数据仓库透明访问。分析大数据所需的基础架构必须能够支持对不同系统中存储的更多数据类型进行更深入的分析,如统计分析和数据挖掘;扩展到极致数据量;提供行为变化驱动的更快响应;并根据分析模型自动做出决策。而最重要的是,基础架构必须能够集成大数据与传统企业数据的组合分析。新见解不仅来自对新数据的分析,还来自结合旧数据对新数据做出的分析,其目的在于对旧问题做出新的诠释。

例如,结合智能售货机所在地点的事件日历对其库存数据进行分析,可以确定售货机的最佳产品组合及补货计划。

相关文档
最新文档