大数据分析解决方案.doc
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据分析解决方案
大数据分析的三个技巧/cio/ 2013 年01 月08 日09:03 来源:CIO 时代网【文章摘要】大数据的性质是有他的三个特点(数据量大、种类多、处理速度快)决定的,数据分析的角色和作用理所当然是由大数据的性质决定的。
当数据分析作用于大数据时,大数据必须身兼数职。
意思就是数据分析在一个组织中扮演着多种角色和担负着多重责任。
数据分析的职位是由DJ Patil 和Jeff Hammerbacher 制定的,他们试图称呼数据组的同事们,而又不想因为称呼而限制他们的能力。
(because improperjob title like business analyst researchscientist Building Data Science Teams)随着大数据在驱动企业成功中越来越有决定性作用,数据分析也变得越来越受欢迎。
然而,一些领导者对数据分析扮演的角色和它所起的作用仍然不是很了解,就像很多时候领导者不知道怎么从大数据中抽取有用的信息,虽然很清楚的知道这些大数据是很可信的。
他们的脚步落后了——他们的眼光在大数据的利用上其实是模糊的。
大数据的性质是有他的三个特点(数据量大、种类多、处理速度快)决定的,数据分析的角色和作用理所当然是由大数据的性质决定的。
当数据分析作用于大数据时,大数据必须身兼数职。
意思就是数据分析在一个组织中扮演着多种角色和担负着多重责任。
多种知识的掌握为了解决数据量大的问题,大数据平台(例如:Apache Hadoop、LexisNexis HPPC)要求数据是被整理过的。
数据分析员应该具有大数据平台应用的全方位知识,这样才能熟练的应用数据平台处理大数据。
数据分析元应当具有以下知识: 1、了解大数据平台的框架,例如:DFS MapReduce,他们的编程框架提供强大的应用程序设计。
这就意味着数据分析员还要有软件构筑和设计的能力。
2、精通大数据平台支持的编程语言,例如:Java, Python, ECL,等等。
3、具有熟练的数据库知识,特别是用到SQL 语言的数据库,像:HBase, CouchDB, 等等。
因为大数据平台经常需要数据库来存储和转换数据。
4、具有数学/统计学、机器学习、数据挖掘领域的专业知识。
一个企业的成功不是由数据量决定的,而是由能否成功的从大数据中发现和抽取有用的知识模式和关系决定的,然后用这些有价值的信息创造出有价值的产品。
统计学、机器学习和数据挖掘可以很好的用于理解数据和发掘数据的价值。
自然,为了成功数据分析者必须具备这些领域的专门知识。
会使用一些数据挖掘工具或者平台(例如:R, Excel, SPSS SAS)是最好的,可以《Top Analytics bigdata software tools》这本书。
5、熟练应用自然语言处理的软件或工具。
大数据的内容大都来自于文本文件、新闻、社交媒体和报告、建议书等等。
因此了解和掌握至少一种自然语言处理软件或工具对于做一个成功的分析者起着决定性的作用。
6、应用至少一种数据可视化工具。
为了更有效的演示数据存在的模式和关系,能应用好数据可视化工具无疑是对数据分析员的一个加分。
这里有20 款数据可视化工具的链接。
创新——好奇随着数据变化速度的加快,经常也会有新的发现和问题出现,数据分析员应该对那些变化敏感、对新发现好奇,并且找出应对新问题的方法。
他/她也要热情的及时相互沟通,从新问题中探索新产品的思路和解决方案,成为产品创新的驾驭者。
商业技能首先,数据分析员多元化的性质决定了数据分析员要好很强的沟通能力,
在企业里数据分析员必须和不同的人沟通,其中包括:沟通和理解业务需求、应用程序的要求、把数据的模式和关系翻译给市场部、产品开发组和公司高管看。
对于企业来说有效的沟通是及时采取行动应对大数据新发现的关键。
数据分析员应该是能联系所有,很好的沟通者。
第二、数据分析员要具有良好的规划和组织能力。
这样他/她才能巧妙地处理多个任务、树立正确的优先顺序、保证按时完成任务。
第三,数据分析员应该具有说服力、激情、和演讲能力。
才能引导人们基于数据的发现做出正确的决定,让人们相信新发现的价值。
数据分析员在某种意义上说是领导者,驱动产品创新。
所有这些大数据的性质决定了数据分析员该具备的技巧和他们在企业中扮演的角色。
盘点大数据分析的十二大杀手锏分类: BI MapReduce2011-11-19 13:12 218 人阅读评论(0) 收藏举报当数据以成百上千TB不断增长的时候,我们需要一种独特技术来应对这种前所未有的挑战。
大数据分析迎来大时代全球各行各业的组织机构已经意识到,最准确的商务决策来自于事实,而不是凭空臆想。
这也就意味着,他们需要在内部交易系统的历史信息之外,采用基于数据分析的决策模型和技术支持。
互联网点击数据、传感数据、日志文件、具有丰富地理空间信息的移动数据和涉及网络的各类评论,成为了海量信息的多种形式。
极具挑战性的是,传统的数据库部署不能处理数TB 数据,也不能很好的支持高级别的数据分析。
在过去十几年中,大规模并行处理(MPP)平台和列存储数据库开启了新一轮数据分析史上的革命。
而且近年来技术不断发展,我们开始看到,技术升级带来的已知架构之间的界限变得更加模糊。
更为重要的是,开始逐步出现了处理半结构化和非结构化信息的 NoSQL 等平台。
大数据分析迎来大时代本文中,我们将向大家介绍迄今为止,包括EMC 的Greenplum、Hadoop 和MapReduce 等提供大数据分析的产品。
此外,惠普前段时间收购实时分析平台Vertica、IBM 独立的基于DB2 智能分析系统和Netezza 的相关产品。
当然,也有微软的Parallel Data Warehouse、 SAP 旗下公司Sybase 的Sybase IQ 数据仓库分析工具等。
下面,就让我们来了解业界大数据分析的这十二大产品: 1.模块化EMC Appliance 处理多种数据类型 2010 年EMC 收购了Greenplum,随后,利用EMC 自身存储硬件和支持复制与备份功能的Greenplum 大规模并行处理(MPP)数据库,推出了EMC Greenplum Data Computing Appliance (DCA)。
通过与SAS 和MapR 等合作伙伴,DCA 扩大了对Greenplum 的数据库支持支持大数据分析的EMCAppliance 今年5 月,EMC 推出了自己的Hadoop 软件工具,而且该公司还承诺,今年秋季发布的模块化DCA 将支持Greenplum SQL/关系型数据库,Hadoop 部署也能在同样的设备上得到支持。
借助Hadoop,EMC 能够解决诸如网络点击数据、非结构数据等真正大数据分析的困难。
模块化的DCA 也能够在同样的设备上支持长期保留的高容量的存储模块,从而满足监测需求。
2.Hadoop 和MapReduce 提炼大数据 Hadoop 是一个开放源码的分布式数据处理系统架构,主要面向存储和处理结构化、半结构化或非结构化、真正意义上的大数据(通常成百上千的TB 甚至PB 级别数据)应用。
网络点击和社交媒体分析应用,正在极大地推动应用需求。
Hadoop 提供的MapReduce(和其他一些环境)是处理大数据集理想解决方案。
MapReduce 能将大数据问题分解成多个子问题,将它们分配到成百上千个处理节点之上,然后将结果汇集到一个小数据集当中,从而更容易分析得出最后的结果。
MapReduce 结构图 Hadoop 可以运行在低成本的硬件产品之上,通过扩展可以成为商业存储和数据分析的替代方案。
它已经成为很多互联网巨头,比如AOL、eHarmony(美国在线约会网站)、易趣、 Facebook、
Twitter 和Netflix 大数据分析的主要解决方案。
也有更多传统的巨头公司比如摩根大通银行,也正在考虑采用这一解决方案。
3.惠普Vertica 电子商务分析今年二月被惠普收购的Vertica,是能提供高效数据存储和快速查询的列存储数据库实时分析平台。
相比传统的关系数据库,更低的维护和运营成本,就可以获得更快速的部署、运行和维护。
该数据库还支持大规模并行处理(MPP)。
在收购之后,惠普随即推出了基于x86 硬件的HP Vertica。
通过MPP 的扩展性可以让Vertica 为高端数字营销、电子商务客户(比如AOL、Twitter、 Groupon)分析处理的数据达到PB 惠普Vertica实时分析平台其实,早在惠普收购之前,Vertica 就推出有包括内存、闪存快速分析等一系列创新产品。
它是首个新增Hadoop 链接支持客户管理关系型数据的产品之一,也是首个基于云部署风险的产品平台之一。
目前,Vertica 支持惠普的云服务自动化解决方案。
4.IBM 提供运维和分析数据仓库去年,IBM 推出了基于DB2 的Smart Analytic System (图中左侧),那么它为何还要收购另外的Netezza 方案平台呢?因为前者是具备高扩展性企业数据仓库的平台,可以支持成千上万的用户和各类应用操作。
比如,呼叫中心通常拥有大量的雇员需要快速回拨客户的历史通话记录。
Smart Analytic System 提供了整合信息的DB2 数据库,预配置Cognos BI 软件模块,可以在IBM Power System(RISC 或者X86 架构)上运行。
Smart Analytic System 及Netezza Netezza 致力于为数字化营销公司、电信、和其他挖掘成百上千TB 甚至PB 级别数据的公司,提供高可扩展分析应用的解决方案。
IBM的Netezza TwinFin 数据仓库设备,支持大规模并行处理,可以在一天时间内部署完毕。
Netezza 支持多种语言和方式进行数据库分析,其中包括Java、C、C++、Python 和MapReduce。
与此同时,它还支持如SAS,IBM SPSS 使用的矩阵操作方法和R 编程语言。
IBM Netezza 最近增加了一个高容量长期存档设备以满足更多要求。
bright 减少DBA工作量和查询时间 Infobright 列存储数据库,旨在为数十TB 级别数据提供各类分析服务。
而这一块也正是甲骨文和微软SQL Server 的核心市场之一。
InfoBright 还表示,建立在MySQL 基础之上的数据库也提供了另外一种选择,它专门针对分析应用、低成本简化劳动力工作、交付高性能的服务进行设计。
列存储数据库能够自动创建索引,而且无需进行数据分区和DBA 调整。
相比传统数据库,它可以减少90%的人工工作量,而且由于其采用高数据压缩,在数据库许可和存储等方面的开支也可以减少一半。
Knowledge Grid 查询引擎 InfoBright 最新的4.0 版本产品,新增了一个DomainExpert 的功能。
企业用户可以借此忽略不断重复的那些数据,比如邮箱地址、URL 和IP 地址。
与此同时,公司还可以增加与呼叫记录、业务交易或者地理位置信息相关的数据。
Kowledge Grid 查询引擎则可以帮助过滤那些静态数据而只关注那些变化的数据。
也就是说,它可以帮助节省数据查询的时间,因为那些无关的数据无需进行解压缩和筛选。
6.Kognitio 提供三倍速度和虚拟多维数据集Kognitio 是一家本身不生产硬件产品的数据库厂商,它看到了客户对快速部署的广泛兴趣和市场需求,推出了在惠普、IBM 硬件产品上预配置有WX2 数据库的Lakes、Rivers 和Rapids 解决方案。
Lakes 能够以低成本、10TB 数据存储和每个模块48 个运算核心提供大容量存储服务。
电信或金融服务公司,可以使用这种配置来扫描大量的分支结构的各种信息记录。
Rivers 提供了容量和速度之间的平衡,预配置为2.5TB存储容量,它的每个模块拥有48 个运算核心。
而追求查询性能的Rapids,其预配置提供有96 个运算核心,每个模块仅仅为1.5TB。
该产品方案主要针对金融公司在算法交易或者其他高性能要求方面的需
求。
Kognitio 基于内存运算的数据仓库和数据分析今年, Kognitio 新增了一个虚拟化OLAP 风格的Pablo 分析引擎。
它提供了灵活的、为企业用户进行分析的解决方案。
用户可升级选用WX2 构建一个虚拟多维数据集。
因此,WX2 数据库中任何一个维度的数据都可在内存中用于快速分析。
这种分析的前端接口是我们常见的Microsoft Excel。
7.微软SQL Server 新增PDW功能今年年初微软发布的SQL Server R2 Parallel Data Warehouse(PDW,并行数据仓库),一改以往SQL Server 部署时间需要花费两年半时间的历史,它可以帮助客户扩展部署数百TB 级别数据的分析解决方案。
支持这一产品的包括有合作伙伴惠普的硬件平台。
发布之初,虽然微软官网提供有让利折扣,但PDW 售价仍超过13000 美元/TB(用户和硬件访问 SQLServer PDW 和很多产品一样,PDW 使用了大规模并行处理来支持高扩展性,但微软进入这一市场实属“姗姗来迟”,而且在一定程度上说,数据仓库分析和内存分析计算市场落下了后腿。
目前,微软寄希望于其整体数据库平台在市场上带来的差异化竞争力。
这意味着,所有沿袭了基于微软平台的数据和数据管理,将被广泛应用在信息集成领域——Reporting AnalysisServices,而这一切都基于SQL Server 数据库。
微软在今年10 月12 日通过推出Apache Hadoop 和相关的SQL Azure Hadoop 服务,宣布进入大数据领域。
Azure 服务将在2011 年底亮相,而相应的本地配套软件要在明年上半年推出,现在也不清楚微软是否会与其他硬件合作伙伴或者相关大数据设备厂商合作。
8.甲骨文讲述Engineered Systems 的故事甲骨文表示,Exadata(图中左侧)是迄今以来发布的产品中最为成功的产品,自从2008 年推出以来,已经拥有超过1000 名客户。
而engineered system 使得甲骨文11g 数据库,可以支持基于X86的数据处理和磁盘存储层,其闪存缓存也使得可以实现超快速查询处理。
它既可应用在任意事务环境中,也可以应用在数据仓库(但不能同时进行)。
Exadata 合柱状压缩能够实现列存储数据库的某些高效率特点,提供高达10:1的压缩比,而大部分行存储数据库的平均压缩比为4:1。
甲骨文在9 月通过宣布Oracle SuperCluster(图中右侧),扩展了engineered systems 品家族。
它采用了最新的SunSparc T-4 芯片。
SuperCluster 支持全机架/半机架配置,而且用户可以在半机架容量基础上进行扩容。
满额配置提供有1200 个CPU 线程,4TB 内存, 97TB 至198TB 磁盘存储,8.66TB 闪存。
甲骨文大数据分析系统设施甲骨文声称,SuperCluster 事务处理和数据仓库性能相比传统服务器架构能分别带来10 和50倍速度提升。
但作为一个专有的Unix 机器,甲骨文想通过SuperCluster,在面向x86 硬件的数据仓库部署迁移大潮中力挽狂澜。
甲骨文的Exadata 和Exalogic 都基于
x86 架构而且运行Linux 系统。
在十月召开的Oracle OpenWorld 中,甲骨文宣布将新增一个分布式pache Hadoop 软件和相关的大数据设备。
甲骨文也计划推出一个独立的基于开源BerkeleyDB 产品的NoSQL。
9.ParAccel 大打列存储、MPP 和数据库分析组合拳 ParAccel 是ParAccel Analytic Database(PADB)的开发厂商——提供快速、选择性查询和列存储数据库,并基于大规模并行处理优势特点的产品。
该公式表示,其平台支持一系列针对各种复杂、先进应用的工作负载报告和分析。
ParAccel 大数据解决方案内置的分析算法可以为分析师提供高级数学运算、数据统计、和数据挖掘等各种功能,同时,它还提供一个开放的API,可以扩展数据库的各种数据处理能力和第三方分析应用。
Table functions 被用来传送和接收第三方和采用C、C++等编写的定制算法的数据结果。
ParAccel 与Fuzzy Logix——一家提供各种描述统计学、统计实验
模拟和模式识别功能库功能的服务商。
此外, Table functions 还支持MapReduce 和广泛应用在金融服务的700 种分析技术。
10.Sybase 推进IQ列存储数据库 SAP 旗下的Sybase 是列存储数据库管理系统的首批厂商,而且目前仍然是拥有2000 多个客户的畅销厂商。
今年夏天推出了Sybase IQ 15.3 版本,该版本产品能够处理更多数据和更多数据类型,也能胜任更多查询,当然这主要得益于其包含了一个名叫PlexQ 的大规模并行处理功能。
基于MPP 大规模并行处理的PlexQ 分布式查询平台,通过将任务分散到网格配置中的多台计算机,加速了高度复杂的查询。
有报道说,它能提供比现有的IQ 部署快12 倍的交付能 SybaseIQ。