数据仓库产品优缺点分析及技术发展展望
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据仓库产品优缺点分析及技术发展展望
数据仓库产品优缺点分析及技术发展展望
2011年1月,全球IT研究与顾问咨询公司Gartner发布了“2010数据仓库数据库管理系统魔力象限”(Magic Quadrant for Data Warehouse Database Management Systems)报告,此报告对2010年数据仓库领域的16种主要产品进行的整体描述。魔力象限通过分析产品技术、市场份额、客户反应等要素,将数据仓库产品分为领导者、挑战者、有远见者和特定领域者。从报告中可以较客观地得出各数据仓库产品的优势和不足,以及未来技术发展方向,为企业的数据仓库选型提供参考。
图1 2010年数据仓库数据库管理系统魔力象限
一、数据仓库产品分析
受资料所限,本文重点对报告中的领导者象限产品进行分析,其他产品在国内应用较少,这里只做简单说明。
1.Teradata
Teradata近几年一直处于数据仓库领导者地位,我行数据仓库也采用Teradata产品。Teradata数据仓库产品线丰富,能够适应各种规模的数据仓库。产品主要是集成的专用数据库设备(集成了服务器、存储、操作系统和数据库),有单节点系列(面向开发和测试)、1系列(面向大规模数据存储分析)、2系列(面向部门级数据仓库)、4系列(采用固态硬盘,面向高速分析)、5系列(面向企业级数据仓库)。
Teradata的数据仓库解决方案齐全,以前一直走“高端策略”,在大规模企业级数据仓库客户中占有绝对优势。不过,在其他产品的竞争下,逐渐向中端客户领域扩展。
产品优势:
●大数据量处理性能较强
●可线性扩展,实现投资保护
●数据库易于管理和维护
●第三方软件产品丰富
产品不足:
●专用设备,环境搭建复杂,扩展时停机时间较长
●混合负载控制存在问题
●各系列产品互联困难
●价格较高
2.Oracle Exadata
将无关数据快速过滤,解决了传统数据仓库产品的服务器和存储间数据流瓶颈问题,实现高性能数据处理。
产品优势:
●针对数据分析设计,性价比高
●兼容Oracle语句及主流BI工具
●系统易于管理和维护
●刀片式架构,扩展简单
产品不足:
●混合负载控制存在不足
●流技术主要适用于趋势分析,对于精确分析略显不足
3.Sybase
Sybase提供独立的数据库软件Sybase IQ 和集成的数据仓库设备两种解决方案,Sybase IQ 的核心技术是“列存储”,此技术被证明更适合于数据仓库。首先,数据仓库一般只访问记录的部分字段,因此磁盘访问时可以不读取整条记录,只读取需要的字段,大大减少了I/O;其次,“列存储”可以获得比传统数据库更高的压缩比,在海量数据仓库中能节省大量空间;最后,由于查询中的选择条件是通过列来定义的,因此整个数据库能够实现自动索引。
产品优势:
●“列存储”技术
●混合负载控制较好
●并行查询及扩展能力强
●集成数据挖掘工具,适合实时分析
产品不足:
●列存储的一些问题(如载速度、复杂查询等方面较差)
●硬件厂商和第三方软件支持力度正在减弱
4.GreenPlum
GreenPlum近几年异军突起,以其独特的技术与传统数据仓库产品相抗衡。2010年被EMC收购后,产品线进一步完善,提供独立的数据库软件和集成的数据仓库设备两种解决方案。
GreenPlum将SQL和MapReduce功能整合到统一的数据处理框架中,利用MPP架构的并行计算能力满足大规模数据存储和处理需求。产品的一大特色是可与任何基于MapReduce的外部产品协同工作,容易实现当下流行的“云计算”架构;另一大特色是用户可以自行选择开放平台PC服务器搭建海量数据处理环境,降低数据仓库的TCO。
产品优势:
●支持行列混合存储,消除了单独行存储和列存储的缺陷
●可在线扩容和维护,无需停机
●数据加载速度快,可实现实时分析
●基于PosgreSQL开发,工具和应用资源丰富
●符合“云计算”发展方向
产品不足:
●使用开放平台实现,稳定性相对较差
●大数据量在节点间重分布时,其非专用网络设计易导致性能瓶颈
5.其他产品
产品解决方案产品优势产品不足
Infob right 集成的
列存储
数据库
设备和
压缩数
据库产
品,有开
源版本
和商用
版本
●开源的列存储数
据库,第三方软件
丰富
●兼容MySQL产品
和工具,移植性较
高
●利用“元数据知识
网格”技术减少数
据包以获取更高
的性能
●机器数据(如“点
击流”)分析方面
有优势
●技术需要再
不断完善
●混合负载功
能缺乏
Illum inate 集成的
数据仓
库设备
和BI工
具
●独特的元数据技
术可以在数据加
载时自动创建和
维护数据间关系,
自动消除数据冗
●内部模型复
杂、封闭,
外部对其产
品和技术了
解较少
余及对关联的数据进行预连接,查询速度快
●部署简单,易于使用●第三方软件支持较少
Aster Data 提供集
成的MPP
数据库
设备和
库内分
析工具
●基于MapReduce
开发,对云计算支
持较好
●支持行列混合存
储
●扩展性较好
●产品不成
熟,如表管
理可能导致
性能问题,
混合负载控
制能力较差
●没有较完整
的解决方案
及文档,应
用市场较小
1010d ata 提供基
于SAAS
的数据
仓库和
BI解决
方案
●基于SaaS模式
(投资少、部署简
单)
●数据分析速度较
快
●SAAS分析的
劣势,如安
全性、远程
访问、大数
据量传输性
能问题