数据仓库产品优缺点分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据量处理性能较强。 可线性扩展,实现投资保护。 数据库易于管理和维护。 第三方软件产品丰富。 有一套完整的ETL方案、配置灵活 采集异构数据时,数据会落地成.txt文件,并保留一定 的天数,方便查错。 通过perl采集数据时,向teradata插入数据时速度快, 只受限于网络和链接接口。
第一种:Teradata不足
数据仓库产品优缺点分析
简介
本文主要对目前国内市场上几种主流的数据 仓库数据库产品,通过网络资料以及个人经验做 一个简单的分析,从中可以较客观地得出各数据 仓库产品的优势和不足,以及未来技术发展方向, 为企业的数据仓库选型提供参考。
类别
一:Teradata数据库 Teradata天睿公司,专注大数据分析、数据仓库和整合营 销管理解决方案的供应商。 二:GreenPlum数据库 Greenplum是一家为全球大型企业用户提供新型企业级数 据仓库(EDW)企业级数据云(EDC)和商务智能(BI)提供解决方 案和咨询服务的公司。 三:Netezza数据库 IBM(国际商业机器公司)2010年9月收购的专门的数据仓 库数据库,为使大数据高级分析更简单、更迅捷和更易用而设 计。 四:Exadata数据库 Oracle的新一代数据库云服务器。
Oracle是数据库产品的领军人物,占据全球关系型 数据库市场的48%。Exadata是其推出的数据仓库产品, 通过专用的集成设备、大容量并行网格结构及Exadata Smart Flash Cache技术实现了处理高并发工作负荷的 能力,产品中还增加了分区管理功能、列存储压缩等技 术,大幅提高了数据处理性能,能够支持各种规模的数 据仓库应用。
第一种: Teradata数据库
Teradata近几年一直处于数据仓库领导者地位, Teradata数据仓库产品线丰富,能够适应各种规模的数 据仓库。产品主要是集成的专用数据库设备(集成了服 务器、存储、操作系统和数据库)。Teradata的数据仓 库解决方案齐全,以前一直走“高端策略”,在大规模 企业级数据仓库客户中占有绝对优势。不过,在其他产 品的竞争下,逐渐向中端客户领域扩展。
第二种: GreenPlum
GreenPlum2010年被EMC收购后,产品线进一步完 善,提供独立的数据库软件和集成的数据仓库设备两种 解决方案。将SQL和MapReduce功能整合到统一的数 据处理框架中,利用MPP架构的并行计算能力满足大规 模数据存储和处理需求。产品的一大特色是可与任何基 于MapReduce的外部产品协同工作,容易实现当下流 行的“云计算”架构;另一大特色是用户可以自行选择 开放平台PC服务器搭建海量数据处理环境,降低数据 仓库的TCO。
第四种: Exadata架构
第四种: Exadata优势
事务类任务处理性能较好 混合负载控制较好 兼容Oracle产品和工具,易于使用
第四种: Exadata不足
大数量处理性能上存在不足 部署和管理复杂,且扩展能力差 价格和维护成本较高
数据仓库产品技术发展趋势
Hale Waihona Puke Baidu
集成的数据仓库设备(一体机)将成为主流,一体机集 成了服务器、存储和软件,具有安装、配置、管理简单, 软硬件协同、高可用性及性能可以最大限度得到同一厂 商的保证。 行列混合存储技术将会数据仓库的趋势,单纯的行存储 或列存储在使用上均不能很好的满足数据仓库分析的要 求,混合存储技术可以根据数据仓库的访问特点有针对 性的改变数据存储结构,在应用不做任何调整的情况下 大幅提升系统运行效率,减少空间占用,对于大型数据 仓库有重要意义。 云计算在数据仓库和BI会有更多应用。
第三种: Netezza优势
针对数据分析设计,性价比高 兼容Oracle语句及主流BI工具 系统易于管理和维护 刀片式架构,扩展简单 数据库备份方便 ,可全量、增量、累计备份,恢复时 可以全部恢复,也可以单表,部分表恢复。 Zone Map技术,在数据最小存储块里优化数据,提高 查询效率。 表数据删除更改记录功能,数据误操作时可以方便找回。 Sql语法相交其他数据库更简单。
专用设备,环境搭建复杂,扩展时停机时间较长 混合负载控制存在问题 各系列产品互联困难 价格较高 etl过程和td的工具绑定紧密,对数据库本身的性能依赖 强 etl环境搭建复杂、非图形化 自定义函数过程复杂,需要用c编写并导入 数据库在做线性扩展时,数据需要重分布,消耗资源大, 时间长
第三种: Netezza不足
混合负载控制存在不足 流技术主要适用于趋势分析,对于精确分析略显不足 当表的数据发生大的变化时,性能会下降,需手动对表 进行groom(清理备份数据)和重做表数据统计操作。 磁盘数据是两两互备份,一旦互备份磁盘同时损坏,数 据很难恢复。
第四种:Exadata数据库
第三课:IBM Netezza 架构
第三种:Netezza架构特点
Netezza系统性能的主要优势来自其独特AMPP处 理架构,该架构将SMP前端与一个无共享的MPP后端 相结合完成查询处理。该架构将经过精心挑选的各个组 件集成在一起组成了平衡的整体系统。通过每个处理组 件对多个数据流进行操作,并尽早过滤掉多余的数据。 最多可有多达一千多个MPP处理组件共同工作。 Netezza的硬件架构和gp有些类似,由主机和S刀 片和磁盘阵列和网络架构组成,gp的硬件是由master主 机和segment主机和磁盘阵列和网络架构组成。和td的 硬件架构有不同之处,td数据仓库是由Bynet和SMP主 机和磁盘阵列组成
第三种:Netezza数据库
IBM最初使用DB2提出数据仓库解决方案,并提供 独立数据库软件和数据库机的解决方案,但产品技术优 势不明显,且未给予足够重视,市场逐渐萎缩。为弥补 不足,2010年IBM收购了专业的数据仓库厂商Netezza, 希望利用Netezza的技术来与Teradata、Oracle等产品 抗衡。Netezza提供集成的数据库设备Twinfin解决方案, 利用专利“流式数据处理架构FPGAs”技术(硬件芯 片),在数据通过磁盘时可以将无关数据快速过滤,解 决了传统数据仓库产品的服务器和存储间数 据流瓶颈 问题,实现高性能数据处理。
第二种:GreenPlum优势
支持行列混合存储,消除了单独行存储和列存储的缺陷 在线扩容和维护,无需停机 数据加载速度快,可实现实时分析 基于PosgreSQL开发,语法简单,工具和应用资源丰富 符合“云计算”发展方向
第二种:GreenPlum不足
使用开放平台实现,稳定性相对较差 大数据量在节点间重分布时,其非专用网络设计易导致 性能瓶颈 开发客户端功能不完善,功能灵活性不足。 函数运算性能不足,在过程中动态sql比静态sql运行效 率高,使得开发、迁移、测试更复杂。 创建表空间和文件空间不方便。 对其他操作系统支持差。
第一种: teradata数据库系列
单节点系列(面向开发和测试)。 1系列(面向大规模数据存储分析)。 2系列(面向部门级数据仓库) 4系列(采用固态硬盘,面向高速分析) 5系列(面向企业级数据仓库)
第一种:teradata架构
第一种:Teradata优势
第二种:GreenPlum架构
第二种:GP无共享架构的特点
最易于扩展的架构 内部处理自动化并行,无需人工分区或优化 数据分布在所有的并行节点上、每个节点只处理其中 一部分数据 最优化的I/O处理、所有的节点同时进行并行处理、节 点之间完全无共享,无I/O冲突 增加节点实现线性扩展、增加存储、查询和加载性能