南大通用大数据新型列存储数据库GBase 8a 技术白皮书
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
皮书
GBase 8a 产品介绍
3. GBase 8a 产品介绍
GBase 8a 的架构设计充分满足了海量数据分析需求, 是具有高效复杂统计和分析 能力的列存储关系型数据库管理系统。 GBase 8a 面向分析型应用领域, 以列为基本存 储结构和数据运算对象,结合列数据压缩处理、并行处理、智能索引等新型数据处理 技术。下图展现了 GBase 8a 的体系结构。
GBase 8a 技术白皮书
GBase 8a 产品简介
1. 分析型数据库
1.1. 分析型应用的产生背景
在过去的十年里,数据的有效利用已经成为各单位议事日程上最优先的项目之 一。近几年来,企业和政府机构已经完成了信息化建设的初步阶段,即数据的采集和 事务应用。但随之而来产生了新的问题: 如何对已有海量数据进行有效利用; 如何对数据进行挖掘、分析; 如何从历史数据中获取规律,以指导企业的规划和决策; 怎样支持海量数据的即席查询、数据比对; 如何有效解决这些问题是信息化建设新的阶段和发展方向。 有这样一个案例: 某电信运营商发现用户在已经拥有一个移动号码的情况下,再次购买归属的同一 运营商的新号码入网,新号码全部或者部分替代原有旧号码,这种现象称为“重入网 现象” 。重入网泛滥使得该运营商营销渠道成本剧增,导致卡资源号码资源的紧缺, 严重影响正常运营。运营商非常希望找到一种方法,识别出重入网用户。但面对每月 新增 70 万用户和已有的 40 TB 历史数据,如何及时准确的甄别出重入用户,使用传 统事务型数据库管理系统几乎是不可能完成的。这一应用场景需要专为海量数据分析 处理使用的新型列存数据库管理系统的支持。 面对这类日益增加的海量数据分析需求,现有的传统数据库有明显的缺陷。这些 弊端包括: 低下的数据查询性能(传统数据库对上述案例的响应时间为几个小时) ; 对异构数据库访问困难; 惊人的存储成本; 沉重的维护成本。
6.
GBase 8a 应用开发接口 ...................................................................... 14 6.1. 6.2. 6.3. 6.4. GBase ODBC ................................................................................ 14 GBase JDBC ................................................................................. 14 GBase ADO .NET ......................................................................... 14 GBase C API ................................................................................. 14
第 4 页
GBase 8a 技术白皮书
GBase 8a 核心功能
5.
GBase 8a 管理工具 ............................................................................... 11 5.1. 5.2. 5.3. 5.4. 企业管理器 .................................................................................... 11 命令行管理工具 ............................................................................11 迁移工具....................................................................................... 12 状态监控工具 ............................................................................... 13
第 2 页
GBase 8a 技术白皮书
GBase 8a 指导思想
2. GBase 8a 设计指导思想
三个“1/10” 把执行同样一条查询语句所需要磁盘的 I/O 降低到传统行存储数据库的 1/10 以下; 在启动压缩的情况下,同样的裸数据加载到数据库后占有的磁盘空间是传统 行存储数据库的 1/10 以下; 人工管理费用(安装、调试、优化、维护、扩展等)是传统行存储数据库的 1/10 以下。 两个“10 倍以上” 在海量数据分析型应用中,平均综合查询性能(复杂查询、即席查询、模糊 查询、分页查询、TOP-N 查询等)是传统行存储数据库的 10 倍以上; 压缩比 10 倍以上。 简单易用,降低使用成本
逻辑层: 主要处理查询逻辑,包括 SQL 接口、内存管理引擎、压缩引擎、索 引引擎、语义优化器与执行器等核心部件。 存储层: 存储引擎将数据按列压缩存储到不同的数据包中,并自动生成智能 索引。 工具层: 工具层提供用户与数据库系统的交互接口 应用开发接口:支持 C API、JDBC、ODBC、; 数据加载工具:提供高效数据加载工具,支持并行加载; 图形化的管理:简单、易用,提供友好的用户界面。
7. 8.
GBase 8a 的运行环境 .......................................................................... 15 GBase 8a 核心功能和技术总结 ........................................................... 16 8.1. 8.2. GBase 8a 技术上的“三高”优势 .................................................... 16 GBase 8a 功能与技术简表 ........................................................... 17
图形化管理工具 企业管理器 ETL工具 作业管理工具 配置管理工具 备份恢复工具 性能监控工具 数据加载工具 高速并行加载器 /卸载器 SQL接口 GBase 8a分析型数据库 接口 C API,JDBC,ODBC,
连接池 授权 — 线程重用 — 连接限制 — 内存较检 — Cache
1.2. 海量数据分析对传统数据库的挑战
传统数据库技术的产生不是为了分析海量数据,而是为了数据记录、事务处理 (OLTP) 。当数据量不断膨胀之后,用户就会产生越来越多的分析需求,而传统数据 库在分析处理时,整体性能会大大降低。造成此问题的原因如下:
第 1 页
GBase 8a 技术白皮书
GBase 8a 设计指导思想 ....................................................................... 3 GBase 8a 产品介绍 ................................................................................ 4 GBase 8a 核心功能 ................................................................................ 5 4.1. 4.2. 4.3. 4.4. 4.5. 4.6. 4.7. 列存储 ............................................................................................ 5 高效的透明压缩 ............................................................................. 6 智能索引......................................................................................... 6 并行技术......................................................................................... 9 高性能数据加载 ........................................................................... 10 内存管理....................................................................................... 10 语义优化器 ................................................................................... 10
SQL 分析优化器 / 执行器 存储管理
粗粒度 多维 智能索引
缓存管理
压缩 / 解压缩
列 数据包 数据包 数据包
列 数据包 数据包 数据包
列 数据包 数据包 数据包
列 数据包 数据包 数据包
列 数据包 数据包 数据包
列 数据包 数据包 数据包
列 数据包 数据包 数据包
操作系统 Windows系列、Linux系列、Unix系列
传统行存储导致大量无效 I/O
GBase 8a 产品简介
行存储方式设计思想是以事务处理为主,存储结构异常复杂。由于 数据页结构和 MVCC (多版本并发控制)的原因,每个数据页必须读 到内存中,导致每次查询必须读取大量无用数据。这种数据存储方式造 成磁盘 I/O 成为了限制性能的主要因素。虽然磁盘成本在不断下降,但 数据传输效率并没有根本的改变。因此,在处理的数据量不大时往往影 响不大,但在处理海量数据时, 性能下降问题就会突现出来; 传统索引不适于海量数据 传统行存数据库索引需要手工设定,对应用不完全透明,随场景和 需求的变化需要不断调整,人工维护成本很高。并且传统索引占用存储 空间很大,甚至高于数据本身,造成查询效率的下降; 数据装载速度慢 因为索引需要重新创建,加载性能会变的很糟糕。 分析型架构系统要解决这些个问题, 必须最大限度地减少磁盘 I/O , 提升查询效 率,减小人工维护成本。南大通用分析型数据库 GBase 8a (以下简称 GBase 8a)通 过列存储模式、数据压缩、智能化的索引、并行处理、并发控制、高效的查询优化器 等技术,使得上述问题得到有效解决。以下各节将描述 GBase 8a 的创新架构如何实 现这些目标。
目录
GBase 8a 技术白皮书
1. 分析型数据库 ......................................................................................... 1 1.1. 1.2. 2. 3. 4. 分析应用的产生背景 ..................................................................... 1 海量数据分析对传统数据库的挑战 .............................................. 1