OceanBase:淘宝开源海量数据库
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
也部 分避免了 个或者 多个Up a e e v r 点之间漂 移 , 低 架构 、不同的软 件架构进行支持 , d t S r e节 降 这些问题的影响。相对来说, 这两个架构可以各自 U d tSre单点故障的影响 。 p ae ev r
为 了消 除 U d tS re内存 大小 对 更 新 数 据 量 的 p ae ev r 限制 , 们实现了数据转储机 制, en ae 我 Oc a B s 在 增 量 更 新 数 据 达 到 一 定 量 时 会 启 动 后 台 工 作 将
O AP L 功能,因此 , ca B sS 其他 系统相比更 O e n ae M 加轻量级,通常也能提 供更高的性能。下面具体
描 述 一 下 O e n ae 用了 何 种 技 术 架 构 来实 现 ca B s 采 成 本 、 能 和功 能 的 平衡 。 性
架构特点
首先, e n a e Oc a B s将数据拆分 为基准和修改增量 两个部分。 基准数据在一个业务周期内保持不做 变更, 有的修改 增量做集中处理,每次数据查 所 询将按照应用需求决定是否需要合并最新的修改
o e t r 封面报道 I我们的开源 v rS o y
Oc an s 淘宝开源海量数据库 e e Ba
● ●
文, 李震
世 界 上 充斥 着 各 种 各 样 的轮 子 , 句 话 在 I技 术 到类S 及数 据分析,涵盖了互联网的大部 分应 这 T NS
界有特定 的意义 , 我们用重复造轮 子来形容那些 用类型 , 这些应用有一个共性 ,短时间内变化的 投入大量 时间 、 精力和金钱实现 已有技术方案可 数 据总是 远小 于随 着时间 积累下 来的数 据 , 通
以提 供 的 功 能 的行 为 。 大 量 开 源No QL 统发 常有两到三个 , 在 S 系 甚至更 多的数量级差距 , 大部 而 展得 如 火如 荼 ,以O a l、My QL 代 表 的 传统 分 数 据 架 构 的 复 杂 性 ,主要 体 现 在 对 短 时 间 内 变 rce S 为
短时间内数 互联 网企业的数据由互联 网用户产生 , 随着业务 不用关注数据膨胀带来 的运维压力 , 对访问性能有较高要求 。 针 的扩大 正比增 长 , 在网站发 展到 某个阶 段开 据变化不特别剧烈 , 并 这个应用场景 始 以 指 数 级 别 不 断 膨 胀 ,这 些 数 据 是 企 业 最 核 对淘宝乃至其他互联 网企业来讲 , 基 本 上 包 括 了 绝 大 部 分 的 线 上 应 用 。随 着 需 求 心 的 竞 争 力 ,承 载和 利用 这 些 数 据 需 要 强 力的 数 推 动 系 统 逐 渐 发展 , e n a e 过 简单 的分 布 Oc a B s通 据架构 。 传统的集中式关系型数据库巳接近 了纵 向扩展的极限 , 同时在成本考量上也处于劣势。 新 兴的分布 式数据 库通常需 要在业 务上做 出比 较大的妥协 , 并丧失一些扩展或变化的灵活性。 Oc a B s 采用了一 些新的技 术方法尝试 部分 en ae
解 决 这 个 问题 , 对 的 应 用数 据规 模 在 干 亿 条 记 针 录 , 供 O T 级别 关 系 型数 据 库 的 基 本功 能 。 提 LP 简 单来说 , e n ae Oc
计算也具 备了小 规模 、百T 数 据量级 别的部分 B
而且这些 系统的节点需要考虑读和写 为 了 避 免 这 个 单 点 Up a e ev r 来 的 查 询 瓶 达 到最优 。 d t s r e带 两 种 功 能 , mtbe 时 刷 人 磁 盘 、写 入B f Me a l何 uf 大 颈 , 们在 U d tS re上 实现 了读 写 分离 , 我 p ae ev r 读取
为业务提供类似于关系型数据库使用体验的在线 数据服 务,并且在成本 、 性能 、 能三个维度上 功 达到应用可以接受的平 衡。那么 , 这种平衡能够
体 现 在淘 宝 的哪 些 应用 场 景下 呢 ?
我们分析了淘宝的大量系统,从核心的交易相关 增量 。 图 1 示 。 如 所
4 8
;v r oy 封面报道 I我们的开源 o e r St
数 据库的部 分特性 。同时它也是上帝关上的那扇 的 方 式 处 理 , 整 理 的 频 度 和 力 度 直 接 影 响 访 问 但 窗, 为了消除这个单 点带来的影响, 我们做了很多 效 率。在各种系统调优中 , 数据整理 的优化也一
努 力和 尝试 。
直 是重点,只能 根据 具体业务分析 ,且很难能够
数据 的 能 力做 到了 线性 扩充 。
小如何配置等这些问题都会考验系统的侧重方向
和 运 维的 技术 实 力 。
为了避 免up a e e v r d t s r e 单点 故 障给 应 用带 来
c a B s尝试 采 用另一 种 思路 绕 过这 些 问题 , 将 数 据不 可 用的 风险 ,我 们在 Up a e e v r d t S r e 使 O e n ae 持 久化数据和 更新数据完全分离 , 用不 同的硬件 用He rB a 技术实 现 了HA,一个虚 拟I 在 两 ate t P
关系型数据库正在并将要发挥重要作用的今天 ,
化数 据 的处理上 。这 个特 点使我 们使 用了一 种
我们 为什么需要一个名N O e n a e  ̄ c a B s的软件系统 新的思路来搭建O e n a e 这个思路也决定了 ca B s , 来完成看起来并不复杂的业务支撑呢?这要从互 O e n a e c a B s的应用场景 , 即使用者希望利用关系 联网企业的数据应用说起 。 数据库 的一 些特点 , 例如联 表、事务 ,同时希望