浅析腾讯TDW对Hive的应用和优化

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
解析 时增 加相 关的 权限 检查 。解 析时 可根据 元数据中的权限信息 , 判断用户是否有执行此
S QL , 访 问此 库 、 表的权限, 以达 到 权 限控 制 。
_性能差
H i v e 0 . 4 1 版本在查询优化上较为简单, 有很多S O L 翻译的MR 执行效率很低 , 或者不合理 。性能差 , 不仅浪费了机 器资源, 也相对影响了产品的口碑。 -不够稳定
甚 至是 M a p R e d u c e 的 后 台 日志 进 行 问题 定 位 。在
・为Hi v e 增加了一些与权 限相关的元数据表用 来存放角色、 权限相关的元数据信息 。 ・增 加了相关的 S Q L 语法 ,包括c r e a t e r o l e 、 g r a n t 、 r e v o k e 等命令 , 这些命令能够实现将权 限相关的信息记录在元数据中。
通过以上三个方面的功能扩充 , 完善 了T D W权限 管理 , 提高 了用户数据存入T D W的安全 性,同时 方便了T D W管理员的日常工作 。
H i v e 0 . 4 . 1 版本在生产环境中经常会出现卡死 、 元
数据损 坏、进程异 常退出等问题,造成了服务 中 ・兼容 Or a c l e 的分 区功能
D W研发和应 本身存 在一些问题 , 在技术上 不够成熟 , 严重制 数据仓库应该具备的很 多功能。在T 约了T D W的运营和推广 , 表现在以下几个方面。 用阶段, 功 能的缺失 曾使T D W不断受到业 务的挑 战, 这些挑战~度影 响到T D w的应用推广进度和
口碑 ,因此 , 我们 对Hi v e 进 行 了大量 的功 能 扩充 。
Co v e r S t o r y 封 面 报 道 l大 数 据
执行、元数据 、 类型系统等结构清晰, 便于进行原
理分析和二次开发。
T DW对Hi v e 的优化
利用H i v e 的这些特性 , 我们构建T D W获得 了一定 功能扩充
成功 。 然而 , 构 建T D W 时所 基于 的Hi v e 0 . 4 1 版 本 开源Hi v e 的功能简单 , 甚至可以说比较简陋, 缺乏
一数据仓库功 能不完善
缺乏权 限管理 、过程语言 、 l i s t / r a n g e 分区功能、
我 们以业 务使 用T D W的需 求为 窗 口函数 、多维分析等功 能—— 这些功能对于一 在功 能扩 充上 , 主, 为T D W实现 了大量Or a c l e 特性 。 这 些特性一 个数据 仓库产品是不可或缺 的; 并 且,我们多数 方面使T D W功能更强大 ; 另一方面 , 为T D W的应 业务在其他数据仓库上大量使用这些功能。要推 主 要是使业 动业务从其他数 据仓库转 向基于H i v e 的T D W, 这 用推 广、业 务迁 移做 出了巨大贡献 , 些功能是必须完善的。

务从O r a c l e 数据仓库转 向T D W变得简单。在功能
上, 我们实现了以下几个主要特性。
一 使 用门槛高 -基于角色 的权 限管理 用 户 界 面 简 陋 ,运 行 调 试 麻 烦 ,问题 定 位 困
难, 查 询计 划不 直观 。Hi v e  ̄ h 起Ha d o o p 直接 写 我们参考My s QL 和Or a c l e 的权限管理功能和语法
断、 报 表延迟 、 计算错 误等 , 严重影 响了T D W的 为了满足用户的需求 , 我们也实现 了O r a c l e 的分 服务质量 。 区功能。T D W的分区表建表语法与O r a c l e 类似 , 基于以上 这些问题 , 我们对Hi v e 0 . 4 1 版本进行了 并且支持 l i s t 、r a n g e 、h a s h 三 种分区类型 , 还支 大量的优化和改造,这些优化和改造主要包括功 持子分区功能。 这部 分修 改主要是修改Hi v e 的文 能扩充、易用性提升、 性能优化和稳定性优化。通 法, 使它支持O r a l c e 的建分区语法, 增加分区相关 过这些优化, 最终使基于H i v e 的T D w成为今天腾 的元数 据表,修改查询优化部 分代码,使T D W支 讯内部广泛使用的一个 易用、高效、稳定 的大数 持l i s t 、 r a n g e 等分区优化, 增加a d d p a A i t i o n 、 d r o p 据处理平台。 p a r t i t i o n 、 t r u n c a t e p a r t i t i o n 等命令。
查 询计划 的显示上 ,H i v e 的E x p l a i n 结果较 为复 杂, 若通过查询计戈 0 来调优S Q L , 则需要操作者具 备较 多的Ha d o o p 知识 。 总体来讲 , H i v e 的使用1 I ] 槛较高 , 会影响数据分析业务的开发效 率。
・ 对原有的Hi v e S Q L 解析流程进行改变, 在S Q L
为H i v e 扩 充了基于 角色的权 限管 理功 能。 Ma p R e d u c e 任 务,虽已有很大进步 ,但在易用性 形式 , 上 的考 虑 仍不足 。用户需 要在命 令 行下进 行操 这项工作主要分三个方面。 作, 如果S O L 运行失败 , 常常需要通过H i v e 日志,
相关文档
最新文档