大数据平台的基础能力和性能测试

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

JIANG Chunyu, WEI Kai 1. Department of Mobile Internet and Big Data, China Academy of Information and Communications Technology, Beijing 100191, China 2. Council for the Promotion of Big Data Development, Beijing 100045, China
关键词 大 数 据;大 数 据 技 术 标 准 化;大 数 据 产品评 测;数 据;负载
中图分类号:TP311 文献标识码:A doi: 10.11959/j.issn.2096-0271.2017040
Basic capability and perform
TOPIC 专题 37
大数据平台的基础能力和性能测试
姜春宇1,2,魏凯1,2 1. 中国信息通信研究院移动互联网与大数据部,北京 100191 2. 数据中心联盟大数据发展促进委员会,北京 100045
摘要
目前整个大数 据技术还 处于以开源方式为主导、多种技术并 存的阶段。开源技术催生了大量的商业 发行 版 大数据平台软件,大数据企 业级市场竞争加剧,如何测试 和评估这些大数据平台软件成为新的研究主 题。简要地介 绍了大数据技术发展的背景以及 大数据技术标准的需求,综述了国际大数据平台标准化和 评测的现 状,详细介 绍了数据中心联 盟在大数据平台技术标准化和测评方面的实 践,最后总 结了当前工 作 的 问 题,并 展 望了 下一 步大 数 据 技 术 和 评 测 的 发 展 方 向。
Abstract
The whole big data technology is now leaded by open source society which results in coexist of many competing technologies. Open sources also help to cultivate a great number of big data commercial software. The enterprise market is now crowded by various providers. How to evaluate these softwares becomes a new research topic. At the beginning, the development of big data system was briefly reviewed. Then the requirement of big data technology standardization was illustrated. After reviewing the progress of international big data technology standardization, the standardization and test practices in big data products under the organization of Data Center Alliance was introduced. Finally, the drawbacks of current practices were discussed, and the future direction of standardization and test for big data products was summarized.
Key words
big data, big data technology standardization, big data products evaluation, data, workload
2017040-1
38 BIG DATA RESEARCH 大数据
1 引言
大 数 据 的应 用和 技 术 起 源 于互 联 网, 首先 是 网 站 和 网 页的 爆 发 式 增 长,搜 索 引擎公司最早 感 受 到了海量 数 据 带 来 的 技 术 上 的 挑 战,随 后 兴 起 的 社 交 网 络、 视 频 网 站、移 动 互 联 网 的 浪 潮 加 剧 了这 一 挑 战 。互 联 网 企 业 发 现 新 数 据 的 增 长 量、多 样 性 和 对处 理 时 效 的 要 求 是 传 统 数 据 库 、商 业 智 能 纵 向 扩展 架 构 无 法 应 对的。在此背景下,谷歌公司率先于2004年 提出一 套分布式 数 据处 理的技 术体系, 即 分布 式 文件 系 统 —— 谷 歌 文件 系 统 (Google file system,GFS)、分布式计 算 系 统(M apRe d uc e)和 分布 式 数 据 库 (BigTable),以较低 成 本 很 好地 解 决了 大 数 据 面 临 的 困 境,奠 定了大 数 据 技 术 的 基 础。受 谷 歌公司 论 文 启发,A p a c h e Hado op 实 现了自己的分布 式 文件系 统 — — H ad o o p 分布 式 文件 系 统(H ad o o p distribute file system,HDFS)、分布式 计算系统(MapReduce)和分布式 数 据库 (H B a s e),并 将 其 进 行 开源,这 是 大 数 据 技术开源生态体系的起点。
经 过 10 年 左 右 的 发 展,大 数 据 技 术 形成了以开源为主导、多种技 术 和架构并 存 的 特点 。从 数 据 在 信 息 系 统 中 的 生 命 周期看,大 数 据 技 术 生态 主要 有5 个发 展 方向,包括数 据 采集 与传输、数 据存 储与 管 理、计 算处 理、查 询 与分析、可 视 化 展 现 。在 数 据 采 集 与 传 输 领 域 渐 渐 形 成了 S qo op、Flu me、Kaf ka等 一系列开源 技 术,兼 顾 离线 和 实 时 数 据 的 采 集 和 传 输。 在存 储层,HDFS已 经 成 为了大 数 据磁 盘 存 储的事 实标准,针对关系型以外的数据 模型,开源社区形成了K-V(key-value)、 列式、文 档、图4 类NoSQL数 据库 体系,
相关文档
最新文档