基于云环境下的海量大数据存储系统设计

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
E L E C T R ON I C S WO R L D・ 探索与观察
Leabharlann Baidu
基 于 云环境 下 的海量 大数 据存 储 系统设 计
武警北 京 市总队 第二 医院 刘 斌
【 摘要 】云环境下的大数据处理是未来数据存储 、处理的主流技术。对此,本文通过对云环境下大数据的存储 、管理研 究,分别对 系统存储 文件 夹、 文件 卡 、数据 处 理算 法进 行设 计 ,搭 建成 一 个云环 境 下的 大数据 存储 平 台。 最后 ,通过 平 台 的实 际应用 ,结 果表 明 :云环境 下存 储 技 术 能够 实现数 据 快速 存储 、数 据 处理 ,提 高 了数 据 的存 储 、 管理 效率 与质 量。
图1云存储 系统结构 示意 图
3 . 2 文件块 设计 在存 储 系 统存储 文 件 时,规 定 每个 文件 块都 用一 个主 副本 ,每 次事 务处理文 件块时 主本控制 所有副本 的信 息更新 。文件 块还有 以下 控制 信 息块 : ( 1 )主 副本所 在节 点编 号 :系 统 中各节 点都在 Ma s t e r 节点 获得属于 本节 点的编号 ,且与本节 点的地 址组成一个 节点编 号。 ( 2 )副本个数 :包括 主副本和 其他副 本,一般情 况下 ,值 为 1 时 ,代 表无其 他副本 ,值为0 则代表此 文件块 不存在 。 ( 3 )副本 所在节 点编 号 :保 存所有 节点编 号 ,可 实 现根 据 节 点编 号寻 找 副本 节 点地 址信 息与 系统 编号 的功 能 。 3 . 3 更 新算 法设 计 本数存储系 统采用谷歌 公司的c h u b b y 服务机制 ,C h u b b y 算法主要 通 过5 台机器组成一体实现该算法的功能,这样 就可支撑万台机 器锁 ,5 台机器本身则采用 完全 冗余策略 ,C h u b b y 内部采 用C o n s c n s u s p r o t o c o l 协 议保证系 统的一致性 ,在系统 内部的5 台机器 中设定一个Ma s t e r ,随着 时间的推 移而 自动更新。C l i e n t  ̄C h u b b y 之间采用e v e n t 方式通信 。
【 关键词 】 云环境 ;大数据 ;数据存储 系统;系统设计 ;算法
数 据节 点。系统 中的主要成 分是数据节 点 ( 图中D a t e N o d e 节 点 ),管 理 节点与监控 节点为 非数据节点 ( 图中Ma s t e r 节点 )。C l i e n t 节点 即为 访 问的客户 。No d e 节点为 系统主要部 分,主要包括 数据存储 、数据查 询 、事务 处理 ,主要 完 成确 保 系统 大 部分 任 务 的正 常运 行 。Ma s t e r 节 点主 要 实现 对系 统整 体 状态 的监 控 ,包括 系 统节 点状 态 、局部 数 据 节 点的 查询 、保 持文件 块地 址信 息 等 。
引 言
近 年来 , 随着 计 算机 技术 与 互联 网技术 的 快速 发展 ,互联 网 的 信息量 呈现 大量增 长的现 象 ,对 大量 的数据进 行存储 、处理 是一件较 为困难 的事情 ,传 统的数 据存储 、处理 技术 已经不 能满足 当下人们对 数据 处理 、存储 的需求 。针 对此 问题 ,本文通 过对云 环境 下大数据 的 存 储 管理研 究,设 计一个 云环境 下大数 据存储 软件 ,分别对 系统 的存 储 文件 夹 、文件卡 、数据 处理算 法进行 设计 ,构建 了一个云 环境下 的 大数据 处理 平台 ,平 台的应 用 结果表 明:云存 储技术 能够实 现快速存 储 、数据 处理 ,提 高 了对数 据 的存 储 、管理 效率 与 质量 。
1 . 云环境与大数据 内涵
云 计 算 是将 数 据 信 息 的 处 理 方 式从 个 人 电脑P C与 互联 网转 移 到数 据 中心 的 一种 模 式 。云计 算 不仅 涉及 到软 件 ,还 涉及 到硬 件 等 设施 。数 据 的存 储 与 管理 对任 何 企业 都是 非 常重 要 的 ,而 数据 的安 全性 是 数据 存储 的关键 。在云 计 算环 境下 ,数 据 的可 用性 与持 久 性 对存 储服 务 也 是非 常重 要 的 。一般 来 说 ,一个 大 型 的元计 算服 务 有 专属 的数 据 中 心 ,大量 的 数据 存在 于 各个 不 同 的地方 ,数 据 以副 本 的形 式存 在 于每 个 不 同的地 方 ,建 立 较好 的容 错机 制 ,提 高大 数 据 的存 储 、利 用质 量 。 大数 据 一般 是 指在 规模 上 和 复杂 度上 都是 难 以用 现有 的数 据 库 管理 工具 或 传统 的计算 方法 完 成对 数据 信 息分 析 处理 的数 据 。大 数 据 是 当今 世 界流 行 的数 据 分析 方法 之 一 ,需要 从信 息 时代 生活 中, 分 析 大量 的信 息数据 ,从 中得 到各 种 各样 的有 用数 据 信息 。大 数据 具 备 五个 特 点 :数据 量 较大 、 种类 多 、速 度快 、 时效 高 、价值 密度 低 。 目前 , 大数据 主 要存 在 以下 几个 方面 的挑 战 : ( 1 )数 据采 集 存 储和 生 命 周 期 的管 理 。 由于 现 代互 联 网 络 的 大 力 发展 ,数 据 信息 的类 型 、结 构、模 式 变得 更加 复杂 ; ( 2 )数据 包 的处 理 。数 据 包 的价 值 密 度是 较 低 的 , 需要 快速 地 提 取有 用 信息 ,具 备 数据 处理 高 效 、可信 及 可视 化等 特 点 。对于 同一个 数 据信 息 ,采 用 不 同的 处理 方法 与 分析 模 型,最 后 得到 的数 据 结 果相 差 较大 。大 数据 的处理 结 果还 需满 足 数据 的可 视化 呈 现 、 可 追溯 、 可判 断等 相 关需 求 。 ( 3 )数 据 的安 全 与 隐私 问题 。在 存 储 、处 理 、传 输 大 量数 据 信 息 的过 程 中 ,都 需要 处理 安全 方面 的问题 。大数 据 时代 ,往 往生 产数 据 的 人 也 同时是 使用 、管理 数据 的人 ,所 以原 有 的技术 手 段 已 经 显示 出不 足 ,无 法满 足现 在 大数 据 的安全 要求 。
相关文档
最新文档