大数据发展现状及面临的问题_李芬
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第18卷 第5期 2013年9月
西 安 邮 电 大 学 学 报
JOURNAL OF XIAN UNIVERSITY OF POSTS AND TELECOMMUNICATIONS
Vol.18 No.5 Sep.2013
大数据发展现状及面临的问题
李 芬,朱志祥,刘盛辉
(西安邮电大学 通信技术研究所,陕西 西安 710061)
数据的 持 续 增 长 带 来 了 数 据 的 安 全 问 题。 首 先,大数据 因 为 目 标 大 而 在 网 络 上 更 容 易 被 发 现; 其次,大数 据 存 在 更 敏 感 更 有 价 值 的 数 据,对 潜 在
·102 ·
西 安 邮 电 大 学 学 报
2013 年 9 月
攻击者的吸引力 更 大。 近 两 年 来,有 些 互 联 网 公 司 用户信息泄露的 数 据 量 非 常 庞 大,在 2012 年 6 月, 据挪威IT 网站 Dagens IT 报道,约有650万职业社 交网 站 LinkedIn 用 户 的 账 户 的 明 文 和 加 密 密 码 被 泄露;在 2012 年 7 月,据 美 国 有 线 电 视 新 闻 网 (CNN)报道,雅 虎 网 络 遭 遇 黑 客 攻 击,45 万 个 用 户 账号信息遭到泄 露 雅 虎 遭 到 网 络 攻 击。 此 外,个 人 信 息 的 曝 露 ,也 会 造 成 个 人 安 全 的 问 题 。
摘 要:通过对大数据特征及大数据在各 领 域 发 展 近 况 的 分 析,认 为 大 数 据 在 发 展 过 程 中,大 数 据 赋 予 预 测 未 来
的能力、带来巨大的变革和商机将成为各行业发展的 新 动 力,以 及 在 数 据 管 理、数 据 分 析、数 据 显 示 及 数 据 安 全 方
面 大 数 据 发 展 面 临 问 题 ,提 出 大 数 据 发 展 过 程 中 可 能 面 临 的 问 题 ,同 时 对 大 数 据 的 发 展 加 以 展 望 。
大数据的 快 速 化 描 述 的 是 数 据 分 析 和 处 理 的 速度。随着高性能 计 算 应 用 市 场 的 发 展 和 深 入,数 据的处理速 率 不 断 提 高,据 相 关 数 据 统 计,每 秒 钟 人们发送290 封 电 子 邮 件、亚 马 逊 处 理 72.9 笔 订 单;每分钟人们在 YouTube上传20小时的视频;每 月 人 们 总 共 在facebook 上 浏 览 7000 亿 分 钟 。
1 大数据
1.1 大 数 据 的 内 涵 在信息化 建 设 过 程 中,数 据 可 分 为 三 种 类 型:
结构化数据,非 结 构 化 数 据 和 半 结 构 化 数 据 。 [1] 其 中,80%的数据属于 企 业 业 务 过 程 中 产 生 的 非 结 构 化数据。对于大数 据 的 概 念,至 今 没 有 一 个 业 界 广 泛采纳的 明 确 定 义。 文 献 [2]中 提 出,大 数 据 是 指 无法在可容忍的时 间 内 用 传 统IT 技 术 和 软 硬 件 工 具对其进行感知、获 取、管 理、处 理 和 服 务 的 数 据 集 合;文献[3]中定义,大 数 据 包 含 那 些 由 于 迅 速 增 长
图 1 全 球 数 据 量 预 测
1.2.2 多 样 化 数据多样化的 形 成 主 要 有 两 方 面 原 因,一 是 数
据来源多,有 搜 索 引 擎、社 交 网 络、通 话 记 录、传 感 器、网络日志等等[5];二是数据格式多,有结构数 据, 半结构数据和非结构数据。 1.2.3 快 速 化
大数 据 具 有 4 个 关 键 特 征,分 别 是:海 量 化 (volume),多样化(variety),快速化(velocity),价 值 化 (value),也 称 4v 特 征 。 1.2.1 海 量 化
根据2013年3月1 日IDC 发 布 的 最 新 数 字 宇 宙研究报告 显 示,随 着 全 球 范 围 内 个 人 电 脑、智 能 手机等设备的普及,和 新 兴 市 场 内 不 断 增 长 的 互 联 网访问量,以及监控 摄 像 机 或 智 能 电 表 等 设 备 产 生 的数据爆增,使数字 宇 宙 的 规 模 在 最 近 两 年 翻 了 一 番,达到惊 人 的 2.8ZB。IDC 预 计,到 2020 年,数 字 宇 宙 规 模 将 超 出 预 期 ,达 到 40ZB。
朱 志 祥 (1959- ),男 ,博 士 ,教 授 ,从 事 信 息 安 全 研 究 。E-mail:zhuzhix@xupt.edu.cn
第 18 卷 第 5 期
李 芬 ,朱 志 祥 ,刘 盛 辉 :大 数 据 发 展 现 状 及 面 临 的 问 题
·101 ·
使得无法 通 过 现 有 的 数 据 库 管 理 工 具 进 行 管 理 的 大规模数据集;文献[4]中 指 出,大 数 据 是 在 数 据 单 位为 EB(1018Byte)甚 至 超 越 EB 的 范 围 并 且 超 越 当前在线存储系统和处理系统的能力的数 据量。 综上所述,大 数 据 是 来 源 于 交 易 数 据、交 互 数 据 及 传感数据的海量数 据 的 集 合,其 中 大 部 分 是 非 结 构 化数据,其规模和复 杂 度 都 超 越 现 有 常 用 技 术 能 够 处理的能力范围。 1.2 大 数 据 的 特 征
与数据分析相 比,很 多 用 户 往 往 更 关 心 数 据 结 果的显示。 传 统 的 以 文 本 形 式 输 出 结 果 或 者 直 接 在电脑终 端 上 显 示 结 果 的 方 法 在 面 对 小 数 据 量 或 许是很好的选择,但 是 对 于 形 式 复 杂 的 海 量 数 据 是 不可行的。 这 就 需 要 引 入 可 视 化 技 术 来 可 视 化 最 终甚至是中 间 的 计 算 结 果,此 外,还 需 要 人 机 交 互 技术或者数据 起 源 技 术[9],使 得 用 户 在 得 到 结 果 的 同时更好的理解结果的由来。 2.4 数 据 安 全
2.1 数 据 存 储 大数据发展面 临 的 问 题 是 来 自 不 同 地 方、不 同
标准、数据量大、多 种 结 构 形 式、实 时 性 等 多 样 化 要 求的数据 信 息。 这 些 问 题 无 疑 增 加 了 数 据 采 集 和 整合的困难,故此应 修 改 基 于 块 和 文 件 的 存 储 系 统 的 架 构 设 计 ,以 克 服 存 在 的 问 题 。 2.2 数 据 分 析
文献[10]中 举 了 一 例 是 如 何 用 挖 掘 分 析 暴 风 雨、干旱等自然灾害 数 据 的 方 法 去 预 测 安 哥 拉 霍 乱 的爆发,结果证明可 以 提 前 一 年 预 测 到 霍 乱 爆 发 的 蔓延。 3.2 巨 大 的 变 革 和 商 机
随着用户对大 数 据 价 值 的 认 可,各 行 业 巨 头 都 积极加大对大数据 的 投 资,随 之 而 来 的 便 是 巨 大 的 变革和商机。
数据分析 是 [6] 大 数 据 处 理 流 程 的 核 心,因 为 大 数据的价值就产生 于 分 析 的 过 程,但 是 它 同 样 带 来 了很大的挑战。首 先,数 据 量 大 带 来 更 大 价 值 的 同 时也带来了更多的 数 据 噪 音,在 进 行 数 据 清 洗 等 预 处理工作时 必 须 更 加 谨 慎,若 清 洗 的 粒 度 过 细,很 容易将有用 的 信 息 过 滤 掉,而 清 洗 的 粒 度 过 粗,又 无法达到理想的清 洗 效 果,因 此 在 质 与 量 之 间 需 要 进行仔细的考量和 权 衡,同 时 也 对 机 器 硬 件 和 算 法 都是严峻的 考 验[7]。 其 次,传 统 的 数 据 仓 库 系 统[8] 对处理时间的要求 并 不 高,而 在 很 多 大 数 据 应 用 场 景中,不仅 要 考 虑 算 法 的 准 确 性,还 要 考 虑 实 时 性 的要求。 2.3 数 据 显 示
ቤተ መጻሕፍቲ ባይዱ
关键词:大数据 ;数据量 ;数据分析
中 图 分 类 号 :TN919
文 献 标 识 码 :A
文 章 编 号 :2095-6533(2013)05-0100-04
The development status and the problems of large data
LI Fen, ZHU Zhixiang, LIU Shenghui
随着 互 联 网、云 计 算、物 联 网、社 交 网 络 等 技 术 的兴起 和 普 及,全 球 数 据 的 增 长 快 于 任 何 一 个 时 期,可以称 作 是 爆 炸 性 增 长,而 数 据 的 存 储 单 位 也 由 B,KB,MB,GB,TB 到 PB,EB,ZB,YB 不 断 扩 大。有关数据表明,过 去 3 年 人 类 的 信 息 数 据 总 量 比以往4万年的数据量还要多。如此大规模的数据 量已经无 法 在 允 许 的 时 间 内 用 常 规 的 软 件 工 具 对 其内容进行管理、分 析 和 处 理,但 是 另 一 方 面,数 据 规模越大,对 其 挖 掘 可 能 得 到 的 价 值 更 大,所 以 在 大数据发展的过程 中 问 题 与 展 望 是 并 存 的,本 文 就 大数据本身及其发 展 面 临 的 问 题 加 以 分 析,并 对 其 发展做以展望。
3 大数据展望
3.1 利 用 大 数 据 洞 察 未 来 从 2008 年 初 ,阿 里 巴 巴 通 过 对 用 户 行 为 数 据 的
挖掘和分析发现整 个 买 家 询 盘 数 极 具 下 滑,同 时 欧 美对中国采购也在下滑。他们提前半年时间准确 预 测 出 世 界 外 贸 经 济 走 势 ,从 而 躲 避 了 金 融 危 机 。
(Institute of Communications Technology,Xi’an University of Posts and Telecommunications,Xi’an 710061)
Abstract:After analysis of the development status of large data and its characteristics and appli- cations,it is concluded that large data will become the new power of the development of the in- dustry as large data has the ability to predict the future,to bring enormous change and opportuni- ties in the process of its development.The problems in data management,data analysis,data dis- playing and data security of large data are discussed.The future prospect is also proposed. Keywords:big data,data volume,data analysis
1.2.4 价 值 化 大数据的价值 化 是 指 大 数 据 的 价 值 巨 大,在 本
文第3部分将阐述到它在各个领域的价值实现。但 是其价值密 度 却 很 低,比 如 视 频 监 控,每 天 产 生 24 小 时 的 视 频 数 据 ,真 正 有 价 值 的 可 能 只 有 几 秒 钟 。
2 大数据发展面临的问题
收 稿 日 期 :2013-06-03 基 金 项 目 :工 业 和 信 息 化 部 通 信 软 科 学 基 金 资 助 项 目 (2013-R-43) 作 者 简 介 :李 芬 (1989- ),女 ,硕 士 研 究 生 ,研 究 方 向 为 大 数 据 处 理 。E-mail:lifenfen0902@163.com
西 安 邮 电 大 学 学 报
JOURNAL OF XIAN UNIVERSITY OF POSTS AND TELECOMMUNICATIONS
Vol.18 No.5 Sep.2013
大数据发展现状及面临的问题
李 芬,朱志祥,刘盛辉
(西安邮电大学 通信技术研究所,陕西 西安 710061)
数据的 持 续 增 长 带 来 了 数 据 的 安 全 问 题。 首 先,大数据 因 为 目 标 大 而 在 网 络 上 更 容 易 被 发 现; 其次,大数 据 存 在 更 敏 感 更 有 价 值 的 数 据,对 潜 在
·102 ·
西 安 邮 电 大 学 学 报
2013 年 9 月
攻击者的吸引力 更 大。 近 两 年 来,有 些 互 联 网 公 司 用户信息泄露的 数 据 量 非 常 庞 大,在 2012 年 6 月, 据挪威IT 网站 Dagens IT 报道,约有650万职业社 交网 站 LinkedIn 用 户 的 账 户 的 明 文 和 加 密 密 码 被 泄露;在 2012 年 7 月,据 美 国 有 线 电 视 新 闻 网 (CNN)报道,雅 虎 网 络 遭 遇 黑 客 攻 击,45 万 个 用 户 账号信息遭到泄 露 雅 虎 遭 到 网 络 攻 击。 此 外,个 人 信 息 的 曝 露 ,也 会 造 成 个 人 安 全 的 问 题 。
摘 要:通过对大数据特征及大数据在各 领 域 发 展 近 况 的 分 析,认 为 大 数 据 在 发 展 过 程 中,大 数 据 赋 予 预 测 未 来
的能力、带来巨大的变革和商机将成为各行业发展的 新 动 力,以 及 在 数 据 管 理、数 据 分 析、数 据 显 示 及 数 据 安 全 方
面 大 数 据 发 展 面 临 问 题 ,提 出 大 数 据 发 展 过 程 中 可 能 面 临 的 问 题 ,同 时 对 大 数 据 的 发 展 加 以 展 望 。
大数据的 快 速 化 描 述 的 是 数 据 分 析 和 处 理 的 速度。随着高性能 计 算 应 用 市 场 的 发 展 和 深 入,数 据的处理速 率 不 断 提 高,据 相 关 数 据 统 计,每 秒 钟 人们发送290 封 电 子 邮 件、亚 马 逊 处 理 72.9 笔 订 单;每分钟人们在 YouTube上传20小时的视频;每 月 人 们 总 共 在facebook 上 浏 览 7000 亿 分 钟 。
1 大数据
1.1 大 数 据 的 内 涵 在信息化 建 设 过 程 中,数 据 可 分 为 三 种 类 型:
结构化数据,非 结 构 化 数 据 和 半 结 构 化 数 据 。 [1] 其 中,80%的数据属于 企 业 业 务 过 程 中 产 生 的 非 结 构 化数据。对于大数 据 的 概 念,至 今 没 有 一 个 业 界 广 泛采纳的 明 确 定 义。 文 献 [2]中 提 出,大 数 据 是 指 无法在可容忍的时 间 内 用 传 统IT 技 术 和 软 硬 件 工 具对其进行感知、获 取、管 理、处 理 和 服 务 的 数 据 集 合;文献[3]中定义,大 数 据 包 含 那 些 由 于 迅 速 增 长
图 1 全 球 数 据 量 预 测
1.2.2 多 样 化 数据多样化的 形 成 主 要 有 两 方 面 原 因,一 是 数
据来源多,有 搜 索 引 擎、社 交 网 络、通 话 记 录、传 感 器、网络日志等等[5];二是数据格式多,有结构数 据, 半结构数据和非结构数据。 1.2.3 快 速 化
大数 据 具 有 4 个 关 键 特 征,分 别 是:海 量 化 (volume),多样化(variety),快速化(velocity),价 值 化 (value),也 称 4v 特 征 。 1.2.1 海 量 化
根据2013年3月1 日IDC 发 布 的 最 新 数 字 宇 宙研究报告 显 示,随 着 全 球 范 围 内 个 人 电 脑、智 能 手机等设备的普及,和 新 兴 市 场 内 不 断 增 长 的 互 联 网访问量,以及监控 摄 像 机 或 智 能 电 表 等 设 备 产 生 的数据爆增,使数字 宇 宙 的 规 模 在 最 近 两 年 翻 了 一 番,达到惊 人 的 2.8ZB。IDC 预 计,到 2020 年,数 字 宇 宙 规 模 将 超 出 预 期 ,达 到 40ZB。
朱 志 祥 (1959- ),男 ,博 士 ,教 授 ,从 事 信 息 安 全 研 究 。E-mail:zhuzhix@xupt.edu.cn
第 18 卷 第 5 期
李 芬 ,朱 志 祥 ,刘 盛 辉 :大 数 据 发 展 现 状 及 面 临 的 问 题
·101 ·
使得无法 通 过 现 有 的 数 据 库 管 理 工 具 进 行 管 理 的 大规模数据集;文献[4]中 指 出,大 数 据 是 在 数 据 单 位为 EB(1018Byte)甚 至 超 越 EB 的 范 围 并 且 超 越 当前在线存储系统和处理系统的能力的数 据量。 综上所述,大 数 据 是 来 源 于 交 易 数 据、交 互 数 据 及 传感数据的海量数 据 的 集 合,其 中 大 部 分 是 非 结 构 化数据,其规模和复 杂 度 都 超 越 现 有 常 用 技 术 能 够 处理的能力范围。 1.2 大 数 据 的 特 征
与数据分析相 比,很 多 用 户 往 往 更 关 心 数 据 结 果的显示。 传 统 的 以 文 本 形 式 输 出 结 果 或 者 直 接 在电脑终 端 上 显 示 结 果 的 方 法 在 面 对 小 数 据 量 或 许是很好的选择,但 是 对 于 形 式 复 杂 的 海 量 数 据 是 不可行的。 这 就 需 要 引 入 可 视 化 技 术 来 可 视 化 最 终甚至是中 间 的 计 算 结 果,此 外,还 需 要 人 机 交 互 技术或者数据 起 源 技 术[9],使 得 用 户 在 得 到 结 果 的 同时更好的理解结果的由来。 2.4 数 据 安 全
2.1 数 据 存 储 大数据发展面 临 的 问 题 是 来 自 不 同 地 方、不 同
标准、数据量大、多 种 结 构 形 式、实 时 性 等 多 样 化 要 求的数据 信 息。 这 些 问 题 无 疑 增 加 了 数 据 采 集 和 整合的困难,故此应 修 改 基 于 块 和 文 件 的 存 储 系 统 的 架 构 设 计 ,以 克 服 存 在 的 问 题 。 2.2 数 据 分 析
文献[10]中 举 了 一 例 是 如 何 用 挖 掘 分 析 暴 风 雨、干旱等自然灾害 数 据 的 方 法 去 预 测 安 哥 拉 霍 乱 的爆发,结果证明可 以 提 前 一 年 预 测 到 霍 乱 爆 发 的 蔓延。 3.2 巨 大 的 变 革 和 商 机
随着用户对大 数 据 价 值 的 认 可,各 行 业 巨 头 都 积极加大对大数据 的 投 资,随 之 而 来 的 便 是 巨 大 的 变革和商机。
数据分析 是 [6] 大 数 据 处 理 流 程 的 核 心,因 为 大 数据的价值就产生 于 分 析 的 过 程,但 是 它 同 样 带 来 了很大的挑战。首 先,数 据 量 大 带 来 更 大 价 值 的 同 时也带来了更多的 数 据 噪 音,在 进 行 数 据 清 洗 等 预 处理工作时 必 须 更 加 谨 慎,若 清 洗 的 粒 度 过 细,很 容易将有用 的 信 息 过 滤 掉,而 清 洗 的 粒 度 过 粗,又 无法达到理想的清 洗 效 果,因 此 在 质 与 量 之 间 需 要 进行仔细的考量和 权 衡,同 时 也 对 机 器 硬 件 和 算 法 都是严峻的 考 验[7]。 其 次,传 统 的 数 据 仓 库 系 统[8] 对处理时间的要求 并 不 高,而 在 很 多 大 数 据 应 用 场 景中,不仅 要 考 虑 算 法 的 准 确 性,还 要 考 虑 实 时 性 的要求。 2.3 数 据 显 示
ቤተ መጻሕፍቲ ባይዱ
关键词:大数据 ;数据量 ;数据分析
中 图 分 类 号 :TN919
文 献 标 识 码 :A
文 章 编 号 :2095-6533(2013)05-0100-04
The development status and the problems of large data
LI Fen, ZHU Zhixiang, LIU Shenghui
随着 互 联 网、云 计 算、物 联 网、社 交 网 络 等 技 术 的兴起 和 普 及,全 球 数 据 的 增 长 快 于 任 何 一 个 时 期,可以称 作 是 爆 炸 性 增 长,而 数 据 的 存 储 单 位 也 由 B,KB,MB,GB,TB 到 PB,EB,ZB,YB 不 断 扩 大。有关数据表明,过 去 3 年 人 类 的 信 息 数 据 总 量 比以往4万年的数据量还要多。如此大规模的数据 量已经无 法 在 允 许 的 时 间 内 用 常 规 的 软 件 工 具 对 其内容进行管理、分 析 和 处 理,但 是 另 一 方 面,数 据 规模越大,对 其 挖 掘 可 能 得 到 的 价 值 更 大,所 以 在 大数据发展的过程 中 问 题 与 展 望 是 并 存 的,本 文 就 大数据本身及其发 展 面 临 的 问 题 加 以 分 析,并 对 其 发展做以展望。
3 大数据展望
3.1 利 用 大 数 据 洞 察 未 来 从 2008 年 初 ,阿 里 巴 巴 通 过 对 用 户 行 为 数 据 的
挖掘和分析发现整 个 买 家 询 盘 数 极 具 下 滑,同 时 欧 美对中国采购也在下滑。他们提前半年时间准确 预 测 出 世 界 外 贸 经 济 走 势 ,从 而 躲 避 了 金 融 危 机 。
(Institute of Communications Technology,Xi’an University of Posts and Telecommunications,Xi’an 710061)
Abstract:After analysis of the development status of large data and its characteristics and appli- cations,it is concluded that large data will become the new power of the development of the in- dustry as large data has the ability to predict the future,to bring enormous change and opportuni- ties in the process of its development.The problems in data management,data analysis,data dis- playing and data security of large data are discussed.The future prospect is also proposed. Keywords:big data,data volume,data analysis
1.2.4 价 值 化 大数据的价值 化 是 指 大 数 据 的 价 值 巨 大,在 本
文第3部分将阐述到它在各个领域的价值实现。但 是其价值密 度 却 很 低,比 如 视 频 监 控,每 天 产 生 24 小 时 的 视 频 数 据 ,真 正 有 价 值 的 可 能 只 有 几 秒 钟 。
2 大数据发展面临的问题
收 稿 日 期 :2013-06-03 基 金 项 目 :工 业 和 信 息 化 部 通 信 软 科 学 基 金 资 助 项 目 (2013-R-43) 作 者 简 介 :李 芬 (1989- ),女 ,硕 士 研 究 生 ,研 究 方 向 为 大 数 据 处 理 。E-mail:lifenfen0902@163.com