大数据思维_邬贺铨

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
《科 学 与 社 会 》(S&S)

聚焦大数据
大数据思维
邬贺铨
(中 国 工 程 院 )
摘要:互联网 特 别 是 移 动 互 联 网 的 发 展, 加快了信 息 化 向 社 会 经 济 各 方 面、大 众 日 常 生活的渗 透,使 人 们 更 加 感 受 到 大 数 据 的 来 势 迅 锰 ,由 此 催 化 生 了 对 大 数 据 开 发 的 需 求 。 本 文 介 绍 了 大 数 据 产 生 的 背 景 、意 义 及 内 涵 , 并举例说明了大数据思维的应 用 领域 与效 果 ,讨 论 了作 者 简 介 :邬贺铨,中国工程院院士,光纤传送网与宽带信息网专家。研究方向为数字通信技 术 研 究。
2 《科学与社会》(S&S)
全球新产生的数据年增40%,全球信息总量每两年就可以翻 番。2011 年全球新产生和复制的数据量达到1.8ZB(ZB 即一千 EB 或百万 PB)[2],如 果用一个 内 存 为 32GB 的iPod来 存 的 话,数 量 需 要 575 亿 个,足 以 砌 起 两 座长城[3],由此可见大数据 时 代 已 经 到 来。 全 球 的 数 据 总 量 是 由 无 数 的 数 据集构成的,从数据来源分类,可 分 为 社 会 的 数 据、通 过 传 感 器 收 集 的 来 自 物理空间的数据和网络空间 的 数 据。 社 会 数 据 包 括 政 府 数 据,例 如 国 家 税 务总局每月收集全国数据4TB,已集中的结构化 数 据 为 260TB。 传 感 器 收 集的数据包括空客飞机等。空 客 飞 机 装 有 大 量 传 感 器,每 个 引 擎 每 飞 行 小 时产生20TB,一架飞机四个引擎,从伦敦到纽约每次飞行产生 640TB 级数 据 。 [4] 网络数据可细分为三类,自媒体数据,包括在社交网络、博客、微 博 等 应用中的用户生成数据;日志 数 据,包 括 搜 索 引 擎、运 营 商、网 购 服 务、金 融 服务等网络服务所产生的用户 行 为、交 易 等 日 志 数 据;富 媒 体 数 据,包 括 文 本、音视频、图片、文字等。淘宝单日 产 生 的 日 志 数 据 量 超 过 50TB,存 储 量 40PB。服务行业也会累计大量的日志数据,例如国家电网公司年均产生 数 据510TB(不 含 视 频 ),目 前 累 计 数 据5PB。 医 疗 业 也 是 数 据 密 集 行 业 ,广 州 中山大学第一附属医院2008年所 存 的 数 据 就 超 过 100TB,预 计 2015 年 将 超过 PB 级。
关 键 词 :大 数 据 思 维 ,内 涵 ,应 用 领 域 ,误 区
一、大数据的内涵
近 年 来 伴 随 着 不 少 国 家 的 宽 带 化 战 略 的 实 施 、云 计 算 服 务 的 起 步 、物 联 网 应 用 的 铺 开 和 移 动 互 联 网 的 崛 起 ,数 据 量 与 时 俱 增 ,数 据 处 理 能 力 也 发 展 迅 速 ,数 据 量 积 累 到 一 定 程 度 其 资 源 属 性 越 加 明 晰 ,显 示 出 开 发 的 价 值 。 同 时,社会的节奏越来越快,要求 快 速 的 反 应 和 精 细 的 管 理,急 需 借 助 对 数 据 的分析来科学决策,催 生 了 对 大 数 据 开 发 的 需 求,大 数 据 被 称 为 将 引 发 生 活 、工 作 和 思 维 变 革 的 一 次 革 命 。[1]
第4卷 第1期 2014年 3
需 要 指 出 的 是 ,虽 然 数 据 规 模 与 数 据 挖 掘 得 到 的 价 值 之 间 有 相 关 性 ,但 两者难以用线性关系表达。这 取 决 于 数 据 的 价 值 密 度,同 一 事 件 的 不 同 的 数据集即便有相同的规模(例如 对 同 一 观 察 对 象 收 集 的 长 时 间 稀 疏 数 据 和 短 时 间 密 集 数 据 )其 价 值 也 可 能 相 差 很 多 ,因 为 数 据 集 “含 金 量 ”不 同 。 总 的 来说,大数据的价值密度低,大 数 据 中 多 数 数 据 可 能 是 重 复 的,忽 略 其 中 一 些数据并不影响对其挖掘的结 果,只 有 足 够 规 模 的 有 意 义 的 数 据 其 价 值 才 能聚沙成塔,数据挖掘的过程是 大 海 捞 针 或 沙 里 淘 金,历 经 去 粗 存 精、去 伪 存真、拨云见日、由表及里到最 后 水 落 石 出,正 因 为 大 数 据 所 蕴 含 的 规 律 或 本质不容易得到,物以稀为 贵,才 显 示 出 大 数 据 的 价 值。 从 这 一 意 义 上 看, 仅仅用难处理的数据集来定义 大 数 据 是 不 够 的,应 该 强 调 的 是 处 理 所 能 获 得 的 结 论 的 可 信 度 而 不 是 处 理 的 难 度 ,即 大 数 据 是 指 其 规 模 大 到 (或 变 量 复 杂 到 )从 中 可 以 挖 掘 出 符 合 事 物 发 展 规 律 性 的 数 据 集 。
大 数 据 还 是 一 个 新 学 科 ,大 数 据 技 术 是 指 设 计 用 于 高 速 收 集 、发 现 和 分 析从多种类型的大规模数据中提取经济价值的新一代技术和体系。涉及数 据 存 储 、合 并 压 缩 、清 洗 过 滤 、格 式 转 换 、统 计 分 析 、知 识 发 现 、可 视 呈 现 、关 联 规 则 、分 类 聚 类 、序 列 路 径 和 决 策 支 持 等 技 术 。
二、大数据思维在各领域的应用
以 下 列 举 一 些 大 数 据 的 应 用 例 子 ,从 中 可 以 看 出 大 数 据 是 资 源 ,利 用 大 数据所积累的信息找出网民的 情 绪 与 宏 观 经 济 的 关 联,利 用 顾 客 的 购 物 行 为 分 析 顾 客 类 型 ,利 用 企 业 交 易 行 为 建 立 诚 信 记 录 ,利 用 历 史 统 计 的 规 律 来 预测未来。大数据是 方 法 论,基 于 数 据 密 集 型 科 学 可 用 类 比 来 简 化 求 解。 总 之 ,大 数 据 思 维 可 以 应 用 到 各 行 各 业 。
大 数 据 将 带 动 起 大 数 据 产 业 和 市 场 ,包 括 服 务 器 、存 储 器 、联 网 设 备 、软 件 (数 据 组 织 与 管 理 软 件 、分 析 与 发 现 及 可 视 化 软 件 、决 策 支 持 软 件 等 )与 服
4 《科学与社会》(S&S)
务 (按 照 云 计 算 的 观 点 可 将 大 数 据 服 务 业 分 为 数 据 存 储 服 务 、数 据 软 件 的 开 发工具平台服 务、数 据 分 析 软 件 平 台 服 务 和 提 供 数 据 分 析 解 决 方 案 的 服 务)。国外咨询公司 Wikibon 认 为 全 球 2013 年 的 大 数 据 产 值 为 186 亿 美 元,年增 58%,其 中 硬 件、软 件 和 服 务 分 别 占 产 值 的 38%、22% 和 40% ①。 但 硬 件 、软 件 和 服 务 三 者 之 和 也 仅 仅 是 狭 义 的 大 数 据 产 业 ,通 过 大 数 据 挖 掘 的服务,大数据应用到各行各业,提 升 生 产 效 率 支 撑 节 能 降 耗,促 进 经 济 发 展,因此广义的大数据 产 业 的 产 值 或 者 说 对 GDP 的 贡 献 更 多 的 体 现 在 工 业 、农 业 、交 通 运 输 、建 筑 等 行 业 ,麦 肯 锡 公 司 就 预 测 大 数 据 能 使 制 造 业 装 配 成 本 降 低 50% ,零 售 业 增 加 60% 的 利 润 。 事 实 上 大 数 据 的 分 析 在 社 会 治 理 和民生服务上的效益也很显著,这 不 是 简 单 的 用 GDP 可 以 衡 量 的,麦 肯 锡 估计对医疗和公共管理分 别 可 获 得 年 度 收 益 数 千 亿 美 元[6],可 见 广 义 的 大 数据产业百倍于狭义的大数据产业。麦肯锡公司还预见开放数据将在全球 教育、运输、消 费 产 品、电 力、油 气、保 健 和 消 费 者 财 务 这 7 个 领 域 释 放 3.2 -5.4万亿美元的经济价值 。 [7] 总之,大数 据 服 务 业 属 性 大 于 制 造 业,对 其 他产业的影响大于对直接产 业 的 影 响,社 会 效 益 大 于 直 接 经 济 效 益。 大 数 据影响之大和受到广泛重视也正是因其溢出效应明显。
大 数 据 不 仅 是 一 种 资 源 ,也 是 一 种 方 法 ,伴 随 大 数 据 产 生 数 据 密 集 型 科 学 ,有 人 将 它 称 为 是 继 实 验 科 学 、理 论 科 学 和 计 算 科 学 之 后 的 第 四 种 科 学 研 究模式[5],这一研究 模 式 的 特 点 表 象 为 不 在 意 数 据 的 杂 乱,但 强 调 数 据 的 量 ;不 要 求 数 据 精 准 ,但 看 重 其 代 表 性 ;不 刻 意 追 求 因 果 关 系 ,但 重 视 规 律 总 结 。 这 一 模 式 不 仅 用 于 科 学 研 究 ,更 多 的 会 用 到 各 行 各 业 ,成 为 从 复 杂 现 象 中透视本质的有用工具。有人担心从大数据中发现事物发展规律并预测未 来 的 做 法 强 调 了 有 章 可 循 ,可 能 会 妨 碍 创 新 。 事 实 上 检 验 技 术 创 新 、商 业 模 式 创 新 还 是 管 理 创 新 ,不 是 看 是 否 使 用 新 的 模 式 或 颠 覆 性 技 术 ,而 是 看 应 用 领域的开拓和市场上的引领,成 功 的 重 要 因 素 正 是 符 合 客 观 规 律。 苹 果 公 司 注 意 到 黑 莓 手 机 作 为 第 一 款 智 能 终 端 的 潜 力 ,苹 果 公 司 的iPhone用 触 摸 屏代替键盘并开发了 App Store应用商店,完善了移动互联网的产业链,开 创了移动智能终端时 代,方 便 了 用 户 的 使 用,顺 应 并 引 导 移 动 互 联 网 的 发 展 ,这 是 大 数 据 思 维 与 创 新 文 化 结 合 的 范 例 。
大数据是相对 于 一 般 数 据 而 言 的,目 前 对 大 数 据 尚 缺 权 威 的 严 格 定 义 ,但 较 普 遍 的 解 释 是 指 “难 以 用 常 规 的 软 件 工 具 在 容 许 的 时 间 内 对 其 内 容 进行抓取、管理和处理的数据 集 合”。 规 模 大 是 大 数 据 的 标 志 之 一,但 大 数 据之所以难处理不仅在于规模 大,更 大 的 挑 战 是 其 随 时 间 的 变 化 快 和 类 型 的多样性,根据可否用表格或关 系 数 据 库 的 表 和 视 图 来 表 示 而 区 分 为 结 构 型和非结构型数据,照片和视 频 等 就 是 典 型 的 非 结 构 数 据。 随 时 间 和 类 型 的变化增加了大数据的复杂性 但 也 同 时 丰 富 了 大 数 据 的 内 涵。 通 常 用 4V (Volume、Velocity、Variety,Value)来反映大数据的特征,即量大、增长 快、 多样性和高价值。从这一点来看,对 大 数 据 仅 仅 冠 以 “大”这 一 形 容 词 是 不 全面的,只不过在大数据的4V 中,规模相对于变化和类型这两个特征容易 定 量 ,而 且 即 便 是 单 一 类 型 的 数 据 集 (例 如 文 本 文 件 ),只 要 有 足 够 的 规 模 也 能称得上大数据。数据的规模 越 大,通 常 对 数 据 挖 掘 所 得 到 的 事 物 演 变 规 律 越 可 信 ,数 据 分 析 的 结 果 也 越 有 代 表 性 ,因 此 对 大 数 据 这 一 词 汇 突 出 其 规 模大这一特征也是可理解的。
相关文档
最新文档