大数据的数据清洗方法研究

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

0 引言
随着移动互联网的发展,移动大数据已经成为业界最热 点 的 问 题 之 一 。面 对 移 动 互 联 网 业 务 的 冲 击 ,充 分 挖 掘 移 动 大 数 据 价 值 ,对 于 提 升 移 动 用 户 服 务 质 量 ,降低 系 统 运 营 成 本 具有重要意义。对大数据进行采集、存取、统计、分析、挖 掘 、 模 型 预 测 、结 果 呈 现 ,可 以 获 取 深 入 、有 价 值 的 信 息 。通 过 分 析 海 量 移 动 信 令 数 据 ,电 信 运 营 商 能 够 分 析 并 挖 掘 用 户 行 为 、 用 户 爱 好 、用 户 社 交 关 系 等 关 键 信 息 ,提 升 用 户 感 知 ,提 髙 运 营效率,提 升 A R PU 值 。通过对移动大数据的分析和挖掘,能 够 提 升 终 端 感 知 ,并为用户换机推荐提供强有力的数据支持<«
1 基于函数依赖的数据清洗方法
在 大 数 据 管 理 中 ,基 于 函 数 依 赖 的 数 据 清 洗 方 法 ,其 核 心 思 想 在 于 :根 据 字 段 的 定 义 、属 性 、值 域 等 对 字 段 进 行 语 义 分 析 ,然后发现隐藏在字段间的关联关系,并进一步得到数据集 中的字段存在的函数依赖关系,基于函数依赖能够发现数据
步骤1
步骟2
步骝3
步骤4
步骤5
图 1 基于函数依赖的数据清洗方法步骤
Biblioteka Baidu
不 必 要 资 源 的 浪 费 ,使 得 施 工 过 程 中 的 人 员 调 配 以 及 各 项 资 源得以合理使用。
总 之 ,信 息 化 时 代 的 到 来 带 动 了 通 信 工 程 项 目 的 飞 速 发 展 ,同时也对通信工程项目的管理提出了更髙的要求•由于 通 信 工 程 项 目 自 身 的 特 点 ,使 得 对 其 进 行 管 理 应 区 别 于 普 通 的 工 程 项 目 。因 此 文 章 引 入 了 网 络 设 计 图 优 化 方 法 ,分 别 从 成本、时间和资源优化等角度探讨了通信工程项目的项目优 化管理方式,从而有效降低工程项目施工成本,缩短施工周期, 确 保 工 程 项 目 能 够 达 到 预 期 目 标 ,进 而 带 动 社 会 经 济 的 进 一 步发展。
洗 方 法 ,可 补 全 缺 失 数 据 、修 正 错 误 数 据 、消除重 复 值 、修 复 异 常 数 据 ,达 到 数 据 质 量 提 升 的 目 的 。
关键词:客户感知;终端;移动互联网;抓 包 ;网络质量
中图分类号:TP311
文 献 标 识 码 :A
文 章 编 号 :1673-1131(2017)01-0238-02
集 中 的 不 一 致 值 问 题 ,能 够 发 现 隐 藏 的 噪 声 数 据 ;然 后 根 据 函 数依赖关系对数据集中的不一致值和缺失值进行清洗和修复, 清 洗 效 果 好 ,准 确 率 髙 。基 于 字 段 间 的 函 数 依 赖 关 系 还 可 以 发 现 可 信 度 较 低 的 字 段 ,通 过 分 析 可 信 度 低 的 原 因 并 反 馈 至 数 据 采 集 阶 段 ,可 以 从 数 据 源 处 减 少 噪 声 数 据 。 1.1数据清洗方法描述
的是不准确甚至错误的结论。这些噪声数据在不同的预测场 景中将不同程度地影响到数据的质量和预测分析的结果,这对 后期数据分析和数据挖掘都是不利的。因此在数据分析和数 据挖掘前,需要对数据进行预处理。数据清洗作为数据预处理 的关键- # ,通过相关技术对脏数据进行清洗和修复,可以提升 数据质量,进而提髙数据挖掘和预测分析的准确性和髙效性。
移 动 Gn 口数据中就存在数据质量问题,如数据缺失、数
据 错 误 、数 据 重 复 、数 据 异 常 等 。基 于 此 ,本 文 提 出 一 神 基 于 函数依赖的数据清洗方法,可以补全缺失数据、修正错误数据、 消 除 重 复 值 、修 复 异 常 数 据 ,达 到 数 据 质 量 提 升 的 目 的 。
[4]
何鹏.通信工程项目中的网络优化技术研究m .无线互联
科技,2015(3):1-2.
信息通信
基于函数依赖的数据清洗方法,共包括5 个步骤,如 图 1 所 示 ,相关描述如下:
步 骤 1:数据筹备,即:根据待清洗的数据特征,有针对性 地 建 立 数 据 库 ,获 取 存 在 数 据 质 量 问 题 的 待 清 洗 数 据 ,通 过 数 据 库 优 化 等 操 作 ,得 到 原 始 数 据 集 。
摘 要 :降 低 运 营 成 本 ,提 升 企 业 收 入 ,一 直 都 是 企 业 管 理 层 关 心 的 重 点 。 大 数 据 的 思 维 ,为企业的运营提供了彳艮好的思
路 。在各类大数据项目中,數据的清洗成为新的焦点,如何快速高效去掉脏数据、对有用数据进行恢复、提升数据质量,
对 大 数 据 项 目 的 正 常 运 营 具 有 重 要 影 响 。基 于 当 前 各 类 数 据 清 洗 中 存 在 的 不 足 ,文 章 提 出 一 种 基 于 函 数 依 赖 的 数 据 清
2017年 第 1 期 (总第 169 期)
信息通信 INFORMATION & COMMUNICATIONS
2017 (Sum. No 169)
大数据的数据清洗方法研究
谭 晖 S 摩 振 松 、周 小 翠 S 贺 凡 2
(1.中国移动通信集团湖北有限公司,湖北武汉,430023;2.北京协成致远网络科技有限公司,北京,100036)
然而由于大数据在采集和导入过程中容易引入不满足数 据质量要求的数据,即噪声数据。异常数据、不一致数据、重复
数 据 、缺 失 数 据 等 ,都属 于 噪 声 数 据 。根 据 “Gaibagel^Garbage Out" 的原理,对 不 满 足 数 据 质 觀 求 的 数 据 进 行 分 析 预 测 ,得到
238
参考文献:
[ 1 ] 赵振洋.浅析通信工程项目的网络优化[J].办公室业务,
2016 C10):174+192.
[ 2 ] 顾占明.对通信工程项目的网络优化之我见[J].科技与企
业,2013(2):63,
[ 3 ] 刘国庆.论通信工程项目中的网络优化[J].科学中国人,
2015C14):27.
相关文档
最新文档