大数据下数据预处理方法研究

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

关 键词 :大数 据 ;预 处理 ;脏 数据 ;研究
中圈分 类号 :TP301
文献标 识码 :A
文 章编 号 :1673—629X(2018)05—0001—04
doi:10.3969/j.issn.1673—629X.20l8.05.001
Research on Data Preprocessing M ethods for Big Data
摘 要 :大 数据 时代下 ,数 据类 型和组 织模 式 多 样化 、关联 关 系 繁 杂 、质 量 良莠 不 齐 等 内 在 的复 杂 性 使得 数 据 的感 知 、表
达 、理 解和 计算 等多个 环节 面 临着 巨大 的挑 战 。数 据预 处 理是 数 据 分析 、挖 掘 前 一个 非 常 重要 的 数据 准 备 工作 。一 方 面
它 可 以保证 挖掘 数据 的正 确性 和有 效性 ,另一 方 面通过 对 数据 格 式 和 内容 的 调整 ,使 数 据 更符 合 挖 掘 的需 要 。文 中分 析
了预处 理过 程 中的 主要任 务 ,总结 了 目前 针对 各类 “脏数 据 ”的几 种 常用 的处 理方 法 ,重 点 阐述 了数据 在 清 洗 、集 成 、变 换
和 归约 过程 中 的常用 算法 。通 过各 种预处 理方 法 ,清除冗 余 数 据 ,纠 正错 误 数据 ,完善 残 缺数 据 ,甄 选 出必 需 的数 据 进 行
集成,使得数据信息精练化 、数据格式一致化和数据存储集 中化 。在最精确、最可靠 的最小数据集合上进行数据挖掘,大
大 减少 了 系统挖Baidu Nhomakorabea 的开销 ,提高 了知识 发 现 的准确性 、有 效性 和实用 性 。
justment ofthedataformat andcontentmakes date meetthe deman dof mining.Weanalyzethemaintasksof datapreproces ̄ng and sum—
msllze several p o pular processing methods for han dling various kinds of “dirty data”.The algorithms of data cleaning,integration,U'ans- formation and reduction are di scussed in detail.Using such kinds ofpreprec essing methods,we can remove redundant and errorda ta ,im-
KONG Qin,YE Chang-qing,SUN Yun (Nanjing University,Nanjing 210089,China)
Abstract:In the ell a ofbig data,it is an enormous challenge about data perception,expression,understanding an d computing due to the in— herent comp ̄xi【y of data type,organizat ion patter n ,diferent r elations a n d d a t a quality.Data preprocessing is a very important pr eparation before d a ta analysis and mining.Onthe one hand,it ensuresthe correctnessan d efectivenessof da ta TIIilIing.On the other han d,the ad-
1 研究背景
大数据环境下 ,来 自异构 系统 的原始数 据 中存 在 若干 问题 :
(1)杂乱性 。原始数据是从 各个实 际应用 系统 中 获取 的,由于各应用系统的数据缺乏统一标准的定义 , 数据结构也有较大 的差异 ,因此 各系 统间 的数据存 在 较大 的不一致性 ,往往不能直接拿来使用 。
O 引 言 大数据 中蕴含 的宝贵价值 成为人们存储和处理大
数据 的驱 动力 。在 《大 数 据时代 》一 书 中指 出 了大数 据时代处理数据理念 的三大转变 ,即要全体不要抽样 , 要效率不要绝对 精确 ,要相关 不要 因果 。海量 数据 的处理对 于当前存 在 的技 术来 说是一 种极 大 的挑战 。 大数据 的涌现使人们处理计算 问题 时获得 了前所未有 的大规模样本 ,但 同时也不 得不 面对更 加 复杂 的数据 对象 。数据预处理作 为数 据分 析 、挖 掘前 的重要 数据 准备工作 ,可 以保证数据挖 掘结果的准确性和有效性 。
prove the i ncomplet e data,pmmo ̄ the required data integration,help data refinement and data consistency of centralized storage.We also
Can gettheminim um a n d the most reliable dataset necessaryforthemining system.Italso reducesthe cost ofdata mi ningan d improves the accur ̄ y,validity an d practicability of knowledge discovery. Key words:b ig d a t a;Ineprocessin8:;dh ̄y da ta ;research
第 28卷 第 5期 2018年 5月
计 算 机 技 术 与 发 展
COMPU IER IECHNOLOGY AND DEVELOPMENT
Vo1.28 NO.5 Mav 2O18
大 数 据 下数 据 预 处 理 方 法 研 究
孔 钦 ,叶长青 ,孙 赘
(南京大学,江苏 南京 210089)
相关文档
最新文档