“一图胜千言”,数据清洗的5个基本流程

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

“⼀图胜千⾔”,数据清洗的5个基本流程
如今,越来越多企业都开展了数据分析⼯作,因此不管从事什么⾏业、什么岗位,拥有⼀定的数据分析能⼒在职场中都是“⾹饽饽”⼀样的存在。

现在有很多⼈都有想要学习数据分析知识的⼼,但还没有找到数据分析的“路”,不知道应该从何学起。

今天⼩编就带⼤家来了解⼀个很基础但也⽐较冷门的知识点——。

虽然数据清洗被提及的频率不如数据分析、数据挖掘、数据可视化等词⾼,但并不代表它就不重要喔,数据清洗也是整个数据分析过程中不可或缺的⼀环。

提到数据清洗,你最先想到什么问题?“数据清洗是什么”、“数据清洗想要洗掉什么”、“数据清洗的基本流程”……接下来⼩编会围绕这3个问题开始今天的话题。

⼀、数据清洗是什么
数据清洗,顾名思义就是将要⽤到的数据中重复、多余部分的数据进⾏筛选并清除;把缺失部分补充完整,并将不正确的数据纠正或者删除。

最后整理成可以进⼀步加⼯、使⽤的数据。

⼆、数据清洗想要洗掉什么
从上⾯数据清洗的概念就可以⼤概知道数据清洗是在清洗什么了,洗掉的就是数据库中的“脏”数据。

“脏数据”,即数据库中残缺、错误、重复的数据。

数据清洗,旨在提⾼数据的质量、缩⼩数据统计过程中的误差值。

三、数据清洗的基本流程
“⼀图胜千⾔”,直接上⼀张数据清洗的路径图,是不是⼀⽬了然啦!
1、对缺失值进⾏清洗
数据清洗第⼀步,对缺失值进⾏清洗。

缺失值是⾮常常见的数据问题,它的处理⽅法也很多。

下⾯分享⼀种很常⽤的⽅法,⾸先是明确缺失值的范围:对每个字段进⾏计算其缺失值⽐例,并按照缺失⽐例和字段重要性,分别制定策略。

2、去除不需要的字段
这个步骤⾮常简单,直接删掉即可。

这⾥有⼀个点注意,就是记得先对数据进⾏备份,或者先进⾏⼩规模的数据实验,确定⽆误后在应⽤到⼤量的数据上。

这样做是为了避免“⼀误删成千古恨”。

3、填充缺失内容
填充缺失数据有3种⽅法,分别是以业务知识/经验推测进⾏填充、以同⼀个指标计算的结果进⾏填充、以不同的指标计算的结果进⾏填充。

4、重新取数
重新取数是针对那些指标重要但缺失率⼜较⾼的数据,这需要向取数⼈员或是业务⼈员进⾏资讯,或者从其他渠道取到相关数据。

5、关联性验证
如果数据的来源较多,就有必要进⾏关联性验证。

数据清洗可以借助专业的BI⼯具来进⾏,思迈特软件Smartbi就很值得推荐。

思迈特软件Smartbi采⽤的是分布式的计算架构,单节点⽀持多线程,处理海量数据没有压⼒,能有效提⾼数据处理的性能。

强⼤的数据处理功能不仅⽀持异构数据,还内置排序、去重、映射、⾏列合并、⾏列转换聚合、去空值等等数据预处理功能。

相信⼤家现在对数据清洗已经有了⼀定的了解了,感兴趣的⼩伙伴可以去找些BI⼯具来试验⼀下,去真实的感受⼀番喔~。

相关文档
最新文档