数据清洗方法20161020
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
ຫໍສະໝຸດ Baidu
……
三、数据清洗规则
(三)指标值之间逻辑关系异常 1.务工状况为“非务工”,务工时间不为0 2.贫困户无务工人员,却有工资性收入 3.贫困人口丧劳,有外出务工情况
三、数据清洗规则
(三)指标值之间逻辑关系异常 4.年收入逻辑关系异常 5.人均纯收入逻辑关系异常 6.低保贫困户无低保金
三、数据清洗规则
(五)贫困户、贫困人口重复
(1)姓名不一致,如:王思妍,王恩妍
(2)性别不一致
(3)文化程度不一致
(4) ……
三、数据清洗规则
(五)贫困户、贫困人口重复 (5)多省交界处,户籍地混乱
三、数据清洗规则
(6)仅“识别标准”不同 (7)仅“家庭人员数量”不同 (8)家庭成员互为户主
(9)拆户分户情况
(10)嫁娶、改嫁,户口迁移情况
主要致贫原因为“因病”。
三、数据清洗规则
(四)业务逻辑关系异常 4.返贫户在上一年度贫困户属性非“已脱贫” 5.贫困户空挂 7.脱贫户人均纯收入低于国家贫困标准
8.年龄在16-60周岁的健康人口劳动能力为“丧劳”
9.五保户(含五保贫困户、五保农户)存在年龄在16-60
周岁的劳动力
三、数据清洗规则
要求。
一、数据清洗工作流程
二、数据清洗内容 三、数据清洗规则
目录
四、数据清洗策略
五、证件号码清洗报告
一、数据清洗工作流程
二、数据清洗内容 (一)必录项及重要指标项空缺 (二)指标值异常 (三)指标值之间逻辑关系异常 (四)业务逻辑关系异常 (五)贫困户、贫困人口重复
三、数据清洗规则
(一)必录项及重要指标项空缺 1.贫困户识别标准为空 2.贫困户属性为空 3.主要致贫原因为空 4.脱贫状态标识为空 5.行政区划为空 6.证件号码为空
2.基层扶贫部门采集录入
五、证件号码清洗报告
(一)清洗内容 1.证件号码重复 2.证件号码有误 3.证件类型值异常
4.证件类型与证件号码不符
五、证件号码清洗报告
(二)清洗规则 1.证件号码重复 2.证件号码包含空字符 3.证件号码位数非15、18、20位
4. 18位身份证是否符合校验规则
5. 20位残疾证是否符合校验位及残疾类型、等级规则
字符,然后再进行一轮数据清洗处理
五、证件号码清洗报告
(五)清洗策略 1.证件号码清洗 (4)非15、18、20位的证件号码,除中国人民解放军军 官证以外,其他证件类型的证件号码,提取问题数据逐级
下发,前台核实修改
(5)15位证件号码,需升级为18位,将问题数据逐级下
发,前台采集补录
五、证件号码清洗报告
三、数据清洗规则
(一)必录项及重要指标项空缺 7.文化程度为空 8.健康状况为空 9.劳动技能为空
10.务工状况为空
11.在校生情况为空
……
三、数据清洗规则
(二)指标值异常 1.证件号码不符合校验规则 2.其他致贫原因超过两项 3.出生日期与身份证号中的出生日期不符
三、数据清洗规则
(二)指标值异常 4.务工时间不符合指标采集规范 5.人均纯收入为0或超5位数 6.与村主干路距离超过50公里
(五)清洗策略 1.证件号码清洗 (6)对于证件号码为18、20位的错误数据,证件号码中 第18位校验码应为“X”,但原采集录入为“x、全角X
、*、×”等字符的,可通过后台批量处理,统一替换为
英文半角大写X;其他情况需提取问题数据逐级下发,由
基层扶贫部门核实后在前台修改
五、证件号码清洗报告
(五)清洗策略 2.证件类型清洗 (1)证件类型为空的,如果证件号码符合身份证和残疾 人证校验规则,可以通过后台批量处理;否则逐级下发问
6.证件类型为空或非指标体系代码项
7.证件类型与证件号码不符
五、证件号码清洗报告
(五)清洗策略 1.证件号码清洗 (1)证件号码重复的,提取问题数据并提供修改建议 ,逐级下发,由基层扶贫部门核实后在前台修改
(2)证件号码未采集的(空值),将问题数据逐级下
发,由基层扶贫部门进行前台采集补录
(3)证件号码包含空字符的,首先从后台批量剔除空
(三)指标值之间逻辑关系异常 7. “与户主关系”和“性别”不符 8.贫困户“家庭人数”与实际人口数不符 9.贫困户存在多个户主 10. 残疾人无残疾证
三、数据清洗规则
(四)业务逻辑关系异常 1.贫困户家庭无在校生,主要致贫原因为“因学” 2.贫困户家庭无残疾人,主要致贫原因为“因残” 3.贫困户家庭成员健康状况全部为“健康”,
题数据,通过前台采集补录
(2)证件类型非指标体系代码项的数据,如指标值记录
为“1”的数据,且证件类型确应为“居民身份证(户口
簿)”,通过后台批量处理,统一将证件类型修改为
“01”
五、证件号码清洗报告
(五)清洗策略 3.证件类型与证件号码不符 (1)已通过身份证规则校验的18位证件号码,若证件类 型为“残疾人证” ,且健康状况为“残疾” ,属残疾人
无残疾证范畴,与残联进行比对后更新。其他情况,统一
批量修改为“居民身份证(户口簿)”
(2)已通过残疾证规则校验的20位证件号码,证件类型
批量修改为“残疾人证”,健康状况修改为“残疾”
五、证件号码清洗报告
(六)清洗结果检查 在数据清洗工作结束后,对证件号码进行抽查,并通 过证件号码清洗规则对数据进行排查,重新进行数据抽取 、数据质量评估等工作,直至数据质量满足数据分析质量
四、数据清洗策略
(一)后台批量处理
1.指标值含有空字符
2.指标值含有特殊字符
3.非指标体系代码选项
4.指标值间存在逻辑关系,
如错误出生日期可从正确身份证中提取
并做更新处理
四、数据清洗策略
(二)前台核实修改
1.提取待清洗数据逐级下发
2.基层扶贫部门核实修改
(三)前台采集补录
1.将应填未填项逐级下发
……
三、数据清洗规则
(三)指标值之间逻辑关系异常 1.务工状况为“非务工”,务工时间不为0 2.贫困户无务工人员,却有工资性收入 3.贫困人口丧劳,有外出务工情况
三、数据清洗规则
(三)指标值之间逻辑关系异常 4.年收入逻辑关系异常 5.人均纯收入逻辑关系异常 6.低保贫困户无低保金
三、数据清洗规则
(五)贫困户、贫困人口重复
(1)姓名不一致,如:王思妍,王恩妍
(2)性别不一致
(3)文化程度不一致
(4) ……
三、数据清洗规则
(五)贫困户、贫困人口重复 (5)多省交界处,户籍地混乱
三、数据清洗规则
(6)仅“识别标准”不同 (7)仅“家庭人员数量”不同 (8)家庭成员互为户主
(9)拆户分户情况
(10)嫁娶、改嫁,户口迁移情况
主要致贫原因为“因病”。
三、数据清洗规则
(四)业务逻辑关系异常 4.返贫户在上一年度贫困户属性非“已脱贫” 5.贫困户空挂 7.脱贫户人均纯收入低于国家贫困标准
8.年龄在16-60周岁的健康人口劳动能力为“丧劳”
9.五保户(含五保贫困户、五保农户)存在年龄在16-60
周岁的劳动力
三、数据清洗规则
要求。
一、数据清洗工作流程
二、数据清洗内容 三、数据清洗规则
目录
四、数据清洗策略
五、证件号码清洗报告
一、数据清洗工作流程
二、数据清洗内容 (一)必录项及重要指标项空缺 (二)指标值异常 (三)指标值之间逻辑关系异常 (四)业务逻辑关系异常 (五)贫困户、贫困人口重复
三、数据清洗规则
(一)必录项及重要指标项空缺 1.贫困户识别标准为空 2.贫困户属性为空 3.主要致贫原因为空 4.脱贫状态标识为空 5.行政区划为空 6.证件号码为空
2.基层扶贫部门采集录入
五、证件号码清洗报告
(一)清洗内容 1.证件号码重复 2.证件号码有误 3.证件类型值异常
4.证件类型与证件号码不符
五、证件号码清洗报告
(二)清洗规则 1.证件号码重复 2.证件号码包含空字符 3.证件号码位数非15、18、20位
4. 18位身份证是否符合校验规则
5. 20位残疾证是否符合校验位及残疾类型、等级规则
字符,然后再进行一轮数据清洗处理
五、证件号码清洗报告
(五)清洗策略 1.证件号码清洗 (4)非15、18、20位的证件号码,除中国人民解放军军 官证以外,其他证件类型的证件号码,提取问题数据逐级
下发,前台核实修改
(5)15位证件号码,需升级为18位,将问题数据逐级下
发,前台采集补录
五、证件号码清洗报告
三、数据清洗规则
(一)必录项及重要指标项空缺 7.文化程度为空 8.健康状况为空 9.劳动技能为空
10.务工状况为空
11.在校生情况为空
……
三、数据清洗规则
(二)指标值异常 1.证件号码不符合校验规则 2.其他致贫原因超过两项 3.出生日期与身份证号中的出生日期不符
三、数据清洗规则
(二)指标值异常 4.务工时间不符合指标采集规范 5.人均纯收入为0或超5位数 6.与村主干路距离超过50公里
(五)清洗策略 1.证件号码清洗 (6)对于证件号码为18、20位的错误数据,证件号码中 第18位校验码应为“X”,但原采集录入为“x、全角X
、*、×”等字符的,可通过后台批量处理,统一替换为
英文半角大写X;其他情况需提取问题数据逐级下发,由
基层扶贫部门核实后在前台修改
五、证件号码清洗报告
(五)清洗策略 2.证件类型清洗 (1)证件类型为空的,如果证件号码符合身份证和残疾 人证校验规则,可以通过后台批量处理;否则逐级下发问
6.证件类型为空或非指标体系代码项
7.证件类型与证件号码不符
五、证件号码清洗报告
(五)清洗策略 1.证件号码清洗 (1)证件号码重复的,提取问题数据并提供修改建议 ,逐级下发,由基层扶贫部门核实后在前台修改
(2)证件号码未采集的(空值),将问题数据逐级下
发,由基层扶贫部门进行前台采集补录
(3)证件号码包含空字符的,首先从后台批量剔除空
(三)指标值之间逻辑关系异常 7. “与户主关系”和“性别”不符 8.贫困户“家庭人数”与实际人口数不符 9.贫困户存在多个户主 10. 残疾人无残疾证
三、数据清洗规则
(四)业务逻辑关系异常 1.贫困户家庭无在校生,主要致贫原因为“因学” 2.贫困户家庭无残疾人,主要致贫原因为“因残” 3.贫困户家庭成员健康状况全部为“健康”,
题数据,通过前台采集补录
(2)证件类型非指标体系代码项的数据,如指标值记录
为“1”的数据,且证件类型确应为“居民身份证(户口
簿)”,通过后台批量处理,统一将证件类型修改为
“01”
五、证件号码清洗报告
(五)清洗策略 3.证件类型与证件号码不符 (1)已通过身份证规则校验的18位证件号码,若证件类 型为“残疾人证” ,且健康状况为“残疾” ,属残疾人
无残疾证范畴,与残联进行比对后更新。其他情况,统一
批量修改为“居民身份证(户口簿)”
(2)已通过残疾证规则校验的20位证件号码,证件类型
批量修改为“残疾人证”,健康状况修改为“残疾”
五、证件号码清洗报告
(六)清洗结果检查 在数据清洗工作结束后,对证件号码进行抽查,并通 过证件号码清洗规则对数据进行排查,重新进行数据抽取 、数据质量评估等工作,直至数据质量满足数据分析质量
四、数据清洗策略
(一)后台批量处理
1.指标值含有空字符
2.指标值含有特殊字符
3.非指标体系代码选项
4.指标值间存在逻辑关系,
如错误出生日期可从正确身份证中提取
并做更新处理
四、数据清洗策略
(二)前台核实修改
1.提取待清洗数据逐级下发
2.基层扶贫部门核实修改
(三)前台采集补录
1.将应填未填项逐级下发