谁说菜鸟不会数据分析(入门篇)笔记4.2数据清洗-2.缺失数据的处理
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
谁说菜鸟不会数据分析(入门篇)
4.2.2缺失数据的处理
缺失值:数据集合中的某个或某些属性的值是不完全的。
在数据表里,缺失值最常见的表现形式就是空值或错误标示符。
利用定位功能查找空白单元格
“开始”→“编辑:查找和选择”→“定位条件”(Ctrl+G)→选中“空值”→“确定”
则所有空白单元格被一次性选中。
一、处理缺失值的四种方法
1. 用一个样本统计量的值代替缺失值。
最典型的做法就是用该变量的样本平均值代替缺失值。
2. 用一个统计模型计算出来的值代替缺失值。
常使用的模型有回归模型、判别模型等,不过这得用专业数据分析软件才行。
3. 将有缺失值的纪录删除,不过可能会导致样本量的减少。
4. 将有缺失值的纪录保留,仅在相应的分析中做必要的排出。
当调查的样本量比较大,缺失值的数量又不是很多,而且变量之间也不存在高度相关的情况下,采用这种方式处理缺失值比较可行。
二、用“Ctrl+Enter”键在不连续的区域一次输入同一个数据或公式
选择一个单元格或区域→按住“Ctrl”键不放,再选择其它单元格或区域,直到选中所有要输入数据的区域才松开“Ctrl”键→输入数据或公式→“Ctrl+Enter”键
三、用“查找”(Ctrl+F)和“替换”(Ctrl+H)功能
例:将“#DIV/0”替换为“0”
选中所要的数据区域→“开始”→“编辑:查找和选择”→“替换”→在“查找内容”中输入“#DIV/0”,在“替换为”中输入“0”→“替换”。