(模块三)单元三 数据处理
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
“设置单元格格式”对话框中,选择“数字”选项卡,点击“日期”将其类型修改为图1所示 的样式。点击“确定”完成。
单元三 数据处理
2 “物流公司”列数据中的空格可以使用“替换”一次性批量去除。选中数据区域,在“开始”
选项卡下的“编辑”功能组中单击“查找和选择”按钮,点击“替换”命令,“查找内容”输 入一个空格,“替换为”则不输入任何内容,点击“全部替换”即可全部删除表格中的空格。
单元三 数据处理
1
将鼠标定位在出现“I12”单元格中,在公式编辑栏中,修改原公式“=H12/E12”为
“=IFERROR(H12/E12,"/")”
单元三 数据处理
2 确认输入后,“I12”单元格中的“#VALUE!”被修改为“/”,然后拖动“I12”单元格的填充
柄,将其他发生错误的单元格进行填充修改
单元三 数据处理
逻辑错误清洗 违反逻辑规律的要求和逻辑规则而产生的错误,一般使用逻辑推理就可以发现问题。
1
数据 不合理
2
数据 自相矛盾
3
数据 不符合规则
如客户年龄500岁,或者消费金额为-100元,明显不符合客观事 实。 如客户的出生年份是1980年,但年龄却显示18岁。
如限购1件的商品,客户的购买数量却为3。
缺失值清洗
格式内容 清洗
逻辑错误 清洗
重复数据 清洗
无价值数据 清洗
单元三 数据处理
缺失值清洗
数据集中某个或某些属性的值是不完整的。
缺失值 产生的原因
有些信息无法获取,如在收集顾客婚姻状况和工作信息时,未 婚人士的配偶、未成年儿童的工作单位等都是无法获取的信息。
人为原因导致的某些信息被遗漏或删除了。
单元三 数据处理
2 定位到空白值后,可以选择“数据补齐”、“删除记录”或者“不处理”。如需数据补齐,则直
接输入需要补充的内容,按“Ctrl+Enter”快捷键,进行批量填充。
单元三 数据处理
错误标识符清洗
##### #DIV/0! #VALUE!
单元格中的数据超出了该单元格的宽度,或者单元格中的日期时间公式产生了一个负值 进行公式运算时,除数使用了数值零、指向了空单元格或包含零值单元格的引用 键入公式的方式错误,或者引用的单元格错误
单元三 数据处理
格式内容清洗
由于系统导出渠道或人为输入习惯的原因,整合而来的原始数据往往不能做到格式 统一,内容上也容易出现空格。
“订单创建时间”列出现了四种不 同的表达方式,“物流公司”列的 字符前面或中间存在空格,需要将 其修正。
单元三 数据处理
1 选中“订单创建时间”整列,右键打开弹出式菜单,点击“设置单元格格式”选项,在弹出的
单元三 数据处理
2 同理,条件格式选择“小于”即可将“买家实际支付金额”列的错误数据标注出来。
单元三 数据处理
3 “签收时间”应晚于“订单创建时间”,否则该条记录便属于异常。选中“签收时间”列,选择
“开始”选项卡—“样式”功能组—“条件格式”—“突出显示单元格规格”—“其他规则” ,在弹出的“新建格式规则”中,规则类型选择“使用公式确定要设置格式的单元格”,编辑规 则为“=$M1<$J1”,设置格式为背景色黄色,点击“确定”即可将错误数据标注出来。
单元三 数据处理
二、数据转化
对数据的格式或结构进行转换,是数据处理的前期准备。数据转化包括数据表的行列互 换、文本数据提炼等。
数据表的行列互换
1 打开Excel数据表,选中目标内容,按住
“Ctrl+C”组合键进行复制。
单元三 数据处理
2 选中要进行数据复制的单元格,点击“开始”选项卡,在“剪贴板”功能组中单击“粘贴”—
单元三 数据处理
重复数据清洗
数据被重复、多次记录。重复数据会影响数据处理结果的正确性,从而导致数据分 析出现偏差,因此需要将其删除。
某店铺类目结构月表
单元三 数据处理
1 选中工作表中的数据区域,在“数据”选项卡下的“数据工具”功能组中,单击“删除重复项
”,在弹出的“删除重复项”对话框中,选择要删除的列,注意“统计日期”、“一级类目” 、“二级类目”、“叶子类目”应同时选中,否则会产生误删。
单元三 数据处理
“多彩橡皮泥套盒”商品的订单表
单元三 数据处理
1 由于该商品限购1件,因此需要将“购买数量”大于1的记录标注出来。选中“购买数量”列,
选择“开始”选项卡—“样式”功能组—“条件格式”—“突出显示单元格规格”—“大于” ,在弹出的“大于”对话框中,填入数值“1”,点击“确定”即可将错误数据标注出来。
单元三 数据处理
2 单击“确定”按钮完成重复项删除,Excel将显示一条消息,指出有多少重复值被删除,多少唯
一值被保留。
单元三 数据处理
无价值数据清洗 对本次数据统计或数据分析没有产生作用的数据,直接删除对应的字段即可。但通常情况下,并
不建议删除。如果数据表过大,在汇报展示时用不到又影响操作,可以考虑备份后将其删除。
—“转置”按钮,即可让选中的内容进行行列互换,得到新数据表。
单元三 数据处理
使用键盘快捷方式,按 “Ctrl+Alt+V”快捷键会弹出对话 框,勾选“转置”复选框,即可实 现转置粘贴。
单元三 数据处理
文本数据提炼 在导入文本数据时,有时多项数据会显示在同一单元格中,需要对数据进行提炼,使相同属性的
电子商务数据分析基础
模块三 数据分类与处理
目录
CONTENT
单元一 认识数据分类与处理 单元二 分类统计
单元三 数据处理
单元四 数据计算
单元三 数据处理
Байду номын сангаас
单元三 数据处理
一、数据清洗
数据清洗是指将数据表中多余、重复的数据筛选出来并删除,将缺失、不完整的数据补充 完整,将内容、格式错误的数据纠正或剔除的操作行为。数据清洗是对数据进行重新审查和校 验的过程,目的在于提升数据的质量,确保数据的准确性、完整性和一致性。
数据收集或者保存失败造成数据缺失,如数据存储的失败、存 储器损坏、机械故障等。
单元三 数据处理
空值清洗
1 打开原始数据表格,选中数据区域,在“开始”选项卡下的“编辑”功能组中单击“查找和选择”
按钮,点击“定位条件”命令,在弹出的“定位条件”对话框中,选中“空值”,点击“确定” 后,所有的空值即可被一次性选中。
数据位于同一列中。
单元三 数据处理
文本数据的提炼涉及到文本函数的运用 LEFT函数,用于获取字符串左边指定个数的字符 EFT函数的语法为:=LEFT(text, [num_chars]),其中text为要取得给定值的文本数据源, num_chars表示需要从左开始算提取几个字符数,其中每个字符按1计数。 RIGHT函数,用于获取字符串右边指定个数的字符 RIGHT函数的语法为:=RIGHT(text,[num_chars]),其中text为要取得给定值的文本数据源, num_chars表示需要从右开始算提取几个字符数,其中每个字符按1计数。
单元三 数据处理
2 “物流公司”列数据中的空格可以使用“替换”一次性批量去除。选中数据区域,在“开始”
选项卡下的“编辑”功能组中单击“查找和选择”按钮,点击“替换”命令,“查找内容”输 入一个空格,“替换为”则不输入任何内容,点击“全部替换”即可全部删除表格中的空格。
单元三 数据处理
1
将鼠标定位在出现“I12”单元格中,在公式编辑栏中,修改原公式“=H12/E12”为
“=IFERROR(H12/E12,"/")”
单元三 数据处理
2 确认输入后,“I12”单元格中的“#VALUE!”被修改为“/”,然后拖动“I12”单元格的填充
柄,将其他发生错误的单元格进行填充修改
单元三 数据处理
逻辑错误清洗 违反逻辑规律的要求和逻辑规则而产生的错误,一般使用逻辑推理就可以发现问题。
1
数据 不合理
2
数据 自相矛盾
3
数据 不符合规则
如客户年龄500岁,或者消费金额为-100元,明显不符合客观事 实。 如客户的出生年份是1980年,但年龄却显示18岁。
如限购1件的商品,客户的购买数量却为3。
缺失值清洗
格式内容 清洗
逻辑错误 清洗
重复数据 清洗
无价值数据 清洗
单元三 数据处理
缺失值清洗
数据集中某个或某些属性的值是不完整的。
缺失值 产生的原因
有些信息无法获取,如在收集顾客婚姻状况和工作信息时,未 婚人士的配偶、未成年儿童的工作单位等都是无法获取的信息。
人为原因导致的某些信息被遗漏或删除了。
单元三 数据处理
2 定位到空白值后,可以选择“数据补齐”、“删除记录”或者“不处理”。如需数据补齐,则直
接输入需要补充的内容,按“Ctrl+Enter”快捷键,进行批量填充。
单元三 数据处理
错误标识符清洗
##### #DIV/0! #VALUE!
单元格中的数据超出了该单元格的宽度,或者单元格中的日期时间公式产生了一个负值 进行公式运算时,除数使用了数值零、指向了空单元格或包含零值单元格的引用 键入公式的方式错误,或者引用的单元格错误
单元三 数据处理
格式内容清洗
由于系统导出渠道或人为输入习惯的原因,整合而来的原始数据往往不能做到格式 统一,内容上也容易出现空格。
“订单创建时间”列出现了四种不 同的表达方式,“物流公司”列的 字符前面或中间存在空格,需要将 其修正。
单元三 数据处理
1 选中“订单创建时间”整列,右键打开弹出式菜单,点击“设置单元格格式”选项,在弹出的
单元三 数据处理
2 同理,条件格式选择“小于”即可将“买家实际支付金额”列的错误数据标注出来。
单元三 数据处理
3 “签收时间”应晚于“订单创建时间”,否则该条记录便属于异常。选中“签收时间”列,选择
“开始”选项卡—“样式”功能组—“条件格式”—“突出显示单元格规格”—“其他规则” ,在弹出的“新建格式规则”中,规则类型选择“使用公式确定要设置格式的单元格”,编辑规 则为“=$M1<$J1”,设置格式为背景色黄色,点击“确定”即可将错误数据标注出来。
单元三 数据处理
二、数据转化
对数据的格式或结构进行转换,是数据处理的前期准备。数据转化包括数据表的行列互 换、文本数据提炼等。
数据表的行列互换
1 打开Excel数据表,选中目标内容,按住
“Ctrl+C”组合键进行复制。
单元三 数据处理
2 选中要进行数据复制的单元格,点击“开始”选项卡,在“剪贴板”功能组中单击“粘贴”—
单元三 数据处理
重复数据清洗
数据被重复、多次记录。重复数据会影响数据处理结果的正确性,从而导致数据分 析出现偏差,因此需要将其删除。
某店铺类目结构月表
单元三 数据处理
1 选中工作表中的数据区域,在“数据”选项卡下的“数据工具”功能组中,单击“删除重复项
”,在弹出的“删除重复项”对话框中,选择要删除的列,注意“统计日期”、“一级类目” 、“二级类目”、“叶子类目”应同时选中,否则会产生误删。
单元三 数据处理
“多彩橡皮泥套盒”商品的订单表
单元三 数据处理
1 由于该商品限购1件,因此需要将“购买数量”大于1的记录标注出来。选中“购买数量”列,
选择“开始”选项卡—“样式”功能组—“条件格式”—“突出显示单元格规格”—“大于” ,在弹出的“大于”对话框中,填入数值“1”,点击“确定”即可将错误数据标注出来。
单元三 数据处理
2 单击“确定”按钮完成重复项删除,Excel将显示一条消息,指出有多少重复值被删除,多少唯
一值被保留。
单元三 数据处理
无价值数据清洗 对本次数据统计或数据分析没有产生作用的数据,直接删除对应的字段即可。但通常情况下,并
不建议删除。如果数据表过大,在汇报展示时用不到又影响操作,可以考虑备份后将其删除。
—“转置”按钮,即可让选中的内容进行行列互换,得到新数据表。
单元三 数据处理
使用键盘快捷方式,按 “Ctrl+Alt+V”快捷键会弹出对话 框,勾选“转置”复选框,即可实 现转置粘贴。
单元三 数据处理
文本数据提炼 在导入文本数据时,有时多项数据会显示在同一单元格中,需要对数据进行提炼,使相同属性的
电子商务数据分析基础
模块三 数据分类与处理
目录
CONTENT
单元一 认识数据分类与处理 单元二 分类统计
单元三 数据处理
单元四 数据计算
单元三 数据处理
Байду номын сангаас
单元三 数据处理
一、数据清洗
数据清洗是指将数据表中多余、重复的数据筛选出来并删除,将缺失、不完整的数据补充 完整,将内容、格式错误的数据纠正或剔除的操作行为。数据清洗是对数据进行重新审查和校 验的过程,目的在于提升数据的质量,确保数据的准确性、完整性和一致性。
数据收集或者保存失败造成数据缺失,如数据存储的失败、存 储器损坏、机械故障等。
单元三 数据处理
空值清洗
1 打开原始数据表格,选中数据区域,在“开始”选项卡下的“编辑”功能组中单击“查找和选择”
按钮,点击“定位条件”命令,在弹出的“定位条件”对话框中,选中“空值”,点击“确定” 后,所有的空值即可被一次性选中。
数据位于同一列中。
单元三 数据处理
文本数据的提炼涉及到文本函数的运用 LEFT函数,用于获取字符串左边指定个数的字符 EFT函数的语法为:=LEFT(text, [num_chars]),其中text为要取得给定值的文本数据源, num_chars表示需要从左开始算提取几个字符数,其中每个字符按1计数。 RIGHT函数,用于获取字符串右边指定个数的字符 RIGHT函数的语法为:=RIGHT(text,[num_chars]),其中text为要取得给定值的文本数据源, num_chars表示需要从右开始算提取几个字符数,其中每个字符按1计数。