实验报告数据清洗报错

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

实验报告数据清洗报错
引言
在进行数据分析和建模的过程中，数据的质量至关重要。

然而，现实中的原始数据往往存在许多问题，如缺失值、离群值、错误值等，这些问题会对后续的分析结果产生不良影响。

因此，数据清洗是数据分析的重要环节，它的目标是从原始数据中消除这些问题，使得数据变得完备、准确、规范和有用。

实验目的
本次实验的主要目的是学习和掌握数据清洗的基本步骤和方法，并通过实践掌握在数据清洗过程中可能会遇到的错误和解决方法。

实验步骤
1. 数据收集：从一个在线购物网站上下载了一份销售订单的数据集，该数据集包含了订单编号、购买时间、购买商品、购买数量、购买价格等信息。

2. 数据查看：首先，我们打开数据集，并查看前几行数据，以了解数据的格式和内容。

python
import pandas as pd
data = pd.read_csv("sales_data.csv")
data.head()
3. 数据统计：接下来，我们对数据进行基本的统计分析，包括查看数据的维度、缺失值以及各个变量的描述性统计等。

python
查看数据的维度
print("数据的维度：", data.shape)
检查缺失值
print("数据中的缺失值：", data.isnull().sum())
描述性统计
print("数据的描述性统计信息：")
data.describe()
4. 数据清洗：根据数据统计的结果，我们可以发现数据集中存在一些异常值和缺失值。

接下来，我们将对这些问题进行逐一处理。

4.1 缺失值处理：对于缺失值，我们可以选择删除对应的行或者进行填充。

在本次实验中，我们选择了填充的方法，并使用各个变量的均值来填充缺失值。

python
用均值填充缺失值
data = data.fillna(data.mean())
4.2 异常值处理：对于异常值，我们可以选择删除或者修正。

在本次实验中，我们选择了修正的方法。

我们通过定义数据的上下限范围，将超出这个范围的异常值进行修正。

python
修正异常值
for column in data.columns:
if data[column].dtype != "object":
q3 = data[column].quantile(0.75)
q1 = data[column].quantile(0.25)
iqr = q3 - q1
upper_bound = q3 + 1.5 * iqr
lower_bound = q1 - 1.5 * iqr
data.loc[data[column] > upper_bound, column] =
upper_bound
data.loc[data[column] < lower_bound, column] =
lower_bound
5. 数据验证：清洗完成后，我们可以再次对数据进行统计和描述性分析，以验证数据清洗是否成功。

实验结果与分析
通过以上步骤，我们成功地对原始数据进行了清洗处理。

我们使用均值填充了缺失值，并修正了异常值。

经过再次统计和描述性分析，我们发现数据集的缺失值和异常值问题得到了解决，数据质量得到了明显的提升。

实验总结
数据清洗是数据分析不可或缺的一步。

在进行数据清洗的过程中，我们可能会遇到各种错误，如缺失值错误处理、异常值错误处理等。

通过本次实验，我们学习并掌握了数据清洗的基本步骤和方法，并在实践中学会了处理这些错误。

数据清洗能够提高数据的质量，为后续的分析和建模奠定良好的基础。

参考文献。