《数据采集与预处理》教学教案—10用Pandas进行数据预处理

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

数据采集与预处理教案
1．创建数据文件
创建pandas_info.py文件，并将其导入Pandas库
2．读取数据文件
图4-6所示为使用Pandas的read_csv()方法读取CSV格式的文件，其中，delimiter参数指定了数据文件的分隔符，encoding参数指定了数据文件的编码，names参数指定了数据的列索引。

图4-6 读取数据文件
3．对数据进行去重及去空处理
如图4-7所示，Pandas的drop_duplicates()方法用于去除数据中的重复项，reset_index()方法用于还原索引为默认的整型索引（使用此方法的原因是，前面的去重或去空会清洗掉一些数据，但数据的索引仍然被保留着，导致那一行数据为空，会影响清洗操作），drop()方法用于删除数据中名为index的一列（axis=1为列，默认为行），dropna()方法用于去除数据中含有任意空数据的一行数据。

图4-7 对数据进行去重及去空处理
4．分割、替换数据文件
由于“总里程”列的数据表述格式不清晰，因此对其做分割、替换操作。

5．保存清洗后的数据。