《数据采集与预处理》教学教案—10用Pandas进行数据预处理
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据采集与预处理教案
1.创建数据文件
创建pandas_info.py文件,并将其导入Pandas库
2.读取数据文件
图4-6所示为使用Pandas的read_csv()方法读取CSV格式的文件,其中,delimiter参数指定了数据文件的分隔符,encoding参数指定了数据文件的编码,names参数指定了数据的列索引。
图4-6 读取数据文件
3.对数据进行去重及去空处理
如图4-7所示,Pandas的drop_duplicates()方法用于去除数据中的重复项,reset_index()方法用于还原索引为默认的整型索引(使用此方法的原因是,前面的去重或去空会清洗掉一些数据,但数据的索引仍然被保留着,导致那一行数据为空,会影响清洗操作),drop()方法用于删除数据中名为index的一列(axis=1为列,默认为行),dropna()方法用于去除数据中含有任意空数据的一行数据。
图4-7 对数据进行去重及去空处理
4.分割、替换数据文件
由于“总里程”列的数据表述格式不清晰,因此对其做分割、替换操作。
5.保存清洗后的数据。