《数据采集与预处理》教学教案—11用OpenRefine进行数据预处理

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据采集与预处理教案

通过API获取外部数据,增强电子表格中的内容。

二、任务实施;

(1)在OpenRefine目录中使用“./refine”命令启动OpenRefine服务,如图4-8所示。

图4-8 启动OpenRefine服务

(2)进入其Web操作界面,单击“浏览…”按钮,选择bus_info.csv 文件,单击“打开”按钮,再单击“下一步”按钮,导入数据。

(3)进入一个新界面,在该界面中可以发现上传的CSV文件,如果文件出现乱码,则可以设置字符编码,应选择支持中文的编码,这里选择“GBK”编码,单击界面右上角的“新建项目”按钮。

(4)进入北京公交线路信息显示界面,在其“运行时间”列中有一些多余的信息,可将这些多余信息删除,以使数据更加简洁和直观,如图4-9所示。

图4-9 删除多余信息

(5)在“运行时间”下拉列表中选择“编辑单元格”中的“转换...”选项,启动转换功能。

(6)弹出“自定义文本转换于列运行时间”对话框,在“表达式”文本框中编写表达式,去除列中“运行时间:”多余信息,编写结束后,根据“预览”选项卡中的结果判断表达式编写是否正确。清洗结果满意后单击“确定”按钮,完成自定义文本转换操作。

(7)界面上方弹出一个黄色通知框,通知相关操作导致改变的单元格数,再次进行确认操作。在界面左边的“撤销/重做”选项卡中会显示刚刚的操作记录,如果不想进行相关操作,则可以单击界面左侧对应操作的上一步操作链接,以恢复操作。

同理,可以对其余几列执行类似操作。

(8)操作记录及结果如图4-45所示。

(9)下面将“公司”列中的“服务热线”信息抽取出来并使其独立成列。在“公司”下拉列表中选择“编辑列”中的“由此列派生新列...”选项。

(10)弹出“基于当前列添加列公司”对话框,设置“新列名称”和数据抽取的表达式。

(11)操作结束后,需要将预处理后的数据导出为文件。在界面右上

相关文档
最新文档