小说爬虫构建方法 - 360文档中心

合集下载

相关主题

小说爬虫构建方法

互联网时代，网络数据应有尽有，准确的爬取到自己想要的数据，可以节省大量的精力。本文以小说数据为例，介绍一下小说爬虫构建方法，主要使用的爬虫工具是——功能强大，操作简单的八爪鱼采集器。

采集网站是起点网，链接：https:///info/53269

使用功能点：

分页列表及详细信息提取

/tutorial/fylbxq7.aspx?t=1

步骤1：创建采集任务

1）进入主界面，选择“自定义模式”

起点中文网小说采集步骤1

2）将要采集的网址复制粘贴到网站输入框中，点击“保存网址”

起点中文网小说采集步骤2

步骤2：创建列表循环

1）在页面右上角，打开“流程”，以展现出“流程设计器”和“定制当前操作”两个板块。选中页面里的第一条链接，系统会自动识别页面内的同类链接，选择“选中全部”

起点中文网小说采集步骤3

2）选择“循环点击每个链接”

起点中文网小说采集步骤4

步骤3：采集小说内容

1）选中页面内要采集的小说内容（被选中的内容会变成绿色），选择“采集该元素的文本”

起点中文网小说采集步骤5

2）修改字段名称

起点中文网小说采集步骤6

3）选择“启动本地采集”

起点中文网小说采集步骤7

步骤4：数据采集及导出

1）采集完成后，会跳出提示，选择“导出数据。选择“合适的导出方式”，将采集好的评论信息数据导出

起点中文网小说采集步骤8

2）这里我们选择excel作为导出为格式，数据导出后如下图

起点中文网小说采集步骤9