火车头采集步骤和数据导出详解 ppt课件

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

4.4、已经能用Excel打开采集到的文章内容之后, 就可以利用Excel对数据进行批量处理,比如批 量添加文章的发布时间、批量替换文字、批量修 改图片路径等等。
比如:在Excel表格里,按Ctrl+F,出现的对话框 中选择“替换”,填写好需要替换的文字,即可 对采集到的内容进行批量替换文字。
4.1、安装Access
1、采集的目标页面,不需要登录 即可访问;
2、采集的内容列表页面url跟随一 定的规律改变;
3、该网站不屏蔽不干扰采集器的 工作。
2、认识火车头采集工具
火车采集器,是目前使用人数最 多的互联网数据抓取、处理、分 析,挖掘软件。
软件凭借其灵活 的配置与强大的 性能领先国内数据采集类产品。
使用火车采集器,你可以建立一 个拥有庞大内容的网站。
选中Excel表格的“内容”列,用查找功能,将图片路径 “10_12/xxxxx.jpg”替换为/10_12/xxxxx.jpg” 同时,将采集到的图片文件夹“10_12”上传到你的空间根目录,发布 文章的时候,图片就能显示出来。
火车头采集
课程内容
• 1、什么是采集源? • 2、认识火车头采集工具 • 3、火车头采集工具的使用方法 • 4、数据导出与处理
1、什么是采集源?
一些网站有大量的文章、图片、 邮箱等信息,对我们来说是一种 资源,我们可以利用工具将这些 资源采集回来,为我们所用。
这样的网站,就是采集源。
1.1 什么样的网站能成为“采集源”?
2.1、火车头采集工具的工作原理
火车采集器如何去抓取数据,取决于 您的规则。
要获取内容页的内容,首先需要先将 这个网页的网址采下来,这就是采网 址。
程序按规则抓取列表页里的内容页 url。再根据您的采集规则,将,将 标题内容等信息分离开来并保存下来。
如果选择了下载图片,程序会对采集 到的数据进行分析,找出图片的下载 地址并将图片下载到本地。
3、火车头采集工具的使用方法
3.1 打开火车头工具,单击左侧空白处,根据需要新建分组
3.2 右击刚才建立好的分组,新建采集任务,并填写好任务名称
3.3 填写批量采集网址规则,注意先分析目标列表页url规则
3.4 设置“多级网址获取”规则
3.4 设置“多级网址获取”规则,并测试设置好的规则是否生效
3.8 采集文章的“摘要”
3.9 采集文章的“标签”
3.10 采集文章的“内容” 填写内容所在区间的html标签,添加数据处理,勾选“下载图片” 并填写文件保存目录和格式,最后点击确定。
3.11 保存设置好的采集任务
3.12 开始采集任务 我们会看到,右侧任务运行的状况,一切正常
4、数据导出与处理
4.1、安装Access
采集到的数据,需要用Accesss软件才 能处理,因此,如果我们的电脑没有这 个软件,则需要先安装Access软件。
4.2、选中已经采集完成的任务,并右击 出现下拉菜单后,打开Data下任务文件 夹,出现第二个截图以.mdb扩展名的文 件。
4.3、双击打开.mdb扩展名的文件,此时由于已经安装了Access, 办公软件已经能正确识别.mdb文件,打开结果如下:
3.5 校验设置好的规则是否生效,如果生效,则返回修改设置;如 果得到的结果不正确,也需要返回修改设置(重新分析采集范围是 否正确,一直校验到是我们需要的结果)
3.6 返回修改采集的项数,并且内容规则” 采集文章的标题,选中“标题”,点击左侧的修改,选择“前后截取”,将文章标 题的html区域填写完整,右侧“典型页面”填写一条内容页url,以供随时测试。
33火车头采集工具的使用方法火车头采集工具的使用方法31打开火车头工具单击左侧空白处根据需要新建分组32右击刚才建立好的分组新建采集任务并填写好任务名称33填写批量采集网址规则注意先分析目标列表页url规则34设置多级网址获取规则34设置多级网址获取规则并测试设置好的规则是否生效35校验设置好的规则是否生效如果生效则返回修改设置
相关文档
最新文档