火车头采集步骤和数据导出详解

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
火车头采集
课程内容
• 1、什么是采集源?
• 2、认识火车头采集工具
• 3、火车头采集工具的使用方法 • 4、数据导出与处理
1、什么是采集源?
一些网站有大量的文章、图片、 邮箱等信息,对我们来说是一种 资源,我们可以利用工具将这些 资源采集回来,为我们所用。 这样的网站,就是采集源。
1.1 什么样的网站能成为“采集源”?
4.4、已经能用Excel打开采集到的文章内容之后, 就可以利用Excel对数据进行批量处理,比如批 量添加文章的发布时间、批量替换文字、批量修 改图片路径等等。 比如:在Excel表格里,按Ctrl+F,出现的对话框 中选择“替换”,填写好需要替换的文字,即可 对采集到的内容进行批量替换文字。
4.1、安装Access
3.8 采集文章的“摘要”
3.9 采集文章的“标签”
3.10 采集文章的“内容” 填写内容所在区间的html标签,添加数据处理,勾选“下载图片” 并填写文件保存目录和格式,最后点击确定。
3.11 保存设置好的采集任务
3.12 开始采集任务
我们会看到,右侧任务运行的状况,一切正常
4、数据导出与处理
1、采集的目标页面,不需要登录 即可访问; 2、采集的内容列表页面url跟随一 定的规律改变; 3、该网站不屏蔽不干扰采集器的 工作。
2、认识火车头采集工具
火车采集器,是目前使用人数最 多的互联网数据抓取、处理、分 析,挖掘软件。 软件凭借其灵活 的配置与强大的 性能领先国内数据采集类产品。 使用火车采集器,你可以建立一 个百度文库有庞大内容的网站。
3.5 校验设置好的规则是否生效,如果生效,则返回修改设置;如 果得到的结果不正确,也需要返回修改设置(重新分析采集范围是 否正确,一直校验到是我们需要的结果)
3.6 返回修改采集的项数,并且记得点击“添加”和“完成”
3.7 进入到第二步“采集内容规则” 采集文章的标题,选中“标题”,点击左侧的修改,选择“前后截取”,将文章标 题的html区域填写完整,右侧“典型页面”填写一条内容页url,以供随时测试。
3、火车头采集工具的使用方法
3.1 打开火车头工具,单击左侧空白处,根据需要新建分组
3.2 右击刚才建立好的分组,新建采集任务,并填写好任务名称
3.3 填写批量采集网址规则,注意先分析目标列表页url规则
3.4 设置“多级网址获取”规则
3.4 设置“多级网址获取”规则,并测试设置好的规则是否生效
4.1、安装Access 采集到的数据,需要用Accesss软件才 能处理,因此,如果我们的电脑没有这 个软件,则需要先安装Access软件。
4.2、选中已经采集完成的任务,并右击 出现下拉菜单后,打开Data下任务文件 夹,出现第二个截图以.mdb扩展名的文 件。
4.3、双击打开.mdb扩展名的文件,此时由于已经安装了Access, 办公软件已经能正确识别.mdb文件,打开结果如下:
2.1、火车头采集工具的工作原理
火车采集器如何去抓取数据,取决于 您的规则。 要获取内容页的内容,首先需要先将 这个网页的网址采下来,这就是采网 址。 程序按规则抓取列表页里的内容页 url。再根据您的采集规则,将,将 标题内容等信息分离开来并保存下来。 如果选择了下载图片,程序会对采集 到的数据进行分析,找出图片的下载 地址并将图片下载到本地。
选中Excel表格的“内容”列,用查找功能,将图片路径 “10_12/xxxxx.jpg”替换为http://www.xx.com/10_12/xxxxx.jpg” 同时,将采集到的图片文件夹“10_12”上传到你的空间根目录,发布 文章的时候,图片就能显示出来。
使用方法如此简单,赶紧去试一试吧~
相关文档
最新文档