火车头采集器介绍及使用流程说明
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 注:标签组合时需注意标签的前后顺序,组合后的标签必须在最下面 • 不然就会报错。
五、字段处理
• 文件下载功能 • 火车头采集还提供了一个下载附件的功能, • 同样以http://www.szse.cn/main/rule/为例:配置完采集规则之后,需 将网址补全,因为大多网页源代码中都是相对路径。操作如下: • 点击添加,选中“补全单网址”,之后点击文件下载,勾选“探测文 件并下载”即可。
四、采集内容
• • 编辑字段规则 以深交所的http://www.szse.cn/main/rule/bsywgz/39744201.shtml为例:现在要 提取标题,日期和信息内容。
四、采集内容
• 打开http://www.szse.cn/main/rule/bsywgz/39744201.shtml 页面并查看该页的 HTML源代码。在源代码中可以找到页面中的标题部分,如图: 复制这段代码以及前后的相关html代码,将标题内容设为”参数”之后,通过 正则匹配的方式获取:如图:
三、采集网址
• 切换至“其他网址格式”选项卡,也可以批量添加网址
网址通用序号用通 配符(*)替换 日期格式
这添加方式主要用来处理含有日期的网址
三、采集网址
• 多级网址采集
点击‘添加’按钮
网址过滤条件
三、采集网址
• 手动采集配置链接地址规则:
• 手动连接格式是将需要的网址用参数来获得并组合成我们需要的网址。 这个好处是处理网址那块有规律的网址很好处理。而且可以用这方法 采集需要的字段,如:公告新闻类的标题、日期等。
一、软件介绍
• 火车采集器数据发布原理:
• 在我们将数据采集下来后数据默认是保存在本地的,我们可以使用以 下几种方式对种据进行处理。 • 1.不做任何处理。因为数据本身是保存在数据库的(access或是 db3),您如果只是想看一下,直接用相关软件查看就可以了。 • 2.web发布到网站。程序会模仿浏览器向您的网站发送数据,可以实 现您手工发布的效果。 • 3.直接入数据库。您只需写几个SQL语句,程序会将数据按您的SQL 语句导入到数据库中。 • 4.保存为本地文件。程序会读取数据库里的数据,按一定格式保存为 本地sql或是文本文件。
五、字段处理
• 网页编码设定: • 每个网站都有一个相对应的编码:如UTF-8。如果选错编码,则采集 出来的数据就会呈现一种乱码格式。 • 大多数的网页编码火车头都可以自动识别,如不能则需要手动指定一 个编码格式。(网页对应的编码格式通常会在源代码的<head>里)
五、字段处理
• 循环采集处理 • 循环采集就是在一个页面中用相同的采集方式获取字段: 以http://www.szse.cn/main/rule/为例:如果要获取深交所法规的所有 标题字段。配置采集规则后,只需勾选在“该标签循环匹配”即可。
•
测试效果情况 匹配规则
四、采集内容
• 同样可以用这类似的方式来采集信息内容: • 还是先通过内容附近的关键字段: • 采集效果:
前后匹配字符串
四、采集内容
• 通过之前的方式采集可以看到内容包含了很多的html标签,这些并不 是所需要的,因此需对其进行处理。 • 在数据处理项点击添加,选中html标签过滤: • 点击‘全选’再按‘确定’即可。
处理之后的效果
四、采集内容
• 备注:
• 前后字符串截取与正则提取是火车头最基本、最常用的两种采集方式,其原 理就是通过网页源代码中的前后关键字来获取所要采集的内容,通常这类前 后的关键字在网页源代码中具有一定的唯一性。
五、字段处理
• 火车头采集器除了有最基本的采集截取之外,还有大量的对数据自动 作特殊处理的功能。 • 内容替换:内容替换功能是将采集后的字段中的一些内容替换成需要 的格式,如有时采到的日期为xxxx年xx月xx日,而我们需要xxxx-xx-xx 的格式,就可以采取这个功能。
火车头采集器 介绍及使用流程说明
目录
ຫໍສະໝຸດ Baidu 一、软件介绍 二、创建任务 三、采集网址 四、采集内容 五、字段处理
一、软件介绍
• 《火车采集器》能为您做些什么呢? 1、网站内容维护:可以定时采集新闻、文章等任何您想采集的内容, 并自动发布到您的网站。 2、Internet数据挖掘:可以从指定网站抓取所需数据,通过分析和处 理后保存到您的数据库。 3、网络信息监控:通过自动采集,可以监控论坛等社区类网站,让 您第一时间发现您所关注的内容。 4、文件批量下载:可以批量下载PDF、RAR、图片等各种文件,并同 时采集其相关信息。 火车采集器是目前信息采集与信息挖掘处理类软件中最流行、性价比 最高、使用人数最多、市场占有率最大、使用周期最长的智能采集程 序。
点击单选按钮来切换 配置网址采集规则
三、采集网址
• 点击完成之后,则出现如下情况: • 完成采集网址步骤之后,点击“测试网址采集”按钮。会出现如下界 面:
采集网址规则展示
网址全部采集完成后,可以双击网址进行 内容采集;如需修改则点击‚返回修改设置‛ 配置网址采集规则
四、采集内容
• 双击网址或者点击‘测试该页’就能跳转到采集内容界面在典型页面 中会出现刚才选中的网址,这里就是测试采集内容。左边的标签名下 面有:出处、时间、作者、内容、标题五个初始标签,可以对标签进 行添加、删除和编辑等操作。
选中即可
五、字段处理
• 采集记录筛选 • 有时有些记录不需要怎么办?火车采集器的记录筛选功能可以完成这 个工作。火车采集器记录筛选有以下几个处理方法: • 选中“内容过滤”就可对数据进行相关的过滤,如不得为空、不得重 复等。
五、字段处理
• 标签组合 • 有时我们会需要取几个字段来做数据的唯一性判断时就会用到标签组 合采集。
二、创建任务
• 打开火车头软件,界面如下:
二、创建任务
• 1.新建分组
填写分组名称
二、创建任务
• 2.新建任务
填写任务名称
添加采集网址
三、采集网址
• 点击“添加”按钮出现如下界面
三、采集网址
• 切换至“批量/多页”选项卡,可以批量添加网址
网址通用序号用通 配符(*)替换
这添加方式主要用来处理分页网址
总结
• • • • • 创建分组、任务; 配置采集网址规则; 配置采集字段规则; 字段处理; 内容发布。
附件下载情况
五、字段处理
• 附件下载配置好之后,还需给个文件存放路径及文件保存格式。 • 通常保存格式为原文件名或自增长的ID,也可以用之前一个采集字段作 为文件名: 点击选项框 • 文件存放路径设置如下:
五、字段处理
• 网址截取: • 有时会遇到需要从网址当中取值的情况时,只需钩选“从网址中采集” 即可。