火车头采集器教程演示文稿
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
三、采集网址
完成采集网址步骤之后,点击“开始测试网址采集”按钮。会出现如下界面:
三、采集网址
在检查采集连接无误的情况下,点击“返回修改设置”后,出现如下界面:
四、采集内容
选择“第二步:采集内容规则”后,出现如下界面。
四、采集内容
选择“添加标签”后,出现如下界面。
四、采集内容
將“标题”、 “资讯内容”、“内容摘要”、“信息关键词”、“meta关键词”、 “meta描述”、“责任编辑”、“信息来源”添加到标签名中,將其他不需要的标签 名称删除,出现如下界面。
四、采集内容
第三、内容描述、meta描述
查看本页面“源文件” 搜索description代码,找到文章描述部分。如下图:
四、采集内容
將“源代码”中对应的描述开始代码和结束代码分别输入到开始字符段和结束字符 段中,点击确定,内容描述和meta描述标签设置完成。
注释Baidu Nhomakorabea有些文章描述部分设有大量广告语或与本文无关的内容,这样的文章描述我 们不给予采集。可以将标题的采集方法复制到描述采集中。
3、选择“内容排除”中的添加项,將资讯内容代码中的无用代码和文本添加在此 选项中,过滤废物信息。
4、点击确定,资讯内容标签设置完成。
如下图:
四、采集内容
四、采集内容
注释: 在资讯内容采集过程中最主要的是对垃圾信息的删除,其中需要注意的有以下几项:
1、广告语 (例如:<A href="http://info.bm.hc360.com/zt/shidabanjiangli/index.shtml" target=_blank>2010年建材行业十大评选活动圆满落幕,电话:01062298529</A>)
在“页面内容分页区域/样式设置”中将分页部分代码输入其中,用(*)代替即 可。如下图: (注释:各站的分页代码不同,需要具体分析,采集分页的文章在我们后台将成 为一篇通篇文章。建议少采集分页多的文章,影响用户体验。)
四、采集内容
规则填写完成后,返回至第一步“测试网址采集”。双击所采集到的任一文章地址。 则会自己弹出如下界面。(注释:建议多测试几篇文章,减少垃圾代码出现。)
四、采集内容
下面分别说明“标题”、“内容摘要”、“信息关键词”、“meta关键词”、 “meta描述”、“责任编辑”、“信息来源”、“资讯内容”各个标签的采集规则。 采集页面以http://info.it.hc360.com/2011/06/020903507734.shtml为例。
第一、标题
查看本页面“源文件”搜索title代码,找到文章内容部分。如下图:
四、采集内容
第四、信息关键词、meta关键词
查看本页面“源文件” 搜索keywords代码,找到文章关键词部分。如下图:
四、采集内容
將“源代码”中对应的关键词开始代码和结束代码分别输入到开始字符段和结束字 符段中,点击确定,信息关键词和meta关键词标签设置完成。
注释:有些文章关键词部分设有大量广告语或与本文无关的内容,这样的文章关键 词我们不给予采集。可以将标题的采集方法复制到关键词采集中。
火车头采集器教程演示文稿
火车头采集器教程
二、新建站点
打开火车头软件(LocoySpider.exe) 界面如下图:
二、新建站点
第一步:新建站点(如右图) 第二步:点击“新建站点”后出现如下界面。填写站点名和站点网址点击“更新”
三、采集网址
新建好的站点会排列在窗口左侧“站点&任务列表”中。右击新建好的站点,点击 “从该站点新建任务”,出现如下界面。 以本列表为例:http://info.it.hc360.com/list/zx_yjdt.shtml
四、采集内容
第二、资讯内容
查看本页面“源文件”,找到文章内容部分。如下图:
四、采集内容
1、双击上图窗口中的“资讯内容”标签,將“源代码”中对应的资讯内容开始代 码和结束代码分别输入到开始字符段和结束字符段中。
2、勾选“HTML标签排除”中的“链接”、“层”、“Span”、“图象”、“脚本” 选项。
注释:一般情况下检索<title></title>都可以采集到我们需要的标题标签,但由于 这篇文章此代码中设计到其他网站logo及列表分类不确定信息,所以选择 <div id=“title”><h1></h1>中内容来代替。如果没有合适字段,可利用“内容排 除”选项进行筛选。
四、采集内容
双击上图窗口中的“标题”标签,將“源代码”中对应的标题开始代码和结束代码分 别输入到开始字符段和结束字符段中,点击确定,标题标签设置完成。
三、采集网址
点击向导添加后出现如下界面:批量/多页
三、采集网址
单条网址选项下:
三、采集网址
填写完成后,点击“完成”。则出现以下界面:
三、采集网址
注释: 1、在选择目标站时,最好选择文章更新快,文章质量高(少广告词、图片、链接、 视频、flash等),内容丰富并且在业界有一定权威性的站点。 2、过于滞后的文章不要采集。(例如:08年、09年的文章) 3、在选择列表的过程中最好以站点为单位,不要以某个列表为单位,这样采集效 率会事半功倍。 4、在选择目标站时尽量不要选择动态页,多选择可以用数字或字母(*)代替的 静态页。 5、在采集过程中遇到不需要采集的文章,可以通过“不得包含”功能将其过滤掉。
2、特殊标签 (例如:<IFRAME><sytle>标签,大部分标签会在“HTML标签排除”中删除。)
3、网站logo (例如:【<STRONG><A href=" http://www.bm.hc360.com/" target=_blank>慧聪 建材网</A></STRONG>】)
4、文章中铭感文字 (例如:点击下一页、点击查看更多图片、视频、责任编辑、评论、【热点导读】、 【相关新闻】等与文章正文无关的文字。)
四、采集内容
第五、责任编辑
双击责任编辑标签,选择“自定义固定格式的数据”,在固定的字符串选项中填写 自己的名称,点击确定,责任编辑设定完成。
四、采集内容
第六、信息来源
双击责任编辑标签,选择“自定义固定格式的数据”,在固定的字符串选项中填写 信息来源,点击确定,信息来源设定完成。
四、采集内容
第七、分页