火车头使用教程
火车头插件使用方法
火车头插件使用方法火车头插件是一款用于浏览器的插件,它可以帮助我们更方便地查看和管理网页的请求和响应信息。
本文将介绍火车头插件的使用方法,帮助读者更好地利用该插件提高工作效率。
我们需要安装火车头插件。
打开浏览器的插件商店(不同浏览器的插件商店可能有所不同),搜索“火车头”插件并点击安装。
安装完成后,我们需要在浏览器的工具栏中找到火车头插件的图标,点击打开插件的界面。
在火车头插件的界面中,我们可以看到几个主要的功能模块,包括请求列表、请求详情、数据篡改等。
下面我们将分别介绍这些功能的使用方法。
首先是请求列表。
在浏览器中打开一个网页后,火车头插件会自动捕获网页的请求信息,并在请求列表中显示。
我们可以通过点击列表中的每一项来查看该请求的详细信息。
在请求列表中,我们还可以通过筛选功能来查找特定的请求,以便更快地找到我们需要的信息。
接下来是请求详情。
当我们点击请求列表中的某一项时,火车头插件会在界面的右侧显示该请求的详细信息。
在请求详情中,我们可以查看该请求的请求头、请求体、响应头、响应体等信息。
如果我们需要查看请求或响应的具体内容,可以点击相应的标签页来查看。
除了查看请求信息外,火车头插件还提供了数据篡改的功能。
在请求详情的界面中,我们可以修改请求的参数、请求头等信息,并发送修改后的请求。
这对于测试和调试一些需要特定参数的接口非常有用。
在修改完请求后,我们可以点击发送按钮来重新发送修改后的请求。
除了上述的主要功能外,火车头插件还提供了一些其他的辅助功能,比如导出请求信息、导入请求信息、自定义请求拦截规则等。
这些功能可以根据具体的需求来使用,提高我们的工作效率。
火车头插件是一款非常实用的浏览器插件,可以帮助我们更方便地查看和管理网页的请求和响应信息。
通过使用火车头插件,我们可以更快地定位问题,提高开发和调试的效率。
希望本文能够帮助到读者,更好地利用火车头插件进行工作。
怎么样使用火车头采集?
以采集示例详解部分功能今天要给大家做示例的网站是163的娱乐频道这个应该是个比较通用和实用的规则,下面开始。
如果您是火车采集器的老手,那么您可以参考下,因为我要讲解的会有违传统的思维;如我您是新手那么您最好能仔细看下,因为这将加快您的入门,同时在以后给您节省很多时间。
以下是一些采集的基本步骤,您可以灵活运用:一、建立站点1、请先打开火车采集器,新建站点,看下图:为了方便管理您可以为您的站点取任何的您觉得易记的名称,但是我建议用目标源的名字作为站点的名称有利于日后的管理,如下图大部分的站点,通站往往只有一套模版或者有几套类似的模版,这边所谓的类似讲的是模版中的标记很接近,那什么是模版标记?模版标记指的是某部分内容开始和结束记号。
比如很多正规的网站(通常是一些站点比较大,内容比较多的网站,比如sina、163等)会在内容开始的部分用类似于或等标志来表示内容的开始。
他们这么作的原因有两个,一个是由于内容多,为了各个部门之间的配合而作了对应的标记以便于工程的交接,另一个原因就是内容控制的需要,随着xhtml 的流行,用层控制越来越多,这就使得我们寻找采集标示越来越简单(这点你们以后会慢慢理解的)。
上面给各位讲这些是因为接下来要我们要讲解的是整站内容规则。
2、标题标签讲解。
对应的页面在这:/06/1029/11/2UJNHOS3000322EL.html首先从“站点基本信息”切换到“整站内容规则”,然后把要采集的内容页面的网址拷贝到“典型页面”接着点击“测试”读取源码。
先从标题标签开始,我们发现按默认标签采集回来的标题多了“_网易娱乐”,请双击标题标签或者选种标题标签在点击修改,把“_网易娱乐”添加到排除内容框里,标题标签完成。
如图:3、内容标签讲解。
制作采集规则(任务)的任何一个标签最重要的就在于寻找开始也结束的标志。
目前大部分的采集器要求开始和结束的标志必须是整个源代码的唯一标志,也就是所有的html源码里只能找到一个开始或结束的标志。
火车头投影仪使用说明书
火车头投影仪使用说明书火车头投影仪使用说明书一、产品概述火车头投影仪是一款便携式投影设备,通过连接外部设备,可以将影像投射到屏幕上,以获得更大的观看区域和更好的观影体验。
二、使用前准备1. 确保火车头投影仪和外部设备(如电脑或手机)处于关闭状态。
2. 确保火车头投影仪和外部设备之间的连接线完好无损。
3. 准备一块干净、平整的屏幕或白色墙壁,作为投影区域。
三、使用步骤1. 将火车头投影仪与外部设备通过连接线连接。
2. 打开火车头投影仪的电源开关,待投影仪启动完毕后,点亮指示灯。
3. 调整投影仪与屏幕的距离,以获得最佳投影效果。
4. 打开外部设备(如电脑或手机),选择要投影的影像或文件。
5. 调整火车头投影仪上的焦距和投影角度,以确保投影画面清晰可见。
6. 点击外部设备上的播放按钮,投影仪会将影像投射到屏幕上进行播放。
7. 观看完毕后,关闭火车头投影仪和外部设备,拔掉连接线。
8. 清理投影区域,避免灰尘和杂物影响下次使用。
四、注意事项1. 请确保使用和存放火车头投影仪的环境通风干燥,避免过度潮湿或高温环境。
2. 不要将火车头投影仪放置在易燃材料附近,以防发生安全事故。
3. 使用过程中请勿遮挡投影仪出风口,以免影响散热效果。
4. 不要随意拆卸和维修火车头投影仪,以免损坏设备或引发危险。
5. 使用后请及时关闭电源,以节省能源和延长投影仪的使用寿命。
以上就是火车头投影仪的使用说明书,希望能帮助您顺利使用该产品。
如有任何疑问或问题,请参阅附带的详细说明书或联系售后服务部门。
感谢您的支持与配合!。
火车头采集器介绍与使用流程说明
五、字段处理
• 网页编码设定: • 每个网站都有一个相对应的编码:如UTF-8。如果选错编码,则采集
出来的数据就会呈现一种乱码格式。 • 大多数的网页编码火车头都可以自动识别,如不能则需要手动指定一
二、创建任务
• 1.新建分组
填写分组名称
二、创建任务
• 2网址
三、采集网址
• 点击“添加”按钮出现如下界面
三、采集网址
• 切换至“批量/多页”选项卡,可以批量添加网址
网址通用序号用通 配符(*)替换
这添加方式主要用来处理分页网址
三、采集网址
• 切换至“其他网址格式”选项卡,也可以批量添加网址
日期格式
网址通用序号用通 配符(*)替换
这添加方式主要用来处理含有日期的网址
三、采集网址
• 多级网址采集
点击‘添加’按钮
网址过滤条件
三、采集网址
• 手动采集配置链接地址规则:
• 手动连接格式是将需要的网址用参数来获得并组合成我们需要的网址。 这个好处是处理网址那块有规律的网址很好处理。而且可以用这方法 采集需要的字段,如:公告新闻类的标题、日期等。
火车采集器是目前信息采集与信息挖掘处理类软件中最流行、性价比 最高、使用人数最多、市场占有率最大、使用周期最长的智能采集程 序。
一、软件介绍
• 火车采集器数据发布原理:
• 在我们将数据采集下来后数据默认是保存在本地的,我们可以使用以 下几种方式对种据进行处理。
• 1.不做任何处理。因为数据本身是保存在数据库的(access或是 db3),您如果只是想看一下,直接用相关软件查看就可以了。
火车头使用说明
火车头使用说明别的不说了,直接开始使用。
(ps:开始之前,最好把爬虫的原理了解一下)咱们用的是免费版,功能什么的很多受到限制,免费版网页只能抓到两级,而且无法定时执行任务。
1、安装完火车头后,直接双击图标打开,此时会弹出一个登录页面,什么都不要管,直接点击登录就进入了主界面,主界面如下:你会发现它有一些内置的分组,分组下面有内置的测试任务,这里要强调一点,每个任务从上到下对应着火车头安装目录data目录下的以数字开头的文件夹,里面放着各自的数据文件,大概内置测试任务有38个,所以data目录下有对应从1到38的38个文件夹,你以后新建任务后,会自动再data目录下建立文件夹,序号依次递增。
2、新建任务和分组。
你可以新建分组,也可以再已有的测试分组下面建立任务,但是有一点要注意,任务不能脱离分组而存在,必须把任务存在分组里面,这里咱们新建一个名字叫做腾讯的分组。
3、右键单击腾讯,选择新建任务,弹出新建任务对话框4、下面我们以腾讯新闻采集为例说一下如何去配置,任务名叫做腾讯新闻可以看到,这里分为四步,第一部就是采集网址规则(这一步就相当于爬虫里面设置种子url 并且入队的过程),在出现的起始网址,添加单条网址,并点击”添加“按钮。
我们在网页中,通过分析,发现国内新闻的第二页及以后都是以数字递增的方式显示的,我们现在添加等差数列形式的网址最后点击完成,查看效果起始网址的添加就是种子URL的设置过程,这里可以添加多个种子URL,我这里设置了六页下面就是多级网址获取,点击添加按钮,出现如下画面(这一步相当于提取网页所有连接的过程)如果直接点击保存,相当于提取网页中所有链接,但真实情况下我们并不需要所有的链接,所以需要对链接进行过滤,可以从该选定区域提取网址,也可以对结果网址过滤,这里我们设置结果网址必须包含/a,然后点击保存。
你可以看到有一个检测重复网址,这个选项的目的就是告诉你,在多次抓取的过程中是否抓取相同网址的页面,这里默认是选中的。
火车头采集器应该如何使用
关于火车头使用方法目录目录 (2)一、原理描述 (3)1.火车采集器数据抓取原理: (3)2.火车采集器数据发布原理: (3)3.火车采集器工作流程: (3)二、术语解释 (4)三、下载地址 (5)四、安装升级与卸载 (6)五、操作步骤 (7)一、原理描述1.火车采集器数据抓取原理:火车采集器如何去抓取数据,取决于您的规则。
您要获取一个栏目的网页里的所有内容,需要先将这个网页的网址采下来,这就是采网址。
程序按您的规则抓取列表页面,从中分析出网址,然后再去抓取获得网址的网页里的内容。
再根据您的采集规则,对下载到的网页分析,将标题内容等信息分离开来并保存下来。
如果您选择了下载图片等网络资源,程序会对采集到的数据进行分析,找出图片,资源等的下载地址并下载到本地。
2.火车采集器数据发布原理:在我们将数据采集下来后数据默认是保存在本地的,我们可以使用以下几种方式对数据进行处理。
1、不做任何处理。
因为数据本身是保存在数据库的(access、db3、mysql、sqlserver),您如果只是查看数据,直接用相关软件打开查看即可。
2、Web发布到网站。
程序会模仿浏览器向您的网站发送数据,可以实现您手工发布的效果。
3、直接入数据库。
您只需写几个SQL语句,程序会将数据按您的SQL语句导入到数据库中。
4、保存为本地文件。
程序会读取数据库里的数据,按一定格式保存为本地sql或是文本文件。
3.火车采集器工作流程:火车采集器采集数据是分成两个步骤的,一是采集数据,二是发布数据。
这两个过程是可以分开的。
1、采集数据,这个包括采集网址,采集内容。
这个过程是获得数据的过程。
我们做规则,在采的过程中也算是对内容做了处理。
2、发布内容就是将数据发布到自己的论坛,CMS的过程,也是实现数据为已有的过程。
可以用WEB在线发布,数据库入库或存为本地文件。
具体的使用其实是很灵活的,可以根据实际来决定。
比如我可以采集时先采集不发布,有时间了再发布,或是同时采集发布,或是先做发布配置,也可以在采集完了再添加发布配置。
火车头工具使用
第一步:新建组,如图我们新建的组名为“癫痫”,然后癫痫下边新建任务,如果是癫痫治疗,那么就可以取名为“癫痫治疗”:第二步:开始任务:点开之后选择批量多页,你给的我看了,总共有三页,所以选择项数为3,然后在网址选择上第三步,在选择地址格式的时候,注意观察,第一页文章和第二页文章网址有什么不同,将相同的保留,不同的用(*)代替,选取不同的用(*)代替,可以直接在后边点击,就自动添加了(*)我们观察后发现,地址只有前边的/sj/dxbdzlff/list_26_是相同的,后边会自动变化,所以格式就为/sj/dxbdzlff/list_26_(*).html,第四步,网址选择完成后,单击添加,完成接下来就是多级网址的获取:(这是采集关键)*第五步:必须包含,任意选取其中一篇文章,提取,将不同的用(*)代替。
接下来的关键在地址选择:打开文章列表页:怎样判断代码源里边是独一无二的代码,ctrl+F查找查看源代码:找出标题列表最上边的独一无二的最接近标题的代码,一般都是div class=“”这样的格式,标题列表末尾也是同样选取,同样格式,独一无二末尾:选取完成后点击保存完成后先测试网址采集,就在最下边:测试正确完成后点击保存,接下来进行第二大步。
第二部分:第一步:采集容规则容采集,就比较简单了,任意选取一篇文章,查看源代码:找出标题前后代码:同样代码也是独一无二,双击标题,就可以进入:代码选择完成后确定。
接下来就是容页:同样双击之后查看:容代码的选择完成后,结果如下:但是注意容要添加HTML标签排除全选之后将换行和空格勾去确定之后就差不多完成了。
你也可以随便找一篇页面文章测试下结果:第三部分:第一步,发布容设置:文件模板地址:这个地址就看你把文件在那解压的。
这就算是全部完成了。
接下来就是采集:保存之后,三个全打对勾,开始采集:右键点击,开始任务,完成后只要去你建立的文件夹里边看就可以了。
火车头操作手册-Mg
火车头操作手册目录前言 (1)摘要 (2)第一章基础知识 (3)1.1 HTML 基础知识 (3)1.2 采集基础知识 (5)1.3发布基础知识 (5)1.4正则基础知识 (7)第二章火车头采集篇 (11)2.1 什么是信息采集? (11)2.2 火车头采集器的采集工作流程 (11)2.3 数据的转储 (20)第三章火车头发布篇 (24)3.1火车头发布内容的介绍 (24)3.2 接口文件的介绍.................................................................... 错误!未定义书签。
3.3 发布模块的制作 (26)第四章应用进阶 (38)4.1 火车头+PHP程序 (38)第五章防采技术介绍 (40)5.1 采集器与搜索引擎蜘蛛的区别 (40)5.2 防采集的一些主要措施 (40)5.3 火车头官方谈采集与防采 (42)5.3.1、谈火车头采集器的由来 (42)前言随着公司的日益壮大,产品线的不断拓宽,我们SEM团队也正在快速扩张,同时也带来了一系列问题,比如:团队成员的相互学习与交流,新员工的快速融入问题等。
因此员工学习手册的编写,势在必行。
员工学习手册,是团队成员技术,经验的总结,大家通过学习其他人的工作经验、技术,提高自己,同时团队实习也得到了提升。
而对于新入职的员工,根据前人的总结,经验,可以少走很多弯路,能够帮助他们快速融入集体,使得新人的适应期可以大大缩短,提高了新人培训效率。
在员工学习手册的编写过程中,我与沙亚金参与了《玩转“火车头”》的编写,里面是我们的一些使用火车头的一些心得,和技巧。
希望能够在信息采集,发布这块对大家有所帮助,由于时间,经验等因素,写的过程中也存在许多缺陷,欢迎大家与我们交流,批评指正。
在这里我们要感谢吉总,是他为大家带来了“火车头”。
摘要在这信息大爆炸的时代里,什么最重要?当然是信息。
对于“内容为王”的SEOer来说信息更是无价之宝。
火车头采集器用户手册
火车头采集用法下载火车头采集:地址:/Down/火车采集器的安装:火车采集器2010版是绿色软件。
如果您电脑上安装了微软的.NET FrameW ork 2.0框架或更高版本,安装时直接解压缩到您电脑的任何地方即可完成采集器的安装--安装过程不操作注册表和系统文件,不产生任何垃圾文件!如果您安装后程序无法启动,那可能是您电脑没有安装.NET FrameW ork 2.0,请下载微软的.NET FrameW ork 2.0框架或更高版本并安装。
附2.0下载地址:/download/5/6/7/567758a3-759e-473e-bf8f-52154438565a/dotnetfx.exe下载完之后点击d otnetfx.exe安装.NET FrameW ork。
安装完.NET FrameW ork之后打开火车采集器目录,双击目录内的LocoySpider.exe文件启动主程序开始采集之旅。
火车头采集基本流程:系统设置→新建站点→新建任务→采集网址→采集内容→发布内容→抓数据。
1.新建站点:据你自己的需求为任务建立统一的站点,以方便管理。
点击菜单上:站点→新建站点打开如下图:可以填写站点名,站点地址,网址深度(0,代表根据地址直接采内容。
1,代表根据地址采内容地址,然后根据内容地址采内容。
2,代表根据地址采列表地址,然后根据列表地址采内容地址,再根据内容地址采内容。
),站点描述。
2.新建任务:任务是采集器采集数据时的基本工作单元,它一定是建立在站点中的。
采集器通过运行任务来采集发布数据。
任务工作的步骤总体可以分为三步:采网址,采内容,发内容。
一个任务的运行可以任意选择哪几步。
而采集器又可以同时运行多个任务(默认设置是同时最多运行3个任务)。
选择站点点击右键选择“从该站点新建任务”。
任务的编辑界面如图:采集器的使用最主要的就是对任务的设置。
而采集数据可以分为两步,第一步是:采网址,第二步:采内容。
3.采集网址:采网址,就是从列表页中提取出内容页的地址。
火车头简单使用说明
火车头的简单使用说明火车头采集大致分为以下几步:1.建立站点。
2.建立采集规则(包括网址规则和采集规则)。
3.建立发布规则4.采集并发布先说第一步,建立站点。
很简单如下图:可以点上面的整站内容规则,把不同分类的公共标签等些在里面,会比较方便,自己试一下,咱们就按最基本的方法说。
点击保存按钮后,站点被保存,在左侧出列表树出现站点名称。
在名称上面,单击右键,选择从该站点新建任务出现如下对话框:点击向导添加,添加要采集的信息的列表页地址,找到列表页的分页规则,可以批量添加,也可以单页添加,建议先用单页,一是错误少,二十一次采集太多,你不怕把搜索引擎惹怒了。
好了不说废话,上图!点击添加后,单击完成,回到上一页,开始测试网址采集,当然最好添加一些必须有和不得包含的字符,过滤掉没用的链接。
还是看图:用鼠标随便选中一个链接,点浏览页面,看看有没有没用的东西,如果没有,选中一个页面,点击测试该页,出现如下图界面:上图中的标签,是很关键的东西,什么是没用的标签,什么是有用的标签呢?有用的,就是你发表信息的时候能用到的,比如说标题、电话等等。
火车头默认带着的时间、出处等就是没用的,干掉它!那么,怎么样建立标签呢?我拿标题来说一下,其他都类似了。
查看被采集内容页的源文件,找到标题的地方,看看被什么网页标签包围着,就是它了:这样标题就可以采集到了,类似的方法建立其他标签,即可采集到其他内容,下图是我采集:至此,采集部分完成,一些步骤说的比较简单,用的时候再摸索一下吧!然后,打开相应的data文件夹中找到与站点相同名字的文件夹,进入打开ACCESS文件导出数据为excel文件,整理数据之后导入数据库即可。
火车头经典教程
怎么样使用火车头下载地址:/Down/我们下载免费版。
注意:想用火车,就必须得安装.NET FrameWork 2.0框架或更高版本.net framework 2.0下载地址:那么,火车我们也下载到本地了,。
net框架,我们也安装了。
那么,我们把新下载的火车采集软件,解压下。
看到一些密密麻麻乱七八糟的东西及文件。
那么。
上图中,用红线圈住的LocoySpider.exe 是主程序,我们双击打开。
ps:这里说下,上图中,有好多任务是我自己用的。
新程序,并没有那么多。
我们会看到火车的界面,看起来非常复杂,是吧?呵呵,其实并没有那么复杂,对于新手,有好多东西是用不到的。
下边会一一的讲解。
我们先补习一下,火车头采集软件的工作原理。
因为我们浏览到的网页,最后都是通过html输出的,那么意味着,我们可以查看到html的源码,那么火车头为什么会采集到内容呢?我们看下网站的基本结构。
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN""/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="/1999/xhtml"><head><meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> -------这些蓝色的东西,对于新手,我们不需要知道!<title>网页的标题</title> ----红色的是网页的标题。
如下图(1)</head><body>内容在这个<body>和</body>之间的,是网站的内容部分。
火车头采集器介绍及使用流程说明
处理之后的效果
四、采集内容
• 备注:
• 前后字符串截取与正则提取是火车头最基本、最常用的两种采集方式,其原 理就是通过网页源代码中的前后关键字来获取所要采集的内容,通常这类前 后的关键字在网页源代码中具有一定的唯一性。
五、字段处理
• 火车头采集器除了有最基本的采集截取之外,还有大量的对数据自动 作特殊处理的功能。 • 内容替换:内容替换功能是将采集后的字段中的一些内容替换成需要 的格式,如有时采到的日期为xxxx年xx月xx日,而我们需要xxxx-xx-xx 的格式,就可以采取这个功能。
火车头采集器 介绍及使用流程说明
目录
一、软件介绍 二、创建任务 三、采集网址 四、采集内容 五、字段处理
一、软件介绍
• 《火车采集器》能为您做些什么呢? 1、网站内容维护:可以定时采集新闻、文章等任何您想采集的内容, 并自动发布到您的网站。 2、Internet数据挖掘:可以从指定网站抓取所需数据,通过分析和处 理后保存到您的数据库。 3、网络信息监控:通过自动采集,可以监控论坛等社区类网站,让 您第一时间发现您所关注的内容。 4、文件批量下载:可以批量下载PDF、RAR、图片等各种文件,并同 时采集其相关信息。 火车采集器是目前信息采集与信息挖掘处理类软件中最流行、性价比 最高、使用人数最多、市场占有率最大、使用周期最长的智能采集程 序。
选中即可
五、字段处理
• 采集记录筛选 • 有时有些记录不需要怎么办?火车采集器的记录筛选功能可以完成这 个工作。火车采集器记录筛选有以下几个处理方法: • 选中“内容过滤”就可对数据进行相关的过滤,如不得为空、不得重 复等。
五、字段处理
• 标签组合 • 有时我们会需要取几个字段来做数据的唯一性判断时就会用到标签组 合采集。
火车头机车操作说明文档
火车头机车操作说明火车头机车蒸汽参数;最大出力;蒸汽温度170℃蒸汽压力1.2MPa一、锅炉启动;1、烧火前将煤人工手动均匀的撒上炉排上,将准备好的术材(有钉或铁件的木材不能放入)和柴油等可燃物放在煤层上待烧,着火后将引风机出口挡板调整到最小位,防止引风机启动后将火吸灭。
先起动引风机后,逐步打开鼓风机,先用小风后用大风,观察着火情况。
直到燃煤完全开始燃烧。
2、鼓风机分三个风口送风,中间进风口最高可全部打开,前拱燃烧区是予热区,风量最大只能开到40%。
3、炉排上的煤开始燃烧后,要注意煤层的厚度,煤层厚不着火可适当排渣。
4、千万注意煤层不能太厚,一般维持在200mm,如果煤层太厚,会造成将火压灭,或使炉排片翻脱,燃煤进入下面的非燃烧区,将损坏大梁及其它钢制配件。
5、煤炭加水时千万注意,勿要将设备电机受湿,更不能将前拱受湿,防止电机烧坏,防止前拱涨裂变形。
6、炉底部细灰,每班交班前必须清完交班,防止结灰过多,损坏和影响下部钢结构件的正常运转。
7、停炉时引风机不停,并打开清灰门(同时清理下部的碎灰尘),让自然风进入炉排,对炉排冷却,将炉内煤渣推完。
8、传动机构要定期加、换油,以保证设备润滑,延长使用寿命。
9、本设备的燃烧面积只供一台炉使用,勿要一炉带多炉,过于疲劳使用会造成不良后果。
10锅炉应定期进行排渣工作。
二、安全注意事项:当锅炉断水,液面下降至液面计以下,严禁立即补水,必须立即压火关引风机、关锅炉蒸汽出口总阀、开手动放空阀,待压力降到OMPa,缓慢向锅炉注水至规定液面。
锅炉运行中,遇到下列情况之一,锅炉应立即压火:1、锅炉水位低于水位表最低可见边缘。
2、不断加水给水及采取其他措施,但水位仍继续卞降。
3、锅炉水位超过最高可见水位(满水),经放水仍不见到水位。
4、给水泵全部失效或给水系统故障,不能向锅炉进水。
5、水位表或安全阀全部失效。
6、没置的压力表全部失效。
7、锅炉元件损坏且危及人员安全。
8、燃烧设备损坏,炉墙倒塌或锅炉构架被烧红等严重威胁锅炉安全运行。
火车头使用教程
查看此教程建议视图:因为包含很多图片,其他视图导致图片查看不全。
解压后看到的文件有:其中discusX3.0.wpm 是发布模块,dz测试接口.ljobx 是用于测试的规则,以后不要问规则该怎么写了,就按照这个格式写。
1,上传接口根据自己的网站编码选择GBk或者utf8文件下下面的接口文件,jiekou.php,这个接口有个密码,默认是123456,如果想要修改,就打开这个jiekou.php,修改:就是上图这个,把默认的“123456”修改成你想要的,修改好了一定要保存,看不懂那就不要修改了。
然后把这个文件上传到DZ网站的根目录,不知道什么是根目录的自己百度,不要问上传到那里,自己的网站别人怎么知道你的根目录是什么,不知道就自己去查。
然后我们在浏览器里试试能不能访问,访问地址是http://网站域名/jiekou.php?pw=密码,这个密码就是上面说的接口密码:如果能出现论坛的模块就证明接口是对的了。
2,导入发布模块点击发布按钮:打开配置界面(有些慢,稍等下):成功导入后会有提示的。
发布模块设置:第一步,选择我们刚才导入的dz发布模块。
第二步:全局变量就是上面说的接口文件密码第三步:选择对应的编码第四步:网站根目录就填写上面我们访问接口的时候去掉后面的接口文件名称,剩余后的地址。
然后选择“不需要登录&Http请求”第五步:点击获取列表,如果能显示论坛版块就说明上面4步设置的正确。
设置好了点击测试配置,成功后就设置一个配置名保存这个配置在规则里面使用,简单分布,只发布标题内容回复的情况我们打开发布模块,来介绍下里面的内容:点击编辑按钮,到“内容发布参数”选项卡:介绍下表单名:✧username:对应的论坛发帖和回帖的用户名✧subject :对应的是论坛的标题✧message :对应是发布的帖子主题和回复内容,这2部分是放到一起的✧fid :对应的是版块ID✧signature :发帖人和回复人的签名内容,这里也是放在一起的✧publishdat:发帖和回帖的时间,同样2部分是放在一起的✧typeid :对应的是主题分类的ID✧typename:对应主题分类名,我们写了上面的分类ID,这里就可以不用设置值了,表单值留空即可。
火车头采集器初学者入门教程
通过观察页脚网址参数变化,可以看到下方网址中标红部分数字随着页数大小 发生了变动,随意复制其中一个网址,例如下方网址 /list/zx_yjdt-2.shtml
三、采集网址--批量/多页
在地址格式中输入刚才复制的网址,框选中变动的数字,点击右侧的(*) 符号会自动输入页码变动符号。 由于该网址采用数字等差数列,在“等差数列”右侧首项输入想要采集的 起始ID页数,“项数”右侧输入一共要采集的数量,一般为最后页码数。 查看下方预览区域中网址是否正确,如正确点击“添加-完成”按钮。如 果添加后发现有错误,可用鼠标点击完成下方的网址,选择删除即可。
二、新建站点
第二步:点击“新建站点”后出现如下界面。填写任务名称
三、采集网址
点击起始网址区域右侧“添加”按钮后,根据需求选择添加采集网址模式,这 里我们先选择“批量/多页”为例:
三、采集网址
以抓取慧聪业界动态/list/zx_yjdt.shtml为例:
从对方页面上判断需要采集的内容,以 /2014/11/101145796593.shtml为例,主要有标题、 来源、内容3项。
三、采集内容—标签修改
“标签名”右侧输入标签名字。特殊情况下勾选右侧相应匹配项,该例子中用 到的是第二项。 提取数据方式本例采用的是前后截取模式,分别在左右两个标红区域填入开始、 结尾唯一标示字符串。
三、采集网址--多级网址获取
1、从网页自动分析得到地址链接: 在方框内输入刚才判断的截取区域开始和结束代码,点击“保存”按钮。如想 测试采集的网址效果,点击右下角的“测试网址采集”。如确定信息正确点击 “保存”按钮。
三、采集网址--手动填写链接地址规则
2、手动填写链接地址规则: 与“从页面自动分析获得地址链接”模式多了一块功能区域。 从网页源代码中我们可以看到每篇文章的源代码大体如下: · <a class=pt_date href="/2014/11/101854796747.shtml">O2O+会员营销,千 亿盛宴你准备好了吗?</a> <font class=pt_date>11月10日 18:54</font></td></tr><tr><td> 其中粗体红色、蓝色为变动值,框住网址部分,点右侧的“[参数]”替换网址, “实际连接”处由于网址采用相对路径,需要手工加上前面域名和路径(如链 接地址是完整的,可以忽略执行这一步。)其他变动信息用(*)替换掉。 页面中可能还有部分要采集的数据,可以用“[标签:XXX]”获取,该内容会 自动传递到下一步的标签里,这里加过的标签不用出现在下一步中。
火车头使用规范
火车头资源抓取制作规范一、电影院名称资源抓取A.安装火车头软件(直接将火车头的软件包解压到电脑的任意盘)B.打开火车头所在的文件夹,找到下图所示的图标并双击打开C.在软件左侧界面中找到“任务列表树”,打开“自然语言组”文件夹,并选中“文法列表资源”选择“导入任务至该分组”D.将“豆瓣影院.ljobx”文件导入即可,如下图所示:E.文件导入完成后,会出现“豆瓣影院”任务F.对“豆瓣影院”进行“编辑任务”G.“编辑任务”详细设置第一步:采集网址规则在“起始网址”中选择“添加”点击“添加”后会出现下面窗口,选择“文本导入”进入“浏览”在“浏览”中选择“豆瓣电影网址列表.txt”,然后打开“打开”后,选择“添加”,最后“完成”第二步:采集内容规则第三步:发布内容设置1.选择“方式二”2.“保存文件格式”设置为“所有记录保存为一个txt文件”3.“保存位置”可以自定义4.“文件模板”选择“保存格式.txt”H.将所有设置进行保存I.把三项全部选中,之后选中“豆瓣影院”右击,便可“开始任务运行”注意:从第二次开始,每次“开始任务运行”之前都要“清空任务所有采集数据”和“清空该任务网址库”,之后再“开始任务运行”二、爱奇艺资源抓取A.安装火车头软件(直接将火车头的软件包解压到电脑的任意盘)B.打开火车头所在的文件夹,找到下图所示的图标并双击打开i.C.在软件左侧界面中找到“任务列表树”,打开“自然语言组”文件夹,并选中“文法列表资源”选择“导入任务至该分组”i.D.将“爱奇艺.ljobx”文件导入即可,如下图所示:E.文件导入完成后,会出现“爱奇艺”任务F.选中“爱奇艺”右击,进行“编辑任务”G.“编辑任务”详细设置1.选择“方式二”2.“保存文件格式”设置为“所有记录保存为一个txt文件”3.“保存位置”可以自定义4.“文件模板”选择“视频模板(优酷).txt”I.之后三个全部选中,选中“爱奇艺”右击,点击“开始任务运行”注意:从第二次开始,每次“开始任务运行”之前都要“清空任务所有采集数据”和“清空该任务网址库”,之后再“开始任务运行”三、优酷资源抓取A.安装火车头软件(直接将火车头的软件包解压到电脑的任意盘)B.打开火车头所在的文件夹,找到下图所示的图标并双击打开i.C.在软件左侧界面中找到“任务列表树”,打开“自然语言组”文件夹,并选中“文法列表资源”选择“导入任务至该分组”ii.D.将“优酷.ljobx”文件导入即可,如下图所示:E.文件导入完成后,会出现“爱奇艺”任务接下来的步骤与爱奇艺资源抓取过程相同。
PIKO火车模型中文数码控制说明书
目录快速上手1. 按照第8页“连接与操作”章节所描述的方法,将电源适配器和控制器Digi 1连接好。
2. 火车头在出厂时已经分配了硬件地址。
这个硬件地址和火车头在PIKO Digi 遥控器上使用的传输通道一起印刷在火车头底部的标签上。
3. 将火车头放在轨道,并记住它的硬件地址和传输通道(可以在火车头底部的标签上查到)。
然后根据指定的传输通道(A、B、C、D之一),在遥控器上按下相应的键就可以开动火车头了。
接着你就可以通过“+”、“-”按钮来控制火车头的速度。
如果在火车头行驶时,你按下了“<-”或“->”键,那么它会紧急刹车,然后变换方向行驶。
我们建议你多练习几次以掌握控制火车头速度的技巧。
4. 如果你想在轨道上放置另一个(与先前火车头的硬件地址不同的)火车头,那么按照以下步骤做。
(1)让第一个火车头停下,然后把第二个放到铁轨上。
(2)在遥控器上按下第二个火车头传输通道号后,你就可以控制它了。
(3)如果你想让两个火车头都跑起来,那么只要按照步骤3所说的,通过选择对应的传输通道先选定一个火车头,调整它的行驶速度和方向,然后再选定另一个,调整它的行驶速度和方向就行了。
以上就是数字控制的全部内容。
多练习几次你就能掌握它了。
5.如果在同时操纵两个火车头时发生紧急情况,比如两个火车头快要撞到一起了,那就赶快按“Stop”按钮让它们停下来。
拿走一个火车头,再按下“Stop”按钮,然后可以重新选定留在铁轨上的火车头,对它进行控制(参照步骤3)。
如果你第二次按“Stop”按钮前没有拿走一个火车头,那么它们会以相同的速度和方向再次运行起来,结果就是撞到一起。
6.建议用下面的方法操作多个火车头:(1)想要让火车头紧急制动,那么先根据传输通道(A到D之一)选定它,然后按“<-”或“->”按钮,它就能停下来。
你可以多练习几次。
(2)Engine drivers on the full-size railways aren't let loose on the passengers in the first five minutes either. It simply takes practice!这也只要多练习几次就行了。
火车头采集使用方法
什么是火车头?我们打开一个网站,看到有一篇文章很不错,于是我们就将文章的标题和内容复制了一下,将这篇文章转到我们的网站上.我们的这个过程,就可以称作一个采集,将别人网站上对自己有用的信息转到自己网站上;互联网上的内容,大多数都是通过复制-修改-黏贴的过程产生的,所以信息采集很重要,也很普遍,我们平台发到网站上的文章,多数也是这样的一个过程;为什么很多人感觉新闻更新很麻烦,因为这个工作是重复的,枯燥乏味的,浪费时间的;火车头是目前国内使用人数最多、功能最完善、网站程序支持最全面、数据库支持最丰富的软件产品;现在是大数据时代,它可以快速、批量、海量的获取到互联网上的数据,并按照我们需要的格式存储起来;说的简单一点,对我们来说有什么用?我们需要更新新闻,需要发商机,如果让你准备1000篇文章,你要用多久?5个小时?在有规则的情况下,火车头只需要5分钟!前提是有规则,所以我们要先学写规则,写规则如果数量的话,一个规则几分钟就好了,但刚开始学的时候会比较慢;名称解释与规则编写流程n以火车头8.6版本为准第1步:打开—登录第2步:新建分组第3步:右击分组,新建任务,填写任务名;第4步:写采集网址规则(起始网址和多级网址获取)第5步:写采集内容规则(如标题、内容)第6步:发布内容设置勾选启用方式二(1)保存格式:一条记录保存为一个txt;(2)保存位置自定义;(3)文件模板不用动;(4)文件名格式:点右边的倒立笔型选[标签:标题];(5)文件编码可以先选utf-8,如果测试时数据正常,但保存下来的数据有乱码则选gb2312;第7步:采集设置,都选100;a.单任务采集内容线程个数:同时可以采集几个网址;b.采集内容间隔时间毫秒数:两个任务的间隔时间;c.单任务发布内容线程个数:一次保存多少条数据;d.发布内容间隔时间毫秒数:两次保存数据的时间间隔;附注:如果网站有防屏蔽采集机制(如数据很多但只能采集一部分下来,或提示多久才能打开一次页面),则适当调小a值和调大b的值;第8步:保存、勾选并开始任务(如果是同一分组的,可以在分组上批量选中)以前的方式:比如我要准备n篇文章,要先找到这个文章是在哪个网站上的(如是采集同行A还是同行B),是在其哪个栏目下的(如是产品信息还是新闻信息),在这个栏目下有n 条信息,我要选哪一条,然后进去后把标题复制下来,把内容复制下来再进到另一个页面把标题内容复制下来,以此类推,然后同样的流程我要执行n遍;怎么转换:怎么把这个流程转化为软件操作呢?我要准备n篇新闻,这就表明要n个标题+对应的内容,要n个新闻链接,这n个新闻链接是从一个网站的新闻栏目上找的,而这个网站的新闻栏目有可能是很多页,比如10页,这个时候再从同行A的网站—栏目—内页;即先找到要采集的网站,打开这个网站的栏目页(确定好是采集新闻还是产品),写网址规则采集栏目下的所有新闻链接,然后写内容规则采集所有新闻链接中的标题和内容,最后保存下来;采网址详解-具体操作找到要采集网址的栏目页,如新闻栏目复制栏目的第一页链接url,起始网址右侧中点添加,在单条网址中黏贴栏目的第一页链接后点添加,如用右边的(*)代替,因为第1页已经添加了,还剩9页,这时在等差数列那一行把项数改成9,首项是2(因为第2页的链接是,然后点添加-完成;1、点对应右侧的添加,然后如下图所示是示例,右侧大图是说明;2、点击保存后点右下角的看看是否能采集到新闻网址,如果能采集到则正确,双击一个新闻网址进到下一步;如果采集到的不正确,返回修改直到成功;网址过滤可以自己观察其对应的规律;1、到采集内容规则这里后,把作者、时间、出处都选中后删掉,如右面第一张图,因为这些标签正常情况下都用不到;2、选中标题标签点修改,或直接双击该标签,进入编辑界面;3、进入后标签名的“标题”别改,改过后是要改对应的模板的;4、下面的数据提取方式:前后截取和开始结束字符串,也尽量用默认的,在不熟练的情况下不要改;5、点击下面数据处理的添加—内容替换,如右图;6、内容替换将标题后面的都替换为空,如果不替换的话采集的是页面title,这时需要打开两个新闻页面,看看这两个新闻页面的公共部分是什么,把公共部分替换掉例:如下面两个标题,“-”是公共部分,即把其替换为“空”;【图文】你知道螺旋加料机的加工方法吗螺旋加料机原理你了解吗【图文】气动式加料机的优点是什么你知道粉末加料机工作原理吗例:如下面的则需要把“-健康网”替换成“空”;例:如下面的则需要把“-健康网”替换成“空”;我喜欢吃西瓜-健康网苹果好吃吗?-健康网1、选中内容点编辑,或直接双击进入到内容标签编辑界面,标签名千万别改;2、写开始和结束字符串,就是找能把所有新闻都包裹起来的,在所有新在所有新闻页面中都是闻页面中都有的,且是唯一的一段字符串;即这个页面模板中的唯一代码串;举例:采集内容的时候,需要选择内容区域,因为要采集的可能是n篇,如100篇,这个时候就需要想法怎么能写一个采集到全部的,方法就是打开两个新闻链接如,查看第一篇新闻的源文件,找到新闻正文,然后向上找离新闻第一句话最近的,在这个页面中是唯一的一段代码(如果不唯一,软件能知道从第几个开始吗?),但又不是新闻中的内容,如<div id=“zoom”>,复制后在第二篇新闻页面源文件中搜一下看看有没有,如果有,则可采用;同理找到新闻最后一句话,向下找离其最近的页面中唯一的一段代码,复制后在第二篇新闻页面源文件中搜一下看看有没有,如果有,则可采用;数据处理:因为采集的是其他网站的信息,里面有可能有其他网站的资料,如公司名、联系方式、品牌等信息,也可能有其他网站的超链接等信息,这个时候就需要对信息进行过滤处理;数据处理—添加—下面对应的参数HTML标签过滤:滚动轴横向拉到最后,在所有标签前面打钩后点确定;内容替换:将这个网站的信息替换成自己的,原则是先整后拆,有公司名、电话号(拆分)、手机号(拆分)、邮箱、公司地址(拆分)、品牌名、网址(拆分);其中拆分的意思是对这个数据进行拆解替换,这个时候就需要做如下替换:因为在新闻中,,这是时候就需要对其拆解替换才能替换干净,可以多看一下他的新闻中,可能会用什么样的格式;注:数据处理还有很多技巧,需要自己在使用的过程中琢磨,更是采集的核心,如果处理不好,有可能是为他人做嫁衣,所以一定要仔细观察,考虑全面,如果处理好了,采集下来的文章甚至可以直接就发布(非自己企业站)注意事项1、右击分组:会出现如下图菜单,正常都能用到;新建任务:在此分组上新建任务;运行该分组下所有任务:顾名思义;新建任务:在该分组下再建分组;编辑/删除分组:编辑/删除当前分组;导入/导出分组规则:可以导出当前分组下的所有任务,并导入到同版本火车头上;导入任务至该分组:将导出的单个任务导入到该分组下面;黏贴任务到该分组下:要复制过任务后此项才出现,可以黏贴多个同样的任务,然后再黏贴后的任务上进行编辑即可;开始任务:和菜单栏上的开始一样;编辑任务:编辑已经写好的任务;导出任务:可以将当前规则导出,在其他同版本工具上导入,但导入数据时需重复上面的第6步-发布内容设置,必须要重新选/填一遍;复制任务到黏贴板:复制后,选择一个任务分组并右击,可以黏贴不同数量的任务到那个分组中,这样就避免同一个任务多次编写了;清空任务所有采集数据:新如果之前采集过任务想重新采集的,则需求先清空;3、其他设置:顶部菜单栏中点击工具—选项,配置全局选项和默认选项;全局选项:可以调整下同时运行任务最大个数,正常是5即可,可不调;默认选项:是否忽略大小写点是;。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
查看此教程建议视图:
因为包含很多图片,其他视图导致图片查看不全。
解压后看到的文件有:
其中discusX3.0.wpm 是发布模块,dz测试接口.ljobx 是用于测试的规则,以后不要问规则该怎么写了,就按照这个格式写。
1,上传接口
根据自己的网站编码选择GBk或者utf8文件下下面的接口文件,jiekou.php,这个接口有个密码,默认是123456,如果想要修改,就打开这个jiekou.php,修改:
就是上图这个,把默认的“123456”修改成你想要的,修改好了一定要保存,看不懂那就不要修改了。
然后把这个文件上传到DZ网站的根目录,不知道什么是根目录的自己百度,不要问上传到那里,自己的网站
别人怎么知道你的根目录是什么,不知道就自己去查。
然后我们在浏览器里试试能不能访问,访问地址是http://网站域名/jiekou.php?pw=密码,这个密码就是上面说的接口密码:
如果能出现论坛的模块就证明接口是对的了。
2,导入发布模块
点击发布按钮:
打开配置界面(有些慢,稍等下):
成功导入后会有提示的。
发布模块设置:
第一步,选择我们刚才导入的dz发布模块。
第二步:全局变量就是上面说的接口文件密码
第三步:选择对应的编码
第四步:网站根目录就填写上面我们访问接口的时候去掉后面的接口文件名称,剩余后的地址。
然后选择“不需要登录&Http请求”
第五步:点击获取列表,如果能显示论坛版块就说明上面4步设置的正确。
设置好了点击测试配置,成功后就设置一个配置名保存这个配置在规则里面使用,
简单分布,只发布标题内容回复的情况
我们打开发布模块,来介绍下里面的内容:
点击编辑按钮,到“内容发布参数”选项卡:
介绍下表单名:
✧username:对应的论坛发帖和回帖的用户名
✧subject :对应的是论坛的标题
✧message :对应是发布的帖子主题和回复内容,这2部分是放到
一起的
✧fid :对应的是版块ID
✧signature :发帖人和回复人的签名内容,这里也是放在一起的
✧publishdat:发帖和回帖的时间,同样2部分是放在一起的
✧typeid :对应的是主题分类的ID
✧typename:对应主题分类名,我们写了上面的分类ID,这里就可
以不用设置值了,表单值留空即可。
✧sortid:对应的是分类信息的ID
✧fanme:对应的是版块的名称,同样上面设置了fid的值,这里
的值就可以不用设置,表单值留空即可
✧avatar:发帖人和回帖人的头像信息,同样的2部分是放到一起
的
✧tags:发帖的时候设置的标签
假如我们不需要那个表单值,比如我们不需要signature,我们按照上图选中这个,然后点击“修改表单值”,把表单值这里设置为空就可以了如下图:
然后同样的办法处理我们别的不要的表单如下图我把typeid,typenam等等表单我都不需要,我就用上面的办法把他们的表单值设置为空就可以了:
当然了你自己需要什么表单,自己选择啦。
我们把测试规则导入到采集器里面,来说明下规则设置:
在第二步:采集内容规则,我们直接点击右侧的“测试”按钮,看下采集到的内容,这个规则是采集dz官方论坛。
因为是采集论坛所以内容标签采集到结果是帖子内容和回帖内容,作者标签采集到的是发帖用户名和回帖用户名,头像和时间以及签名,都是发帖人和回帖人的相关信息的组合。
采集到的作者,接口为自动注册的。
要用到标签循环右侧“标签循环处理”分隔符必须写“||||”,右侧信息看到结果都是用“|||”连接各个信息的。
说下头像这个标签,一个用户的头像一定是“头像图片地址用户名”这样组合在一起。
规则如何设置就看自带的规则,不需要的标签删掉就可以了。
需要加的标签添加上,总之规则里的标签和发布模块里的标签一一对应,标签名要一致。
好没有看到在发布模块那里看到内容标签其实发布模块里的{0}就代替了,参考:/spider-75522-1-1.html
都设置好了就在规则里面使用如下图:
接口扩展说明:
接口注册的用户名密码设置,打开接口:
这里设置的就是新用户注册的密码,我设置的是12346,那么所有接口注册的用户的登录密码都是123456
如果留空的话,新注册的用户名密码就是:把用户名和密码参数连接起来,md5下,取后面的12位,上图用户密码下面就是用户名密码参数,是可以设置的。
回复用户名如果没有采集到就用接口里面设置的用户名如下图:
这些是可以修改的。
接口里面有个映射关系如下图:
意思就是我们建立一个标签名为fname,如果采集到的是“版块1”,那么就发布对应的版块id是1的版块里面,这个可以根据自己论坛版块进行修改。
下面的typname也是同样的。
这样设置的好处就是不需要设置分类id直接通过版块名称和主题分类名称自动对应上。