八爪鱼采集器使用必知的关键词

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

八爪鱼采集器使用必知的关键词

1、积分

积分是用来支付八爪鱼增值服务的一种方式,在八爪鱼采集器采集数据后,用来导出数据。免费版导出数据需积分,专业版及以上导出数据无限制。积分可以单独购买,也可以通过签到、完善个人资料、绑定社交账号等多种方式获得。

注意:不同的账号类型在使用八爪鱼增值服务时会有不同的收费策略,具体的收费策略和区别在版本说明里面有详细的解释。

2、规则

规则是八爪鱼规则配置程序记录人工操作流程、展现在八爪鱼客户端中并能进行导入导出操作的一条程序规则。当一条规则配置好之后,八爪鱼即可按照所配置的规则自动地进行数据采集,代替人工采集。

3、云加速

八爪鱼系统采用分布式集群部署的方式,每个集群由数量庞大的云节点组成,单个节点的采集能力相当于一台PC机的采集能力。通过八爪鱼后台的版本资源分配策略,分配到多少个云节点资源就享有几倍的加速,版本高的账户有更高的加速倍数。

4、云优先

如果是多用户共享一个云集群的资源,一个集群的规模大小是有上限的,如果同一时间提交云集群任务过多,造成资源拥堵,那么根据用户账号版本的不同,八爪鱼系统会进行默认排序,版本高的,优先级高,将有优先获得资源分配的权益。暂时未分配到资源的任务将进行排队轮候。

5、URL

URL 指正常网站的网址。

6、单机采集

单机采集是指不占用云集群的资源,只能通过八爪鱼客户端所在的PC 进行工作,在工作期间,

需要电脑和软件都处于运行状态,电源中断或者网路中断都会导致数据采集任务的中断。

7、云采集

云采集是指通过使用八爪鱼提供的服务器集群进行工作,该集群是7*24小时的工作状态,在客户端将任务设置完成并提交到云服务执行进行云采集之后,可以关闭软件,关闭电脑进行脱机采集,真正实现无人值守。除此之外,云采集通过云服务器集群的分布式部署方式,多节点同时进行作业,可以提高采集效率,并且可以高效的避开各种网站的IP 封锁策略。

8、定时采集

定时采集指的是用户在设定好八爪鱼的采集规则后,

可设置在云采集集群上定时运行该任务,任务会根据定时设置的时间周期性多次运行。

9、URL 循环

URL

循环是指设定八爪鱼循环采集一批URL

网址里面的数据。

10、自动导出

自动导出指的是用户可通过一些设置,实现数据自动导出,支持自动导出到数据库。自动导出到数据库只支持云采集,可以实现边采集边导出,导出的是当前未导出过的数据。 11、Cookie

1) Cookie 诞生:当某个用户打开浏览器发出页面请求时,web 服务器只是进行简单相应,然后就关闭与该用户的连接。所以当用户每发起一个打开网页请求到web 服务器的时候,无论是否是第一次打开同一个网页,web 服务器都会把这个请求当作第一次来对待,那这样的缺陷可想而知,比如每次打开登录页面的时候都需要输入用户名、密码。为了弥补这个缺陷,Cookie 应运而生。

2) Cookie 概述:Cookie 就是服务器暂时存放在你计算机上的一笔资料,好让服务器来辨认你的计算机。当你在浏览网站的时候,web 服务器会先送出小小资料放在你的计算机上,cookie 会帮你在网站上所打的文字(如用户名、密码)和其他一些操作都记录下来。当下次你再打开同一个网站。web

服务器会先看看有没有它上次留下的cookie 资料,有的话就会依据cookie 的内容来判断使用者,送出特定的网页内容给你。

3)Cookie登录:在八爪鱼中内置了记录cookie的功能,可通过获取登陆后的cookie 来记住登陆状态,以达到采集数据的目的。

12、XPATH

XPATH:是一种路径查询语言,简单的说就是利用一个路径表达式找到我们需要的数据位置。XPATH专门用于在XML中沿着路径查找数据。八爪鱼采集器内部有一套针对HTML的XPATH引擎,使得直接用XPATH就能精准的查找定位网页里面的数据。13、HTML

1)HTML概念HTML:超文本标记语言,是用来描述网页的一种语言。主要用于控制数据的显示和外观。HTML文档也被称为网页。

2)HTML结构:完整的HTML文件至少包括标签、标签、标签和<BODY>标签,并且这些标签都是成对出现的,开头标签为<>,结束标签为</>,</p><p>在这两个标签之间添加内容。通过这些标签中的相关属性可以设置页面的背景色、</p><p>背景图像等。</p><p>14、固定元素列表和不固定元素列表</p><p>固定元素列表,是一种精确定位方式,适用于网页上要采集的元素是固定数目的情况,一条xpath精确定位到一个元素。如图:3条xpath可精确定位到3个a标签。</p><p>//DIV[@class=’video-list’]/DIV[1]/A[1]/H3[1]</p><p>//DIV[@class=’video-list’</p><p>]/DIV[2]/A[1]/H3[1]</p><p>//DIV[@class=’video-list’]/DIV[3]/A[1]/H3[1]</p><p>不固定元素列表,是一种模糊定位方式,以解决部分网页列表元素不是固定数目的情况,例如部分网页第一页存在8个同类元素、第二页存在14个同类元素。如图:一条xpath 可直接把这三个a 标签都包含进去。</p><p>//a[@class='test']</p><p>15、AJAX</p><p>AJAX :AJAX 即延时加载、异步更新的一种脚本技术,通过在后台与服务器进行少量数据交换,可以在不重新加载整个网页的情况下,对网页的某部分进行更新。在八爪鱼中,如果网页只有局部数据更新,网址URL 没有变化,八爪鱼收不到网页变化信号,导致采集停止或者采集不到数据。 AJAX 在网页上表现特征:1、点击网页中某个选项时,大部分网站的网址不会改变;2</p><p>、网页不是完全加载,只是局部进行了数据加载,有所变化。</p><p>16、iframe 框架</p> </div> </div> </div> </div> </div> <div id="rightcol" class="viewcol"> <div class="coltitle">相关文档</div> <ul class="lista"> <li><a href="/doc/042751727.html" target="_blank">八爪鱼爬虫原理详解</a></li> <li><a href="/doc/0012253663.html" target="_blank">八爪鱼采集器新手入门必备的知识点(7.0版)</a></li> <li><a href="/doc/0f14186619.html" target="_blank">八爪鱼采集器高阶教程</a></li> <li><a href="/doc/173354006.html" target="_blank">八爪鱼采集器使用进阶教程共24页文档</a></li> <li><a href="/doc/1b16585646.html" target="_blank">八爪鱼采集器实战采集练习案例</a></li> <li><a href="/doc/2c5315691.html" target="_blank">八爪鱼云采集特点以及使用教程</a></li> <li><a href="/doc/229350596.html" target="_blank">八爪鱼采集正则表达式使用方法</a></li> <li><a href="/doc/383432943.html" target="_blank">八爪鱼采集器不用配规则采集数据的方法</a></li> <li><a href="/doc/3415979094.html" target="_blank">八爪鱼云采集原理以及规则加速设置教程</a></li> <li><a href="/doc/475778578.html" target="_blank">八爪鱼采集器补采漏采说明</a></li> </ul> <div class="coltitle">最新文档</div> <ul class="lista"> <li><a href="/doc/071000073.html" target="_blank">饭店包间名字大全</a></li> <li><a href="/doc/0d10001030.html" target="_blank">word无法创建工作文件,请检查临时环境变量</a></li> <li><a href="/doc/0d10001458.html" target="_blank">自行车健身比赛开幕式讲话词</a></li> <li><a href="/doc/0510001469.html" target="_blank">2018乡村医生个人工作总结</a></li> <li><a href="/doc/0e10002558.html" target="_blank">MySQL测试题 SQL</a></li> <li><a href="/doc/0310002568.html" target="_blank">合勤NXC5200</a></li> <li><a href="/doc/0210004833.html" target="_blank">铁路集中箱空箱调度优化建模案例(案例2)</a></li> <li><a href="/doc/021000530.html" target="_blank">微分几何教学大纲-复旦大学数学科学学院</a></li> <li><a href="/doc/031000596.html" target="_blank">人教版九年级数学上册导学案:24.1.1_圆【精品】</a></li> <li><a href="/doc/0c10006773.html" target="_blank">(整容后办护照用)医院整容证明</a></li> <li><a href="/doc/0e10006860.html" target="_blank">危险废物管理台账</a></li> <li><a href="/doc/0310008420.html" target="_blank">2017年终大会会场物料设计方案</a></li> </ul> </div> </div> <script> var did = "64023455"; var ext = 'docx'; var docId = '1bm0twudc1277xw0ok6u1kk0gl1pu8d5'; var totalPage = 12; const pageNum = '12'; </script> <div class="clearfloat"></div> <div id="footer"> <div class="ft_info"> <a href="https://beian.miit.gov.cn">闽ICP备16038512号-3</a> <a href="/tousu.html" target="_blank">侵权投诉</a>  ©2013-2023 360文档中心,www.360docs.net | <a target="_blank" href="/sitemap.html">站点地图</a><br> 本站资源均为网友上传分享,本站仅负责收集和整理,有任何问题请在对应网页下方投诉通道反馈 </div> <script>foot()</script> </div> </body> </html>