关键词提取工具
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
关键词提取工具
本文将教您如何使用【八爪鱼数据采集】工具到关键词网站批量采集提取的方法。
对于一位站长来说,关键词挖掘是他必不可少的工作。
目前网络上有爱站、百度站长、词库等各种工具可供站长使用,这些工具对于站长来说都是非常有价值的,对于网站的内容定位、结构策划、TDK撰写等营销策略都是至关重要的。
下面以【爱站】举例,教大家如何使用【八爪鱼数据采集】进行关键词的采集提取。
采集网站:
本文仅以采集“旅游”、“旅游攻略”、“旅游景点”这三个词采集长尾关键词举例说明。
大家可根据自身需要,更换不同的关键词进行挖掘长尾关键词。
使用功能点:
文本输入登录方法(7.0版本)
/tutorialdetail-1/srdl_v70.html
●验证码登录
/tutorialdetail-1/kjsb7.html
●数字翻页
/tutorialdetail-1/szfy_7.html
●文本循环
/tutorialdetail-1/wbxh_7.html
步骤1:创建爱站关键词采集任务
1)进入主界面,选择“自定义模式”,点击“立即使用”
2)将要采集的网址复制粘贴到网站输入框中,点击“保存网址”
步骤2:登录爱站工具
1)系统自动打开网页,进入爱站关键词挖掘页面。
点击“登录”按钮,选择“点击该链接”,进入爱站工具登录页面。
2)在页面右上角,打开“流程”,以展现出“流程设计器”和“定制当前操作”两个板块。
点击账号输入框,选择“输入文字”
输入爱站工具登录账号,点击“确定”
3)点击爱站工具密码输入框,选择“输入文字”,输入密码,点击“确定”
4)由于网站登录要输入需要验证码,点击“验证码”图片,然后点击“识别验证码”。
点击红色框中的输入框
点击登录按钮
点击“确认”按钮
点击“验证码不正确”,随后选择确认按钮
选择“开始配置识别成功场景”
这个时候识别验证码就配置好了
5)由于爱站登录验证码是过了一定时间会失效,如果失效了,可以选中左侧设计器中的“识别验证码”,打开“辅助模式选项”,在“当前验证码”中填入正确的验证码,然后点击“应用到网页并提交”。
6)提交好之后会自动进入关键词挖掘页面(最开始设置好的URL)
7)选择“打开网页”,在右面的“高级选项”的“缓存设置”中勾选“打开网页前先清理浏览器缓存”。
步骤3:设置文本循环
1)点击红色框中的输入框,然后选择“输入文字”
输入要挖掘的关键字,这里以“旅游”举例说明,点击“确定”按钮
2)如果要挖掘多个关键词,则需要建立一个文本循环。
从左侧拖入一个循环框
点击循环框,打开右侧的“高级选项”,在循环方式中选择文本列表,文本列表中填入你要挖掘的关键词,这里以“旅游”、“旅游景点”、“旅游攻略”举例说明,大家可以更换关键词,或者添加更多的关键词,选择文本列表的“确定”按钮,随后选择整个的“确定”按钮(蓝色的那个)。
将输入文字拖入循环框中
勾选右侧的“使用当前循环里的文本来填充输入框”,记住要选择“确定”按钮
3)点击网页中的“点击”按钮,随后选择“点击该按钮”。
步骤4:创建翻页循环
1)可以看到已经显示出需要挖掘的关键词了,下拉页面,找到数字翻页按钮,观察发现没有“下一页”按钮,所以要设置“数字翻页”,设置“数字翻页”可以参考:
点击“2”,随后在操作提示框中,选择“循环点击单个链接”
2)点击左侧“循环翻页”,打开右侧的“高级选项”,修改循环方式为“不固定元素列表”,“不固定元素列表”填入xpath:
//div[@class="pager"]//li[@class="active"]/following-sibling::li/a
点击“确定”
步骤5:创建列表循环并提取数据
1)移动鼠标,选中页面里第一个要提取的元素,比如这里选择的是“关键词”、“PC/移动指数”,“长尾词数量”,“收录数”。
系统会自动识别出页面中的其他同类元素,在操作提示框中,选择“选中全部”,以建立一个列表循环
3)我们可以看到,页面中信息区块里的所有元素均被选中,变为绿色。
选择“采集数据”
4)选中不需要的字段,点击垃圾桶图标,可将其删除
5)字段选择完成后,选中相应的字段,可以进行字段的自定义命名。
完成后,点击“确定”
步骤6:爱站关键词数据采集及导出
1)点击左上角的“开始采集”,选择“启动本地采集”
注:本地采集占用当前电脑资源进行采集,如果存在采集时间要求或当前电脑无法长时间进行采集可以使用云采集功能,云采集在网络中进行采集,无需当前电脑支持,电脑可以关机,可以设置多个云节点分摊任务,10个节点相当于10台电脑分配任务帮你采集,速度降低为原来的十分之一;采集到的数据可以在云上保存三个月,可以随时进行导出操作。
2)登录过程中,需要输入验证码,输入相应的验证码之后选择“确定”
这个过程有可能会出现验证码显示不出来的情况,原因是网站加载太慢,八爪鱼没有读取到验证码图片,所以需要设置执行前等待,可以根据具体情况设置,这里设置的是3秒。
3)采集完成后,会跳出提示,选择“导出数据”,选择“合适的导出方式”,将采集好的数据导出
4)这里我们选择excel作为导出为格式,数据导出后如下图
本文来自:/tutorialdetail-1/azkeywordcj.html
相关采集教程:
百度相关搜索关键词采集:
/tutorialdetail-1/bdxgsscj.html
词库网关键词采集:
/tutorialdetail-1/cikucrawl.html
使用八爪鱼7.0采集今日头条的数据:
/tutorialdetail-1/jrtt-7.html
八爪鱼采集原理以及实现功能:
/tutorialdetail-1/bzyyl-70.html
网页采集使用cookie登陆的方法:
/tutorialdetail-1/cookie70.html
搜狗微信公众号文章采集:
/tutorialdetail-1/sgwxwzcj-7.html
八爪鱼——90万用户选择的网页数据采集器。
1、操作简单,任何人都可以用:无需技术背景,会上网就能采集。
完全可视化流程,点击鼠标完成操作,2分钟即可快速入门。
2、功能强大,任何网站都可以采:对于点击、登陆、翻页、识别验证码、瀑布流、Ajax脚本异步加载数据的网页,均可经过简单设置进行采集。
3、云采集,关机也可以。
配置好采集任务后可关机,任务可在云端执行。
庞大云采集集群24*7不间断运行,不用担心IP被封,网络中断。
4、功能免费+增值服务,可按需选择。
免费版具备所有功能,能够满足用户的基本采集需求。
同时设置了一些增值服务(如私有云),满足高端付费企业用户的需要。