虫虫软件文章采集和自动伪原创处理
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
虫软件客服吴(1216428847) 13:59:46
大家下午好!我是客服小吴,今天很高兴与大家一起对虫虫软件文章采集和自动伪原创处理做个互动交流,往期我们麦络科技已经做为大家做了九期虫虫seo软件分享交流;今天是第十期,后期会继续与大家一起对虫虫软件和seo相关分享做互动交流,第十期具体有3个方面:
一方面、虫虫软件新建文章采集三步;
二方面、虫虫软件标题自动伪原创处理;
三方面、虫虫软件正文伪原创处理;
今天互动时间预计在2个小时,如果在以下讲到有疑问的,大家可以先做个笔记记录下问题,稍后讲完了,可以拿出来,大家一起分享下你的问题。
回复
➹骑士(59321268) 14:00:09
回复
待定(1124303170) 14:00:20
回复
虫软件客服吴(1216428847) 14:01:12
大家是红体字的改为其他颜色好方便大家看到我的字体
回复
商电(6514988) 14:01:47
嗯,继续吧
回复
虫软件客服吴(1216428847) 14:01:55
虫虫软件文章采集其实很简单,有的估计一听见需要写规则,就会联想到是不是要懂代码才可以写,这个想法是错误的;不懂代码也可以写虫虫软件采集规则的,其实我也不懂代码的,一般常规的自定义采集我都是按照使用教程里面的套路来的,今天我就为大家讲下怎么找到需要截取的部分,在进行虫虫软件常用的代码进行编写。
回复
虫软件客服吴(1216428847) 14:03:01
先和大家说下虫虫软件采集常用的几个代码:
第一步,[page]是用来代替页码的;
第二步,(.*?)这个是用来代替帖子的列表网址的,【第二步有的部分需要过滤的可以采用.*?】;第三步,(.*?)这个代替标题;
[\s\S]*?这个是用来过滤标题和正文头部之间不需要的相关文字;
([\s\S]*?)这个是代替正文内容的;
简单说下第二步和第三步的代码,()带这个括号就是属于通配的形式,没有带()括号的就是属于过滤的形式。
回复
待定(1124303170) 14:04:51
回复
虫软件客服吴(1216428847) 14:05:01
以上基本规则都和大家说了,我今天就拿网易财经这个页面地址为大家讲解下,今天为什么要采用网易财经给大家讲虫虫软件采集了?其实这里面的内容基本半个小时就会更新一次,文章内容更新很快,稍后需要临时截图,估计到时截图需要些时间。
回复
虫软件客服吴(1216428847) 14:05:31
大家打开这个页面可以和我一起动手操作
/special/00252G50/macroNew.html
回复
待定(1124303170) 14:06:07
回复
主讲-吴玄(1216428847) 14:06:25
现在在把软件内容采集配置和管理页面打开,自己先新建一个采集规则,自己把采集规则的名字修改下,可以做个备注。
回复
主讲-吴玄(1216428847) 14:06:31
回复
待定(1124303170) 14:07:31
回复
主讲-吴玄(1216428847) 14:07:36
第一步,我相信大家基本都是会写的,但还是简单的讲下,[page]这个是代表页码的。
主讲-吴玄(1216428847) 14:08:21
1、大家打开文章列表页面的网址/special/00252G50/macroNew.html
查看第一页网址和第一页网址有什么不同。
回复
主讲-吴玄(1216428847) 14:08:47
还有最后一页
回复
维他命(4446201) 14:09:03
/special/00252G50/macroNew_[page].html
回复
主讲-吴玄(1216428847) 14:09:11
对的是这样写的
回复
主讲-吴玄(1216428847) 14:09:52
查看第一页网址和
第一页:/special/00252G50/macroNew.html
第二页:/special/00252G50/macroNew_02.html
最后一页:/special/00252G50/macroNew_20.html
第一页没有页码,从第二页才开始有页码,那第一步就需要写两个列表地址了。
回复
主讲-吴玄(1216428847) 14:10:47
/special/00252G50/macroNew.html
/special/00252G50/macroNew_[page].html
回复
主讲-吴玄(1216428847) 14:11:05
回复
维他命(4446201) 14:11:24
其实大部份的网站/special/00252G50/macroNew_01.html是可以访问的,只是这163的不让访问
回复
咨询(63046019) 14:11:44
163比较重视安全
回复
待定(1124303170) 14:13:24
就是像上面那样写啊?
回复
主讲-吴玄(1216428847) 14:13:44
是的我截图的
交谈中请勿轻信汇款、中奖信息、陌生电话,勿使用外挂软件。
待定(1124303170) 2011-9-23 14:13:24
就是像上面那样写啊?
主讲-吴玄(1216428847) 2011-9-23 14:13:44
是的我截图的
主讲-吴玄(1216428847) 14:14:47
3、现在就是设置页码了,一般是看你采集的最后一页有多少页面,大家可以去看看文章翻页的页面最后一个页面是多少。打开点击,最后一页是20页,大家可以去设置下页码。
第一步是不是很简单啊!
待定(1124303170) 14:15:32
主讲-吴玄(1216428847) 14:15:47
如果没有异议我们进行第二步了
待定(1124303170) 14:16:03
好的
主讲-吴玄(1216428847) 14:16:11
第二步,就是从文章列表页面提取列表网址,(.*?)这个是代表帖子的网址的。
1,大家还是打开这个页面/special/00252G50/macroNew.html
维他命(4446201) 14:16:13
这样写是表示一个单页加一个多页。[page]表示通配符,通配符是指有多个的。您如果有心的话也可以手动添加20个单页。。。
主讲-吴玄(1216428847) 14:17:02
如果上面的不写第一页就采集不到了
因为你点第二页在返回第一页网址还是不变的