DedeCMSV5.6版自动采集功能规则使用基本知识详细讲解教程
虚拟主机问题之=dedecms不能自动采集问题
虚拟主机问题之=dedecms不能自动采集问题解决自带采集问题。
织梦DEDECMS 安装发现fsockopen 函数被禁用,解决自带采集问题。
织梦DedeCms 安装时发现fsockopen 函数被禁用的解决办法:现在使用织梦DedeCms 网站的站长越来越多,黑客也开始活动起来。
争对DEDECMS 的开源特性,很多能利用的漏洞,都被黑客利用从而进行攻击等。
做为站长或服务器idc 商,肯定是想办法解决这些隐患的!所以很多idc 空间商,都把虚拟主机用户的php.ini 中的fsockopen 函数给禁用了!导致dedecms 无法采集。
解决办法。
(注意修改文件前记得备份)如下:第一:原理我们是把fsockopen 函数替换成pfsockopen 函数,因为pfsockopen 可保持keep-alive 连接,使黑客无法持续性的攻击。
第二:涉及到的dedecms 文件有如下:dedecms5.6 有如下:include/dedehttpdown.class.phpinclude/dedecollection.func.php:include/mail.class.php dede/module_main.phpdede/api_ucenter.phpdedecms5.7 有如下:include/dedehttpdown.class.phpinclude/sphinxclient.class.phpinclude/dedecollection.func.php:include/mail.class.php ask/data/scores.inc.php:dede/module_main.phpdede/api_ucenter.php plus/bshare.php找到这些文件把其中的fsockopen 替换成pfsockopen 就可以了。
DEDECMS采集规则(图文详解)
DEDECMS采集规则(图文详解)默认分类2010-08-08 23:54:21 阅读209 评论0 字号:大中小订阅没有玩过DEDECMS的采集,但还是想了解一下DEDE采集的规则,下面是详细的图文详解,有空的时候看看,留此备用了.第一步、确定采集的网站(我们以DEDE的官方站做为采集站做示范)Quote:/plus/list.php?tid=10第二步、确定被采集站的编码。
打开被采集的网页之后,查看源代码(IE:查看- > 源代码)在之间找到charset 这个,后面就显示网页的编码了,截图的是“gb2312”第三步、采集列表获取规则写法来源网址写法很明显pageno是表示分页页码那么有多页列表的采集就要用“[var:分页]”来替换分页页码,截图如下/ plus/list.php?tid=10&pageno=[var:分页]文章网址需包含网址不能包含这两个一般不用写,用于采集列表范围有很多不需要的连接才用到他来做过滤使用。
上面的网址并没有带有至于 为什么要在前面加上,这个就不要我说了吧。
如果只有一个列表页,那么在来源网址就直接写上网址就OK了。
注意这里,最关键就是这里。
下面就是“采集获取文章列表的规则写法”,就是上面打开的被采集页面的源代码文件,找到文章列表之前和本页面没有其他相同的代码在DedeCms官方站的列表页文章列表之前和之后最近的且没有相同的是“ ”和“ ”,分别写入“起始HTML”和“结束HTML”,写法看截图第四步、采集文章标题,文章内容,文章作者,文章来源等规则写法,分页采集等。
“起始HTML”和“结束HTML”写法参考第三步中的“获取文章列表的规则写法”下面讲的是如何采集分页内容看截图圈着的地方截图文档是否分页里面选择“全部列出的分页列表”“起始HTML”和“结束HTML”写法参考第三步中的“获取文章列表的规则写法”这里本来还有一张截图的,由于论坛配置,他现在显示在最上面.在文章内容那里点上“分页内容字段”,不选择就不能采集。
优化DEDECMS采集程序 支持部分采集只需要两步
优化DEDECMS采集程序支持部分采集只需要两步DEDECMS自带的采集功能,虽然比不上其他专业的采集软件,但对比其他采集程序,在性能上还是非常不错。
很多其他程序无法采集下来的网页,使用DEDECMS可以采集得到。
比如58同城首页,使用discuz的下载函数采集过来的都是一片空白或者警告内容,但是使用dedecms的下载完全可以下载下来。
DEDE采集程序原理DEDECMS的采集原理很简单:通过PHP程序socket模拟HTTP请求,下载整张网页的HTML。
不过这里面有一个不足之处——不支持部分采集。
如果我们仅仅要获得对方网页的标题,却下载了整张网页。
一两张无所谓,但是大量的下载就会挤占服务器资源和带宽。
比如商务大陆网35dalucom的分类信息网站大全,该频道含有600多分类信息网站,网站程序后台自动定期获取这些网站的标题,以判断这些网站是否可以正常打开,内容是否发生改变。
如果使用dede的程序,直接默认下载整张网页而不是仅网页HTML头部部分,长期下去可想而知会挤占多少服务器资源。
此时我们此处仅仅需要获得对方网页的标题而已。
修改文件dedehttpdown.class.php要让DEDECMS实现部分采集的功能非常简单,只需要修改采集程序文件dedehttpdown.class.php 中的2个地方即可。
使用notepad++或者dreamweaver 打开/include/dedehttpd.class.php:(1)第118行$this->m_html = '';背后加入$this->dataLimit = 0;。
(2)第285行$this->m_html .= fgets($this->m_fp,256); 背后加入if($this->dataLimit > 0 && strlen($this->m_html) > $this->dataLimit) break; 保存即可。
dede采集文章,过滤规则大全,常用规则
{dede:url value='/text/class1/class1/200609/text_28623.html'}{/dede:url}
{dede:need}{/dede:need}
把这个延伸一下:关于inc_arcpart_view.php
function GetArcList($typeid=0,$row=10,$col=1,$titlelen=30,$infolen=160,
$imgwidth=120,$imgheight=90,$listtype= all ,$orderby= default ,$keyword= ,
这样就把文章里有这些字的地方过滤成空了,不过这样做有时文章会读不通,经常会用到互换
{dede:trim replace= 晋利达俱乐部 }晋利达反赌俱乐部{/dede:trim}
过滤一些电话
过滤400电话
{dede:trim replace= }\d{4}-\d{3}-\d{3}{/dede:trim}
输出结果:/html/guizeceshi/caijibiji/20070327/2044_2.html
这是全部的代码,可导入试下:
复制代码 代码如下:
{!-- 节点基本信息 --}
{dede:item name='论坛范例_工作总结_成功(改)'
{dede:trim}
{/dede:trim}
过滤js
{dede:trim}dede:trim}
过滤未知变量字符
固定(.*)固定
4.dede万能过滤代码
Discuz论坛系统采集完美教程!
1、Discuz论坛系统采集维护王(发贴王)大挪移(搬家王)软件设置软件设置步骤一1、维护王(发贴王)大挪移(搬家王)软件设置都是一样的,我们就以维护王(发贴王)为例来介绍软件设置你的网站是GBK版就运行标准版的软件如果你网站是UTF8编码的版本运行UTF8版的采集软件运行咱们的采集软件,点击步骤一网站设置2、打开您的网站首页复制你的首页地址3、把首页地址粘贴到软件步骤一里的首页地址位置4、鼠标右键点击您的网站首页里面的登陆————显示一个菜单—————鼠标点击菜单里的属性——————出现一个窗口,复制里面的登陆地址5、把登陆地址粘贴到软件步骤一里的登陆地址位置6、网站类型选择您的网站如果是discuz 7.00 那么,在就下图里面选择No0 Discuz! 7.00 版标准论坛类型7、点击保存设置采集软件将保存步骤一的设置并退出到软件主画面这样软件步骤一就设置完成了,步骤二设置有些麻烦,让我们先跳过,接下来让我们继续设置步骤三软件设置步骤三顶贴会员设置点击步骤三顶贴会员设置(注:这里是设置软件发布文章时的作者,和回复文章时的会员名)您可以使用我们的DISCUZ注册软件在您的DISCUZ论坛上注册一批会员,注册好后,把这批会员放在软件步骤三里但注意一点,您放到软件里的会员必须全部能在您的DISCUZ论坛上能正常登陆,(您可以手工试试看能不能登陆)1、放入在网站注册成功的会员2、每一行一个会员最多可放500个会员3、会员名称和登陆密码之间要空10个以上的空格会员安要求设置好后,点击保存软件自动退回主界面这样步骤三就设置成功了,接下来,让我们继续设置步骤二软件设置步骤二板块及发贴板块ID设置1、鼠标点击步骤二板块及发贴板块ID设置——————将进入软件版块及发贴设置,这里是用来设置,发布文章网址,和回复文章网址用的2、在IE窗口里打开您的论坛首页,您网站有很多论坛版块,把您论坛对应的板块名称及板块地址放入步骤二第一个窗口去注:此为测试,就只放一个版块就OK了。
dede织梦网站后台使用说明书-张无忌整理
Dede织梦网站后台使用说明书后台是整个网站的管理工具。
其功能包括:频道管理、内容发布、内容维护、HTML更新、核心模块、扩展模块、辅助插件、系统管理等功能。
导航菜单栏左侧菜单栏(后台界面一览)以下是各版块的功能说明:频道管理内容模型管理指发表文档的类别,例如:普通文章,图片集,软件,FLASH,产品,专题,分类信息。
功能:编辑,删除,复制和修改模板。
网站栏目管理管理网站所有栏目。
功能:创建顶级栏目,预览栏目页面,查看栏目文档,添加子栏目,修改栏目设置,移动栏目,删除栏目,更新排序,获取js,更新栏目HTML,更新文档HTML。
自由列表管理可以用来生成GOOGLE地图、百度地图等,利于搜索引擎收录。
功能:增加,更改,更新,删除,搜索列表单独页面管理单独页面,不属于网站栏目的页面,可以选择用模板或不用模板。
功能:增加,更改,更新,删除页面。
互动模块设置行业管理用于企业会员——公司资料——主营行业中的内容;在个人会员发布分类信息时用到。
功能:添加主行业,子行业,编辑,删除行业。
地区管理用于网站中需要添加地区的地方。
如:企业会员——企业资料。
功能:添加一级地区,二级地区,编辑,删除地区。
小分类管理相关于栏目的属性,在添加或修改栏目时启用小分类(仅适用于分类信息等互动模型)频道设置文档自定义属性管理使用自定义属性之后,只要给arclist 标记加上 att='ID' 的属性,然后在发布的时候对适合的文档选择专门的属性,那么使用arclist的地方就会按你的意愿显示指定的文档。
功能:滚动显示,头条推荐,幻灯片显示,首页推荐,首页滚动。
软件频道设置关于软件下载频道的一些设置。
功能:链接的显示方式,附件下载方式,是否启用镜像站点,是否显示本地下载链接防采集串混淆在文档中加一些防采集的字符串,防止采集内容。
我加上试了,没出效果来源管理保存文章的来源,在文档发布时直接选择就可以了,不用再输入。
作者管理保存发布文章的作者,在文档发布时直接选择就可以了,不用再输入。
站文章自动采集
站文章自动采集自动采集文章标题:如何通过自动采集站点进行网站内容的快速获取在当今信息爆炸的时代,网站内容的获取和整理变得愈发重要。
而自动采集站点成为了一种快速获取网站内容的有效工具。
本文将介绍如何通过自动采集站点进行网站内容的快速获取。
一、了解自动采集站点的基本原理自动采集站点是一种能够自动抓取网站内容的工具,其基本原理是通过设定规则,自动识别网页上的信息,并将其抓取、整理、存储。
通过自动采集站点,用户可以快速获取大量网站内容,节省时间和人力成本。
二、选择适合自己需求的自动采集站点工具在选择自动采集站点工具时,需要根据自己的需求来进行选择。
一般来说,自动采集站点工具分为付费和免费两种类型。
付费工具通常功能更加强大,而免费工具则相对简单一些。
用户可以根据自己的需求和预算来选择适合自己的工具。
三、学习如何使用自动采集站点工具在使用自动采集站点工具之前,用户需要学习如何使用该工具。
一般来说,自动采集站点工具会提供详细的教程和帮助文档,用户可以根据这些文档来学习如何使用该工具。
此外,用户还可以通过观看视频教程或者参加培训课程来提升自己的技能。
四、合理设置自动采集规则在使用自动采集站点工具时,用户需要合理设置采集规则。
一般来说,用户可以根据需要设置网站的URL、关键词、抓取深度等参数。
通过合理设置采集规则,用户可以快速获取自己需要的网站内容。
五、定期更新和维护自动采集规则在使用自动采集站点工具时,用户需要定期更新和维护采集规则。
由于网站内容会不断更新和变化,用户需要及时调整采集规则,以确保能够持续获取到最新的网站内容。
六、注意合规和版权问题在使用自动采集站点工具时,用户需要注意合规和版权问题。
一般来说,用户需要遵守网站的使用条款和版权法律,不得未经授权擅自抓取网站内容。
用户可以通过与网站所有者协商或者购买授权的方式来解决版权问题。
总之,通过自动采集站点工具可以快速获取网站内容,节省时间和人力成本。
然而,在使用自动采集站点工具时,用户需要了解其基本原理,选择适合自己需求的工具,学习如何使用该工具,合理设置采集规则,定期更新和维护采集规则,以及注意合规和版权问题。
dedecms规则采集和使用教程
大家好!今天给大家录制一个dedecms采集规则编写以及使用教程星期8_淘淘小店地址今天采集的目标站地址选择下面的列表地址编写规则/more-yuleshijianbu-1.html0.节点名称随意编写我们写娱乐事件 如图(1)1.程序编码gbk utf8 程序编码是GB2312和gbk一样如图(1)2.地址批量/more-yuleshijianbu-(*).html如图(1)图13.列表前后代码截取代码在列表页必须只有这样一条代码<div class="more_left_6"><div class="paging"> 如图(2)4.必须包含链接关键词(通用)shtml 如图(2)图25.不得包含关键词主要是过滤文章内容链接不需要的地址如图(2)6.文章标题提取通常都是<title>[内容]</title> 如图(4)图4过滤规则{dede:trim replace=''}要过滤的内容{/dede:trim}{dede:trim replace=''}_娱乐_onlylady女人志{/dede:trim}标题规则这样就OK了如图(5)图57.内容规则提取内容前后截取的代码同样必须是整个页面唯一性的代码<div class="detail_content" id="detail_content">[内容]<!--PAGE-->8.过滤规则提取dedecms过滤规则最重要的地方很多朋友不会使用他本条规则过滤代码如下{dede:trim replace=""}<a([^>]*)>{/dede:trim}{dede:trim replace=""}<script([^>]*)>(.*)</script>{/dede:trim}{dede:trim replace=""}本文导航(.*)键翻页{/dede:trim}{dede:trim replace=""}<div([^.]*)>{/dede:trim}{dede:trim replace=""}</div>{/dede:trim}{dede:trim replace=""}<p style([^.]*)>{/dede:trim}{dede:trim replace=""}>" >点击图片进入下一页>>{/dede:trim}官方提供的过滤规则如下{dede:trim replace=''}<a([^>]*)>(.*)</a>{/dede:trim}{dede:trim replace=''}<script([^>]*)>(.*)</script>{/dede:trim}{dede:trim replace=''}<!--(.*)-->{/dede:trim}{dede:trim replace=''}<table([^>]*)>(.*)</table>{/dede:trim}{dede:trim replace=''}<style([^>]*)>(.*)</style>{/dede:trim}{dede:trim replace=''}<img([^>]*)>{/dede:trim}{dede:trim replace=''}<object([^>]*)>(.*)</object>{/dede:trim}{dede:trim replace=''}<embed([^>]*)>(.*)</embed>{/dede:trim}{dede:trim replace=''}<iframe([^>]*)>(.*)</iframe>{/dede:trim}{dede:trim replace=''}<param([^>]*)>(.*)</param>{/dede:trim}{dede:trim replace=''}<div([^.]*)>{/dede:trim}{dede:trim replace=''}</div>{/dede:trim}下面讲下常用的过滤规则{dede:trim replace=''}<a([^>]*)>(.*)</a>{/dede:trim} a链接的过滤规则但是如果在a链接后面带img图片链接的话只需要改下面规则{dede:trim replace=''}<a([^>]*)>{/dede:trim}js过滤规则{dede:trim replace=''}<script([^>]*)>(.*)</script> {/dede:trim} 一般不用动他是要前后开头<script都会自动把这样的代码干掉{dede:trim replace=''}<div([^.]*)>{/dede:trim}常用如果内容页面有<td width=950 height=100 align=middle>就可以把{dede:trim replace=''}<div([^.]*)>{/dede:trim} 改成{dede:trim replace=''}<td([^.]*)>{/dede:trim} 一次性全部干掉还有就是文字{dede:trim replace=''}</div>{/dede:trim}整段文字过滤{dede:trim replace=''}文字开头(.*)文字结尾{/dede:trim}9.内容分页代码系统提供{path}{file}_{p}{ext} 一般用这个就可以全部解决了不行的话就要在分页代码前后截取如<div class=page>[内容]</div>(1.)全部列出的分页列表(2.)上下页形式或不完整的分页列表(3.)分页列表规则开始: 结束三个选项基本上都可以解决分页难题10.规则采集数据导出方法采集-采集节点管理-勾选需要采集的规则-规则下面点采集如图(6)图6每页采集默认 5 可以按照自己服务器宽带速度适量修改一次采集太多可能会造成采集进度卡停如图7图7间隔时间一般在采集图集的时候需要用到他因为图集在采集标题的时候经常会采集错误导出数据如图8 到图9图8图9。
dede单页采集规则 -回复
dede单页采集规则-回复什么是dede单页采集规则?dede单页采集规则是指在dedecms网站建设过程中,用来采集单个页面信息的规则和方法。
通过采集规则,可以实现自动化的内容采集,节省人工操作的时间和精力。
下面将一步一步回答有关dede单页采集规则的问题。
步骤一:了解dede单页采集规则的基本概念和原理dede单页采集规则是通过调用dede系统内置的一系列采集函数实现的。
这些采集函数可以获取指定页面的HTML代码,并对其中的元素进行解析和提取。
通过指定需要采集的元素标识或者使用正则表达式等方式,可以从HTML代码中提取出需要的内容,如标题、正文、图片等。
然后将提取的内容进行处理和保存,最终实现内容的自动采集。
步骤二:设置dede单页采集规则的基本参数在dedecms后台管理界面中,进入“采集管理”模块,选择“单页采集规则”进行设置。
首先需要设置采集规则的名称、所属栏目、所属模型等基本参数。
这些参数决定了采集规则的基本属性以及采集结果的保存位置。
步骤三:设置dede单页采集规则的采集URL在设置页面的“采集URL”选项中,可以设置需要采集的页面的URL地址。
可以直接输入页面的URL,也可以通过选择已有的单页内容或者文章进行采集。
通过设置采集URL,系统可以根据该URL获取页面的HTML 代码进行解析和提取。
步骤四:设置dede单页采集规则的具体内容提取规则在设置页面的“内容提取规则”选项中,可以设置要提取的内容的元素标识或者正则表达式。
可以选择页面中的元素标签,也可以通过自定义正则表达式进行匹配。
通过设置提取规则,系统可以根据规则从HTML代码中提取出需要的内容,并保存到指定的字段中。
步骤五:设置dede单页采集规则的字段映射关系在设置页面的“字段映射关系”选项中,可以设置提取的内容要保存到哪些字段中。
可以选择已有的字段进行映射,也可以添加新的字段进行保存。
通过设置字段映射关系,系统可以将采集到的内容保存到对应的字段中,方便后续使用和展示。
dedecms织梦采集功能的使用方法(三)我是程序员
dedecms织梦采集功能的使用方法(三)我是程序员Dedecms采集功能的使用方法—不含分页的普通文章(三)3.1采集指定节点单击“保存并开始采集“后,将会进入”采集指定节点“界面,如(图34)所示,图34-采集指定节点每页采集:设置每页所需采集的条数,并可根据网站是否有防刷新功能,设置采集间隔时间。
特殊选项:设置是否检测重复图片,默认为“检测”。
附加选项:此选项一共有3种采集模式可供选择:第一种为“监控采集模式(检测当前或所有节点是否有新内容)”,选取后,系统只会采集指定节点中更新的内容;第二种为“重新下载全部内容”,选取后,系统会采集指定节点中的全部内容;第三种为“下载种子网站的未下载内容”,选取后,系统只会采集指定节点中未下载过的内容,包括以前没下载的和更新的内容。
设置完成并确定无误后,可单击“开始采集网页”或者“查看种子网址”。
此时,如果单击“查看种子网址”会看到列表是空的,这是因为新建立的采集节点从未采集过,如(图35)所示,图35-查看节点的种子网址单击“开始采集网页”后,系统便会开始采集节点中设置的网址,并出现相关提示,如(图36)所示,图36-采集进程中提示信息采集结束后,再次单击“查看种子网址”或者单击页面右上角的“查看已下载”,便可看到已采集到的网址信息,如(图37)所示,图37-查看节点的种子网址成功采集以后,可以根据实际需要选择页面右上角的单击“采集节点管理”或者“导出数据”。
单击“导出数据“后,便可进入” 采集管理> 采集内容导出“界面,如(图38)所示,图38-采集内容导出“默认导出栏目“:设置要把采集到的内容导入到的栏目“批量采集选项”:如果在采集规则中已指定栏目ID,则可使用此功能,若指定的栏目ID为0,系统会把采集内容导入到“默认导出栏目”所选择的栏目中。
“发布选项“:有发布成“普通文档”和“保存为草稿”可供选择。
“每批导入“:设置每批导入的条数,此数不宜过大。
wmcms采集规则
wmcms采集规则WMCMS采集规则WMCMS是一款功能强大且易于使用的网站采集工具,它可以帮助用户自动采集互联网上的信息,并将其整理成结构化的数据。
本文将介绍WMCMS的采集规则,帮助用户更好地使用这个工具。
一、采集规则的基本概念采集规则是指WMCMS通过用户设置的规则来定位和提取需要采集的信息。
采集规则包括选择器和提取规则两个部分。
1. 选择器:用于定位采集目标的HTML元素,可以是标签名、类名、ID等。
2. 提取规则:用于提取所需信息的方法,可以是正则表达式、XPath等。
二、选择器的使用选择器是WMCMS定位采集目标的重要工具,它可以通过指定HTML元素的特征来定位目标。
用户可以使用标签选择器、类选择器、ID选择器等多种方式来设置选择器。
例如,可以使用“div”选择器来定位页面上的所有div元素,使用“.classname”选择器来定位指定类名的元素。
三、提取规则的设置提取规则是WMCMS从目标元素中提取所需信息的方法。
用户可以使用正则表达式、XPath等方式来设置提取规则。
1. 正则表达式:用户可以根据目标信息的特征,编写相应的正则表达式来提取信息。
例如,可以使用“\d+”来提取页面上的数字。
2. XPath:XPath是一种用于在XML文档中进行导航和定位的语言。
用户可以使用XPath表达式来定位和提取信息。
例如,可以使用“//div[@class='classname']”来定位具有指定类名的div元素。
四、设置采集规则的注意事项在设置采集规则时,用户需要注意以下几点:1. 避免重复的问题:在设置采集规则时,需要确保规则不会导致重复提取相同的信息。
2. 不要输出HTTP地址:在设置提取规则时,要避免输出HTTP地址,以确保提取的是纯文本信息。
3. 不要输出公式:同样地,在设置提取规则时,要避免输出公式,以确保提取的是纯文本信息。
4. 注意内容的准确性:在设置采集规则时,要确保提取的信息准确无误,避免歧义或错误信息的出现。
最新-织梦DedeCms采集规则教程精品
最新-织梦DedeCms采集规则教程精品织梦DedeCms采集规则教程篇一:完整采集教程(共三篇)完整采集教程(列表设置篇)-608原创以的教程中的数据库为例,地址是-一,打开,进入【采集节点管理】,新建一个节点,模型我们就选择-------------------------------------4410828----------------------------------------二,填写节点的基本信息:名称就自己定义吧。
编码就比较重要,大家可以在页面点击右键来看该页面的编码。
来源就自己定义吧。
防盗链就看目标站点的有无刷新限制,有就设置一下超时时间。
-------------------------------------4410828----------------------------------------三,设置采集列表:我们要采集的列表是这样的:而我们要设置的列表是这样的:下面我们来说明一下这个设置是怎么填的。
来源网址很重要的。
列表的获取就是从这里得到的。
自己打开:-_33_2看看分页的规律。
不难看出吧?然后我们在设置列表分页时,就转换为变量值的形式:-_33_[分页]而变量起始值是1,结束值是3,就代表1至3的列表页了。
正则配置网址就看本身是否有比较特定的文章网址字符。
例如1之类的。
下面的范围就比较重要。
我们看原的列表。
我们在浏览器里查看源文件。
查找以下代码:看到这里,你一定要认识常用的代码。
这里要复制代码起始就是那个文章列表的表格的开始部分吧。
下面就是文章列表的表格的结束部分的代码:篇二:57详细采集教程织梦的采集教程,超级详细超级详尽的织梦采集教程看到很多网友都为织梦()的采集教程头疼,的确,官方出的教程太笼统了,什么都没说,换个网站你什么都做不了,这个教程是最详尽的教程,让你一看即会首先我们打开织梦后台点击采集。
dedecms织梦采集功能的使用方法(二) 我是程序员
dedecms织梦采集功能的使用方法(二)我是程序员Dedecms采集功能的使用方法—不含分页的普通文章(二)2.1新增采集节点:第二步设置内容字段获取规则单击“保存信息并进入下一步设置”后,便可进入“新增采集节点:第二步设置内容字段获取规则”页面,如(图22)所示,图22-设置内容字段获取规则在预览网址处,系统将会自动指定一篇将被采集文章内容页面的网址(一般为所采集列表页面的第一篇文章网址),作为示范页面。
如果文章内容页面含有分页,则需设置“内容分页导航所在的区域匹配规则”。
对于“固定采集项目”中的“内容摘要、关键字和缩略图“三个部分,系统会用正则进行自动匹配,这里仅需配置过滤内容即可。
下面主要介绍如何获取“文章标题、文章作者、文章来源、发布时间和文章内容”的采集规则,过滤规则仅简单涉及。
2.1.1 获取文章标题的采集规则首先,打开“预览网址“的页面并单击右键,选择”查看源代码“,找到文章标题”在Dreamweaver中为插入的Flash 添加透明“,如(图23)所示,图23-在源代码中的文章标题这里的文章标题处在”<h1></h1>”之间,由于在此页面中多次出现这组标签,因此这里应该填写“<div class=”arcbody”><h1>[内容]</h1>”作为文章标题的匹配规则。
如果在文章标题中含有相关链接等,可使用过滤规则加以处理,这里无需设置。
填写后,如图24所示,图24-文章标题的采集规则2.1.2 获取文章作者的采集规则如上图23所示,在“作者:”二字后面有一组标签“<font color=”red”></font>”,以此猜测,作者名将会写在这组标签之间。
同样,为了保持唯一性,这里应填写”作者:<font color=“red”>[内容]</font>“作为文章作者的采集规则。
织梦采集教程
织梦采集教程:织梦CMS普通文章采集-织梦CMS以织梦官方站为例,我们采集站长学院下的PHP教程栏目,打开列表地址/web-art/PH P_jiaocheng。
登录后台,进入“采集节点管理”,新建一个节点,选择内容模型为“普通文章”。
1.设置节点基本信息先填写一个方便记忆的节点名称,选择目标页面编码为GB2312,防盗链模式不做设置,因目标站没做限制,这一项就不做修改,系统默认超时时间10秒。
2.设置列表网址获取规则这一步我们要做些设置,获取文章列表地址,回到目标站列表页,观察分页间的变化,可以发现只有“14_”后的数字有规律的递增变化。
首页:/web-art/PHP_jiaocheng/list_14_1.html中间:/web-art/PHP_jiaocheng/list_14_(*).html末页:/web-art/PHP_jiaocheng/list_14_172.html复制一个分页地址,回到“新增采集节点”页面,选择“来源属性”为“批量生成列表网址”,把粘贴地址到“匹配网址”中,修改规律变化处为(*),“批量生成地址设置”处(*)输入1到172,这里的意思是生成出列表第一页到最后172页的所有地址。
测试一下,在弹出框中我们可以看到循环出172条地址记录,很顺利的就设置好了。
有时候会碰到较难获取的列表,那我们可以把把没规律的地址复制到”手工指定列表网址“文本框中来采集。
3.设置文章网址匹配规则上面指定好了文章地址来源页,这一步就需要在这些页面中找出符合要求的文章地址页了。
打开一个列表页面观察,左栏的方框中包含了我们需要的全部地址,这种情况区分明显的页面,可以利“区域开始的HTML”和“区域结束的HTMLL”设置进行过滤。
不过也可以使用其他方法。
把鼠标移到各处链接地址,观察浏览器左下角显示的完整地址,我们需要的地址都包含“PHP_jiaocheng/20”,那我们把它填写到“必须包含”中。
自学织梦详细图文教程
学习织梦建站详细教程第一章:织梦系统认识入门篇——环境配置与程-织梦CMSAPMServ 5.2.6下载地址:1)软件简介APMServ 5.2.6 是一款拥有图形界面的快速搭建Apache 2.2.9、PHP5.2.6、MySQL 5.1.28&4.0.26、Nginx、Memcached、phpMyAdmin、OpenSSL、SQLite、ZendOptimizer,以及ASP、CGI、Perl网站服务器平台的绿色软件。
1、注意事项:APMServ程序所在路径不能含有汉字和空格。
2、MySQL默认用户名:root,密码为空3、MySQL数据库文件存放目录:MySQL5.1\data或MySQL4.0\data4、网站根目录[HTML,PHP]www\htdocs [ASP]www\asp [CGI,Perl]www\cgi-bin5、访问本机请用或(如果开启SSL)6、非默认端口,网址为:端口/或:端口/7、如果在“扩展功能”中选择使用Memcached,它的端口为:112118、APMServ集成了以下软件:Apache 2.2.9 [HTTP服务器]Nginx 0.7.19 [HTTP服务器]NetBox 2.8 Build 4128 [HTTP服务器+ASP脚本解释引擎]PHP 5.2.6 [PHP脚本解释引擎]MiniPerl 5.8 [Perl脚本解释器]Memcached 1.2.4 [key-value内存缓存系统]MySQL 5.1.28 [MySQL数据库服务器]MySQL 4.0.26 [MySQL数据库服务器]phpMyAdmin 2.11.9.2 [MySQL数据库在线管理工具]eAccelerator 0.9.5.3 [PHP脚本加速引擎]ZendOptimizer 3.3.3 [PHP脚本加速引擎]OpenSSL 0.9.8h [HTTPS(SSL)安全传输协议]2)安装过程1. 下载压缩包,解压出7z的自解压文件;2. 运行这个自解压文件,将他解压到您硬盘的任意位置;3. 双击打开根目录下的APMServ.exe4. 直接点击启动即可;3)常见问题Apache如果启动失败,请检查一下本机是否已经运行了占用80端口的软件,比如迅雷、QQ音乐等。
织梦采集规则
织梦采集规则
织梦采集规则是指用于织梦CMS的网站内容采集规则,可以通过该规则来帮助网站管理员快速、高效地采集互联网上的内容并发布到自己的网站上。
在织梦CMS中,采集规则是通过“采集节点”来定义的,每个采集节点包括一个或多个“规则”,这些规则用于定位和抽取目标网页上的特定内容。
织梦CMS支持多种采集方式,例如:手动输入采集规则、使用浏览器插件生成采集规则、使用自动采集工具等。
其中,手动输入采集规则的方式比较灵活,可以根据需要对规则进行精细调整,以获取更准确的数据。
采集规则中的“规则”通常是由一些HTML标签、CSS选择器、正则表达式等组成的,用于定位目标网页上的特定内容。
通过细心的调试和优化,可以达到较高的采集成功率,并避免采集到不必要的内容。
需要注意的是,采集他人网站内容存在侵权风险,因此在采集时需注意遵守相关法律法规,尊重他人知识产权和隐私权,不得将采集到的内容用于商业用途等非法用途。
DedeCMS采集功能使用基本知识讲解
DedeCMS采集功能使用基本知识讲解采集是指有着确定方向、明确目的的采撷和记录写作材料的一种活动。
它主要指调查采访和查阅和搜集资料。
采集最主要的作用在于为写作、分析、报表获取直接的和间接的材料。
今天我们讲的采集主要是指网站采集,网站采集的概念主要是:程序按照指定的规则定向获取其他网站数据的一种方式,另一种简单的说法就是将CTRL+C CTRL+V 程序化,系统化,自动化,智能化DedeCMS早期就已经加入了这个采集的功能,以前我们添加网站内容一般都是通过复制、粘贴、编辑然后再发布,这样对于少量的文章还是可以,但如果对于一个新站,什么内容都没有,那就需要复制粘提大量的文章,这是一个重复、枯燥的过程,内容采集就是解决这个问题,将这个重复的操作简化成规则,通过规则进行批量操作。
当然采集还可以通过一些专门的采集器来进行采集,国内比较出名的采集器有火车头。
今天我们这里以DedeCMS程序自带的采集功能来讲解如何使用采集,并介绍如何对采集的内容进行一些批量的管理。
首先我们进入系统后台,打开[采集]-[采集节点管理],在学习使用这个采集工能之前先介绍一些基本的技术知识。
首先我们需要知道HTML基本内容,我们知道浏览器中显示的各种各样的页面其实都是由最基本的HTML组成的,我们可以在我们DedeCMS系统后台发布一篇内容,然后对内容进行一些格式上面的设置。
也就是说我们的页面都是HTML代码经过浏览器解析后显示出来的,这些基本的HTML代码是给机器看的,而解析出来显示的内容是给我们的用户看的,机器其实是一个死东西,他阅读网页不像用户一样,直接看到某一个部分的内容,机器能够看到的是某一部分代码。
例如,我们查看一个网页:/news/cms/2009/0304/791.html,我们很容易就看到这个文档的内容部分,如图中黄色区域。
我们的电脑是看不出来的,他不过判断显示出来的东西,他只会去解析代码,我们右键查看这个文件的源文件。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
DedeCMSV5.6版自动采集功能规则使用基本知识讲解教程(一) 2011-05-05 17:09:01 来源: 作者: 【大中小】浏览:5026次评论:0条★★我要投稿★★将此页添加到网摘:DedeCMS采集功能使用基本知识讲解采集是指有着确定方向、明确目的的采撷和记录写作材料的一种活动。
它主要指调查采访和查阅和搜集资料。
采集最主要的作用在于为写作、分析、报表获取直接的和间接的材料。
今天我们讲的采集主要是指网站采集,网站采集的概念主要是:程序按照指定的规则定向获取其他网站数据的一种方式,另一种简单的说法就是将CTRL+C CTRL+V 程序化,系统化,自动化,智能化DedeCMS早期就已经加入了这个采集的功能,以前我们添加网站内容一般都是通过复制、粘贴、编辑然后再发布,这样对于少量的文章还是可以,但如果对于一个新站,什么内容都没有,那就需要复制粘提大量的文章,这是一个重复、枯燥的过程,内容采集就是解决这个问题,将这个重复的操作简化成规则,通过规则进行批量操作。
当然采集还可以通过一些专门的采集器来进行采集,国内比较出名的采集器有火车头。
今天我们这里以DedeCMS程序自带的采集功能来讲解如何使用采集,并介绍如何对采集的内容进行一些批量的管理。
首先我们进入系统后台,打开[采集]-[采集节点管理],在学习使用这个采集工能之前先介绍一些基本的技术知识。
首先我们需要知道HTML基本内容,我们知道浏览器中显示的各种各样的页面其实都是由最基本的HTML组成的,我们可以在我们DedeCMS系统后台发布一篇内容,然后对内容进行一些格式上面的设置。
也就是说我们的页面都是HTML代码经过浏览器解析后显示出来的,这些基本的HTML代码是给机器看的,而解析出来显示的内容是给我们的用户看的,机器其实是一个死东西,他阅读网页不像用户一样,直接看到某一个部分的内容,机器能够看到的是某一部分代码。
DedeCMSV5.6版自动采集功能规则使用基本知识讲解教程(二) 2011-05-05 17:09:01 来源: 作者: 【大中小】浏览:5027次评论:0条★★我要投稿★★将此页添加到网摘:例如,我们查看一个网页:,我们很容易就看到这个文档的内容部分,如图中黄色区域。
我们的电脑是看不出来的,他不过判断显示出来的东西,他只会去解析代码,我们右键查看这个文件的源文件。
机器是阅读这些代码内容的,他只能看懂这部分的内容在下面这个地方:也就是说,我们如果需要采集这些内容,需要告诉机器你应该从哪段代码开始,然后到什么地方结束,中间的这个部分就是我们需要的内容,然后将这些内容自动添加到数据库中来,省去自己添加内容的枯燥。
DedeCMSV5.6版自动采集功能规则使用基本知识讲解教程(三) 2011-05-05 17:09:01 来源: 作者: 【大中小】浏览:5028次评论:0条★★我要投稿★★将此页添加到网摘:这里我们就讲到了采集中的一个概念:规则,规则简单的说也就是我们告诉计算机需做什么,比如采集内容,我们告诉计算机从什么地方的代码开始,到什么地方的代码结束,这些内容就是一个规则,在DedeCMS程序中我们需要涉及到2个地方的规则,1.列表规则;2.内容规则。
列表规则:告诉计算机你去采集哪几篇文章,这些文章列表从什么HTML代码开始,到什么HTML代码结束;内容规则:告诉计算机去采集哪个部分的内容,文档的内容是从什么HTML代码开始,到什么HTML代码结束;我们说学会使用采集功能,其中最主要的也就是学会制定采集的规则,有了这些规则之后,采集其实是非常简单的一件事情。
采集的一般步骤主要有以下几步:1.制定列表采集规则,这里设置主要告诉服务器你采集哪些内容,一般都是被采集网站的列表页;2.制定内容采集规则:这里告诉服务器你采集页面的内容在页面的哪个部分,一般都是被采集网站的内容页;3.选择栏目、条件导出采集内容;4.批量对采集过来的内容进行维护;(可以没有)5.生成采集后的HTML页面代码;我们也能够很清晰的看出,采集最关键也是前2个步骤,这两个步骤是决定采集内容是否成功的一个重要环节,有一个地方采集出错都将不会成功采集到网站的内容。
(第一部分结束)下面我们结合实例讲解如何使用DedeCMS的采集程序来采集页面信息。
我们来看打开的采集节点管理页面:我们把一个整体的采集规则及内容成为一个节点,我们通过对节点的管理可以轻松方便的对我们采集的规则及采集的内容进行管理,当然采集规则也是可以导出的,我们只需要选中相应的采集节点,但后单击[导出配置],就可以将我们事先指定好的采集规则导出来,同大家一同分享。
当然获得了节点规则也可以通过系统的[导入采集规则]将采集规则导入到系统中去,这样方便了对采集节点的管理,同时我们也可以查看这个节点当前采集的内容信息,如采集的日期、创建节点的日期、获取的网址数等等,这些都是采集节点的重要组成部分。
我们下面以采集织梦非官方站点的站长学院栏目为例,讲解如何采集内容的。
被采集的地址列表为:这个是文档内容,所以我们在创建节点的时候先选择“普通文章”,在V5.3中只有普通文章和图集2个支持采集的,以前可以自己定义,但后来发现用的人很少,并且使用起来很多人问题重重,所以在新版本中取消了自己制定采集节点的这些功能。
选择完节点类型后我们开始创建节点,第一个部分是节点的基本信息创建,“节点名称”,这个比较简单,就是方便你分辨节点的名称,这里我们定义为“站长学院_采集”,“目标页面编码”,这个需要你看下你被采集的网页是用的什么编码,一般如果使用的IE浏览器只需要右键就可以查看到:火狐浏览器就需要在[查看]-[字符编码]的菜单中找到相信的字符编码类型:这里我们看到页面编码的类型是UTF-8,所以我们需要设置“目标页面编码”为相应编码。
DedeCMSV5.6版自动采集功能规则使用基本知识讲解教程(四) 2011-05-05 17:09:01 来源: 作者: 【大中小】浏览:5025次评论:0条★★我要投稿★★将此页添加到网摘:“区域匹配模式”分为字符串和正则表达式两种,我们通常使用的匹配模式为字符串,当然如果懂得正则表达式的可以使用正则。
关于正则这里简单的介绍下。
正则表达式(regularexpression)描述了一种字符串匹配的模式,可以用来检查一个串是否含有某种子串、将匹配的子串做替换或者从某个串中取出符合某个条件的子串等。
正则表达式是由普通字符(例如字符 a 到z)以及特殊字符(称为元字符)组成的文字模式。
正则表达式作为一个模板,将某个字符模式与所搜索的字符串进行匹配。
通过正则可以很方便的找到相应的字符区域,但如果要使用这个正则,需要另外学习正则的相关知识。
这里我们主要使用的是字符串,所以不做冗述。
内容导入顺序:即导入到栏目中的内容排序,我们默认选择与目标站一致即可,如果需要倒过来排序,选择相应的选项即可。
接下来防盗链部分设置,如果被你采集的站点没有开启防盗链可以不必理会。
接下来我们来正式开始设置采集的规则了,前面我们也说过采集的规则需要分为列表采集规则以及内容采集规则,列表采集规则需要在一开始就要被设定,只有正确的设定了列表采集规则才能够让服务器知道要采集那些文章。
列表采集规则的设定需要2个部分,第一个部分是列表网址获取规则,指定列表网址获取规则主要是因为很多站长采集目标网站的时候并非就采集几篇内容,可能将目标站整个内容采集下来,而我们在采集的时候发现这个栏目下有几百篇内容,这几百篇的内容通过“上一页”、“下一页”这种形式表现出来,我们要采集内容之前需要让服务器知道整个列表网址。
设置列表采集规则还是比较简单的,列表获取的方式主要有3种:批量生成列表网址,通过系统自动生成批量的地址列表;手工指定列表网址,通过手工指定列表的页面;从RSS中获取,通过RSS文件获取列表页面。
如果我们只需要采集一个列表页面,例如我们就只要采集:,只要这10篇内容,那我们只需要在匹配网址中填写这如果我们采集多个列表的内容,可以通过自动生成或者指定多个列表页面完成。
我们来查看下列表页,我们单击下面的在单击分页后我们观察地址栏中的地址:…很容易发现,在这个网址列表中只有“.html”前面的内容在发生变化,从2~10,我们换上1试试看:,发现这个就是我们那个栏目首页,这样我们可以自动指定一个点击匹配网址后面的“测试”按钮来看看,发现这个列表我们已经成功获取了。
或者我们选择手工指定,然后在网址列表中进行指定:当然这个列表部分的规则还有更多的功能,比如可以指定列表栏目导入的内容,这部分详细的设置可以查看织梦帮助中心的:我们这里设置完了列表地址,接下来我们需要设置文章网址匹配规则,这个匹配规则是让我们来采集文章列表,告诉服务器要采集哪些地方的文章,在采集这个文章列表之前我们先看几个文章列表的页面。
我们看这几个列表的页面其中不变的部分是头部导航、右侧的推荐信息,还有底部的内容,主要变化的地方是列表的标题和内容,我们采集列表文章最主要的就是采集列表的文章标题部分,如果我们懂HTML代码观察,最直接的体现就是HTML代码中的列表页部分的内容是变化的。
所以我们在指定采集列表页的时候只需要指定一个统一的规则即可,因为列表的页面都是一样的,所以这个规则适用于所有的列表页。
当然,我们也会发现内容页面也是如此,采集的时候只需要指定一个统一的规则就可以采集到相似的所有页面的内容。
当然有一些网站列表链接到其他的内容,这样就遇到了采集规则不匹配的问题,一般表现为无法采集到内容,因为规则不适用,另外一种表现就是采集进度条不动,终止在那里,甚至有时候还会报错。
这些原因最主要的就是规则同目标采集网站不匹配造成的,所以在采集内容之前要确保规则的正确性。
DedeCMSV5.6版自动采集功能规则使用基本知识讲解教程(五) 2011-05-05 17:09:01 来源: 作者: 【大中小】浏览:5030次评论:0条★★我要投稿★★将此页添加到网摘:接下来我们设置列表采集页面的采集规则,我们首先查看源文件,在IE浏览器右键选择[查看源文件],打开列表页的源代码。
如果我们有DW的话将这些代码拷贝到DW中去,我们找到那个列表的所在位置:发现这个列表的内容在“”这个层里面,也就是说,我们需要告诉服务器采集列表的标题你从这里开始采集,然后直到这个层结束的地方采集为止,我们看到这个层结束的地方是“”,在中间没有发现任何相同的代码。
这里我们需要告诉大家的就是我们这个规则,告诉服务器的起始HTML标签必须是唯一的,也就是说你在这个页面中只有这一个标记,这样电脑才知道从哪个地方开始,到那个地方结束。
采集规则编写的时候很多时间都需要你去寻找那个唯一的标识,有了这些标识,服务器才知道能够将这些内容抓取下来。