火车头操作手册-Mg
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
火车头操作手册
目录
前言 (1)
摘要 (2)
第一章基础知识 (3)
1.1 HTML 基础知识 (3)
1.2 采集基础知识 (5)
1.3发布基础知识 (5)
1.4正则基础知识 (7)
第二章火车头采集篇 (11)
2.1 什么是信息采集? (11)
2.2 火车头采集器的采集工作流程 (11)
2.3 数据的转储 (20)
第三章火车头发布篇 (24)
3.1火车头发布内容的介绍 (24)
3.2 接口文件的介绍.................................................................... 错误!未定义书签。
3.3 发布模块的制作 (26)
第四章应用进阶 (38)
4.1 火车头+PHP程序 (38)
第五章防采技术介绍 (40)
5.1 采集器与搜索引擎蜘蛛的区别 (40)
5.2 防采集的一些主要措施 (40)
5.3 火车头官方谈采集与防采 (42)
5.3.1、谈火车头采集器的由来 (42)
前言
随着公司的日益壮大,产品线的不断拓宽,我们SEM团队也正在快速扩张,同时也带来了一系列问题,比如:团队成员的相互学习与交流,新员工的快速融入问题等。因此员工学习手册的编写,势在必行。
员工学习手册,是团队成员技术,经验的总结,大家通过学习其他人的工作经验、技术,提高自己,同时团队实习也得到了提升。而对于新入职的员工,根据前人的总结,经验,可以少走很多弯路,能够帮助他们快速融入集体,使得新人的适应期可以大大缩短,提高了新人培训效率。
在员工学习手册的编写过程中,我与沙亚金参与了《玩转“火车头”》的编写,里面是我们的一些使用火车头的一些心得,和技巧。希望能够在信息采集,发布这块对大家有所帮助,由于时间,经验等因素,写的过程中也存在许多缺陷,欢迎大家与我们交流,批评指正。在这里我们要感谢吉总,是他为大家带来了“火车头”。
摘要
在这信息大爆炸的时代里,什么最重要?当然是信息。对于“内容为王”的SEOer来说信息更是无价之宝。强大的信息资源,可以让我们在SE中处于霸主地位。说到这里,不禁要问,我们的信息从何而来?我们应该如何处理这些信息?本文将详细介绍,如何采集一个站点,如何转储这些信息,如何在另一个站点发布这些信息,如何防采集,等等。
文章以介绍火车头采集,发布为例。共分六个部分,基础知识(准备知识),采集部分(包括信息的采集,采集后的信息转储),发布部分(信息的发布),进阶部分(整套实战操作),防采技术,以及附录。
基础知识:该部分对采集、发布所使用到的一些必要知识进行介绍,其中包括HTML 代码的认知,正则表达式,PHP语言(也可以是其网页编辑语言)等。
采集部分:采集分为三小块,一是地址的采集,二是内容的采集,三是数据转储。分别对采集各部分作详细的介绍。
发布部分:详细介绍发布模块及其制作过程,以及接口模块的介绍。
进阶部分:以Wordpress博客文章发布为实战实例,详细介绍如何向某一博客一次性发布N篇日志,并让该日志以每天M篇的速度自动释放。
防采部分:我们既然能采别人站,那别人也会采我们。所以我们也要提高防采意识。在这一部分里,将介绍建站时的一些防采技术。
附录:主要罗列一些火车头辅助工具的下载地址,以及一些火车头论坛。
全文以实例为主,建议大家在看完文章以后,再看一下我们制作的视屏教程,同时跟着视屏,自己动手操作采集一个站点,以加深印象。
第一章基础知识
1.1 HTML 基础知识
『
【method属性】
用于指定向服务器发送表单数据时所用的HTTP方法,可以是get或者post这两只用方法中的一种,get是缺省的方法。
当采用get方法提交表单时,提交的数据被附加到url(在属性action中指定)的末端,作为url的一部分发送到服务器端。例如:指定action="reg.asp",提交表单后,在浏览器的地址栏中,我们会看到如下信息
http://localhost/register.php?user=zhangsan&pwd=123456
而post方法是将表单中的信息作为一个数据块发送到服务器。无论采用哪一种方法,数据的编码都是相同的,格式为name1=value1&name2=value2 。
【属性action】
指定对表单进行处理的脚本地址。也就是表单提交到服务器后,交由谁来处理,在action 属性中指定处理者的url 。
『元素』
元素用于接受用户输入的信息,是一个带有属性的空元素,用来创建表单中的控件,语法如下:
【type属性】
用来指定要创建的控件类型,属性name用来指定控件的名称,处理表单的服务器端脚本可以获得以名称-值对所有表示的表单数据,利用名称,可以获取对应的值。name属性在表单中并不显示。属性size用来指定表单控件的初始宽度。属性value指定控件的初始值。
单行文本输入控件type="text"
提交按钮type="submit"
重置按钮type="reset"
口令输入控件type="password"
单选按钮type="radio"
复选框type="checkbox"