搭建自己的搜索引擎
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
今天我就在这里借光年论坛在这里献丑下,写篇几篇关于自己搭建搜索引擎的文章。所采用的是开源搜索引擎nutch,考虑到大部份的SEOER所以主要是在WINDOWS平台进行搭建。1,Nutch简介Nutch 是一个刚刚诞生开放源代码(open-source)的web搜索引擎.尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降. 并且这很有可能进一步演变成为一个公司垄断了几乎所有的web搜索为其谋取商业利益.这显然不利于广大Internet用户.Nutch为我们提供了这样一个不同的选择. 相对于那些商用的搜索引擎, Nutch作为开放源代码搜索引擎将会更加透明, 从而更值得大家信赖. 现在所有主要的搜索引擎都采用私有的排序算法, 而不会解释为什么一个网页会排在一个特定的位置. 除此之外, 有的搜索引擎依照网站所付的费用, 而不是根据它们本身的价值进行排序. 与它们不同, Nucth没有什么需要隐瞒, 也没有动机去扭曲搜索的结果. Nutch将尽自己最大的努力为用户提供最好的搜索结果.Nutch 致力于让每个人能很容易, 同时花费很少就可以配置世界一流的Web搜索引擎. 为了完成这一宏伟的目标, Nutch 必须能够做到:
每个月取几十亿网页
为这些网页维护一个索引
对索引文件进行每秒上千次的搜索
提供高质量的搜索结果
以最小的成本运作
2,安装2.1安装准备所需软件:(如果以下网址不能下载,请自行搜索)
JDK1.6
下载地址:/zh_CN/
Tomcat 7.0.x
下载
址://tomcat/tomcat-7/v7.0.4-beta/bin/apache-tomcat-7.0.4.exe
Cygwin
下载地址:/setup.exe
Nutch 1.0
下载地址:/apache//nutch/nutch-1.0.tar.gz
2.2安装:2.2.1
JDK安装
(我这里用的是默认的安装)
接下来可以按默认的安装2.2.2 添加JDK环境变量:
右击我的电脑——>属性——>高级——>环境变量->系统变量
Path添加C:\Program Files\Java\jdk1.6.0_22\bin;
JAVA_HOME=C:\Program Files\Java\jdk1.6.0_22(JDK安装的目录)
classpath=
.;%JAVA_HOME%\lib\tools.jar;%JAVA_HOME%\lib\dt.jar;
添加好环境变量后、我们可以输入
JAVAC来看是否安装成功如:看到下面图所示的内容那么就安装成功了
搭建自己的搜索引擎(1)
搭建自己的搜索引擎(2)
搭建自己的搜索引擎(3)
搭建自己的搜索引擎(4)
这下面的图片是没用的,不知怎么出来的+++++++++++++++++++++++++++++++++++++ image007.png(17.85 KB, 下载次数: 0)
image043.gif(2.48 KB, 下载次数: 0)
image044.gif(13.55 KB, 下载次数: 0)
image046.gif(12.94 KB, 下载次数: 0)
image050.gif(5.77 KB, 下载次数: 0)
image051.gif(22.55 KB, 下载次数: 0)
2.2.3安装Tomcat 7.0(除了选择安装目录外,别的我都选择了默认的安装)
2.2.4 安装Cygwin (因为NUTCH的自带命令必需要在LINUX的环境,所以必需要安装Cygwin来模拟这种环境)
点击下一步
进入安装方式的选择界面
上图所示Cygwin有三种安装方式
1,Install from Internet:直接从Internet上下载并立即安装(安装完成后,下载好的安装文件并不会被删除,而是仍然被保留,以便下次再安装)。
2,Download Without Installing:只是将安装文件下载到本地,但暂时不安装。
3,Install from Local Directory:不下载安装文件,直接从本地某个含有安装文件的目录进行安装。
如果你的网速还可以你可以选前两种,不过我们这里选的是第三种,因为我已经把文件下载下来了
我这里也提供了一个打包文件,你们也可从这里下载,速度具定要快很多而且下载途中不会出错
/Cygwin_dow.rar
上图指定安装目录(也就是把程序安装在哪的意思)点击下一步
上图是设定安装源的目录(也就是我们下载的那个些文件)如果你没有你可以这里下载
上图,选择安装包内容
如何选择呢?只需用鼠标点击每个安装包名后面那个循环箭头图标即可:图标后面的文字是表示究竟对该安装包采取何种安装方式
[p=23, null, left]安装方式共有这么几类:
(1)Default:这是默认选择,表示只下载/安装该包的缺省安装项(可点击包左边的+号展开,看看缺省安装究竟是些什么内容)。
(2)Install:表示要下载/安装该包的全部内容。所要求的空间也最大。
(3)Reinstall:表示重新下载/安装该包的内容(以上一次正常下载/安装时所选择的内容为准)。这个选项非常有用,稍后在下篇中会有说明。
(4)Uninstall:这个就不用解释了吧。
可根据自己的实际需要,来准定究竟安装哪些内容。推荐选择“Install”方式,一步到位,免得日后被各种这样那样的问题所困扰。
[p=23, null, left]至于窗口顶部那些“Keep”、“Prev”、“Curr”、“Exp”等等选项,只是用来改变当前树结构的显示方式的,对安装没有什么影响。然后点击“下一步”,就要开始啦。