施磊磊 20130930 开题报告

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

江苏大学硕士学位研究生

开题报告

论文题目基于Hadoop和Hbase的Nutch分布式垂直搜索引擎的研究姓名施磊磊

学号S1208052

专业计算机应用技术

指导教师施化吉教授

2013 年09月30日

基于Hadoop和Hbase的Nutch分布式垂直搜索引擎的研究

一、课题的研究背景、目的和意义

随着互联网的飞速发展，大量网站如同雨后春笋般大批涌现，目前互联网己经发展成为一个拥有上千亿个页面和超链接的海量信息空间，而且所包含的页面仍在继续以惊人的速度增长。人们工作与生活中需要的许多信息都蕴含在信息量庞大的互联网中。互联网信息极大地便利和丰富了人们的生活，但同时也给信息的组织、查找与分析等带来了极大的挑战。海量数据增加了用户对信息的阅读和选择。然而面对这么多的网页内容信息，人们怎样准确、快捷地访问到自己所需要的网页呢?在这样的形势下，人们需要借助搜索引擎来帮助他们寻找自己需要的资料，因此搜索引擎应运而生。

搜索引擎是指因特网上专门提供查询服务的一类网站，它以一定的策略在互联网中搜集、发现信息，对信息进行理解、提取、组织和处理，并为用户提供检索服务，从而起到信息导航的作用。通用的搜索引擎如Google、百度等，将很多网站信息自动整理在一个平台上，提供整合导航以及快捷的查询服务，成为互联网发展自门户网站以来的最具开创性和革命性的Web产品，围绕通用搜索引擎的Web搜索与挖掘的研究也越来越深入。与此同时，通用搜索引擎的局限性也逐渐被人们认识到，搜索结果众多导致的海量信息无序化，使得用户很难精化搜索结果，无法将查询结果以结构化的方式展现给用户。虽然Google等通用搜索引擎提供了复杂的Ranking排序机制，使得“重要”查询结果会排在搜索页面的前几页，但是由于通用搜索引擎的数据来源分布广，而且查询词语的多义性会导致主题的不确定，用户依然难以快捷的找到想要的结果。这些搜索引擎面向所有的用户，力争在返回结果上做到全面，但是往往使得用户真正需要的资料淹没在大量的无用的信息中。然而垂直搜索引擎的出现正是为了解决通用搜索引擎的这些难点的。垂直搜索引擎的核心就是集中专题领域资源的专题网络蜘蛛的设计。网络蜘蛛对网页进行

预测，赋予不同的优先级，按照与专题相关度的高低进行抓取下载，以便精确集中专题资源信息。一个好的垂直搜索引擎策略既能让最终的检索列表按照网页与主题相关度的高低排列等待检索，又能避免非相关网页的下载和参与计算。这样，面向特定专业领域的搜索引擎，即垂直搜索引擎应运而生了。

垂直搜索引擎，即专业或专用搜索引擎，就是专为查询某一学科或主题的信息而产生的查询工具，专门收录某一方面、某一行业或某一主题的信息，对解决实际查询问题要比搜索引擎门户有效得多。它是针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务，其特点就是专、精、深，且具有行业色彩。它是与通用搜索它是与通用搜索引擎截然不同的引擎类型。垂直搜索引擎专注具体、深入的纵向服务，致力于某一特定领域内信息的全面和内容的深入，对于领域外的闲杂信息不收录。

本文在这种背景下，对垂直搜索引擎的原理及关键技术进行了研究，比较了一些技术的优缺点。在此基础上对以中药为主题的垂直搜索引擎进行了研究，完成了网页爬取、建立索引和用户查询等模块的设计。最后在分布式平台的基础上，对搜索引擎的网页爬取和网页排序算法等部分做了改进，提高了垂直搜索引擎系统的效率和准确率。

一、国内外研究现状

搜索引擎的诞生可追溯到1990年，加拿大的麦吉尔大学，一个名叫Alan Emtage的学生制作了一个自动索引互联网上匿名FTP网站文件的程序。这个能自动索引互联网上匿名FTP网站文件的程序被人们称为Archie，Archie要从匿名服务器上下载一个文件，必须知道这个文件的所在地和匿名FTP服务器的地址以及文件所在的目录名。这是早期的具有搜索引擎性质的模型，如今，提供Archie服务的网站己经很少了。受到Archie的启发，美国明尼苏达大学的一个学生Mark McCahill，在1997年发明了一种叫“Gopher”的搜索协

议。这种协议与Archie的最大不同之处在于，Archie只能索引网络上的文件，而Gopher

对网页也可以索引。直到今天，网上仍有一些Gopher的服务器在运作，许多Gopher协议的狂热者仍然在维护着它们。其实Archie的原理与现代的搜索引擎已经比较接近了。它依靠开发者撰写的脚本程序自动搜索网上的文件，然后对相关信息进行索引，保存在索引库，供用户查询。

现在，很多人习惯从互联网这个巨大的知识域中获取自己所需要的信息，但网络上的信息的数量过于庞大，内容过于庞杂，加大了人们从中获取真正需要的信息的难度。就在这种情况下产生了我们熟知的传统搜索引擎。其大致可以分为三种类型:(1)目录式搜索引擎，首先根据领域专家的分类，将网站分门别类的归类到相应的目录中，用户利用目录式搜索进行检索时，可以在预先设定的分类中依据搜索关键词查找，同时也可以按照目录逐级查找;(2)全文搜索引擎一般是基于统计的模型，它通过获取网络上各个网站和网页的信息，对数据进行索引以加快检索速度，在检索时通过计算查询和网页信息的相似度，按照不同的排序方法为用户提供相关结果。(3)元搜索引擎是将相关查询在多个搜索引擎中检索，通过设定的排序方式对多个搜索引擎返回结果的综合，它一般由三个部分构成，即:检索请求提交、检索接口代理、检索结果显示。

目前对搜索引擎潜在价值的开发明显不够，除了网易、新浪、搜狐等少数门户网站使用了搜索引擎外，大多数网站使用的还是基于数据库关键字匹配的简单信息检索系统。这种检索方式，效率低，检索结果准确性也不尽如人意。那些拥有搜索引擎的门户网站，其搜索引擎系统都采用了同样的体系结构—集中式结构，即运行各子系统的服务器在物理上集中分布。这也导致了系统对单台服务器性能要求高，易出现故障，可扩展性差等缺点。因此传统的搜索引擎在实际的使用过程中还存在着种种问题，互联网上各个领域的信息资源夹杂在一起，由于信息覆盖范围很大，无法对各个领域的信息进行分类，然