全文搜索引擎的设计与实现-开题报告

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

江汉大学毕业论文(设计)

开题报告

注:1、本页作为毕业论文(设计)开题报告的封面,请将开题报告正文装订于后。

2、开题报告内容主要包括:课题来源;任务要求的理解;国内外研究现状和发展趋势、学术动态;本任务研究的内容、主要论点;设计方案及比较,设计实现的途径及技术路线;最终的目标、能否完成及完成时间;现有条件及尚需增加的措施、设备、资料。请各专业根据实际情况确定开题报告的内容及要求。

第一章课题背景

随着互联网的快速发展,越来越丰富的信息呈现在用户面前,但同时伴随的问题是用户越来越难以获得其最需要的信息。为了解决此问题,出现了网络搜索引擎。网络搜索引擎中以基于WWW 的搜索引擎应用范围最为广泛。网络搜索引擎是指对WWW站点资源和其它资源进行索引和检索的一类检索机制。全文搜索引擎是目前最为普及的应用,通过从互联网上提取各个网站的信息(以网页文字为主)建立数据库,用户查询的时候便在数据库中检索与用户查询条件相匹配的记录,最终将匹配的那些记录,按一定的排列顺序显示给用户。国外具代表性的全文检索搜索引擎有Google、Yahoo、Bing等,国内著名的有百度、中搜等。

第二章课题研究目的

针对搜索引擎广阔的应用前景以及分析国内外搜索引擎的发展现状,根据搜索引擎系统的工作原理设计一种基于Internet的全文搜索引擎模型,它从互联网上获取网页,建立索引数据库,并采用数据库管理作业和多线程技术以提高全文搜索的性能和效率,从技术上可以适用于任何有全文搜索需求的应用。

第三章可行性研究

3.1 经济可行性分析

该搜索引擎的实现,全部采用开源框架,可以从互联网上直接下载。使用设备上只需要一台PC机。

3.2 技术可行性分析

该搜索引擎总体上使用通用的Java Web架构,使用Nutch构建一个网络爬虫,作为程序的搜索器。使用Solr对程序建立索引。使用JSP作为前台展示页面。这类资料在网络上比较容易获取,学习成本较低廉。

第四章主要研究和设计内容

4.1课题主要研究内容

一般来说搜索引擎都由:用户接口,搜索器,索引生成器和查询处理器4个部分组成。

1. 用户接口:

用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。主要的目的是方便用户使用搜索引擎,高效率、多方式地从搜索引擎中得到有效、及时的信息。用户接口的设计和实现使用人机交互的理论和方法,以充分适应人

类的思维习惯。

2. 搜索器:

用于WWW的遍历和网页的下载。从一个起始URL集合开始,顺着这些URL中的超链(Hyperlink),以宽度优先、深度优先或启发式方式循环地在互联网中发现信息。

3. 索引生成器:

对搜索器收集到的网页和相关的描述信息经索引组织后存储在索引库中。

4. 查询处理器:

检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。

4.2 本次设计本人所承担的具体任务

本人独立进行全文搜索引擎的开发和设计工作,包括相关程序的编写、界面的设计、调试工作等等。

第五章实施计划

各阶段任务安排:毕业设计时间2013.2.20 ~ 2013.5.30

1-3周:收集、整理、阅读、分析相关资料,撰写并提交开题报告、文献综述。同时开始进行外文翻译等工作。

4-6周:在理解系统需求的基础上对掌握的资料进行归纳总结,编写需求说明文档和设计方案,并进行设计;撰写并提交外文翻译文档。

7-11周:系统设计、实现、测试。

12周:在系统设计完成的基础上进行论文初稿撰写的有关工作。

13周:论文定稿

14周:论文答辩。

相关文档
最新文档