搜索引擎整合工具毕设

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

本文由就要爱返利网提供

本文由就要爱返利网提 I

搜索引擎整合工具

本文由就要爱返利网提供

本文由就要爱返利网提 II

目录

1.引言 (3)

1.1开发背景 (3)

1.2课题研究意义 (3)

2 研究现状及设计目标 (3)

2.1 搜索引擎概述 (3)

2.2 本课题要达到的设计目标 (4)

2.3经济效益 (4)

3需求分析 (5)

3.1 功能需求分析 (5)

3.2 功能需求 (5)

3.3开发工具及环境的选择 (6)

4关键问题及分析 (6)

4.1需要解决的问题 (6)

4.2采用的关键技术 (6)

4.2.1 JA V A语言 (6)

4.2.2 Eclipse编程工具介绍 (6)

5 系统设计 (8)

5.1.1 系统模块图 (8)

5.1.2 系统流程图 (9)

1.引言

1.1开发背景

在互联网发展初期,网站相对较少,网页数量亦较少,因而信息查找比较容易。随着Internet的飞速发展,人们越来越依靠网络来查找他们所需要的信息,然而伴随互联网爆炸性的发展,普通网络用户想找到所需的资料简直如同大海捞针,以至于迷失在信息的海洋中不知所措,出现了我们所说的"信息丰富,知识贫乏"的奇怪现象。搜索引擎正是为了解决这个"迷航"问题而出现的技术。搜索引擎(Search Engine简称SE)以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。

现在网上的搜索引擎有很多,比较著名的有Google,Yahoo,AltaVista,Dogpile,百度等。按照信息搜集方法和服务提供方式的不同,搜索引擎系统可以分为三大类:目录式搜索引擎,以Yahoo为代表(最近改为使用全文搜索技术);全文搜索引擎,以Google为代表;元搜索引擎,以Dogpile为代表。

1.2课题研究意义

搜索引擎整合工具,整合了多种当今流行的搜索引擎。输入一个内容,可以在多个搜索引擎中获得结果。方便我们平时上网进行搜索。

2 研究现状及设计目标

2.1 搜索引擎概述

搜索引擎(search engine)是一个系统,能从大量信息中找到所需的信息,提供给用户。互联网出现到现今,信息量可以说成密指数的增长,大量信息就像Google的原本含义一样“1的后面跟着100个0”,这个数比宇宙所有的基本粒子的数量总和还要大。在这浩如烟海的信息中怎么才能找到自己需要的信息呢?搜索引擎就像一只神奇的

沈阳航空航天大学毕业设计(论文)

本文由就要爱返利网提供 4

手,从杂乱的信息中抽出一条清晰的检索路径

2.2 本课题要达到的设计目标

本系统主要是以多个独立搜索引擎的输出结果作为输入,经过一番提取、剔除、萃取等操作,形成最终结果,然后将最终结果输出给用户。

2.3经济效益

搜索引擎在电子商务中也可以大展伸手,现在就有很多的网站依靠Google的竞价排名服务来开展业务,这也是一些搜索服务提供商的盈利渠道之一。另外,根据用户的注册信息、搜索历史信息、搜索关键字所属领域、搜索习惯、访问记录等,可以发掘出用户的潜在购买欲望和感兴趣的商品等,这些信息可以被电子商务站点用来发现它们的潜在客户

本文由就要爱返利网提供 5

3需求分析

3.1 功能需求分析

1.用户通过统一的查询界面输入查询请求,元搜索引擎对查询进行一定的预处理。

2.元搜索引擎根据成员搜索引擎调度机制,选择若干成员搜索引擎。

3.元搜索引擎根据选择的成员搜索引擎的查询格式,对原始查询请就进行本地化处理,转换为成员搜索引擎要求的查询格式串。

4.向各个成员搜索引擎发送经过格式化的查询请求,等待返回结果。

5.收集各个独立搜索引擎的返回结果。

6.对返回结果进行综合处理,例如,消除重复链接,死链接等,形成最终结果。

7.以一定的格式将最终结果返回给用户。

3.2 功能需求

1. GOOGLE,BAIDU,YAHOO搜索引擎的集成管理;

2. 实现对跟踪信息管理维护。分类的建立,修改,删除及浏览等功能;

3. 实现各搜索引擎的高级检索功能;

4. 实现搜索结果属性信息的自动抽取功能,包括结果标题,URL,发布时间,文档类型,信息来源等;

5. 搜索结果管理。可以对搜索结果列表进行下载,删除等管理。结果列表信息中包括下载记录状态,标题,文档类型,更新时间等。可以设置结果列表搜索引擎获取结果数量。搜索结果按照搜索引擎分类显示,便于浏览。

6.结果预览功能。对搜索结果列表中的内容可以进行原网页或文档信息预览功能;

7. 提供检索结果收藏夹管理。创建收藏目录,可以对收藏夹进行维护,包括:新建,打开,清空,结果导出,修改,删除等功能;

本文由就要爱返利网提供 6

3.3开发工具及环境的选择

系统配置:Windows2003/ xp

开发环境:Eclipse。JDK1.6.SWT/Designer工具包

4关键问题及分析

4.1需要解决的问题

1.配置文件读取:

在每次用该软件的时候要读取之前用户的各种设定。

2.网页文件分析及地址获取:

获取网页中每个标题所对应url地址,分析其中的摘要以及其他重要信息。3.线程的应用:

用线程控制界面端。

4.2采用的关键技术

4.2.1 JA V A语言

Java,是由Sun Microsystems公司于1995年5月推出的Java程序设计语言和Java平台的总称。用Java实现的HotJava浏览器(支持Java applet)显示了Java的魅力:跨平台、动态的Web、Internet计算。从此,Java被广泛接受并推动了Web的迅速发展,常用的浏览器现在均支持Java applet。

4.2.2 Eclipse编程工具介绍

Eclipse是著名的跨平台的自由集成开发环境(IDE)。最初主要用来Java

相关文档
最新文档