搜索引擎整合工具毕设
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
本文由就要爱返利网提供
本文由就要爱返利网提 I
搜索引擎整合工具
本文由就要爱返利网提供
本文由就要爱返利网提 II
目录
1.引言 (3)
1.1开发背景 (3)
1.2课题研究意义 (3)
2 研究现状及设计目标 (3)
2.1 搜索引擎概述 (3)
2.2 本课题要达到的设计目标 (4)
2.3经济效益 (4)
3需求分析 (5)
3.1 功能需求分析 (5)
3.2 功能需求 (5)
3.3开发工具及环境的选择 (6)
4关键问题及分析 (6)
4.1需要解决的问题 (6)
4.2采用的关键技术 (6)
4.2.1 JA V A语言 (6)
4.2.2 Eclipse编程工具介绍 (6)
5 系统设计 (8)
5.1.1 系统模块图 (8)
5.1.2 系统流程图 (9)
1.引言
1.1开发背景
在互联网发展初期,网站相对较少,网页数量亦较少,因而信息查找比较容易。随着Internet的飞速发展,人们越来越依靠网络来查找他们所需要的信息,然而伴随互联网爆炸性的发展,普通网络用户想找到所需的资料简直如同大海捞针,以至于迷失在信息的海洋中不知所措,出现了我们所说的"信息丰富,知识贫乏"的奇怪现象。搜索引擎正是为了解决这个"迷航"问题而出现的技术。搜索引擎(Search Engine简称SE)以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。
现在网上的搜索引擎有很多,比较著名的有Google,Yahoo,AltaVista,Dogpile,百度等。按照信息搜集方法和服务提供方式的不同,搜索引擎系统可以分为三大类:目录式搜索引擎,以Yahoo为代表(最近改为使用全文搜索技术);全文搜索引擎,以Google为代表;元搜索引擎,以Dogpile为代表。
1.2课题研究意义
搜索引擎整合工具,整合了多种当今流行的搜索引擎。输入一个内容,可以在多个搜索引擎中获得结果。方便我们平时上网进行搜索。
2 研究现状及设计目标
2.1 搜索引擎概述
搜索引擎(search engine)是一个系统,能从大量信息中找到所需的信息,提供给用户。互联网出现到现今,信息量可以说成密指数的增长,大量信息就像Google的原本含义一样“1的后面跟着100个0”,这个数比宇宙所有的基本粒子的数量总和还要大。在这浩如烟海的信息中怎么才能找到自己需要的信息呢?搜索引擎就像一只神奇的
沈阳航空航天大学毕业设计(论文)
本文由就要爱返利网提供 4
手,从杂乱的信息中抽出一条清晰的检索路径
2.2 本课题要达到的设计目标
本系统主要是以多个独立搜索引擎的输出结果作为输入,经过一番提取、剔除、萃取等操作,形成最终结果,然后将最终结果输出给用户。
2.3经济效益
搜索引擎在电子商务中也可以大展伸手,现在就有很多的网站依靠Google的竞价排名服务来开展业务,这也是一些搜索服务提供商的盈利渠道之一。另外,根据用户的注册信息、搜索历史信息、搜索关键字所属领域、搜索习惯、访问记录等,可以发掘出用户的潜在购买欲望和感兴趣的商品等,这些信息可以被电子商务站点用来发现它们的潜在客户
本文由就要爱返利网提供 5
3需求分析
3.1 功能需求分析
1.用户通过统一的查询界面输入查询请求,元搜索引擎对查询进行一定的预处理。
2.元搜索引擎根据成员搜索引擎调度机制,选择若干成员搜索引擎。
3.元搜索引擎根据选择的成员搜索引擎的查询格式,对原始查询请就进行本地化处理,转换为成员搜索引擎要求的查询格式串。
4.向各个成员搜索引擎发送经过格式化的查询请求,等待返回结果。
5.收集各个独立搜索引擎的返回结果。
6.对返回结果进行综合处理,例如,消除重复链接,死链接等,形成最终结果。
7.以一定的格式将最终结果返回给用户。
3.2 功能需求
1. GOOGLE,BAIDU,YAHOO搜索引擎的集成管理;
2. 实现对跟踪信息管理维护。分类的建立,修改,删除及浏览等功能;
3. 实现各搜索引擎的高级检索功能;
4. 实现搜索结果属性信息的自动抽取功能,包括结果标题,URL,发布时间,文档类型,信息来源等;
5. 搜索结果管理。可以对搜索结果列表进行下载,删除等管理。结果列表信息中包括下载记录状态,标题,文档类型,更新时间等。可以设置结果列表搜索引擎获取结果数量。搜索结果按照搜索引擎分类显示,便于浏览。
6.结果预览功能。对搜索结果列表中的内容可以进行原网页或文档信息预览功能;
7. 提供检索结果收藏夹管理。创建收藏目录,可以对收藏夹进行维护,包括:新建,打开,清空,结果导出,修改,删除等功能;
本文由就要爱返利网提供 6
3.3开发工具及环境的选择
系统配置:Windows2003/ xp
开发环境:Eclipse。JDK1.6.SWT/Designer工具包
4关键问题及分析
4.1需要解决的问题
1.配置文件读取:
在每次用该软件的时候要读取之前用户的各种设定。
2.网页文件分析及地址获取:
获取网页中每个标题所对应url地址,分析其中的摘要以及其他重要信息。3.线程的应用:
用线程控制界面端。
4.2采用的关键技术
4.2.1 JA V A语言
Java,是由Sun Microsystems公司于1995年5月推出的Java程序设计语言和Java平台的总称。用Java实现的HotJava浏览器(支持Java applet)显示了Java的魅力:跨平台、动态的Web、Internet计算。从此,Java被广泛接受并推动了Web的迅速发展,常用的浏览器现在均支持Java applet。
4.2.2 Eclipse编程工具介绍
Eclipse是著名的跨平台的自由集成开发环境(IDE)。最初主要用来Java