基于Lucene的高校图书垂直搜索引擎的研究与实现

合集下载

Lucene框架下构建高校校园网搜索引擎

Lucene框架下构建高校校园网搜索引擎摘要：分析阐述了高校校园网搜索引擎的发展现状、lucene框架的优势，以及高校构建校园网结合lucene构建搜索引擎的设计与实现。

关键词：lucene；搜索引擎；高校；校园网中图分类号：tp393 文献标识码：a 文章编号：1009-3044（2013）11-2582-021 高校校园网构建搜索引擎的可行性分析高等学校是信息流通量巨大的机构之一。

如今，基本上所有的高校都完成了行政部门、教学部门、实验室、宿舍等网络节点的信息联网，实现了资源传输与共享、工作效率的提高。

同时，随着高校规模的不断扩大，越来越多的院系建立了网站，还有各种形式的web 应用平台的出现，校园网中的站点、页面数量也有了突飞猛进的增长，这就造成原先只要根据站点导航就可以很容易发掘的信息变得难以寻觅，因此从客观需求上来说，在校园网中需要有一个平台来提供快速便捷的搜索服务，它就是搜索引擎。

在技术层面上，高校中构建搜索引擎的可行性主要体现在：1）因特网上的站点结构复杂，链接出入度都很大，且具有很大的不确定性，页面抓取需要花费相当多的时间，而校园网中的站点层次明确，页面链接较少，大多呈现扁平状，站点层次通常不超过三层，因而抓取页面的十分迅速。

2）校园网中的站点之间的链接相对于互联网来说要少，这样在web结构挖掘过程中，所需要计算的链接信息量也少，能够很大程度上加快服务器的响应速度。

3）构建校园网搜索引擎所需要的硬件软件要求不高，有利于控制构建成本，也便于项目实施。

4）从理论上来说，校园网搜索引擎的构建可以参考应用在因特网上的搜索引擎模型和相关算法，可对其进行适当改进、简化后加以应用。

由以上讨论可知，在校园网中应用搜索引擎技术是符合客观实际的，是可行的。

2 校园网搜索引擎的发展现状2008年5月29日，谷歌公司宣布正式启动“谷歌gsa（google search appliance）搜索服务器大学捐赠合作计划”，清华大学、中国科学技术大学、浙江大学、上海交通大学、同济大学和华东师范大学等国内知名高校是首批国内受捐高校，从此，谷歌公司在中国拉开了搜索服务器捐赠的序幕。

基于Lucene.Net校园网搜索引擎的设计与实现

己独特的优势。
关键词：引擎；虫；搜索爬索引
中图分类号：Ｐ９．Ｔ３１３文献标识码：Ａ文章编号：６３６９（０６１ —０７ —０１７ — ２Ｘ２０）１０３３
ＤｅｉｎｎｄＩｐｌｍｅａｉｎｆＳｈｏｅｒｈＥｎｉｓｄｏｃｎｅＮｅｓｇａｍｅｎｔｔｏｏｃｏｌＳａｃｇｎｅＢａｅｎＬｕｅ．ｔ
ｖｎａｅｉｏｉｅｒｈ．ａｔｎｄｍａｎｓａｃｇＫｅｏｄｓａｃｎｉｅＷｅｐｄｒｉｄｘｙｗｒｓ：ｅｒｈｅｎ；ｂｓｉｅ；ｎｅｇ
０引言
搜索引擎在当今的网络资源应用中扮演着重要的角色，Ｂｉ和Ｇｏｌ的业绩强势增长中也可以看到这从ａｕｄｏｇｅ
们所说的网络蜘蛛（ｂＳｉｒ或者叫网络机器人。通Ｗｅｐｅ）ｄ
点。有了搜索引擎，网络资源得以集中地管理和分类，从
而使人们不用直接去网络上盲无目的地寻找自己需要的东西。搜索方法和结果较以前也便利、捷并且更加有快效。但是随着技术的发展，发现现在的搜索引擎并不人们能满足自己的特定要求，大众的搜索引擎也很难实现一个域范围内全面快速的搜索。比如说，在一个大学之内搜索，ａｕＧｏｌ就不可能提供校园网所有网页这一特Ｂｉ和ｏｇｄｅ定范围的搜索功能，并做到快速地更新。文中提出了一种基于Ｌｃｎ．ｅ的校园网搜索引擎ｕｅｅＮｔ

基于lucene的校园网搜索引擎

（信息处理模块。ｕｅｅ二）Ｌｃｎ开源检索框架制。通常，由词项（字）关键和出现情况两部分简介［Ｌ．２０－１２】ｈｔ：／ｗ．ｈｄ— ０】［０８１－４．ｔｐ／ｗｗｃｅｏ是基于文件索引机制的，只能对文本文件进行组成。对于索引中的每个词项（关键字）都跟ｎ．０／ｅｈ１ｃｎ．ｔ１，ｇｃｍｔｃ／ｕｅｅｈｍ．索引。信息处理模块主要包含３个步骤：读取随一个列表（位置表）用来跟踪记录单词在所【】薛宇星．基于ｔｒｔｉ和Ｌｃｎ的Ｗｂ，２ｉｉｒｘｕｅｅｅｅ页面内容、页面内容解析和构建索引。结构图有文档中出现过的位置。
分工不同，人们所关注的信息产业范围也不尽
个好的网页爬虫应该具有很好的灵活址为ｈｔ：ｗｗｊｏ．／ｔ／ｗ．ｓｔｎ，这是一套由ｉａｐ／ｅｆｃａ写息，ｖ搜索引擎起着至关重要的作用。当代社会
性和健壮性，并且易于管理员操作管理。灵活成的分析软件。
性旨在爬虫能够尽可能多的适用于各种不同
个焦点。
二、搜索引擎
搜索引擎是一个为用户提供信息检索功能的网络工具搜索引擎是随着互联网络信息的快速增长，开始逐步发展起来的技术。在互
联网发展的最初阶段，网站的数量相对较少，
爵…
ｔ３
．
！
．．．
．．．
信息查找比较容易。但随着互联网技术爆炸性的发展，网络上面的信息越来越多，并且以各种各样的形态存在，这时用户便很难找到所需要的信息，一些为满足大众信息检索需求的专业搜索网站就应运而出了。如今，ｏｇ的巨Ｇｏｌｅ

基于Lucene全文检索引擎的研究与实现

同类型的文档进行解析。比如对于ＨＴＭＬ文ｌ并利用方法１回的结果得到分词的结，返档，ＨＴＭＬ析器会做一些预处理的工作。果和词频结果。解当从文本读入一个字，使
接ｏｔｉ（来ｓＭａ中是否存在这巨大反响，序员不仅使用它构建具体的ＨＴＭＬ解析器输出的是文本内容，着用ｃｎａｎ）判断Ｈａｈｐ程全文检索应用，且将之集成到各种系统Ｌｃｎ的分词器从文本内容中提取出素引而ｕｅｅ个字的映射，果存在就取得长度等于字如
石头一贾府 ” 行分析，进先分析器解析字符串
２全文检索引擎Ｌｃｎｕｅｅ
２１ｕｅｅ．Ｌｃｎ简介
Ｌｃｎ是ａａｈ软件基金￣ｊｋｒａ目ｕｅｅｐｃｅａａｔ项组的一个子项目，一个开放源代码的全是
检索索引库的Ｔｅｐ中找到对应如ｅＭａ
首先，入查询条件，如用户希望查的映射则对应的键值加ｌ输出的时候在输比，
的基础上，且针对Ｌｃｎ中文分词的弱询到含有词 “ 宝玉？ “ 头但不含 “ 并ｕｅｅ贾和石贾词后面加上分割符号 ‘ ，后继续重复＼’ 然势扩展设计了一个相对完善的中文分词府 ” 记录，么输入条件为 “ 宝玉＋石前面的步骤，到文件结束，出；果的那贾直退如器，实现了一个基于Ｌｃｎ全文检索技头一贾府 ” 查询条件传入搜索器（ｕｅｅ并ｕｅｅｌ１ｃｎ．读者了解和使用Ｌｃｎ全文检索引擎提供ｕｅｅ

基于Lucene的数码产品垂直搜索引擎的设计与实现的开题报告

基于Lucene的数码产品垂直搜索引擎的设计与实现的开题报告一、选题背景随着数码产品的不断发展和普及，人们购买和使用数码产品的需求也越来越高。

但是，随着数码产品种类的增加和信息量的增长，现有的搜索引擎已经不能满足人们的需求。

因此，基于Lucene建立一个数码产品垂直搜索引擎是非常必要和有意义的。

二、选题意义数码产品垂直搜索引擎的建立对于用户是非常有帮助的。

通过使用该搜索引擎，用户可以快速找到自己需要的商品，缩短查找时间，提高搜索效率。

同时，搜索引擎可以根据用户的搜索行为和历史记录，向用户推荐符合其需求的产品，增加用户的消费体验。

对于企业来说，垂直搜索引擎可以提高企业的竞争力。

通过收集用户的搜索数据和行为，企业可以了解用户的需求和偏好，根据用户的反馈来优化和完善产品，提高产品的质量，增加企业的竞争力。

三、选题内容本文将基于Lucene建立一个数码产品垂直搜索引擎。

具体内容包括：1. 研究Lucene搜索引擎的原理和应用，了解其优点和不足。

2. 构建搜索引擎的数据采集系统，收集数码产品信息，构建数据库。

3. 使用Lucene建立搜索引擎的索引系统，对数据库中的数据进行索引。

4. 针对用户的搜索需求，设计和实现搜索算法和推荐系统。

5. 测试和优化搜索引擎。

四、选题方法本文将采用以下方法：1. 研究相关文献，了解Lucene搜索引擎的原理和优点。

2. 建立数码产品数据采集系统，采集数码产品的相关信息，构建数据库。

3. 使用Lucene建立索引系统，对数据库中的数据进行索引。

4. 设计和实现搜索算法和推荐系统，根据用户的搜索行为和历史记录向用户推荐符合其需求的产品。

5. 测试和优化搜索引擎，提高搜索引擎的性能和用户体验。

五、预期效果本文的预期效果如下：1. 基于Lucene建立数码产品垂直搜索引擎，实现对数码产品的快速检索和推荐。

2. 提高用户的购物体验，增加用户的满意度和忠诚度。

3. 增加企业的竞争力，提高产品质量和市场占有率。

基于Lucene的高校图书垂直搜索引擎的研究与实现

基于Lucene的高校图书垂直搜索引擎的研究与实现付强【期刊名称】《太原师范学院学报（自然科学版）》【年(卷),期】2011(010)004【摘要】The vertical search engine is a subdivision and extension of search engine,which is appointed specially at one particular field and helps the consumers search for the large data rapidly and accurately.To describd how to implement the application of vertical search engine to shanxi University library books so as to serve the reader to easily search the books information.%垂直搜索引擎是针对某一个特定领域的专业搜索引擎,是搜索引擎的细分和延伸.垂直搜索引擎可以帮助用户在海量数据中进行快速、专业、精准的检索.文章实现了基于Lucene技术的山西高校图书垂直搜索引擎,其可以为读者提供专业的图书信息检索服务.【总页数】4页(P104-107)【作者】付强【作者单位】山西金融职业学院,山西太原030008【正文语种】中文【中图分类】TP31【相关文献】1.基于Lucene的垂直搜索引擎研究与实现 [J], 周海松;刘建明;李龙2.基于Lucene的新闻垂直搜索引擎设计与实现 [J], 许翰林;王瑞;王佳丽;吴宸阳;李浩;陈阳3.基于Lucene与Heritrix的图书垂直搜索引擎的研究与实现 [J], 王琦;张戈;何婧4.基于Heritrix和Lucene的电力新闻垂直搜索引擎研究与实现 [J], 邹岳琳;王天军;5.基于Lucene的面向大数据主题的垂直搜索引擎研究 [J], 翟霞因版权原因，仅展示原文概要，查看原文内容请购买。

基于Lucene专业搜索引擎的研究应用

定的组织返回给用户。外。网络机器人爬行之前，此在需
领域或主题的信息，由搜索器、索引器、检索器和用户接口等四个部分组成，工作原理与通用搜索引擎的工
作原理基本相同．所不同的是专业搜索引擎对抓取的
收稿Ｅ期：００８２ｌ２１ —０ —１修稿日期：０００ —１２１—９２
作者简介：雪－（７－，，苏如皋人，师，士，究方向为信息处理与检索朱￣１６）江９女讲硕研
０现计算２１．代机００９０
＼
＼＼
实践与经验
基于Ｌｃｎｕｅｅ专业搜索引擎的研究应用
朱雪莲
（疆艺术学院基础部（政部）新思，乌鲁木齐８０４）３０９
摘
要：搜索引擎现已经成为搜索互联网信息的重要工具。通用的搜索引擎虽然功能强大，对专但
应用
Ｌｃｎ是用－ｖ的全文检索引擎工具包，不ｕｅｅｌａ写ａ并是一个完整的全文检索引擎，而是一个全文检索引擎
擎所建立的数据库是关于某一领域或某一专业。图１显示了专业搜索引擎的体系结构。
擎在搜索结果等方面进行比较
关键词：ｅ：专业搜索引擎；ｕｅｅｗｂＬｃｎ
０引
言
堂

基于Lucene的全文搜索引擎的设计与实现

效性。
图１Ｌｃｎｕｅｅ系统的结构组织图
２Ｌｕｅｅ的系统结构分析ｃｎ
２２ｏｇａａｈ．ｃｎ．ｉｅ索引包是整个系统核心，．ｒ．ｐｃｅ［ｅｅｎｘｕｄ主要提供库的读写接口，过该包可以创建库．加删除记录及通添读取记录等。全文检索的根本就为每个切出来的词建立索引，查询时只需要遍历索引，不需要遍历整个正文，而极大地而从提高了检索效率，引创建的质量直接关系整个系统的质量。索Ｌｃｎ的索引树是非常优质高效的，这个包中，要有Ｉ．ｕｅｅ在主ｎ
查询结果。图１是Ｌｃｎｕｅｅ系统的结构组织图。２．分析器Ａｎｌｚｒ分析器主要用于切词，段文档输入１ａｙｅ一
以后，过Ａａｚｒ输出时只剩下有用的部分，他部分被剔经ｎｌｅ，ｙ其除。分析器提供了抽象的接口，因此语言分析（ｎｌ）Ａａ￣ｒ是可以ｙ定制的。因为Ｌｃｎ缺省提供了２个比较通用的分析器Ｓｕｅｅｉｍ．ｐＡａｓ和ＳａｄｒＡａｓｒ这２个分析器缺省都不支持中ｌｅｌｅｎｙｒｔｎａｄｎｌｅ，ｙ文，以要加入对中文语言的切分规则，要修改这２个分析所需

基于Lucene的搜索引擎设计与实现

ｅｐｅｓｏｏｇａｎｏａｏｘｒｓｉｎｔｒｂｉｆｒｔｎ，ＩｄｘｍｏｕｅｕｅｎｅｔｄｉｄｘｍｅｏＷｏｄｓｇｎａｏｇｒｔｍｓｓｍａｉｌｔｈＣｈｎｓｒｓｍｉｎｅｄｌｓｓｉｖｒｅｎｅｔｄ．ｒｅｍｅｔｔｎａｏｉｈｉｌｈｕｅｘｍａｌｍａｃｉｅｅｗｏｄｙ
整体上采用基于Ｓｒｓ．框架的模型．ｔｔ２ｕ１视图－控制器设计模式，据采集模块利用基于正则表达式的有限状态自动机抓取数据，索引模块应数
用倒排索引方法，系统的分词算法使用基于字典的正向最大匹配中文分词法。实验结果表明，方案具有较高的资源检索率，同时能够保该
第３卷第ｌ期７６
Ｖｏ．７１３
・
计
算
机
工
程
２１年８月０１
Ａｕｕｔ２１ｇｓ０１
Ｎｏ１．６
ＣｏｕｅＥｎｉｅｒｎｍｐｔｒｇｎｅｉｇ
软件技术与数据库・
文编ｔ０ — ４（１ｌ０９０章号０３８ｏ）— ０＿３文标码Ａｌｏ２２１６３＿献识・
ｅｓｒｈｅａｃｒｃｆｔｅｒｔｉｖｌｒｓｌｓｎｕｅｔｃｕａｙｏｈｅｒｅａｅｕｔ．
［ｅｏｄｌＦｌＴａｓｒｒｏｏＦＰｓｃｇｎ；ｕｅｅｒｗｒ；ｄｌｉｏｔｌｒＣ；ｎｅｔｅｕｏａ；ｖｒｄｘＫｙｒｓｉｒｆｏｃｌＴ）ｅｈｎｉｅＬｃｎａｏｋＭｏｅＶｅＣｎｏｌ（ｗｅｎｅＰｔ（ｒａｅｆｍｅｗｒｅＭＶ）ｉｔａｔｍｔｉｅｅｉｅｉｆｔｓａａｎｔｎｄＤＩ１．６／ｉｎ１０－４８０１６１Ｏ：０９９．ｓ．０３２．１．．３３ｊｓ０２１０

基于Lucene的搜索引擎技术的研究与改进

Ｌｃｎ系统的核心功能是建立文档索引．可以处ｕｅｅ理多种格式的文档．包括ＨＭＬＷｏｄＸＴ、ｒ、ＭＬ等多种文件．并且Ｌｃｎｕｅｅ提供了专门的ＡＩ建立和管理索Ｐ来引。例如ＩｄｘｉｒｎｅＷｒｅ用于创建索引，ｎｅＲａｅ用于ｔＩｄｘｅｄｒ
ｔｄｙ２０／１１／ｔｏｕｔｎｔ－ｕｃ－１ｈｍｌ０６ｏａ／０６０／０ｉｒｄｃｉ－ｏｎｔｈ．ｔ，０ｎｏ２
［】刚，伟，哲．ＪＸ＋ｕｅｅ构建搜索引擎【．民邮５李宋邱ＡＡＬｅｎＭ】人
ｗｔｈｎｏｍａｉｎｔｅｅｄｉｔｅｉｆｒｔｈｙｎｅ．ｈｏ
ＫｙｅｗｏｒｓＬｃｎ；Ｉｄｘｒａｋｎｅｈｏｏｙｄ：ｕｅｅｎｅｅ；ＲｎｉｇＴｃｎｌｇ
现代计算机
２１．８０１０
管理索引等ｕｅｅＬｃｎ采用了两种索引模式：独立索引和复合索引模式独立索引模式是指每个Ｄｃｍｅｔ立ｏｕｎ独索引成一个文件．种方式检索速度比较快．这但是不适
合大量文件的处理复合索引模式是把多个Ｄｃｍｎｏｕｅｔ索引成一个文件这种方式检索速度没有独立模式的
用．０９６２０．
［］Ｊ平．索引擎ＰｇＲｎ９ｇｌｘ搜ａｅａｋ算法研究．算机应用于软计
件．０８９２０．

基于Lucene的全文检索引擎研究与应用

ＡｂｔａｔＲａｉｃｕｌｔｎｏｒｅｅｔｒｉｅｆｅｔｖｌｎｅｉｇｉｆｒａｉｎｒｓｕｃｓｉｏｐｌｅｈｇｓｒｃ：ｐｄａｃｍｕａｉｆｌｇｎｅｐｒｓｅｆｃｉｅｙｉｄｘｎｎｏｍｔｅｏｒｅｓｔｍｖｄｉｈ— ｑａｉｓａｃｅｖｃｓｏａｓｏｕｌｙｅｒｈｓｒｉｅ．ｔ
部分使用ｌ引。
是以各种计算机数据诸如文字、声音、图像等为处理对
象，提供按照数据资料的内容而不是外在特征来实现的信息检索手段［。在索引中创建一个包含一系列用川户搜索条件的查询，它能帮助人们进行大量文档资料
Ｌｃｎ作为一个全文检索引擎，ｕｅｅ其具有如下突出的优点：
中图分类号：Ｉ９、Ｔ）１３３文献标识码：Ａ文章编号：６３６９（０７０～０８ —０１７ — ２Ｘ２０）５１４３
ＲｅｅｒｈａｄＡｐｐｌｃｔｏｆＦｕｌＴｅｔＳａｃｓａｃｎｉａｉｎｏｌｘｅｒｈＥｎｇｎｅＢａｅｎＬｕｅｅｉｓｄｏｃｎ
ｔｏｘｍｐｅｉｎｅａｌｓ
Ｋｅｒｓｕｌｅｔｓａｃｉｄｘｎａｐｉｄｒｓａｃ／ｅｎｙｗｏｄ：ｆｌ—ｔｘｅｒｈ；ｎｅｉｇ；ｐｌｅｅｒｈＬｕｅｅｅ
０引言
随着计算机技术及网络技术的迅速发展，电子文
１基于Ｊｖａａ的全文检索引擎＿Ｊｋｒａａｔａ
Ｌｕｅｅｃｎ
档数目急剧膨胀，在这海Biblioteka 的信息里面快速、面、全准

信息检索论文基于lucene的实验大学论文

基于Lucene的实验报告信息检索系统介绍信息检索系统是借助信息检索技术，如全文检索等手段帮助用户检索特定信息的工具。

它可以正确地表示，存储和组织信息，同时还提供信息的访问。

在这里，信息的概念是非常广泛的，它可以是一篇文章，一个文本，一个网页，一封电子邮件，一张照片，甚至是一个收集的虚拟信息。

检索的整个过程包括：文本数据库的构建、索引和检索。

信息检索的过程:1 建立一个文本库一个信息检索系统需要准备之前，搜索功能的开发。

首先，必须建立一个文本数据库。

该文本数据库用于存储用户可以检索的所有信息。

在此基础上，确定了检索系统中的文本模型。

文本模型是一种被系统识别的信息格式，具有冗余性低等特点。

当然，在系统的运行过程中，文本数据库的信息可能会不断变化。

2建立索引当您拥有文本模型时，您应该创建一个基于数据库中的文本的索引.。

索引可以大大提高信息检索的速度。

建立索引的方法有多种，这取决于信息检索系统的大小。

大规模的信息检索系统（如百度，谷歌，如搜索引擎）被用来创建一个倒排索引。

3搜索索引文本后，可以开始搜索它。

搜索请求通常由用户提交，请求进行分析，检索结果返回索引中。

Lucene随着系统信息的越来越多，怎么样从这些信息海洋中捞起自己想要的那一根针就变得非常重要了，全文检索是通常用于解决此类问题的方案，而Lucene则为实现全文检索的工具，任何应用都可通过嵌入它来实现全文检索。

Lucene是一个开源全文检索工具包，它是apache软件基金会jakarta项目组的一个子项目，是一个开放源代码的全文检索引擎工具包，即它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，部分文本分析引擎（英文与德文两种西方语言）。

Lucene的目的是为软件开发人员提供一个简单易用的工具包，以方便的在目标系统中实现全文检索的功能，或者是以此为基础建立起完整的全文检索引擎。

Lucene工作方式lucene提供的服务实际包含两部分：一入一出。

基于Lucene2_0的书目搜索引擎设计

重庆图情研究2009年第1期(总第10卷第35期)基于Lucene2.0的书目搜索引擎设计蔡兵胡敏(重庆图书馆,重庆,400037)摘要书目搜索引擎是一种类似于网络搜索引擎的目录检索系统,它使用开放源代码软件工具包L u cene2.0来实现。

文章首先讨论了当前主流目录检索系统的检索界面使用上的不方便之处,然后提出了书目搜索引擎的设计思路,接着详细地分析了书目搜索引擎的关键技术与实现方法。

图2。

参考文献4。

关键词书目搜索引擎检索界面全文索引全文检索中图分类号 G254.2 文献标识码 ABibliography Search Engine D esign of Lucene2.0Abstrac t B i bli ography search eng i ne is a search eng i ne w hich is si m il a r to the net w ork directory retr i eva l sys te m,w hich uses open source so ft ware too l kit to ach i eve L ucene2.0.F irst artic l e discussed the inconveniences o f u si ng t he curren tm ainstrea m search directory re trieval syste m,and then put forward t he tra i n o f thought o f b i bli ography search eng i ne dessi gn,t hen the autho r ana l yzed the key technology and realizati on m ethod b i bli ograph i c search eng i ne in deta iled.2Charts,4R e fs.K ey W ords B i bli og raphy search eng ine;Search i nterface;Index;InterfaceCLC Numb er G254.20 引言目前主流图书馆自动化管理系统的书目检索系统有两种,即OPAC系统和供图书馆内部使用的包含在图书馆自动化系统的各个模块中的目录搜索系统,从功能界面到内部技术体系似乎再无进展,于是千人一面。

基于Lucene的搜索引擎的研究与应用

Ｓｈａｎｇｈｉａ２００２３４，Ｃｈｉｎａ）
Ａｂｓｔｒａｃｔ：ＴｈｅｐｒｅｃｉｓｉｏｎｏｆＩｎｔｅｒｎｅｔｓｅａｒｃｈｉｎｇｉｓｉｍｐｏｒｔａｎｔｓｉｇｎｓｏｆｗｅｉｇｈｉｎｇｔｈｅｐｅｆｏｒｒｍａｎｃｅｏｆｓｅａｒｃｈｅｎｇｉｎｅ．Ｉｎｏｒｄｅｒｔｏｒｅｓｏｌｖｅｈｅｔｉｎ —
第２３卷
第６期
计算机技术与发展
ＣＯＭＰＵｒＥＲＩ１ＥＣＨＮＯＬＯＧＹＡＮＤＤＥＶＥＬＯＰＭＥＮＴ
Ｖｏｌ＿２３Ｎｏ．６
２０１３年６月
Ｊｕｎｅ２０１３
基于Ｌｕｃｅｎｅ的搜索引擎的研究与应用
ｍａｉｏｒｎｔｏｌｏｃａｌｍａｃｈｉｎｅ．ＴｈｅｓｅｒｃａｈｅｎｇｉｎｅａｌｓｏｕｓｅｓｈｅｔｏｐｅｎＡＰＩｏｆＬｕｃｅｎｅｔＯｉｎｄｅｘａｎｄｓｅｒｃａｈｈｅｔｓｐｅｃｉａｌｉｎｆｏｒｍａｔｉｏｎ．Ｌｕｃｅｎｅｉｓａｈｉｇｈ
ｈｅｒｅｎｔｖｉｃｅａｂｏｕｔｈｅｔｇｅｎｅｒａｌｓｅｒｃａｈｅｎｇｉｎｅｓ，ｐｒｅｓｅｎｔａｓｅａｒｃｈｅｎｇｉｎｅａｐｐｌｉｅｄｉｎｎｅｗｓｓｅｒｃａｈ，ｗｈｉｃｈｕｓｅｓｔｈｅｗｅｂｓｐｉｄｅｒｔｏｆｅｔｃｈｔｈｅｉｎｆｏｒ —

基于Lucene全文检索引擎的应用研究

擎系统。系统结构图如图１所示。
从图１看到Ｌｃｎｕｅｅ系统是由基础结构封装、引核索心、外接口三大部分组成。其中索引核心部分是系统对
的重点。Ｌｃｎｕｅｅ中共有７个子包，个包的具体功能见每表１，核心类包主要有：ｏｇｐｃｅ１ｃｎ．ａａｓ；ｒ．ｒ．ａａｈ．ｅｅｎｌｉｏｇｕｙｓ
ａａｈ．１ｃｎ．Ｉｄｘｏｇｐｃｅ．ｃｎ．ｓａｃｐｃｅｕｅｅｎｅ；ｒ．ａａｈ１ｅｅｅｒｈ。ｕ
来构建具体的全文检索应用，而且能方便地集成到各
种系统软件中，本文对Ｌｃｎｕｅｅ进行深入的研究和分析，
以此为基础设计实现了一个以商业网站中构建搜索引擎的实例。
１全文检索引擎Ｌｃｎｕｅｅ
１１Ｌｃｎ概述．ｕｅｅ
Ｌｃｎｕｅｅ是用Ｊｖａａ写的全文检索引擎工具包，不是并
Ｉｈｓｈｇｃｅｓｐｅｔａｉｈａｃｓｓｅｄ，ｓｐｏｓｌ — ｓｒａｃｓｅａｄｃｎｂｓｄｉｒｓ－ｐａｏｍｗａｕｐｒｍｕｔｕｅｃｅｓｓｎａｅｕｅｎａｃｏｓｌｆｒｔｉｙ．Ｆｒｔ，ｕｅｅａｄａｃｕｌｅｔｉｌＬｃｎ，ｎａｖｎｅｆｌ－ｔｘｓｙｒｔｅａｎｉｅｓｎｒｄｃｄｓｓｅｅｒｖｌｅｇｎｉｉｉｔｏｕｅ，ｙｔｍｓｕｔｒ，ｌｔｘｎｅｉｇａｅａａｙｅｎｅａｌＴｅｍｐｏｔｉｈａｐｉａｉｎ，ｅｎｔａｅｔｃｕｅｆｌｅｔｉｄｘｎｒｎｌｓｄｉｄｔｉ，ｈｎｅｌｙｉｎｔｅｐｌｔｒｕｃｏｄｍｏｓｔｒａｘｍｐｅｂｓｄｏｕｅｅｔｃｎｌｇ．ｎｅａｌａｅｎｌｃｎｅｈｏｏｙ

基于Heritrix+Lucene的高校图书馆网站全文搜索引擎构建

ｆｏｒｓｕｂｓｅｑｕｅｎｔｓｔｕｄｉｅｓ．Ｋｅｙｗｏｒｄｓ：ｓｅａｒｃｈｅｎｇｉｎｅ；ｄｉｇｉｔａｌｌｉｂｒａｙ；ｒＨｅｒｉｔｒｉｘ；Ｌｕｃｅｎｅ；Ｈｔｍｌｐａｓｅｒｒ
具有基本功能的高校图书馆搜索引擎，以期为后续的研究打下基础。关键词：搜索引擎；数字图书馆；Ｈｅｒｉｔｒｉｘ；Ｌｕｃｅｎｅ；Ｈｔｍｌｐａｒｓｅｒ中图分类号：Ｇ２５４．９２文献标识码：Ａｄｏｉ：１０．３９６９￣．ｉｓｓｎ．１００５ — ８０９５．２０１３．０９．０２９
ＨｕａＪｉｎｇｓｈｅｎｇＬｉＰｉｎｇ（ＮａｎｊｉｎｇＡｒｔｓＩｎｓｔｉｔｕｔｅＬｉｂｒａｒｙ，ＮａｎｊｉｎｇＪｉａｎｇｓｕ２１００１３）
Ａｂｓｔｒａｃｔ：Ｔｈｒｏｕｇｈｉｎｖｅｓｔｉｇａｔｉｏｎａｎｄａｎａｌｙｓｉｓｏｎｔｈｅｓｔａｔｕｓｑｕｏｏｆｄｅｖｅｌｏｐｍｅｎｔｏｆｕｎｉｖｅｒｓｉｔｙｌｉｂｒａｙｒｗｅｂｓｉｔｅ，ｔｈｅｐａｐｅｒｉｆｎｄｓａｃｏｍ－ｍＯＢｉｓｓቤተ መጻሕፍቲ ባይዱｕｅｔｈａｔｓｅａｒｃｈｉｎｇａｎｄｕｓｉｎｇｉｎｆｏｒｍａｔｉｏｎｉｎｕｎｉｖｅｒｓｉｔｙｌｉｂｒａｙｒｗｅｂｓｉｔｅｉｓｎｏｔｅａｓｙ，ａｎｄｐｏｉｎｔｓｏｕｔｔｈａｔｆｕｌｌ－ｔｅｘｔｓｅａｒｃｈｔｅｃｈｎｏｌｏｇｙｓｈｏｕｌｄｂｅｕｓｅｄｆｏｒｕｎｉｔｅｄｒｅｔｒｉｅｖａｌｏｆｉｎｆｏｍａｒｔｉｏｎｒｅｓｏｕｒｃｅｓｉｎｕｎｉｖｅｓｉｒｔｙｌｉｂｒａｒｙｗｅｂｓｉｔｅ．Ｏｎｔｈｅｂａｓｉｓｏｆｏｐｅｎ－ｓｏｕｒｃｅｓｏｆｔｗａｒｅＨｅｒｉｔｒｉｘ，

基于Lucene的校园网搜索引擎的设计与实现

搜索引擎已成为互联网上不可或缺的工具．搜索引擎主要包括以下几个主要的模块：网络爬虫、引器、索检索器、户接口［．用４网络爬虫主要是］
信息量也迅速增加，仅依靠人工查询的方式在校仅园网查询所需要的信息不仅效率低下，而且费时费力．在互联网领域，文本信息的检索一直是大规模信息处理学科中的一个研究热点Ｌ，是网络多媒体１也］信息处理领域的重要研究方向．着对基于全文的随文本搜索技术的不断探索，索引擎技术在信息处搜
在系统的索引库进行信息检索，将搜索结果返回并给用户，同的搜索引擎的具体模块可能有不同的不
变化和扩展＿．５Ｊ
的搜索引擎像谷歌、度、虎等商业搜索引擎虽然百雅
搜索功能强大，同时也具有一些不足之处，公平但如
到文件库中．
化等步骤．文件信息过滤主要是将各种文件中无价值的字符串过滤掉；息抽取主要是从过滤后的文信件信息中提取文件标题和其他感兴趣的信息；建立索引库就是将所提取到的信息写入到索引文件中，索引文件是一种由词典（ｃｉａｙ和分块倒排列Ｄｉｏｒ）ｔｎ表（ｏｔｇｌｔ）成［；引优化主要是对索引文Ｐｓｉｓｓ组ｎｉ７索件进行优化，以提高系统的检索速度．由于Ｌｒｎ是以词为基础建立全文索引，￣ｅｅｃ因此，在建立索引之前必须进行中文分词，系统采用本中科院ｊ—ａａｙｉ－１５３工具包实现该功能．ｅｎｌｓｓ．．全

基于Lucene的搜索引擎设计与实现

1 搜索引擎的结构描述通常 ,一个搜索引擎由搜索器、索引器、检索器和用户
收稿日期 :2004 - 02 - 19 作者简介 :高琰 (1973 —) ,女 ,江苏宜兴人 ,博士研究生 ,研究方向为信息检索。
接口等四个部分组成[1 ] 。 a. 搜索器的功能是在互联网中漫游 ,发现和搜集信
0 前言在过去几年里 , Internet 的资源迅速增长 ,使 Web 发
展成为包含多种信息资源、站点遍布全球的海量信息服务网络。同时 ,也有越来越多的机构、团体和个人在 Internet 用搜索引擎查询信息。作为一个门户网站来说 ,提供给用户搜索服务 ,是吸引用户访问网站的重要手段。目前许多网站建立搜索引但是对于一个有很多子网站的企业门户网站来说 ,通用搜索引擎存在着很多缺陷 ,满足不了这种搜索服务要求 ,如 : 尽管 Google 等搜索引擎提供对指定站点内的查询 ,但是不能同时对多个站点同时查询 ;通用搜索引擎不能及时更新索引 ,会导致搜索结果不全和出现“坏链接”;调用通用搜索引擎的响应速度慢。因此研究一个由企业自主定制的搜索引擎 ,具有重要的意义。文中采用 Lucene 的开发工具包 ,实现了一个全文搜索引擎。
的搜索与索引策略及其相关参数都存在. xml 的配置文件中 ,可由系统维护人员通过该接口进行修改。
2) 文件内容分析器 :分析 HTML , PDF 等多种格式文
件 ,从中提取链接和文件各字段内容。文件的字段由开发
人员定义 ,这里定义了 url ,content Type ( 内容类型) 、last2
Modified( 最后修改日期) 、contents ( 内容) 、title ( 标题) 、
摘要 :当今搜索引擎已经成为人们在网上搜索信息的重要工具。通用的搜索引擎虽然功能强大 ,但对具有很多子网站的企业门户网站进行搜索时响应速度慢 ,索引范围不全。Lucene 是一个强大的全文索引引擎工具包 ,应用它可以快速地开发一个搜索引擎。文中描述了利用基于 Java 的全文检索工具包 Lucene 开发定制的中文搜索引擎方法 ,并且将该定制的搜索引擎与 Google 的站内搜索进行试验比较 ,发现在对具有很多子网站的企业门户网站进行搜索时有优于 Goo gle 的性能。关键词 : Web ;搜索引擎 ;Lucene 中图分类号 : TP391 . 3 文献标识码 :A 文章编号 : 1005 - 3751 (2004) 10 - 0027 - 04

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

１０５
不被系统之外实际调用．因ａｃｈｅ．ｌｕｃｅｎｅ．ｕｅｒＰａｓｅｒ是作为ｏｒ．ａａｃｈｅ．ｌｕｃｅｎｅ．ｓｅａｒｃｈ的语法解析器存在，ｐｑｙｇｐ［］此，这里没有当作对外接口看待，而是将之独立出来４．
５］建立索引．这样系统的关注点就完全可以放在搜索本身，而不是数据库的异构问题上了［信息，．
用来读写ＸＭＬ文件的．具有性能优异、功能强大ｏｍ４．ｏｒＤＯＭ４Ｊ是ｄｊｇ出品的一个开源ＸＭＬ解析包，，可以用Ｄ首先初始化ｄ然后和极端易用使用的特点，ＯＭ４Ｊ来读写这些ＸＭＬ信息．ｏｍ４ＡＸＲｅａｄｅｒｊ中的Ｓ，（）通过Ｓ再用Ｄ方法得到ＸＭＬｅｔＲｏｏｔＥｌｅｍｅｎｔＡＸＲｅａｄｅｒ来初始化ｄｏｍ４ｏｃｕｍｅｎｔｏｃｕｍｅｎｔ中的ｇｊ中的Ｄ中Ｒ再通过Ｒ这样就可以获得＜ｂｏｏｔ元素．ｏｏｔ元素来遍历所有子元素．ｏｏｋｓ＞根元素下的各个子元素＜主要代码如下：ｂｏｏｋ＞了．（）；ＳＡＸＲｅａｄｅｒＳｒｅａｄｅｒ＝ｎｅｗＳＡＸＲｅａｄｅｒ（）；ｏｒ．ｄｏｍ４．ＤｏｃｕｍｅｎｔＳｄｏｃ＝Ｓｒｅａｄｅｒ．ｒｅａｄｔｈｉｓ．ｘｍｌＦｉｌｅｇｊ（）；ＥｌｅｍｅｎｔＳｒｏｏｔ＝Ｓｄｏｃ．ｅｔＲｏｏｔＥｌｅｍｅｎｔｇ；ＥｌｅｍｅｎｔＳｆｏｏ＝ｎｕｌｌ
Ｖｏｌ．１０Ｎｏ．４第１太原师范学院学报（自然科学版）０卷第４期）Ｄｅｃ．２０１１２０１１年１２月ＪＯＵＲＮＡＬＯＦＴＡＩＹＵＡＮＮＯＲＭＡＬＵＮＩＶＥＲＳＩＴＹ（ＮａｔｕｒａｌＳｃｉｅｎｃｅＥｄｉｔｉｏｎ
３］供搜索功能的网站Байду номын сангаас［．
１．２Ｌｕｃｅｎｅ概述是用ＪＬｕｃｅｎｅ是Ａａｃｈｅ软件基金会Ｊａｋａｒｔａ项目组的一个子项目，ａｖａ语言开发的一个完全开放源码ｐ基本功能是将多来源得到的数据整合在一起，建立索引文档，然后供当前用户检索时，把的全文检索工具包，检索的相关信息返回给用户．索引核心、对外接口三大部分组成．作为一个优秀的Ｌｕｃｅｎｅ由基础结构封装、全文检索引擎，其系统结构具有强烈的面向对象特征．首先是定义了一个与平台无关的索引文件格式，其次通过抽象将系统的核心组成部分设计为抽象类，具体的平台实现部分设计为抽象类的实现，此外与具体平台经过层层的面向对象式的处理，最终达成了一个低耦合高效率，且容相关的部分比如文件存储也封装为类，易二次开发的检索引擎系统．如图２所示，各个模块完成特定的功能．需要特别说明的是ｏＬｕｃｅｎｅ将所有源码分为７个模块，ｒ．ａ－ｇ
它可以方便地对检索结果进行排序．ｏｒｔ类是Ｌｕｃｅｎｅ自带的排序算法，Ｓｏｒｔ类在ｏｒ．ａａｃｈｅ．ｌｕｃｅｎｅ．Ｓｇｐ，）在只需要实例化一个Ｓ并使用Ｓ接口来实现．构ｓｅａｒｃｈ包中，ｏｒｔ对象，ｅａｒｃｈｅｒ提供的ｓｅａｒｃｈ（ＱｕｅｒＳｏｒｔｙ（，）建好Ｓ中，返回出来的Ｈｏｒｔ对象后把它传递到方法Ｓｅａｒｃｈｅｒ．ｓｅａｒｃｈＱｕｅｒＳｏｒｔｉｔｓ就是以构建的Ｓｏｒｔ排ｙ序好的结果．这个常量表示当前的排序法则是按照文档的得分Ｓｏｒｔ有一个静态的常量Ｓｏｒｔ．ＲＥＬＥＶＡＮＣＥ，进行降序排列．为每个文档建立一个内部的ｉ有些时候，需要按照文Ｌｕｃｅｎｅ在为每个Ｄｏｃｕｍｅｎｔ建立索引的时候，ｄ号，表明当前的排序是以内部档的内部ｉｄ号来对其进行排序．Ｓｏｒｔ提供了直接静态实例Ｓｏｒｔ．ＩＮＤＥＸＯＲＤＥＲ，的文档ｉ如果要按一个或多个Ｆ可以利用Ｓ在Ｓｄ号．ｉｅｌｄ来排序，ｏｒｔＦｉｅｌｄ．ｏｒｔ类的内部由多个重载的ｓｅｔ－，，，Ｓｏｒｔ方法它们会按提交的Ｓｔｒｉｎｉｅｌｄ信息转成ＳｏｒｔＦｉｅｌｄ的对象并存在内部的数组中或是直接ｇ类型的Ｆ将提交的Ｓ在排序时使用．ｏｒｔＦｉｅｌｄ数组作为内部的数组，

＊
基于Ｌｕｃｅｎｅ的高校图书垂直搜索引擎的研究与实现
付强
（）山西金融职业学院，山西太原０３０００８摘要〕是搜索引擎的细分和延伸．垂〔垂直搜索引擎是针对某一个特定领域的专业搜索引擎，直搜索引擎可以帮助用户在海量数据中进行快速、专业、精准的检索．文章实现了基于Ｌｕｃｅｎｅ技术其可以为读者提供专业的图书信息检索服务．的山西高校图书垂直搜索引擎，〔；关键词〕垂直搜索引擎；图书；读者ｕｃｅｎｅＬ〔（）文章编号〕中图分类号〕文献标识码〕１６７２２０２７２０１１０４０１０４０４Ｐ３１－－－〔Ｔ〔Ａ
］２地产搜索引擎、车票搜索引擎等［．
垂直搜索引擎如图１所示，由抓取系统、索引系统及搜索系统组成．抓取系统，也就是蜘蛛程序，负责从信息源抓取数据．索引系统，将抓来的信息建立类似书目的数据文件，以便于实现高速检索．搜索系统，是提
图１垂直搜索引擎组成图
图２ｌｕｃｅｎｅ核心模块图
２高校图书垂直搜索引擎的关键技术研究
作为一个专门服务于高校图书的搜索引擎系统，本文主要侧重于在使用Ｌｕｃｅｎｅ架设高校图书垂直搜索引擎过程中，经常遇到的如获取异构数据库中的图书信息和图书的排序算法等关键技术的研究和实践．２．１获取异构数据库中的图书信息各高校图书馆数据库的结构大都不统一．为了统一获取数据库中的图书信息来搭建垂直搜索引擎目前，平台，则必须解决图书库的数据异构问题．图书搜索中最主要的一些图书信息，如书名、作者、分类、ＩＳＢＮ等．如何从各高校图书馆获取异构数据库中的信息建立索引的统一方式成为主要的问题．有这样一个解决方案，利用ＸＭＬ可以建立自定义的文档格式解决各高校的数据库异构问题，让参与图书信息共享的高校提供出图书信息，以协商好的统一的ＸＭＬ格式来呈献出来，然后就可以通过这些统一的文档格式很方便地读取
１垂直搜索引擎与Ｌｕｃｅｎｅ概述
１．１垂直搜索引擎根据数据收录范围不同，将搜索引擎垂直搜索引擎，是针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信于通用搜索引擎．，息和相关服务，其特点就是“ 专、精、深” 且具有行业色彩．它专注具体、深入的纵向服务，致力于某一特定领域
许多高校的图书馆搜索是基于数据库检索的．如何解决本校图书藏书量不足，共享山西省内高校目前， “ 图书信息，而且方便读者检索等诸多问题，是本文研究与实现的目标．设计一个统一的搜索平台：山西高校）可针对某一个特定领域，对某种专门信息进行收集垂直搜索引擎（图书搜索引擎 ” ．ＶｅｒｔｉｃａｌＳｅａｒｃｈＥｎｉｎｅｇ和整合，为特定用户提供快捷、专业、精准、深入的检索服务，给人们带来更准确、更专业及更具目标性的查询结果．本文主要论述如何利用Ｌ实现山西高校图书垂直搜索引擎系统的构建，为读者提供一个方ｕｃｅｎｅ技术，便、快捷的图书检索平台．
１０６
太原师范学院学报（自然科学版）０卷第１
；ｏｒ．ａａｃｈｅ．ｌｕｃｅｎｅ．ｄｏｃｕｍｅｎｔ．ＤｏｃｕｍｅｎｔｉｎｄｅｘＤｏｃｇｐｉｎｔｂｏｏｋＮｕｍｂｅｒｓ＝０；（＂ｂ＂）；（）；）ｆｏｒ（Ｉｔｅｒａｔｏｒｌｅｍｅｎｔｒｏｏｔ．ｅｌｅｍｅｎｔＩｔｅｒａｔｏｒｏｏｋｉ．ｈａｓＮｅｘｔ＜Ｅ＞ｉ＝Ｓ｛（）；Ｓｆｏｏ＝ｉ．ｎｅｘｔ（＂数据库ｉ：＂＋Ｓ（＂ｉ＂））；Ｓｓｔｅｍ．ｏｕｔ．ｒｉｎｔｌｎｄｆｏｏ．ｅｌｅｍｅｎｔＴｅｘｔｄｙｐ｝２．２图书的排序算法合理的结果集和排序次序．搜索引擎的最终价值体现在良好的反应速度、Ｌｕｃｅｎｅ内部隐含了检索的排序算法是基于向量空间模型（的ＴＶＳＭ）Ｆ－ＩＤＦ算法，Ｌｕｃｅｎｅ默认是按照自己的相关度算法进行结果排序的．主要流程是找到关键词匹配的文档集合，然后给文档集合每个文档计算检索相似度，最后给文档集合进行排序．文档的得分是在用户进行检索时实时计算出来的．如果在建立索引时就已经将每个文档的得分计算