基于Lucene的个性化搜索引擎研究与实现
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
收稿日期:2010-06-11;修回日期:2010-09-29基金项目:中国移动合作项目(20109143123)
作者简介:丁兆贵(1979-),男,山东平邑人,硕士生,研究方向为电子政务;金 敏,博士,副教授,研究方向为嵌入式系统及应用、软件工程与软件项目管理、分布式控制系统等。
基于Lucene 的个性化搜索引擎研究与实现
丁兆贵,金 敏
(湖南大学软件学院,湖南长沙410082)
摘 要:越来越多的用户在使用搜索引擎时希望能提供快速有效的个性化的查询结果。根据搜索引擎的工作原理,在研究分析开源的搜索引擎工具Lucene 的系统架构、模型和索引器的基础上,设计了武警部队网站个性化搜索引擎。通过二阶段数据处理流程实现信息的增量采集,通过采用逆向词典结构实现自动分词以及利用双向分词器进行倒排索引的功能,最后利用Tomcat 服务器进行了部署实现。文中所设计的个性化搜索引擎提高了原Lucene 搜索引擎的速度和准确率。关键词:搜索引擎;个性化;中文分词;检索器
中图分类号:TP391.3 文献标识码:A 文章编号:1673-629X(2011)02-0105-04
R esearch and I mp le m entation of Personal Search Engi ne
Based on Lucene
D I N G Zhao -gu,i JI N M in
(So ft w are Schoo l o f H unan U n i v ersity ,Chang sha 410082,C hi na)
A bstract :M ore and m ore u s ers w ant t h e search eng i ne t o p rov i de pers onal s earch res u lt fast and effi cientl y ,bu t also hope the query re su ltm ore pers onally .A ccord i ng to t h e w ork i n g pri n ci p l e of s earch en gi n e ,desi gn a pers onal s earch eng i ne of ar m ed po lice m en w eb sit e ,bas ed on research and ana l ys i s of the s yste m st ruct ure ,m odel and i ndex er of L ucene w hich i s an open source search eng i ne too l k i .t Pro v i de t he fun cti ons of i ncre m en tal co llecti ng i n for m ation by t w o phases dat a p rocess ,auto m ati call y d i v i d i ng w ords by usi ng i nvers e d ic ti onary structure ,and creati ng i nverse index by u si ng bidirecti onal w ord s d i v i der .Fi nall y ,dep l oy th is syste m on T o m cat server .The d e s i gned persona l search eng i ne i m p roves the s peed and veracit y of t he o ri g i nalL ucen e search eng i ne .K ey words :s earch eng i ne ;person a;l C h i nese dividing w ord s ;s earcher
0 引 言
个性化搜索引擎是搜索引擎个性化服务的一种体现
[1]
,越来越多的用户使用搜索引擎查找信息时,不仅
要求能快速有效地获得查询结果,而且要求结果能充分体现自己的个性化信息需求。个性化搜索通过对用户的行为进行分析和挖掘,根据用户的特点对信息进行重排、整理,过滤无关或相关度低的信息,达到体现个性化的目的。Lucene
[2~4]
使用Java 编程语言进行开
发,是一个实现全文检索引擎工具功能的开放源代码项目,可以非常方便地嵌入到各种各样的应用中实现针对特定应用的全文索引与检索功能。L ucene 自发布以来,在开放源代码社区引发了巨大反响
[5]
。文中在
研究分析L ucene 的系统架构、引擎模型及其索引器的基础上,设计并实现了一个基于L ucene 的个性化搜索
引擎 武警部队网站个性化搜索引擎。
1 个性化搜索引擎系统架构
武警部队网站个性化搜索引擎的系统架构如图1所示。个性化服务组件包括一个对信息进行分类的组件(docum ent A na l y sis),一个对用户模型进行判断的组件(user Feature),一个根据用户模型对信息进行过滤和重排的组件(seqT actic)以及一个对用户行为进行跟踪的组件(user A ction A nal y sis)。这三个组件中所涉及到的信息分类策略、用户模型判断策略、用户模型种类、信息过滤和重排策略都不是固定不变的,可以由管理员根据实际情况通过配置文件进行配置,以提高适应性和可扩展性。Index 和sto re 是索引核心组件,是整个搜索引擎系统的核心部分。analy sis 和search 是对外接口,a nalysis 是文本分析器,负责对被索引文件进行分析,search 是检索器,对外提供检索服务。
整体上看本系统是一个由基础类库、索引核心层和对外接口构成的三层结构。系统最基本的一个设计准则就是引入额外的抽象层以降低模块之间的耦合
第21卷 第2期2011年2月 计算机技术与发展CO M PUTER TECHNOLOGY AND DEVELOP M ENT
V o.l 21 N o
.2Feb . 2011