全文检索系统整体方法设计
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1全文检索系统方案
1.1全文检索需求
1)系统提供模糊检索、分类搜索、高级复合搜索、全文检索、图片内容检索、跨库检索等多
种检索途径;
2)支持字索引和词索引;
3)检索条件具有完整的关键词布尔逻辑运算AND、OR、NOT能力,支持复合式布尔逻辑运算
查询,并且可以配合多组左括号"("与右括号")"作关键词查询优先级的设置;
4)
5)能够支持对以上文件中的中文(简体/繁体)
6)支持对Word、TXT、PDF
7)
8)
9)10秒;
10)
13)可让其它应用程序或查询网页能够提供用户查询
14)
容片断;
15)
17)
1.2全文检索系统总体方案
系统将采用以下全文检索流程。
针对企业内部的信息,包括文件服务器上的文件、网站网页、ERP等系统存放信息的数据库信息、办公应用中的公文档案文档已经内容管理系统中流转的内容,本系统提供了两种数据适配器来提取其中的正文内容和属性内容,形成一个相对结构化的数据虚拟层;本系统的索引引擎(Indexer)对结构化的数据虚拟层进行中文切分词、文件特征分析和逐步索引,以及其它索引算法,生成索引
数据库;使用者(user)在搜索页面中输入查询字串等搜索条件并提交给本系统后,本系统的全文检索查询引擎(Searcher)会在索引库中进行搜索,并将符合搜索条件的搜索结果返回给使用者;
使用者(user)可于查询结果页面,进一步链接到信息原文查看详细内容。
对于系统管理,管理员可通过相应web方式的管理程序来管理整个系统运行环境及设置文件;并通过索引引擎(Indexer.exe)实时或定时创建索引,更新索引数据库的内容,使检索信息维持
在最新状态。
1.3全文检索系统带来的效益
✓
和搜索,、简易的操作方式,即可在最短时间内,完整、准确、
✓
文件
的知识环境。
1.4全文检索系统平台架构
本系统基于组件化和松散耦合架构和设计,系统平台架构示意图如下:
整个系统主要分为信息整合、信息萃取和服务、应用整合三个部分。
✓信息整合
此部分主要作用是将企业内部存储于不同应用系统中的结构化信息、半结构化信息、非结构化信息通过本系统提供的两种数据适配器进行信息提取,形成一个相对结构化的数据虚拟层,以备后
期信息萃取和服务。
✓ 信息萃取和服务
在信息整合层形成的相对结构化的数据虚拟层基础上,本系统将对其中的每笔记录进行中文切分词、索引、文件特征分析、自动分类等各种演算算法处理,形成可以提供搜索服务的索引库。用户利用本系统的搜索引擎处理提供的强大的搜索功能,如中文同音搜索、简繁体对译、模糊搜索、条件的信息。
✓ 应用整合
企业内外部立自动化数际需求,用Text 、RTF 、PDF 、HTML 、E-mail (含影音附件要、图片的自动化建立
同时用户可以选择导入数据库数据,如Oracle 、Informix 、Sybase 、MSSQL 等。此外和Notes 系统也已经有了无缝整合,可挂载NotesComposer 对nsf 库中正文及附件信息索引,在做索引的过
程中自动把每笔记录的权限键入索引库。
本系统提供可挂载的数据适配器(DataAdapter),将异质的数据来源与数据结构进行汇整与粹取,亦扮演将非结构的信息结构化,可以很容易地分析特殊档案格式和管理复杂的数据源结构(如
递归、巢状等)的多功能设计,以方便信息检索与管理。
以e-mail 含附件为例,e-mailAdapter 可解析e-mail 内文,而当选购officeAdapter 后,原来的e-mailAdapter 即可解析office 相关的附件文件,可视需求额外购买PDF 、ZIP 、RAR 、OCR
等不同数据适配器,即可交互搭配使用。
搭配使用本系统的TXT 、MicrosoftOffice 、RTF 、PDF 、HTML 、E-mail 及FileMeta 资料提取器,将可解析Text 、MicrosoftOffice 、XML 、RTF 、PDF 、HTML 、MHT 及E-mail (含附件文件)及文件影音附档(如影片的文件名或摘要、图片的文件名或摘要、及文字)等格式,包括繁体中文、简体中文、英文、Unicode 等;使用数据库数据适配器,将可支持数据库数据汇入处理如Oracle 、
Informix 、Sybase 、MSSQL 等。
1.4.2 信息萃取和服务
✓ 简繁体对译、完整外部程序整合机制—所有
组件均提
供SDK 完整开发接口,方便外部整
合。另外大量提供XML 的方法来进行信息源更
新时的同
步以及权限的导入与检查工作。
1.5 全文检索系统功能特点
1.5.1基本检索功能支持
✓支持跨数据源索引与整合搜索。将分散在FileServer上的文件、远程网站中的网页、群组软件中的资料,以及数据库中的文字与非文字纪录,在一次搜寻条件下,整合搜寻出来。
可以对近线数据、在线数据和离线数据分别建立索引库,到时可以通过索引库的选择来控
制对哪些性质的数据进行搜索;
✓支持「万用字符(*、?)查询」。使用者可查询部分关键字及*(代表多于一个字)或?(代表一个字)的组合。例如:输入关键词【Chin*】,会找到【China】、【Chine】、【Chinese】等
等。输入关键词【Chin?】,会找到【China】;
✓搜寻条件具有完整的布尔逻辑运算AND、OR、NOT
✓
✓逻辑条件,
逻辑条件;
➢
➢
➢检索字串首先通过自动断词,将其断词结果进行组合检索;
➢提供「词库」编辑器,针对断词用的「词库」进行维护和调整;使中文切分词更符合使用者的行业特点,提高查询的速度和准确度。
该功能优势如下:
✓提高精确度:输入「民法」不会找到「人民法院」;
✓更小的索引空间:–通过词索引的方式,索引数据库相对字索引需要更少的磁盘空间;同
样数据量下,检索时需要的Memory更少;