全文检索系统整体方法设计

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1全文检索系统方案

1.1全文检索需求

1)系统提供模糊检索、分类搜索、高级复合搜索、全文检索、图片内容检索、跨库检索等多

种检索途径;

2)支持字索引和词索引;

3)检索条件具有完整的关键词布尔逻辑运算AND、OR、NOT能力,支持复合式布尔逻辑运算

查询,并且可以配合多组左括号"("与右括号")"作关键词查询优先级的设置;

4)

5)能够支持对以上文件中的中文(简体/繁体)

6)支持对Word、TXT、PDF

7)

8)

9)10秒;

10)

13)可让其它应用程序或查询网页能够提供用户查询

14)

容片断;

15)

17)

1.2全文检索系统总体方案

系统将采用以下全文检索流程。

针对企业内部的信息,包括文件服务器上的文件、网站网页、ERP等系统存放信息的数据库信息、办公应用中的公文档案文档已经内容管理系统中流转的内容,本系统提供了两种数据适配器来提取其中的正文内容和属性内容,形成一个相对结构化的数据虚拟层;本系统的索引引擎(Indexer)对结构化的数据虚拟层进行中文切分词、文件特征分析和逐步索引,以及其它索引算法,生成索引

数据库;使用者(user)在搜索页面中输入查询字串等搜索条件并提交给本系统后,本系统的全文检索查询引擎(Searcher)会在索引库中进行搜索,并将符合搜索条件的搜索结果返回给使用者;

使用者(user)可于查询结果页面,进一步链接到信息原文查看详细内容。

对于系统管理,管理员可通过相应web方式的管理程序来管理整个系统运行环境及设置文件;并通过索引引擎(Indexer.exe)实时或定时创建索引,更新索引数据库的内容,使检索信息维持

在最新状态。

1.3全文检索系统带来的效益

和搜索,、简易的操作方式,即可在最短时间内,完整、准确、

文件

的知识环境。

1.4全文检索系统平台架构

本系统基于组件化和松散耦合架构和设计,系统平台架构示意图如下:

整个系统主要分为信息整合、信息萃取和服务、应用整合三个部分。

✓信息整合

此部分主要作用是将企业内部存储于不同应用系统中的结构化信息、半结构化信息、非结构化信息通过本系统提供的两种数据适配器进行信息提取,形成一个相对结构化的数据虚拟层,以备后

期信息萃取和服务。

✓ 信息萃取和服务

在信息整合层形成的相对结构化的数据虚拟层基础上,本系统将对其中的每笔记录进行中文切分词、索引、文件特征分析、自动分类等各种演算算法处理,形成可以提供搜索服务的索引库。用户利用本系统的搜索引擎处理提供的强大的搜索功能,如中文同音搜索、简繁体对译、模糊搜索、条件的信息。

✓ 应用整合

企业内外部立自动化数际需求,用Text 、RTF 、PDF 、HTML 、E-mail (含影音附件要、图片的自动化建立

同时用户可以选择导入数据库数据,如Oracle 、Informix 、Sybase 、MSSQL 等。此外和Notes 系统也已经有了无缝整合,可挂载NotesComposer 对nsf 库中正文及附件信息索引,在做索引的过

程中自动把每笔记录的权限键入索引库。

本系统提供可挂载的数据适配器(DataAdapter),将异质的数据来源与数据结构进行汇整与粹取,亦扮演将非结构的信息结构化,可以很容易地分析特殊档案格式和管理复杂的数据源结构(如

递归、巢状等)的多功能设计,以方便信息检索与管理。

以e-mail 含附件为例,e-mailAdapter 可解析e-mail 内文,而当选购officeAdapter 后,原来的e-mailAdapter 即可解析office 相关的附件文件,可视需求额外购买PDF 、ZIP 、RAR 、OCR

等不同数据适配器,即可交互搭配使用。

搭配使用本系统的TXT 、MicrosoftOffice 、RTF 、PDF 、HTML 、E-mail 及FileMeta 资料提取器,将可解析Text 、MicrosoftOffice 、XML 、RTF 、PDF 、HTML 、MHT 及E-mail (含附件文件)及文件影音附档(如影片的文件名或摘要、图片的文件名或摘要、及文字)等格式,包括繁体中文、简体中文、英文、Unicode 等;使用数据库数据适配器,将可支持数据库数据汇入处理如Oracle 、

Informix 、Sybase 、MSSQL 等。

1.4.2 信息萃取和服务

✓ 简繁体对译、完整外部程序整合机制—所有

组件均提

供SDK 完整开发接口,方便外部整

合。另外大量提供XML 的方法来进行信息源更

新时的同

步以及权限的导入与检查工作。

1.5 全文检索系统功能特点

1.5.1基本检索功能支持

✓支持跨数据源索引与整合搜索。将分散在FileServer上的文件、远程网站中的网页、群组软件中的资料,以及数据库中的文字与非文字纪录,在一次搜寻条件下,整合搜寻出来。

可以对近线数据、在线数据和离线数据分别建立索引库,到时可以通过索引库的选择来控

制对哪些性质的数据进行搜索;

✓支持「万用字符(*、?)查询」。使用者可查询部分关键字及*(代表多于一个字)或?(代表一个字)的组合。例如:输入关键词【Chin*】,会找到【China】、【Chine】、【Chinese】等

等。输入关键词【Chin?】,会找到【China】;

✓搜寻条件具有完整的布尔逻辑运算AND、OR、NOT

✓逻辑条件,

逻辑条件;

➢检索字串首先通过自动断词,将其断词结果进行组合检索;

➢提供「词库」编辑器,针对断词用的「词库」进行维护和调整;使中文切分词更符合使用者的行业特点,提高查询的速度和准确度。

该功能优势如下:

✓提高精确度:输入「民法」不会找到「人民法院」;

✓更小的索引空间:–通过词索引的方式,索引数据库相对字索引需要更少的磁盘空间;同

样数据量下,检索时需要的Memory更少;

相关文档
最新文档