信息检索系统方案 - 360文档中心

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

H X-2055信息检索系统方案
目录
一项目意义
随着互联网的快速发展，每天有数千万条信息生成，包括文字信息、图片信息、视频信息、语音信息等，通过百度、谷歌等大型商业搜索引擎可以找到自己想要的信息，但是也存在很多弊端。

百度、谷歌等大型商业搜索引擎的搜索原理是基于网络爬虫（Spider）在世界各地百万台服务器上爬取网页数据，然后存储到数据库之后展现给查询用户，随着网站数量以及网络上信息更新的快速化，这些网络爬虫不能保证把所有的信息都抓到，尤其是特殊行业的行业信息，即便是抓到了也不一定能够在众多数据中展现出来。

所以，对于一个部门来讲，有必要存在一款互联网信息检索系统来检索某一个行业的信息，每天自动在各大行业网站、政府网站等数据库中检索最新信息，通过自建的网络爬虫进行目标数据的抓取、存贮、归类、展现。

通过自己的信息检索系统，可以让自己部门每天轻松地获得世界各地、各个部门都发生了什么，有哪些新的政策，方便管理层在最新的信息数据下快速做出正确的决定。

据统计，内部网上的信息每年以200%的速度增长，其中发布到互联网上的信息只占到信息量的1%-2%，而98%以上的信息是发布在内部网上的。

内部网上的信息既有网页形式的，也包含其他Word、PDF、XML等多种格式的数据。

因此，面对内部网中海量异构的信息资源，如何帮助用户快速找到他们所需要的信息是一个
主要的技术挑战。

搜索引擎能帮助用户方便、快捷、安全地获取内部网上的信息，在满足高效的同时，更重要的是保证了较高的查全率和查准率，能提供智能化的概念扩展搜索，极大的提高工作效率。

内部网搜索引擎将组织中分散管理的信息整合在一起，在组织层面上实现新的增值与共享，从而有效实现组织内容利用的最优目标。

搜索引擎的目标是实现内部网全文检索。

系统可对实施了内部网站资源进行爬行，无论内部网上的数据源在何地、以何种形式存在，都能够对其快速地访问，通过准确的分词建立索引，从而实现高质量的搜索查询。

搜索引擎的主要目标包括：
（1）较高的查准率。

搜索系统支持按词索引、按字索引，同时实现中文自动分词。

（2）较高的查全率。

搜索系统可搜索各类异构的信息资源，包括传统的网页信息、Word、PDF、XML等不同格式的文档以及各类主流数据库的表中记录。

（3）智能化的检索结果排序。

安全搜索系统应采用相关度分析技术，将用户需要的信息排在结果列表的前面，屏蔽无用和错误的信息。

二系统设计
技术原理
HX-2055互联网信息检索系统（以下简称HX-2055）是针对特殊行业、政府部门、决策部门设计的一款高效率互联网信息检索系统，采用国际一流程序算法设计，系统构架与谷歌和百度的搜索引擎拥有共同的技术特点，能够保证系统对实时信息的快速采集、归类、展现。

在当今信息爆炸的时代，每个单位或个人都在为信息的快速增长做出了各种贡献。

信息的种类也在不断的扩展，越来越多的非结构化信息不断出现，包括企业的各种报表、帐单、电子文档、网站的各种元素、图片、传真、扫描影像，以及大量的多媒体的音频、视频信息等等。

所有的存储数据中，有85%采用的是非结构化格式的，非结构化信息每三个月增长一倍。

由于信息格式的差异很大，所以基本无法整合为统一的接口供政府工作人员或广大群众方便使用。

全文检索是计算机程序通过扫描文章中的每一个词，对每一个词建立一个索引，指明该词在文章中出现的次数和位置，当用户查询时根据建立的索引查找，
类似于通过字典的检索字表查字的过程。

全文检索系统是按照全文检索理论建立起来的用于提供全文检索服务的软件系统。

全文检索系统的核心则具有建立索引、处理查询返回结果集、增加索引、优化索引结构等功能。

HX-2055全文检索系统的主要目标是实现文本索引的快速构建(Index Construction)，动态文档集的索引维护(Index Maintenance)，短语查询(Phrase Query),Top-K查询的快速处理(Top-k Query Process)以及各种检索模型（IR Model）等。

高性能和灵活的架构也使HX-2055全文检索系统可以应用在内外网检索、专业系统资料检索、行业专业数据库检索。

图1. HX-2055系统原理
HX-2055可以实现对内部网络和外部网络的信息抓取、归类、展现。

对于外部网络，HX-2055采用网络爬虫定时对各大行业网站、政府部门网站进行数据爬取，通过对海量数据的挖掘可以建立庞大的外网数据库，通过一流的数据整理算法，简单、快捷、方便的展示给使用者。

HX-2055也可以对内部网络进行数据的挖掘、分析、整理、展现。

HX-2055通过基于局域网的网络爬虫算法，可以对政府、行业内部网站、单位内部服务器资源等数据源进行数据的抓取，包括内部网络的新政策、新闻通知、日常文档、文件资料等。

HX-2055搜索引擎的系统体系架构如图所示:
图2 HX-2055内部网络搜索系结构图
引擎实现了下列主要功能：
（1）爬行器：爬行器根据资源描述信息对内部网中各种异构的资源信息进行爬行，获取所有能够获得的资源信息，资源信息的格式应包括：Web网页、Word、PDF、Excel、PPT等格式的办公文档、各类主流数据库的表中记录。

（2）索引器：通过中文分词技术，对爬行到的资源信息进行解析，建立索引文件。

（3）搜索：用户提交其搜索条件，搜索条件经过特定处理后，在索引文件中检索出所有满足搜索条件的资源。

系统构架
全文检索系统统一搜索平台的总体架构采用三层（数据层、应用层和表现层）可扩展的设计，使整个系统不受硬件平台的限制，具有良好的扩展性和可管理性。

三系统功能
信息采集
1、采用多线程并发搜索技术。

2、提供多种采集范围控制方式，包括在指定网站内，在指定域内，以及在指定IP 地址范围等方式。

3、可以设置多种网站采集控制方式，包括采集的网页大小、超时限制等。

4、提供高效更新功能，对于已经采集过的网站，更新时只采集发生变化和新加入的资源。

5、可以灵活设定采集结果的存储方式，具有开放性。

中文自然语言处理
1、内嵌自动分词系统，有效提高了分词准确性。

2、在应用层上，提供自动分类和摘要功能；
3、支持按词索引、按字索引、按关键词索引，适应不同应用环境的需求；
4、内嵌相似性检索技术，提供文章的相似性检索和聚类功能。

全文检索功能
1、支持Web Browser/Web Server检索方式；
2、智能中文分词：采用先进的自动分词系统，根据大量的语料统计和分析，建立了上万条的歧义排除规则，因此检索“华人”不会把仅仅包含“中华人民共和国”的文章检索出来。

3、支持结构化数据和非结构化数据的混合检索；
4、允许使用文中的任意字、词、句和片段进行检索；
5、全方位检索手段：与、或、非、异或；
6、对数值、日期等特征字段可以进行比较和范围检索；
7、支持任意一致的通配符检索(模糊检索)；
8、支持多网站的全文检索
9、具备中文自动分词系统，能有效提高分词准确性
10、采用智能中文分词技术，建立高效索引库
11、支持实时索引（1分钟内）
12、支持增量式实时索引
13、多线程设计，支持大量并发用户访问，每秒并发达到50个以上
14、支持在结果中查询
15、支持GBK、BIG5、UTF8、GB18030等编码，采用UTF8编码方式实现多语言和多
文种内容的检索及展现。

16、支持中文、英文和中英文混合检索
17、多样化排序，包括按抓取时间排序、按相关性排序
18、多种条件组合检索：包括标题、正文以及日期范围检索
19、支持关键词逻辑表达式组合检索
20、检索结果支持基于查询关键词的动态摘要
21、支持检索关键词的高亮显示
22、将所检索到的信息可按设定的模版显示
23、检索结果模板自定义如：如文章标题、文章栏目、简介、作者、点击率、时间以及文章类别等
24、支持根据自动分类的类目进行检索
25、采用KNN、SVM为基础的相关性算法
格式文件检索
支持MS OFFICE, PDF, HTML,可以对.pdf;.rtf;.doc;.xls;.ppt;.pps;.xml等文件直接进行检索。

性能指标
自动分类达到85%以上准确率
数据索引更新时间平均小于记录（每条记录4Kb）
本地检索平均响应速度小于1秒，亚秒级反应速度
支持不低于50个并发检索请求
G级数据全文检索响应在毫秒之内
全文检索数据库的“零”空间膨胀率（-10%~20%）。

T级文本数据库，一个任意词的检索都在1秒钟之内。