网站全文检索方案

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

政务公众网全文检索系统

第一部分对系统需求的理解

1.1前言

互联网作为“第四媒体”已成为人们生活或工作中不可或缺的信息获取的手段。各级政府机关纷纷构建了内容丰富的政府门户网站与内部办公网,方便公众网上办事,提高了政府机关的办事效率。但是,随着网站内容的不断丰富,网页数量也呈几何式增长,由此也带来了一个问题:政府门户网站或网站群信息量巨大,缺乏一条有效的信息快速获取的途径,导致公众在相关的政府门户网站上不知道如何在短时间内找到自己需要或最感兴趣的内容,查询所需要的信息却变得越来越困难,于是很快就失去耐心,离开这个网站。

借鉴门户网站的经验,通过搜索引擎的方式,建立基于网站内部页面的导航系统——网站全文检索系统,就成为解决以上问题的主要措施。然而,政务公众网全文检索系统还不同于一般的搜索引擎系统,它需要对网站上几乎所有的内容都需要采集下来,包括各种格式的页面信息,采全率越高就越能体现导航系统的优势。目前常用的互联网搜索引擎系统,考虑到应用的需要,没有对动态数据库中的内容进行采集(是否具备此类功能是未知的)。而许多政府网站的页面,很多是通过程序动态生成的,或者是存储在后台数据库中的,格式多样。浙江天宇的采集系统考虑到实际的应用需要,除了具备搜索引擎系统具备的采集功能外,还实现了对动态数据库里的页面及由程序动态生成的页面进行实时采集。

本方案中采用浙江天宇信息技术有限公司开发的新一代智能化的互联网天信息采集系统作为应用核心,海量非结构化全文数据库系统作为后台WEB页面的管理平台,提供一站式的全文检索服务。这将有效地解决上述问题。

1.2需求分析

1.2.1应用目标

通过建立政务公众网全文检索系统,实现对以XX市政务网为核心,涉及到所有XX各级政府部门的门户网站WEB页面内容的批量采集,建立搜索引擎库,在XX政务网门户网站上建立政务网站导航功能的政务公众网全文检索系统,公众只需要登录到XX政务网,通过检索系统,便可以查询到所有XX 各级政府部门的门户网站上所需要的政务信息,提高公众的查询与使用政务信息的效率,从而真正体现XX市政府部门便民服务的核心与宗旨。

1.2.2功能需求

根据应用目标和招标书建设内容的要求,在认真阅读分析招标书和了解XX 市政务网应用现状基础上,我们理解,XX市政务公众网全文检索系统的建设的核心可以分解为三个子系统的建设:采集子系统、管理子系统、检索子系统。

采集子系统:实现对各级政务网站WEB页面的批量采集的系统工具,支持对各类格式信息的采集。

管理子系统:实现对采集的内容的管理、采集管理、各类词典与词表的管理、用户管理、日志管理、检索管理等应用功能。

检索子系统:实现对采集的WEB页面的智能化全文检索,支持各类检索方式。

另外,系统应具备良好的稳定性与安全性,保证系统与采集的数据内容的安全。

1.3 方案综述

1.3.1内容安排与概要

首先,对政务公众网全文检索系统的需求进行了分析,明确了建设目标和内容;然后进行了总体技术方案的功能设计,从应用软件的选择、系统功能模块等方面进行了设计;在系统功能模块的设计和实现方面,对采集子系统、管理子系统与检索子系统等关键点进行了详细的功能描述及技术特点描述。再次,就应用系统的安全方面进行了详细的描述及功能设计。最后,就招标书中应用系统功能需求条款进行逐个应答。

1.3.2方案特点

●采用了业界主流和开放的技术标准和设计模式,提供开放的、平台级的应用

编程接口和管理工具,可根据业务需要进行扩展;

●系统采用国内领先的智能化互联网采集系统与非结构化海量全文数据库系

统作为政务公众网全文检索系统的采集、管理与检索平台,保证了系统具备了先进性与良好的开放性。

●智能化采集系统具备强大的采集功能,能够采集几乎所有类型的数据内容,

支持ROBOTS协议。

●采用统一身份认证、权限控制、用户操作审计等安全措施,使得整个系统具

有较强的安全性。

第二部分 技术方案

2.1方案设计 2.1.1软件平台选择

浙江天宇信息技术有限公司凭借在信息服务、网站建设等建设领域多年的项目实施经验及1000多家成功应用案例,针对XX 市政府政务公众网全文检索系统的实际需求及未来的发展需要,提供一整套解决方案与成熟的具有自主知识产权的系列软件产品——政务公众网全文检索系统。

从应用实现的角度,政务公众网全文检索系统选择基于:浏览器与客户端相结合来实现目标系统的应用功能。基于用户方的硬件环境及操作系统环境,我们的方案选择相应数据库平台及应用系统软件来具体实现政务公众网全文检索系统的建设目标。

2.1.2 系统功能结构

政务公众网全文检索系统主要是以CGRS全文数据库为应用支撑平台,以智能化网络机器人技术及全文检索技术作为应用核心,通过政务公众网全文检索系统将采集到搜索引擎库中的WEB页面信息对公众提供智能化的高效的全文检索服务。系统围绕政务门户网站上各种信息资源的采集与聚类、信息过滤和管理、信息的智能检索,构建XX市政务公众网全文检索系统。

2.2 系统功能及技术指标

2.2.1采集子系统功能及技术指标

2.2.1.1采集子系统工作流程

采集子系统主要完成对目标网站或网站群上WEB页面及其他附件信息的批量采集,通过内容过滤,加载到CGRS搜索引擎库,进行管理与提供网站全文检索服务。采集子系统的工作流程主要包含以下几个部分:1、确定采集目标网站,建立采集工程;2、对采集工程进行搜索策略的定义及过滤条件等内容的设定;3、根据URL特征进行网站频道的分类采集、过滤及内容自动去重;4、采集的内容自动加载到CGRS搜索引擎库,交由CGRS全文数据库管理系统进行统一管理。

采集子系统工作流程图

2.2.1.2 功能描述

(1)建立采集工程

在本方案中以“XX政务网”为实例进行采集子系统的功能介绍及采集子系统界面描述。

确定需要采集的目标对象:“XX政务网(http://www. XX政务网),建立页面批量采集工程。

政务网采集工程

定义采集的入口,可以自行根据需要进行设定。完成采集工程新建工作后,可以立即进入工程的参数配置

相关文档
最新文档