数据库全文检索方案建议书

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

厦门巨龙软件工程公司

数据库全文检索系统项目建议书

百度在线网络技术(北京)有限公司

(Beijing) Co., Ltd.

2005年

百度公司版权所有, 2005

本文档涉及百度公司机密

未经百度公司的书面允许,不得对此文档进行复制或传播

目录

1概述 (3)

1.1现状分析 (3)

1.2提供检索服务的必要性 (3)

1.3搜索技术需求说明 (4)

2解决方案建议 (5)

2.1建设目标 (5)

2.2系统建设原则 (5)

2.3系统结构 (6)

2.3.1信息导入子系统 (7)

2.3.2信息索引子系统 (8)

2.3.3信息检索服务子系统 (8)

2.3.4信息管理子系统 (10)

2.3.5开发接口 (10)

2.4核心技术 (11)

2.5性能 (13)

3 系统运行平台 (13)

3.1网络运行环境 (15)

3.2硬件运行平台 (15)

3.3软件运行平台 (15)

4 服务体系 (15)

1概述

1.1现状分析

厦门巨龙软件工程公司是一家专业从事软件开发、系统集成、咨询服务和技术服务的国家级重点高新技术企业;致力于政府信息化、公安信息化、企业信息化建设;。各个系统数据繁多,结构化数据和非结构化数据都有,是一个综合信息平台。信息存储在多个数据库中,随着业务量增长,信息量持续高速增长,数据量庞大(百万级),数据管理的复杂度大幅增加,特别是对数据库检索提出了更高要求,仅由商业数据库自身带有的检索功能,随着数据量的增加是远远不能满足用户需求的。目前数据库检索的存在问题如下:

1.数据库自身技术存在缺陷

不擅长文本字段检索,不支持两个以上单词复合检索

2.数据库系统性能限制

在大数据量,多用户进行查询操作时,效率非常低下

检索请求占用数据库大量资源,产生雪崩效应,数据库性能急剧下降

3.对中文分词处理

商业数据库本身不具备分词的技术,在检索的准确性方面难以保障。

4.数据库检索不能针对大对象检索。

对于数据库中存储的BLOB字段的二进制流的文件,数据库没有检索功能。即对非结构化数据不支持检索。

百度全文检索系统采用先进的中文分词技术,支持数据量大,访问量高,性能高,稳定性强,效率高,数据实时同步,能很好为用户提供性能优异的检索服务。

1.2提供检索服务的必要性

信息只有成功的传递到使用者手中,才能真是体现其价值。因此信息开发和利用包括两个重要环节:信息的积累和有效传递,二者缺一不可。所以在注重信息积累的

同时,也要提供查找信息的便利手段,实现信息有效传递,从而完善信息的开发和利用环节。

✓数据整合

信息的不断积累造成信息量庞大,并且,信息类型种类繁多。所有各种信息都要为用户服务。所以作为信息传递之最有效的方式-检索系统,要能对多重信息源进行整合后,提供检索功能,以确保用户在最短的时间能找到他想要的信息

✓提高用户检索体验,最大限度方便用户

信息量总在不断增长,日常工作繁忙,事务众多,在浩瀚的数据中,你是否曾为找不到某个文件而耗费了大量时间?又或者因为查找速度太慢,而放弃?只需一个专业的检索,这些烦恼就可迎刃而解。

1.3搜索技术需求说明

1、良好的可扩展性。未来扩展所查询的数据库的内容时,代价最小。

2、能够提供自定义的输出控制,如结果读取条数、摘要类型等。

3、提供同义词的自定义接口和格式。

4、提供对多文档的支持,包括Word, Excel, PPT, PDF, txt, HTML等。

5、提供相关开发接口。

6、多种数据源:多数据库,用户检索时以统一的形式体现。

7、数据同步方式,要求数据可以实时索引;即数据变化发送到检索系统后,检索

系统可以立即反映出来。

8、检索响应速度:1秒内返回搜索结果。

9、大数据量,大并发用户数

2解决方案建议

2.1建设目标

为了提高用户查检信息的速度与效率,建议采用先进的搜索引擎技术建设业务信息检索平台,提供一个集中、灵活的信息检索入口。

该软件设计上遵循开放、兼容、高扩展性、高安全性的原则。从而使整个系统结构合理,技术先进,易于扩展,既能满足目前的信息服务需求,又能符合发展的要求。

对软件的投资要考虑到今后的发展,不能使用落后的产品与技术,避免投资的浪费;百度作为世界一流的信息检索与传递技术公司,可以保证全文检索系统在技术上长期的先进性。

●检索方便易用,符合用户搜索习惯

●支持千万级数据量

●保证检索信息全面,及时,准确

●检索速度快,响应时间短

●检索系统稳定,支持大并发用户

2.2系统建设原则

搜索引擎系统,采用先进的数学模型和智能化的检索方式,建立一个安全、稳定、准确、及时的内容检索系统。整个系统在总体设计上遵循开放、可扩展、经济、安全的原则,从而使整个系统结构合理,技术先进,易于扩展,既能满足当前的业务数据处理要求,又能符合长期发展的需要。

●外挂式原则:系统采用外挂式模式,信息获取功能由全网内容搜索引擎系统

处理,减轻用户服务器压力。

●先进性原则:软件的投资要考虑到今后的发展,不能使用落后的产品与技术,

避免投资的浪费;在系统软件选型、开发技术上,达到国内、外行业先进水

平。

●兼容性原则:本系统在产品选型与开发技术上都选择了完全支持JA V A或

JA V A产品和技术,在兼容性上好过同类产品的性能和技术。同时,对整个方

相关文档
最新文档