javajava概要设计
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
概要设计
1.引言
1.1编写的目的。
本文档的阅读对象为软件开发组成员。
1.2背景
随着信息检索技术的高速发展,做为信息检索代表的搜索引擎被广泛引用,如google,百度等,在中国Internet高速发展过程中,越来越受关注,特别是google,百度在美国上市后,搜索引擎备受关注。
a.系统的名称
简易搜索引擎
c.该系统同其他系统或其他机构的基本的相互来往关系。
Lucene ,apache
1.3定义
spider (基于一个树型spider改写而成)
Index (lucene)
Search 实现搜索(JSP , lucene )
Analyzer 实现分词(CJKAnalyzer)
Eclipse (JDK开发平台(IDE) )
1.4参考资料
中文分词/windshow/category/70837.aspx?PageNumber=3
< lucene in action >(index 和search ) < thinking in java >(JNI)< java核心技术第2卷> (JNI)
正则表达式
/myweb/disp.asp?idd=312&room=10
/myweb/disp.asp?idd=314&room=10
/myweb/disp.asp?idd=315&room=10
/developer/tech/story/0,2000081602,39077620,00.htm
/develop/Read_Article.asp?Id=8254
/develop/Read_Article.asp?Id=8255
/develop/Read_Article.asp?Id=17735
/develop/Read_Article.asp?Id=17739
/develop/Read_Article.asp?Id=17781
2.总体设计
2.1需求规定
2.1.1系统功能
本系统功能定位为为用户提供网页搜索功能,通过简单的提交关键字,实现页面检索2.1.2系统性能
索引时间
检索时间不同关键词时间不同)
2.1.2.1精度
支持中文检索,对了以索引文档提供检索功能,包括多关键字
2.1.2.2时间特性要求
在网络正常条件下,允许最迟页面生成时间为<2秒
2.1.2.4可靠性
使用快照缓存,允许用户在页面失效时用
2.1.2.5灵活性
2.1.3输入输出要求
中文或英文关键词或混用
2.1.4数据管理能力要求
使用lucene索引,要求index文件夹文件不能被破坏,但可以在里面增加文件(不能覆盖),不推荐使用名字和lucene索引文件一样名字的文件
2.2运行环境
JVM tomcat win2000或更高
2.2.1支持软件
需求环境JDK,lucene包,JSP ,tomcat ,CJKAnalyzer包
操作系统OS ( winxp 或win2000 )
编译程序javac , eclipse(IDE)
测试支持软件java , eclipse(IDE)
2.3基本设计概念和处理流程
总体框架如下所示:
2.4人工处理过程
如通过启动spider搜索的网页,及启动index进行索引3.运行设计
3.1运行模块组合
模块为spider + index + search
3.2运行控制
3.3运行时间