基于ASPNET搜索引擎设计与实现

合集下载

大连理工大学
硕士学位论文
基于搜索引擎设计与实现
姓名：***
申请学位级别：硕士
专业：软件工程
指导教师：覃振权
20091216
大连理工大学专业学位硕士学位论文
可以通过表３．１对比Ｌｕｃｅｎｅ和数据库的模糊查询。

表３．１Ｌｕｇｅｎｅ与数据库的比较
Ｔａｂ．３．１Ｌｕｃｅｎｅｃｏｍｐａｒｉｓｏｎｗｉｔｈｔｈｅｄａｔａｂａｓｅ
通过表３．１可以看到Ｌｕｃｅｎｅ全文检索引擎，很好的处理全文检索，并能对应较高的负载。

分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。

处理英文文档的时候显然这样的方式是非常好的，因为在英文的行文中，单词之间是以空格作为自然
分界符的，而中文只是字、句或者段可以通过明显的分界符来简单划界，而词却没有一
个形式上的分界符，虽然英文也同样存在短语的划分问题，但是在词这一层上，中文比
之英文要复杂的多、困难的多。

但不管是Ｌｕｃｅｎｅ还是ＤｏｔＬｕｃｅｎｅ都没有或者没有很好
的实现基于中文的分词。

由于本文讨论的网页大多数为中文ＨＴＭＬ网页，因此解决中
文分词问题成为索引的关键。

目前在自然语言处理技术中，中文处理技术比西文处理技术要落后很大一段距离，许多西文的处理方法中文不能直接采用，就是因为中文必需有分词这道工序。

中文分词
是其他中文信息处理的基础，其中搜索引擎就是中文分词的一个应用。

其他的比如机器
翻译（ＭＴ）、语音合成、自动分类、自动摘要、自动校对等等，都需要用到分词。

因
为中文需要分词，可能会影响一些研究，但同时也为一些企业带来机会，因为国外的计
算机处理技术要想进入中国市场，首先也是要解决中文分词阎题。

百度快照优化/。