基于ASPNET搜索引擎设计与实现

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

大连理工大学
硕士学位论文
基于搜索引擎设计与实现
姓名:***
申请学位级别:硕士
专业:软件工程
指导教师:覃振权
20091216
大连理工大学专业学位硕士学位论文
可以通过表3.1对比Lucene和数据库的模糊查询。

表3.1Lugene与数据库的比较
Tab.3.1Lucenecomparisonwiththedatabase
通过表3.1可以看到Lucene全文检索引擎,很好的处理全文检索,并能对应较高的负载。

分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。

处理英文文档的时候显然这样的方式是非常好的,因为在英文的行文中,单词之间是以空格作为自然
分界符的,而中文只是字、句或者段可以通过明显的分界符来简单划界,而词却没有一
个形式上的分界符,虽然英文也同样存在短语的划分问题,但是在词这一层上,中文比
之英文要复杂的多、困难的多。

但不管是Lucene还是DotLucene都没有或者没有很好
的实现基于中文的分词。

由于本文讨论的网页大多数为中文HTML网页,因此解决中
文分词问题成为索引的关键。

目前在自然语言处理技术中,中文处理技术比西文处理技术要落后很大一段距离,许多西文的处理方法中文不能直接采用,就是因为中文必需有分词这道工序。

中文分词
是其他中文信息处理的基础,其中搜索引擎就是中文分词的一个应用。

其他的比如机器
翻译(MT)、语音合成、自动分类、自动摘要、自动校对等等,都需要用到分词。


为中文需要分词,可能会影响一些研究,但同时也为一些企业带来机会,因为国外的计
算机处理技术要想进入中国市场,首先也是要解决中文分词阎题。

百度快照优化/。

相关文档
最新文档