WordNet_的同义词典实现同义词检索(C#版)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

同义词检索应该很多时候会用得上的,举个简单的例子,我们搜索关键字good 的时候,与well 和fine 等的词条也可能是你想要的结果。这里我们不自己建立同义词库,直接使用WordNet 的同义词库,本篇介绍C# 版的实现步骤,还会有续篇--Java 版。

由于Lucene 是发源于Java,所以C# 的应用者就没有Java 的那么幸福了,Java 版已经有3.0.2 可下载,C# 的版本还必须从SVN 库里:https:///repos/asf/lucene//tags/_2_9_2/ 才能取到最新的 2.9.2 的源码,二制包还只有 2.0 的。

接下来就是用VS 来编译它的,不多说。只是注意到在contrib 目录中有 解决方案,这是我们想要的,编译 可得到三个可执行文件:

1. Syns2Index.exe 用来根据WordNet 的同义词库建立同义词索引文件,同义词本身也是通过Lucene 来查询到的

2. SynLookup.exe 从同义词索引中查找某个词有哪些同义词

3. SynExpand.exe 与SynLookup 差不多,只是多了个权重值,大概就是同义程度

好啦,有了.dll 和上面那三个文件,我们下面来说进一步的步骤:

二. 下载WordNet 的同义词库

可以从/3.0/ 下载WNprolog-3.0.tar.gz 文件。然后解压到某个目录,如D:\WNprolog-3.0,其中子目录prolog 中有许多的pl 文件,下面要用到的就是wn_s.pl

三. 生成同义词Lucene 索引

使用命令

Syns2Index.exe d:\WNprolog-3.0\prolog\wn_s.pl syn_index

第二个参数是生成索引的目录,由它来帮你创建该目录,执行时间大约40 秒。这是顺利的时候,也许你也会根本无法成功,执行Syns2Index.exe 的时候出现下面的错误:

Unhandled Exception: System.ArgumentException: maxBufferedDocs must at least be 2 when enabled

at .Index.IndexWriter.SetMaxBufferedDocs(Int32 maxBufferedDocs)

at .Syns2Index.Index(String indexDir, IDictionary word2Nums, IDictionary num2Words)

at .Syns2Index.Main(String[] args)

莫急,手中有源码,心里不用慌,只要找到Syns2Index 工程,改动Syns2Index.cs 文件中的

writer.SetMaxBufferedDocs(writer.GetMaxBufferedDocs() * 2*/); //GetMaxBufferedDocs() 本身就为0,翻多少倍也是白搭

writer.SetMaxBufferedDocs(100); //所以直接改为100 或大于2 的数就行

重新使用新编译的Syns2Index.exe 执行上一条命令即可。成功执行后,可以看到新生成了一个索引目录syn_index, 约3 M。

现在可以用另两个命令来测试一下索引文件:

D:\wordnet>SynLookup.exe syn_index hi

Synonyms found for "hi":

hawaii

hello

howdy

hullo

D:\wordnet>SynExpand.exe syn_index hi

Query: hi hawaii^0.9 hello^0.9 howdy^0.9 hullo^0.9

也可以用Luke - Lucene Index ToolBox 来查看索引,两个字段,syn 和word,通过word:hi 就可以搜索到syn:hawaii hello howdy hullo

四. 使用同义词分析器、过滤器进行检索

相比,Java 程序员要轻松许多,有现成的lucene-wordnet-3.0.2.jar,里面有一些现在的代码可以用。C# 的那些分析器和过滤器就得自己写了,或许我已走入了一个岔道,但也不算崎岖。

小步骤就不具体描述了,直接上代码,大家从代码中去理解:

同义词引擎接口

view source

print?

ing System.Collections.Generic;

02.

space Com.Unmi.Searching

04.{

05. ///

06. /// Summary description for ISynonymEngine

07. ///

08. public interface ISynonymEngine

09. {

10. IEnumerable GetSynonyms(string word);

11. }

12.}

同义词引擎实现类

view source

print?

ing System.IO;

ing System.Collections.Generic;

ing .Analysis;

ing .Analysis.Standard;

ing .Documents;

ing .QueryParsers;

ing .Search;

ing .Store;

09.

ing LuceneDirectory = .Store.Directory;

ing Version = .Util.Version;

12.

space Com.Unmi.Searching

14.{

15. ///

16. /// Summary description for WordNetSynonymEngine

17. ///

18. public class WordNetSynonymEngine : ISynonymEngine

19. {

20.

21. private IndexSearcher searcher;

22. private Analyzer analyzer = new StandardAnalyzer();

23.

24. //syn_index_directory 为前面用Syns2Index 生成的同义词索引目录

25. public WordNetSynonymEngine(string syn_index_directory)

26. {

27.

28. LuceneDirectory indexDir = FSDirectory.Open(new DirectoryInfo(syn_index_directory));

29. searcher = new IndexSearcher(indexDir, true);

30. }

31.

32. public IEnumerable GetSynonyms(string word)

33. {

相关文档
最新文档