《同义词词林》共享版改进
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
哈工大《同义词词林》共享版的若干改进
(大连理工大学管理学院 罗志成,叶奋飞)
1 改进《同义词词林》共享版
在实验中,由于客观条件的限制,我们选择的语义词典是《同义词词林》。《同义词词林》是梅家驹等人[1]于1983年编纂而成,初衷是希望提供较多的同义词语,对创作和翻译工作有所帮助。但在我们发现,这本词典中不仅包括了一个词语的同义词,也包含了一定数量的同类词,即广义的相关词,可以参考表1.1中的词条示例。经此分析之后,我们认为它完全可以作为语义词典用到自然语言处理任务中。同时,《同义词词林》与WordNet的格式有若干相似之处,即都是用一个同义词集合来表示一个意思,所以可以引入WordNet中的各种语义度量方法,在《同义词词林》中比较这些方法。
表1.1 词典结构示例
Ae07 农民 牧民 渔民
农民 农夫 农人 农 庄稼人 庄稼汉 田父 泥腿子 农家 耕夫 老乡
小农 个体农民
佃农 佃户
上中农 富裕中农
* * 菜农 棉农 茶农 烟农 蔗农 花农 药农 林农
雇农 贫农 下中农 中农 上中农 富农
自耕农 半自耕农 集体农民 人民公社社员
1)该表来源于《哈工大信息检索研究室同义词词林扩展版》说明
表1.2 《同义词词林》扩展前后比较
词典特征 扩展前 扩展后
词条总数 53,895个 77,343个
大类数 12个 12个
中类数 94个 97个
小类数 1428个 1400个
层次数 3层 5层
编码长度 4 8
由于《同义词词林》著作时间较为久远,且之后没有更新,所以原书中的某些词语成为生僻词,而很多新词又没有加入。有鉴于此,哈尔滨工业大学信息检索实验室利用众多词语相关资源,并投入大量的人力和物力,完成了一部具有汉语大词表的《哈工大信息检索研究室同义词词林扩展版》[2]。扩展版剔除了原版中的14,706个罕用词和非常用词,最终的词表
包含77,343条词语。表1.2列出了扩展前后的《同义词词林》的主要特征。扩展后的《同义词词林》,含有比较丰富的语义信息。但是目前由于种种原因,《同义词词林》完整版并没有共享,而只是共享了其中的词典文件。期待着哈工大信息检索实验室能够在不久的将来能够将完整版进行共享,以满足研究和实际应用的需要。
在《哈工大信息检索研究室同义词词林》共享部分的基础上,我们根据项目的实际需要,进行了以下改进:
在扩展版电子版中加入了较高层次的集合,譬如说,Ab000002 男女老少。其中编码的长度与哈工大扩展版相同,为8位,下文将作详细说明。Ab000002之中,Ab仍然表示的是大类和中类名,00000表示该集合是一个中类的标题,而2表示的该类的深度为2。
我们参考WordNet的保存格式,创建了新的索引文件和数据文件,其中索引文件和数据文件中记录的格式将在下文说明。程序中所有的数据文件和样本示例都列在附录之中。词典索引文件和数据文件请参照附录A表1和表2。
1.1 词典中的编码
结合《同义词词林》原书中的介绍,以及《哈工大信息检索研究室同义词词林扩展版》说明,下边对词典中的编码作简要介绍。
《同义词词林》原版只提供了三层编码,即大类用大写英文字母表示,中类用小写英文字母表示,小类用二位十进制整数表示。例如:“Ae 07 农民牧民渔民”,“Ae 07”是编码,“农民牧民渔民”是该类的标题。标题是由一个或者多个第四层的“段首(即每个段的第一个词)”组成。根据标题词可以知道小类有分成多少个第四级类,参见表5.1。
在哈工大的扩展版中,新增了第四级和第五级编码。新增的第四级和第五级的编码与原有的三级编码和并构成一个完整的编码,唯一的代表词典中的出现的词语。如: Ba01A02= 物质 质 素
Cb02A01= 东南西北 四方
编码的方法说明如下:
第四级用大写英文字母表示,第五级用二位十进制整数表示。由于第五级的分类结果需要特别说明,例如,有的行是同义词,有的行是相关词,有的行只有一个词,可以分出具体的三种情况。在使用上,有时需要对这三种情况进行区别对待,所以有必要再增加标记来分别代表着几种情形。具体的标记参见表1.3。
表1.3 哈工大扩展版编码规则表
编码位 1 2 3 4 5 6 7 8
符号举例 D a 1 5 B 0 2 = \ # \@ 符号性质 大类 中类 小类 词群 原子词群
级别 第一级 第二级 第三级 第四级 第五级
1)该表来源于《哈工大信息检索研究室同义词词林扩展版》说明
表中的编码位是按照从左到右的顺序排列。第八位的标记有3 种,分别是“=”、“#”、“@”,“=”代表“相等”、“同义”。末尾的“#”代表“不等”、“同类”,属于相关词语。末尾的“@”代表“自我封闭”、“独立”,它在词典中既没有同义词,也没有相关词。
1.2 集合之间的关系
我们改进的同义词词林中加入了关系,包括上位关系(Hypernymy,用符号$表示)和
下位关系(Hyponymy,用符号~表示)。这样就丰富了《同义词词林》的语义。在这里,由于条件的限制,我们没有区分单词之间的关系和集合之间的关系,而把所有的关系默认为是集合之间的关系,这也就产生一定的误差。
根据我们的改进,生成了新的数据文件和索引文件。索引文件中任一条记录的格式如下:lexicalName synsetNumber
数据文件中任一条记录的格式如下:
synsetOffset wordNumber
其中<>表示可以为有限多项,各个字段的含义如表所示:
表1.4 改进后的《同义词词林》文件格式说明
数据文件格式 索引文件格式 字段名 含义 字段名 含义 synsetOffset 同义词集合编号,长度为8
lexicalName 词语名称
的字符串
synsetNumber包含该词语的同义词集合的个数wordNumber 集合中单词的个数,用两位
十六进制整数表示
word 各个词语名称 synsetOffset包含该词语的同义词集合的编号ptr 指针,包括
pointer_symbol,
synset_offset
synset_offset 目标集合在相应词性文件中
的编号
pointer_symbol 指针符号
2 建立词频文件和停用词文件
因为Resnik[3]等人的信息量方法需要用到语料库中的词频统计文件,所以我们建立了两个文件,一个是词语的词频文件,还有一个是同义词集合的词频文件。其中,同义词集合的词频计算是按照Resnik的方法[3]。
在建立词频文件时,我们利用了因特网上丰富的资源。在比较多个中文语料库词频文件之后,我们最终采用了英国Lancaster大学计算语言系网上发布的词频文件[4]。该文件来源于LCMC(Lancaster Corpus of Mandarin Chinese)语料库,语料库中包含了《人民日报》2000年全年的新闻材料。我们从词频文件中,筛选出《同义词词林》扩展版中含有的56370个词语,《同义词词林》扩展版一共有77492个词语,另外的21122个词语在词频文件中没有出现。我们这21122个基本上都是罕见词语,所以把它们的词频统一设为0。
同义词集合的词频计算是按照Resnik的方法,即集合内所有词语以及下位集合所有词语的词频之和。同时需要说明的是,在Resnik的统计中,只是加总了名词的词频,因为英语中名词,动词,形容词有明显的区分。而在汉语当中,名词,动词,形容词并无严格的区分,只能由他们在句子中所起的作用作大致判断。所以,我们的同义词集合词频统计中包含了所有的实词,而去掉了《同义词词林》中第K类(助词)和第L类(敬语)。
因为在文本预处理中需要剔除停用词,从而需要一个停用词表。我们利用了哈尔滨工业大学信息检索实验室提供的《中文停用词表》。我们发现,其实这个词表中的词语就是《同