基于统计词语关联度网络自动构建方法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于统计词语关联度网络自动构建
方法
1引言
词语语义知识是众多的必要语言知识中一个重要的部分,它的丰富和完善对于计算机自然语言处理能力的提升具有重要的意义。目前较为成熟的语义词典在英语方面有WordNet[1]、FrameNet[2]、MindNet[3]等,汉语方面有How-Net[4]、同义词词林[5]等。这些语义词典从本质上可以看做概念以及概念之间各种关系的集合。它们均为人工开发,从开发到维护往往要耗费大量的人力和时间。自刘群[6]起,已有大量学者参与中文词语相似度技术的研究。目前被广泛研究与采用的两种方法是基于世界知识或某种分类体系的方法和基于统计的上下文向量空间模型方法。目前前者的研究更多一些。由于一些理论上以及运行条件的限制,现有的技术还存在很多问题,难以发
挥理想的效果。基于语义词典的词语相似度计算方法是一种基于语言学和人工智能的
理性主义方法,它利用语义词典,依据概念之间的上下位关系和同义关系,通过计算两个概念在树状概念层次体系中的距离来得
到词语间的相似度。这种方法存在以下几点不足:1)人类语言的词语具有很强的模糊性,一个词语往往有很多种词性、词义,应用语境也是丰富多变。以层次关系明确的关系结构作为知识表示框架并人工添加信息
很难表现模糊性的词语知识;2)词语语义知识复杂且含量巨大,只能由专业人员制定,进行知识密集的研究,希望全面细致地构建词典工作量是极为艰巨的,实际上目前的语义词典都还很不完备;3)规则的制定受人的主观影响比较大,不能准确反映客观现实;4)信息量固定,针对性较强,用户很难根据特定需要以及现实世界变化进行修改或
扩展;5)应用困难,对结构性的知识进行分析处理需要复杂的人工智能技术理论支
持以及大量的假设性强的人工规则制定,由于语言的模糊性,人工规则的假设实际上大
部分都不是可以普遍使用的一致性假设,因此以人工语义词典为基础开发的语言处理
系统泛化性、鲁棒性普遍不高,难以适应丰富多彩、千变万化的真实语言环境。基于统计的词语相似度研究,把结论建立在可观测、量经验证实的语言事实上,而不仅仅依赖于语言学家以及工程人员的直觉,可以较好地解决上面的问题,随着语料库的扩大,学习经验的增加,机器学习得到的知识可以逐渐趋于完美。其原理是:构造一个以属性词为维度的属性空间,属性词的个数小于真实词语数目,但具备完全描述或近似完全描述所有事物的能力,类似于HowNet中的义原。每个词语拥有一个属性向量作为它的语义表示,这个向量每一维的权重为属性词与待表示词在语义上的关系的大小,两个词的相似度就等于它们的属性向量的相似度。由于一些理论及外部条件的限制,基于统计的方法也并没有得到广泛的研究和应用。秦春秀[7]对这种方法的缺点进行了总结。此外一个重要的技术问题是巨大数据存储的
困难。统计而得的数量巨大的共现数据是很