新词发现综述

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

新词发现综述

廖先桃

摘要:中文自动分词技术是自然语言处理领域一项很重要的基础工作,而随着新词的不断出现,它使中文分词结果中出现过多的“散串”,影响了分词的准确率。因此,新词识别已经成为中文自动分词的一个难点和瓶颈问题。本文从新词的概念出发,讨论了新词发现的技术及发展。

关键词:新词发现 中文分词

1 引言

在中文信息处理领域,由于中文自身的特点,它不像英文那样在词与词之间有空格间隔,因此,中文自动分词是一项很重要的基础工作。但是随着社会和互联网的不断发展,新词语不断在日常生活中涌现。据中国语言文字工作委员会专家曾做的一个保守统计,中国自改革开放的20年来平均每年产生800多个新词语[1][2]。新词的出现,使得自动分词结果中出现过多的“散串”,从而影响了分词的准确率。最近的研究还显示,60%的分词错误是由新词导致的[20]。因此,有效地识别新词,将为观察研究分析语言现象的动态变化、规范语言文字以及提高中文自动分词的总体效果起到重要的作用。

2 新词的概念

目前,在中文分词领域出现了新词(New Words)和未登录词(Unknown Words)两种概念。很多研究者并没有对未登录词和新词加以区别,认为它们是一样的[12][13]。通常,未登录词被定义为未在词典中出现的词[3][4][5]。(Chen,1997)通过对一个规模为300万词汇的语料统计,将未登录词分为五种类别,包括

(a) 缩略词(abbreviation),如“中油”、“日韩”;

(b) 专有名词(Proper names),主要包括人名、地名、机构名。如“张三”、“北京”、“微软”;

(c) 派生词(derived words),主要指含有后缀词素的词,如“电脑化”;

(d) 复合词(compounds),由动词或名词等组合而成,如“获允”、“搜寻法”、“电脑桌”;

(e) 数字类复合词(numeric type compounds),即组成成分中含有数字,包括时间、日期、电话号码、地址、数字等,如“2005年”、“三千”。

新词虽然也是未在词典中出现的词,属于未登录词,但它和未登录词还是不同的。(周,et al.,2004)认为应该从两个方面把握新词的定义,(1)从词典参照的角度来说,新词语是指通过各种途径产生的、具有基本词汇所没有的新形式、新意义或新用法的词语[6]。即鉴定新词语的参照系是现代汉语基本词汇的词形、词义和词语的用法。(2)从时间参照角度来说,新词语是出现在某一时间段内或自某一时间点以来所首次出现的具有新词形、新词义或者新用法的词汇[7]。

从语言学角度来讲,汉语中的新词语按照来源大体可以分为以下几类[2][6]:

(1) 命名实体:包括人名、地名、商品名、公司字号、机构名等;

(2) 缩略语:如“非典”、“计生委”等;

(3) 方言词:如“靓”、“埋单”等;

(4) 新造词:如“伊妹儿”、“美眉”等;

(5) 专业术语:如“非典型肺炎”、“蓝光光盘”等;

(6) 音译词:如“酷”、“秀”、“克隆”等;

(7) 字母词:如WTO、APEC等;

(8) 词义、用法发生变化的旧有词语:如“下课”、“充电”等。其中还包括一种“旧

词新用”的语言现象,比如“高就”、“赏光”等,很长时间不用了,最近又重新出

现在语言中。

当然,根据实际的需要,新词的定义也有所不同,如(Wu,2000)中识别的新词是指最近出现的词、偶然出现的词、以及其他很少使用的词,这些词既不能在词典中找到,也不能通过识别系统的规则识别出来,如“冷射”、“球痞”、“鲜丽”等。

本文中讨论的新词主要是指(周,2004)中定义的除命名实体之外的新词。

从上面的新词的含义及分析来看,新词发现技术存在着以下难点:

(1) 由于中文词语定义的模糊性,新词没有统一的定义标准,且涵盖面广,很难找到一

种通用的有效的方法;

(2) 新词尤其是非命名实体,在构成方面没有普遍的规律;

(3) 对于低频新词由于数据稀疏,识别难度很大;

(4) 很难根据词语的词形、词义和词语用法的变化以及利用时间信息发现新词。

3 国内外研究现状

3.1 新词的研究领域

语言随着社会的发展而发展,在词汇中的一大表现就是新词语的出现。新词的产生引起了语言学者的特别关注,自80年代以来,学者们对汉语新词语进行了较多的研究,这种研究呈现出了多方位,多角度,多层次和立体化的趋势[9]。主要包括:新词语的界定,新词语的产生与社会、文化的关系,新词语产生的途径,新词语的结构形式特点,新词语的词义发展特点等[9][10][11]。为了便于计算机研究新词,(亢,2002)从2001年开始开发可机读的新词电子词典——《现代汉语新词语信息电子词典》,已收录新词近四万个。

除了语言学家对新词进行研究之外,自然语言处理领域的专家也一直尝试不同的方法借助计算机从大规模的文本中自动抽取新词。新词的识别已经是自然语言处理领域一个重要的研究课题。

目前国内的研究单位主要有微软亚洲研究院、富士通研究中心、华中师范大学计算机系、中科院计算技术研究所、北京语言大学语言信息处理研究所、山西大学计算机系等单位,他们在新词识别算法以及对新词结构特征研究等方面做了有益的尝试。国外的马萨诸塞州大学计算机系彭富春等人对新词识别做了研究,另外还有日本奈良工业大学的Chooi-Ling Goh[21] ,加拿大的Jianyun Nie[4]等对未登录词识别做了很充分的工作。

3.2 新词发现的主要方法

在新词发现方法方面,目前主要有基于规则和基于统计两种方法。基于规则的方法其主要思想是根据新词的构词特征或外型特点建立规则库、专业词库或模式库,然后通过规则匹配发现新词。基于统计的方法,一般是利用统计策略提取出候选串,然后再利用语言知识排除不是新词语的垃圾串。或者是计算相关度,寻找相关度最大的字与字的组合。规则的方法主要缺点在于局限于某个领域,并且需要建立规则库等。而统计的方法,一般都是限于查找较短的新词语。

(郑,2002)完全采用规则的方式识别新词,一方面以新词的构词知识为基础建立新词识别的常用构词库,另一方面从网上词语的特征出发建立特殊构词规则库。并按照规则所取的作用分为“互斥性子串”过滤规则、常规构词规则、特殊构词规则。利用这些规则过滤并

相关文档
最新文档