关于新词语编年本编纂的思考
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
关于新词语编年本编纂的思考
作者:侯敏
来源:《辞书研究》2010年第02期
摘要语言监测工作中有关新词语的监测结果可以利用新词语编年本的方式向社会公布。
新词语编年本的功能、目标与多年本不同,除了传播语文知识外,还具有历史纪实、即时反映社会文化、词源查询和语言资源研究等多项功能,这就决定了新词语编年本在词目搜获上最好采用机器加人I的方法,在词目收录上除了应遵循符合公众语感这一总原则外,还要考虑宽容、全面、前瞻等诸准则,在具体编写时还要注意释义、背景知识和例句等的适当安排。
关键词编年本新词语语言监测词目搜获词目收录
上个世纪80年代以来,新词语一直是汉语学界关注和研究的热点。
据统计,至今已有50余部各种新词语词典出版。
根据所收新词语产生时间跨度的不同,新词语词典可分为两种:编年本和多年本,也可称为“即时型新词语词典”和“稳定型新词语词典”。
新词语多年本词典所收词语产生时间跨度一般较长,可以是一个时期,几十年,如韩敬体等主编的《汉语新词词典》;也可以是十年左右,如周洪波主编的《新华新词语词典》;编年本所收词语一般是在某一年度产生的,如于根元主编的《1991汉语新词语》以及周荐主编的《2006汉语新词语》;也有人将两年或三年内产生的新词语合在一起编纂,如宋子然主编的《汉语新词新语年编(1995—1996)》等。
编年本与多年本用途不同,目标不同,词语收录与编纂原则也有不同。
本文试从语言监测的目标出发,在与多年本的比较中阐释编年本的特点,提出编年本的编纂原则,以就教于方家。
一、语言监测与新词语编年本
语言是交际的工具,也是一种资源,是一种有价值、可利用、出效益、多变化、能发展的特殊的社会资源。
开发利用资源的前提是了解、把握这种资源。
国家语言资源监测与研究中心近些年来开展的工作就是利用先进的科学技术手段,在大规模动态流通语料库的基础上,调查、描述社会语言生活的实际状况,以便人们更好地了解并利用我们的语言资源。
语言是社会的一面镜子,反映着社会生活的各种变化。
新词语的产生是语言变化的重要表现形式。
只要社会存在,语言存在,新词语就会产生,它必然地成为语言监测的重要内容。
国家语言资源监测与研究中心“以‘中国语言生活绿皮书’的形式,每年向社会发布研究成果,其中有一个内容,便是对新词新语进行监测的结果。
这是一项令人鼓舞的宏大工程,如果能够得到理想的结果,便能够清楚显示每个新词语的来龙去脉,便意味着建立起了高精密度的‘新词语档案馆和监测台’”。
语言监测,指的是利用现代科技手段,实时地、不间断地对能够代表某一社团或某一领域语言使用状况的语料样本进行调查、分析、描写,目的是及时反映语言生活状况,描述语言变化实态,向人们提供语言使用的实际情况,以便对语言这种资源进行更好的开发和利用。
显然,语言监测工作具有即时性、记实性和不间断性三个特点。
要体现语言监测的这三个特点,把对新词语的监测情况及时记录与反映出来,编年本是比较合适的选择。
新词语编年本所收词语时间跨度小,数量多,可以忠实地记录社会上产生的新词语,客观地描述共时语言现象,及时反映语言使用的原生态,具有原始数据性质,可供应用语言学、理论语言学研究之用,也可以作为多年本新词语词典和规范型语文词典的来源和基础。
新词语编年本功能与目标与多年本不同,在词目的搜获、收录以及编写方法上都有自己的特点。
二、新词语编年本的词目搜获方式
在语言生活中,新词语是随时、随机产生的,制造新词的人不会在媒体上专门宣布,使用新词的人一般也不会特别说明,新词语和原有词语一起融合在语言生活的大海里。
那么,在语言的大海中识别出新词语的身影,并把它们准确地提取出来,是语言监测的任务,是新词语编年本的第一步工作,同时也是最重要、最困难的工作。
到目前为止,几乎所有编年本中新词语的搜获,都是靠人工阅读报章杂志,从中摘取,有些在人工操作的基础上再作一些技术性处理。
邢福义指出:“这样得到的新词语,不可能全面,更不可能知道所得新词语最早是在什么时候、什么地方出现的。
”他进而指出:要监测到每年在什么时候、什么地方、出现什么新词语,必须建制出一套“获取新词语的多功能筛滤网”,筛滤原词语、原词语外的非新词现象和原有义项。
邹嘉彦也认为,依据个人或少数人所见语料来编写新词词典,难免以偏概全;“较好的办法是‘先机器后人工’,先用语料库自动抽取新出现的词语,然后由人工审阅,剔除那些不合‘新词,资格的词语”。
看来,采用现代信息处理技术,在语料库的基础上搜获新词语是一种比较可靠的方法,这已成为人们的共识。
上世纪90年代以来,人们已陆续建立了各种各样的语料库,这些语料库在语言研究中起到了重要的作用,但不是所有的语料库都适合用来监测并搜获新词语。
用来监测新词语的语料库必须具有流通度高、开放性强、规模巨大三个特点。
首先,语料库选取的语料必须要有很高的流通度。
流通度可以保证该语料在社会上的通用性,保证该语料对人们的影响力。
其次,语料库必须是开放的,新的语料要实时地、源源不断地汇人语料库,以保证语料的新鲜度。
最后,语料库规模要足够大。
因为词汇关系到社会生活的各个方面,语料只有达到一定规模才能比较真实、全面地反映社会语言生活。
国家语言资源监测与研究中心的国家语言资源语料库基本上具备这三个特点:首先,该语料库的三个子库是按照对社会发展和人们生活影响最大的三个大众主流媒体设置的,包括报纸(平面媒体)、广播电视(有声媒体)、网络(网络媒体);而且,各子语料库又都以流通度作为采集语料的依据,这就保证了其语料具有足够的空间分布,对社会具有很强的影响力。
其次,该语料库是动态的,现正按每年度10亿字次的规模持续滚动采集语料。
到目前为止,各子语料库都已经积累了从2000年到最近的语料,总体规模近50亿字次,完全具备了自动搜获新词语的基础条件。
合适的语料库只是新词语自动采集的基础,要很好地完成这项工作,还需要技术方面的保障。
人们已作了一些这方面的尝试,也积累了一些比较成功的经验。
但毋庸讳言,受到技术水平的限制,计算机自动提取新词语还存在很多问题。
问题之一,无论哪种方法,人们自动搜获的都是新词形,而新词义很难获取,用计算机自动提取新词义,人们还没有找到很有效的办法,还需要进一步探索、研究。
问题之二,即使是新词形,如果是可以被嵌入到某个已有词语中的,也很难获取。
如“动车”,作为“动车组”一词的简缩形式,是2007年出现的。
因为它可以被嵌入在“动车组”、“机动车”、“电动车”等形式中,所以仅靠一些形式上的特征,如频次、文本数等,很难识别出来。
问题之三,根据计算机自动提取的结果来看,目前的方法大致可以分为两种情况:准确度高的,伴随着较大的召回率损失,一些新词语被遗漏了;召回率高的,则意味着大量的后续人工干预工作,而人工干预会造成新的遗漏。
综上所述,在新词语的搜获上,无论人工查获还是机器提取,都不可能无一遗漏,新词语编年本也不可能做到将该年度的所有新词语都一网打尽。
比较起来,机器加人工,是一个可行的办法。
现阶段,人工力量的比重还比较大,希望随着研究的深入,人工干预能够越来越少。
三、新词语编年本的词目收录原则
国家语言资源监测与研究中心的统计证明,每一年使用的词语大约有65%~70%是不相同的,就是说,每一年语言中都会有大量的新的字符串出现。
这些新的字符串不可能都收进词典中,其中很大一部分在人们的语感上也不是新词语。
新词语是某一时段后新产生的词、短语或意义。
新词语的本质属性有两个:1必须是一个词语;2必须是“新”的。
“必须是一个词语”,指的是它必须具有词汇意义,具有代码化的特点,不能是一个自由短语或一个句子。
另外,那些离开具体语境就不明其义、很难确定其词语地位的,也不是新词语。
所谓“新”,是一个相对时间概念。
从系统的角度看,新词语是指那些以语言系统中已有词语或已有词语的已有意义作为参照物而存在的词语或意义;从个体的角度看,新词语是指那些处于自己生命周期开始阶段的词语或意义。
年度新词语指的是在某一年中产生并在该年度语言词汇系统中占据一定空间的词语(或意义)。
我们把对新词语的这种认识作为一个工作定义,用它来指导编年本对新词语的收录工作。
收录新词语的过程,实质上是对新词语确认的过程。
确认新词语的总原则是要符合公众的语感。
此外,还要有一些具体的准则:宽容、全面、前瞻。
这些准则是与编年本的功能以及它的编纂目标直接相关的。
1宽容
像所有生物个体一样,每个词语也有它自己的生命周期。
根据时间发展和空间分布,可以把新词语的生命历程分为频次低、偶发分布的起始阶段,使用频次增加、分布空间扩大成为准词位的发展阶段,以及“新”色彩渐失、获得词位地位的成熟阶段。
从起始阶段,到发展阶段,再到成熟阶段,新词语所需要的时间不一,有的很长,有的则很短。
年度新词语能进入成熟阶段的不是很多,大部分都处在起始或发展阶段,其中有相当一部分可能尚未进入成熟阶段就从语言中消失了。
那么,这些昙花一现的新词语是否要收录,就成了一个有争议的问题。
我们认为,新词语编年本的功能不仅是为人们提供一些新词和释义,也应该是展示那一年度社会生活的画卷。
编年本的这一功能就决定了收录新词语时态度要宽容,不以其生命长短作为衡量标准,只要在语言生活中实现了交际价值、体现了文化传录功能的新词语,就应该收录。
“稍纵即逝的词语也同样是词语,从研究的角度看,比起那些已登录的词语或稳定性强的词语,它们的价值并不低。
”比如,在2007年度新词语中的“纸馅包子、蕉癌、周末忧虑症、奥运沙”等,出现时间并不长,可能以后也不会再出现,但它们记载了2007年度中国发生的某些事件,应该把它们收入其中。
有人说编年本应该实录,即语言中出现了什么就记录什么,这只能是一种愿望,实际是做不到的。
虽然做不到实录,但编纂者在收录词条时应该抱有一种宽容的心态,正如吕叔湘先生所说,“与其失之于严,毋宁失之于宽”。
2全面
新词语编年本是对该年度一定社会空间新词语现象的全面观照,应该具有开阔的文化视野。
随着信息技术的发展、大众媒体的影响力日益强大以及科技的不断发展,很多新的行业术语已进入大众媒体,走进寻常百姓的生活中。
“新词语词典必须以收词的社会化来凸显其涵盖之广,信息之富。
只有广纳博取,语词百科兼容并包,才能体现其实用价值。
”
另外,汉语通用语中新出现的字母词、来自某地域的方言词等等,只要在大众媒体上出现,都是编年本收录的对象。
我们说的大众媒体包括主流报纸、广播电视和各大门户网站的网络新闻。
这些媒体向大众传播的内容都有具体的把关人,在语言运用上,绝大部分都是人们语感上能够接受的,个人的随意性不是很大。
至于那些个别人在某些特定场合使用的新的语言现象,在大众媒体上没有出现的,就不予收录。
3前瞻
所谓前瞻,指的是有些词语,或者是由于出现在年末岁尾,或者是其他原因,在该年度语料中出现频次极低,但如果预测其有生命力,也可以收入。
比如“裸退”这个词,是吴仪在2007年12月24日参加一个商界会议宣布自己将在2008年3月全国人大会议之后完全退休,不再担任任何职务时使用的一个词。
这个词在2007年年末出现,在2007年大众媒体的语料里出现频次很低,但吴仪讲话以后,这个词在社会上引起的反响很大,人们口头广为流传,我们预测它会有比较强的生命力,于是也收录进来。
但这一原则的运用似须慎重。
四、新词语编年本的编写方法
确认好了词条,剩下来的工作就是如何编纂了。
为实现编年本的多种功能,以下几个方面不能不认真考虑。
1释义的原则
作为词典,释义是不可少的。
但对刚刚产生的新词语进行释义,有一定的难度,因为它的用法还没有固定下来。
另外,在释义时也应本着描写的态度,反映语言使用的实际情况。
如“股市症候群”,它本指因股市产生的生理和心理的诸多不健康症状,指的是“病”;但可能由于受“症候群”这个“群”字的影响,又有一些人用这个词语指“因为股市影响生理和心理健康,有
着诸多症状的股民或非股民”,指的是患有某种症状的“人”。
在释义时,这两种意义都应该给出。
2背景知识的介绍
有些新词语仅仅给出释义还不够,还起不到它作为历史画卷,作为社会变化百科全书,作为词源学词典、语用学词典的作用,还应该给出该词条的背景知识。
宋子然主编的几本《新词新语年编》和周洪波主编的《新华新词语词典》做了一些开创性的工作。
《新词新语年编》在每一个词条后设“按语”;《新华新词语词典》则在部分词条后面开有“知识窗”。
相比之下,“知识窗”更为经济,且更客观。
《新华新词语词典》还在一些词语后面列出相关词语,反映新词语中形成的一个个词族,如因同一事件而出现的“基民、基盲、基友、炒基、炒基团”,造词法相同的“托猪所、托牛所”等。
这样更便于读者理解和查考。
3例句的选取
对新词语词典例句的选择,有人主张应给出该词语最早使用的例句,以确定该词的“出生时间”,给它一个出生证。
这个想法固然很好,但第一,像“裸退”这样既容易找到出生时间、又能找到生产者的是极少数。
对于大多数情况来说,要想给每一个词语找到它的出生时间,绝非易事。
姑且不说个人使用,就是大众媒体,现在的语料也是浩如烟海,你说你看见这个词最先在甲报纸上出现,你怎么敢保证没有人看见它更早一点在乙报纸上出现呢?虽然我们可以利用互联网上的搜索工具,但事实是,并不是所有的媒体语料都已经挂到网上了。
所以,在词典中声称所选例句是该词的第。
一次使用,风险性太大,有点不靠谱儿。
第二,就算你找到了它的出生时间,找到了第一个使用这个词语的句子,但例句的作用主要是帮助人们了解词条的意义,掌握它的用法。
如果最早的例句符合这个条件,能起到这样的作用,自是最好;如果不能,还是应该以实现例句的功能为主要选择标准。
尤其在编年本中,所有的词语都是该年度出生的,更应该重视它帮助人们了解该词产生背景、掌握该词用法的作用。
4使用状况的说明
为了帮助人们更全面地了解新词语的使用情况,除了上面几条外,如果可能,编年本还应该给出一个数据:在一定规模语料库中出现的频次和文本数。
为了阅读、使用的方便,该数据可采用表格方式附在正文后面。
五、结语
语言监测工作中有关新词语的监测结果可以利用新词语编年本的方式向社会公布。
编年本的功能与目标与多年本不同,除了传播语文知识外,还应具有历史纪实功能、即时反映社会文化功能、词源查询功能和语言资源研究功能,这些功能就决定了它与多年本在词目搜获、收录和编纂上具有不同的特点。
目前,我们仅仅是对此作了初步探讨,对新词语编年本的更深入的了解,对它的功能的更全面的挖掘,还有待进一步研究。