_信息处理用词汇研究_九五项目结题汇报信息处理用现代汉语分词词表_孙茂松
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
[收稿日期]2000-05-10
[作者简介]孙茂松,男,清华大学计算机科学与技术系副主任,主要研究方向:计算语言学,人工智能。
《信息处理用词汇研究》九五项目
结 题 汇 报信息处理用现代汉语分词词表
孙茂松1
王洪君2
李行健3
富 丽2
黄昌宁1 陈松岑2 谢自立4 张卫国
4
(1清华大学智能技术与系统国家重点实验室;2北京大学中文系;
3国家语委语文出版社;4中国人民大学语言文字研究所)
[中图分类号]H17 [文献标识码]A [文章编号]1003-5397(2001)04-0084-06
一 引言
建立一个“信息处理用现代汉语分词词表”是国家社科研究“九五”规划重大项目《信息处理用现代汉语词汇研究》之子课题97@YY001的奋斗目标。本子课题立项的基本考虑是:国
家技术监督局于1993年发布了中华人民共和国国家标准GB T 13715-92《信息处理用现代汉语分词规范》
[1]
。这个规范对推动汉语自动分词研究的发展,起到了积极的作用。然而,使用
者也普遍反映,该规范中多次出现了“结合紧密、使用稳定(频繁)”的表述,试图对某些介乎“词”与“词组”之间的“分词单位”进行界定,但这个表述很模糊,难以具体操作。在一次由国家语委组织的研讨会上,来自语言学和计算语言学两个领域的专家们建议,应该搞出一个词表作为分词规范的补充材料,凡收进词表的“分词单位”,认为就是“结合紧密、使用稳定(频繁)”,否则不是。通过这种方式,将该规范中存在的“灰色地带”明确地区分开来。此即为本子课题的由来。
二 设计思想
1.基本目标
制定一个面向信息处理的、具有较强通用性及覆盖能力的现代汉语分词词表。这个词表
应该具有如下特征:(1)针对信息处理的基本需要。信息处理的不同应用对分词词表提出的要
2001年11月第4期语言文字应用Applied Linguistics Nov .,2001No .4
求也不尽相同,例如OCR 、拼音转汉字、语音识别与合成,一般希望词表的规模有所控制,因而词表的平均词长倾向于短一些,而机器翻译则恰好相反,平均词长倾向于长一些—我们认为,第一种类型的信息处理应用更为基本,我们的词表应大致定位于斯。(2)以人为本。机器归根
到底是为人服务并且为人所用的,所以这个词表既要向根据语言学理念建立起来的词表尽量靠拢,同时又要与老百姓心目中“朦朦胧胧”但又确乎存在的“词表”尽量兼容。不要另起炉灶,人为地将面向机器与面向人割裂开来,两者的统一是本子课题刻意追求的境界。(3)最后交帐的东西是“表”,而不是“典”,重“用”而不重“备查”,所以词的常用性也是我们考察的必要条件之一。即使是再典型不过的词,如果不常用,也不收。
2.基本原则
其一,凡任一汉语语言学规则认可的词,只要达到常用性指标,均予收录(如发生转义的词“黑手”“走后门”“榆木脑袋”等)。语言学规则要用足、用够。
其二,靠纯粹的语言学规则界定不清但具有合适词法结构的某些成分,只要频度足够高,一般应收录。主要涉及动宾、动补(如[动+动]、[动+形]、[动+介])、定中(如[名+名]、[形+名]、[方位+名])、状中、数量(如“一个”)、处所(如“空中”)以及前后加缀(包括准前缀、准后缀及其组合)等结构,并且结构中的各子成分均可单用,整体未发生转义。语言学的一般做法通常倾向于把它们视为短语,我们则称之为“常用接续”。将“常用接续”收入词表的作法可从几个方面找到理据:汉语语言学研究、语言使用的世俗心理、信息编码理论的支持以及词表所具有的隐式构词知识库的性质。相关的详尽阐述见文献[2],这里不再重复。
其三,凡拆开后无助于机器分析甚至增加了机器分析的困难程度的成分,应尽量从合,常用的收入词表。如缩略语“国内外”“大中小学”“外交部长”等。
其四,关于单字词。这里认同以下各类汉字是单字词:(1)没有太多争议的单字词;(2)化学元素及有机化学物(常用的收入词表);(3)重要地名简称;(4)前后缀或准前后缀;(5)中国朝代;(6)中国56个民族。姓氏则不算作单字词。宏观上看,我们所说的“词”的内涵与外延与GB T 13715-92中定义的“分词单位”差不多。
3.词表的基本结构(见下页图)
整个词表分成7大分库:普通词库、带字母词库、专名库、常用接续库、成语库、俗语库(以上均针对多字词)以及单字词库。普通词库只收严格意义上(指汉语语言学规则认可)的词。普通词库、专名库、常用接续库又各自下含基础和合成两个子类。这样对多字词共得9个子类:普通词库·基础类、普通词库·合成类、带字母词库、专名库·基础类、专名库·合成类、常用接续库·基础类、常用接续库·合成类、成语库和俗语库。每个子类根据频度又分为一级常用、二级常用。
这个体系充分体现了我们对信息处理用汉语词表的全局性认识。还有一个附带的好处:对汉语自动分词系统,凡属于普通词库·基础类、普通词库·合成类、带字母词库、专名库·基础类、成语库或俗语库的词,一般应处理为“连”,“断”则算切错,而属于专名库·合成类、常用接续库·基础类及常用接续库·合成类的词,处理成“断”抑或“连”皆可,均算切对。如此也有利于较为一致、客观地评测不同分词系统的性能。
·
85·2001年第4期孙茂松等:信息处理用现代汉语分词词表
词表
普通词库
基础类:白菜、杂交、游泳、立正、拥有、白兰地
合成类:
杂交稻、白兰地酒、总司令、划时代、打前站拿大顶、安乐死、帐房先生、积极分子、移动电话、
保外就医、祖祖辈辈、高高兴兴、吹吹打打
带字母词库:IC 卡、X 射线、三K 党专名库
基础类:法国、北京、哈尼、法兰西、昆仑
合成类:北京市、哈尼族、昆仑山、昆仑山脉
常用接续库基础类:
猪肉、木梳、左耳、母猪、东门、白云、笛声、桌上、湖边、全国、各厂、拉紧、穿上、再也、
说道、写有、测得、改为、尤为、一个、第一
合成类:
铁栅栏、远距离、包饺子、找工作、预算外、
不起眼、组织上、再一次、找罪受、脏乱差、冤假错案、注意事项、增收节支、自找麻烦、
碍手碍脚、挨门挨户、在此期间、综上所述成语库:破天荒、开门见山、南辕北辙、一衣带水、沾花惹草、风马牛不相及俗语库:着呢、的话、够意思、等着瞧、老掉牙、干瞪眼、没完没了、
七老八十、祖宗十八代、南无阿弥陀佛、眉头一皱,计上心来
单字词库:花、打、大、的、呢、氧、京、准、性、秦、藏4.基本操作
采用“定性+定量”的处理策略。“定性”指主观判断,“定量”则指借重基于语料库的方法与手段。
三 词表的研制
1.将以下经过精心挑选的词典合并,去重后,得到一个包含158000条多字词的工作初表YWIni 。这个初表照顾到了各个基本面:■《现代汉语词典(第一版)》(商务印书馆)
■《现代汉语词典补编(第一版)》(商务印书馆)
■《现代汉语词典(第二版)》(商务印书馆)■《现代汉语常用词词频词典》(宇航出版社,由北京航天航空大学主持研发而成)■《同义词词林》(上海辞书出版社)
■《汉语水平词汇与汉字等级大纲》(北京语言学院出版社)■《普通话常用三千词》(语文出版社)■《汉语语法信息词典》(第一、二版,北京大学计算语言学研究所)■《现代汉语规范词表》(第一、二稿,李行健主持)■《现代汉语常用口语词典》(张鲜华编著,济南出版社)■《新惯用语词典》(王德春主编,上海辞书出版社)■《新词新语词典(修订本)》(语文出版社)
■《1991、1992、1993汉语新词语》(北京语言学院出版社)■《当代流行语》(陈芳等编著,中国社会出版社)
·
86· 语言文字应用2001年第4期