汉语分词基本标准以和具体分词规范(上)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
④ 明显带排行的亲属称谓要切分开,分不清楚的则 不切开。 三/m 哥/n 大/a 女儿/n 大哥/n 小弟/n 老爸/n ⑤ 一些著名作者的或不易区分姓和名的笔名通常作 为一个切分单位。 鲁迅/nr, 茅盾/nr, 巴金/nr, 三毛/nr, 琼瑶/nr, 白桦/nr ⑥ 外国人或少数民族的译名(包括日本人的姓名) 不予切分,标注为nr。 克林顿/nr, 叶利钦/nr, 才旦卓玛/nr, 小 林多喜二/nr, 北研二/nr, 有些西方人的姓名中有小圆点,也不分开。如: 卡尔· 马克思/nr
汉语分词的基本标准以及具 体分词规范(上)
授课时间:2007年4月25日 授课人:徐艳华
内容摘要
汉语分词的基本标准 人名的切分规范 地名的切分规范 团体、机构、组织名的切分规范 其他专业名词的切分规范
一、汉语分词的基本标准
结构标准 结构标准是最重要的标准。从结构上看,词和语 素划界主要依据单用的标准,词和短语划界目前 主要用扩展法。 所谓单用就是指能够独立地充当句子成分或表达 语法意义。 有人把单用分为自由单用和受限单用两种:所谓 自由单用是说一个语素具有某一类词的典型的句 法特征;所谓受限单用是指一个语素虽不具有某 一类词的典型句法特征,但在特定条件下也应该 算是单用的。
③ 地名后的行政区划有两个以上的汉字,则 将地名同行政区划名称切开,不过要将地 名同行政区划名称用方括号括起来,并标 以ns。 [芜湖/ns专区/n]ns,[宣城/ns地区/n]ns, [内蒙古/ns自治区/n]ns ④ 地名后有表示地形地貌的一个字的普通名 词,如“江、河、山、洋、海、岛、峰、 湖”等,不予切分。 鸭绿江/ns, 亚马逊河/ns, 喜马拉雅山 /ns,
语义标准 按照一般的说法,所谓语义标准就是看一个结构 体的整体意义是否等于部分意义之和。如果整体 语义等于部分语义之和就应该切分,如果整体语 义不等于部分语义之和而是有了转义,就不切分。 例如: “女孩子”包含两个部分:“女”和“孩子”, “女”的意义是“女性”,“孩子”的意义是 “儿童”,二者之间的语义关系是属性-对象关系, 据此推出的“女孩子”的意义是“女性儿童”, 就切分为两个词;另外“女孩子”指“年轻姑娘” 时,是不能从“女”“孩子”推出来的,就切分 为一个词。
频度标准 使用频度是影响人们对词的认识的一个重 要因素,比如,我们一般觉得“鸡蛋”像 一个词,但是“鹅蛋、蛇蛋、乌龟蛋、鹌 鹑蛋”就不像词,觉得“猪肉、牛肉”是 词,“驴肉、蛇肉、马肉、骆驼肉”不是 词,这显然受到频度的影响。一般来说使 用频度高就从宽地看作一个词不作切分, 使用频度低就不看作一个词,要切分。
另一方面,一些应该是词的例子但能够扩 展。如动宾式“离合词”就属于这一类, 如“洗澡、游泳、理发、毕业”等。由此 可见,能否扩展对于区别复合词和短语既 不是充分条件,也不是必要条件。但是, 具体到一种特定的类型,扩展法就有可能 成为充分条件。例如,对于定中结构,能 扩展的一定是短语;对于动宾结构,不能 扩展的一定是词。这说明扩展法虽有局限 性,但在某些场合,仍不失为区别复合词 和短语的首要标准
语体受限是指一些文言成分仍然保留在现代汉语 书面语中,应该把它们看作单独使用。如: 西安之行 工作之余 东海之滨 有“黑珍珠”之 誉 有“液体面包”之称 春夏之交 爱国之举 泰 山之巅 地处湘粤之交 大有断炊之势 工程竣工 之时 可乘之机 居全国之冠 高低贵贱之别 有班 门弄斧之嫌 值此新春佳节之际 这些例子中,“之”是一个文言助词,“之”后 面的词也都是文言用法,应该看作单用,定为词。
二、人名的切分规范
① 汉族人及与汉族起名方式相同的非汉族人的姓和 名单独切分,并分别标注为nr。 张/nr 仁伟/nr, 欧阳/nr 修/nr, 阮/nr 志雄/nr, 朴/nr 贞爱/nr
② 姓名后的职务、职称或称呼要分开。 江/nr 主席/n,小平/nr 同志/n,江/nr 总书记/n, ③ 对人的简称、尊称等若为两个字,则合为一个切 分单位,并标以nr。 老张/nr, 大李/nr, 小郝/nr, 郭老/nr, 陈总/nr
再如“他从家里走到院子里”“家里
人来了”。前者“家里”就是指“家 里面”应切分为两个词,而后者“家 里”就是指“他家”有了转义,应切 为一个词。由于语义标准难以操作, 所以它只能作为结构标准的补充。
音节标准 由于现代汉语具有双音化的倾向,因此凡 是双音节的组合可以从宽地看作一个词, 而三音节或更多音节的则要谨慎。音节标 准只能在语法标准和语义标准相同的条件 下起参考作用。
扩展法就是看一个结构能不能插入别的成分,若 能插入别的成分,无限扩展下去就不是词;若不 能插入别的成分无限扩展下去就是词。 扩展法也有一定的局限性:一方面,一些一般认 为是短语的例子不能扩展,例如,在双音节名词 性组合中至少有以下一些一般认为是短语的结构 不能扩展: 方位结构,如:坝上 班上 背上 厂里 村外 灯 旁 饭前 肝内 梦中 碗里 “双”+名词,如:双脚 双手 双腿 双拳 双眼 双列 “本/此”+名词,如:本厂 本报 本市 本月 此 事 此桥 此数 “满”+名词,如:满地 满街 满脸 满头 满 手 满身 满屋
受限单用ຫໍສະໝຸດ Baidu分类
结构受限:是指一些语素不具有某一类词的典
型句法特征,但是在特定的句法结构中能产性 很强,而且整个结构又可以用简单的句法-语 义规则加以描述的现象。例如,一些名词性语 素在单说的时候必须儿化或加上后缀,但在 “名+名”式偏正结构中却可以比较自由地充 当定语或修饰语。例如,“桌”单说的时候必 须是“桌子”,“桌儿”,“桌”不具有名词 的典型句法特征,它不能受数量词的修饰,不 能做主语或宾语,只有加上一个后缀“子”变 成“桌子”或儿化之后,它才具有名词的典型
三、地名的切分规范
① 国名不论长短,作为一个切分单位,例如 中国/ns, 中华人民共和国/ns, 日本国 /ns, 美利坚合众国/ns, 美国/ns ②地名后有“省”、“市”、“县”、 “区”、“乡”、“镇”、“村”、 “旗”、“州”、“都”、“府”、“道” 等一个字的行政区划名称时,不切分开, 作为一个切分单位。 四川省/ns, 天津市/ns,景德镇市/ns, 沙 市市/ns, 牡丹江市/ns,正定县/ns,