汉语分词具体规范下

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
两个数词相连的及“成百”、“上千”等则不予切 分。
五六/m 年/q, 七八/m 天/q, 十七八/m 岁 /q, 成百/m 学生/n, 上千/m 人/n, 成千 上万/i 的/u 群众/n
一、数词与数量词组的切分规范(续)
③ 数量词组应切分为数词和量词。
三/m 个/q, 10/m 公斤/q, 一/m 盒/q 花/n
贯彻/v 执行/v, 调查/v 研究/v 但像“生产资料/n ”、 “国民经济/n”、 “生产 关系/n”等若作为一个词已收入词典的就不再切分。
四个字的成语或习惯用语为一个切分单位,并标 以词性i或l。
胸有成竹/i, 众所周知/l
超过四个字的习惯用语或成语,一般不予切分, 标注为 l或i 。
近水楼台先得月/i, 一年之计在于春/l
“几”和“零”属于基本的系数词(或位数词), 因此包含“几”和“零”的基数、序数、小数、分 数、百分数也不切分。例如:
几十/m 人/n, 几十万/m 元/q, 第一百零一 /m 个/q
一、数词与数量词组的切分规范(续)
② 约数,前加副词或后加“来、多、左右”等诸数 词的应予切分。
约/d 一百/m 多/m 万/m, 仅/d 一百/m 个/q, 四十/m 来/m 个/q, 二十/m 余/m 只/q, 十几 /m 个/q, 三十/m 左右/m 几十/m 人/n, 几十万/m 元/q
六、四字以上语法单位的切分规范(续)
表达一个完整概念或集合的缩略语为一个切分 单位,并标以j
三好/j, 教科文/j, 农工牧副渔业/j, 德意 日/j, 港澳台/j 同胞/n
在有顿号分开的情况下,则切分:
德/j 、/w 意/j 、/w 日/j, 港/j 、/w 澳/j 、 /w 台/j, 港/j 、/w 澳/j 同胞/n
1、交集型歧义字段的类型(续)
介词+名词
例如,在句子“让位移等于50厘米”中,歧义字段“让位 移”是由介词“让”与名词“位移”之间的交叉组合产生 的——“让位”(歧义词)+“位移”(非歧义词)。
连词+名词
例如,在短语“独立自主和平等互利的原则” 中,歧义字段“和平等”是由连词“和”与 名词“平等”的交叉组合产生的——“和平” (歧义词)+“平等”(非歧义词)
走/v 到/v, 撞/v 上/v , 抓/v 住/v, 调/v 好/a, 坐/v 稳/a 若拆开了,其中至少有一个是语素,通常就不切分,作为一个切分单
位。如: 形成/v, 鼓动/v, 揭露/v, 震动/v 双音节的述补结构中间插入“得”或“不”一般应予切分。如: 走/v 得/u 到/v, 走/v 不/d 到/v, 安/v 得/u 上/v,安/v 不/d 上/v 但是如果去掉“得”或“不”后,前后两个字不构成一个词的,则作
1、交集型歧义字段的类型(续)
动词+名词
例如,在句子“研究生命的本质”中,歧义字段“研究 生命”是由动词“研究”与名词“生命”之间的交叉组 合产生的——“研究生”(歧义词)+“生命”(非歧义 词)。
形容词+名词
例如,在句子“白天鹅游过来了”中,歧义字段“白天 鹅”是由形容词“白”与名词“天鹅”之间的交叉组合 产生的——“白天”(歧义词)+“天鹅”(非歧义词)。
汉语分词的基本标准
结构标准 回 语义标准 顾
语音标准
频度标准 人名、地名、专有名词 的具体切分规范
思考题
在自动分词的过程中,如何确 定某个字串是语素、词还是短 语?
练习
判断下列切分是否正确,如果不正确,请加以 改正。
大/a哥/n 李/nr 教授/n 老/a 张/nr 景德镇/ns市/ns 华盛顿/ns 特区/n 南大街/ns 亚马逊/ns河/n 南京大学/nt 山东大学/nt 威海/ns 分校/n
洗/v 了/u 一个/m 舒舒服服/z 的/u 澡/Ng.
②单字名词或名词性语素后接单纯方位词,通常 应合成为一个处所词或时间词,但为了同“分词 规范”保持一致,也为了汉外机器翻译处理的方 便,这里采用以下的处理方法:
七、语素和非语素字的处理 (续)
a.“单字名词 + 单字方位词”的组合,切分为两个单位:
若数字后无表示时间的“年、月、日、时、分、 秒”等的标为数词m。例如:
1998/m 中文/n 信息/n 处理/vn 国际/n 会议/n
这里应注意时间词与数量词的区分,例如:“78年” 指“1978年”时应标注为“78年/t”,当指数量 “78年”时应切分标注为“78/m 年/q”。再如 两/m 个/q 月/n,三/m 天/q 时间/n 。同样当“8 日”指一个月当中的第八天时为时间词,不予切分, 标注为“8日/t”。若表示8天时,则要分开,标注 为“8/m 日/q”。
1、交集型歧义字段的类型
名词+名词
例如,在句子“用树形图形式加以描述”中,歧 义字段“图形式”是由名词“图”与名词“形式” 之间的交叉组合产生的——“图形”+“形式”。 事实上,“图形”是歧义词,它是歧义字段“图 形式”在给定句子中错误地切分出来的片段, “形式”是非歧义词,它是歧义字段“图形式” 在给定句子中,按正确的切分方式切分出来的片 段。
2、组合型歧义字段的类型
量词+名词
例如,在“一阵风吹过来了”中, 歧义切分字段“阵风”是由量词 “阵”和名词“风”的串联组合 产生的。
介词+名词
例如,在“请把手抬高一点儿” 中,歧义切分字段“把手”是由 介词“把”和名词“手”的串联 组合产生的。
2、组合型歧义字段的类型(续)
动词+名词
例如,在“他喜欢吃烤白薯”中, 歧义切分字段“烤白薯”是由动 词“烤”和名词“白薯”的串联 组合产生的。
部里/n, 县里/n, 村里/n, 系里/n, 班上 /n
七、语素和非语素字的处理 (续)
③ 非语素字单独在文本中时,为一个切分单位,标 注为x
“/w 鹌鹑/n ”/w 的/u “/w 鹌/x ”/w 字/n 怎么 /r 读/v ?/w
从以上的规范中我们至少可以看出两点: (1)汉语界定词的问题确实非常复杂,尽管制定了如 此详细的规范,但在实际工作中仍然有一些问题解决不 了,还要不断地补充规范。要解决什么是汉语的“词” 的问题实在不是一件容易的事情,需要下大工夫。 (2)正因为汉语的“词”如此复杂,因此在进行一项 大的语言工程时首先必须制定好详细的规范,否则很难 保证切分的一致性。
三、特殊代词+名词的切分规范
单音节代词“本”、“每”、“各”、“诸” 后接单音节名词时,和后接的单音节名词合为 代词;当后接双音节名词时,应予切分。
本报/r, 每人/r, 本社/r, 本/r 地区/n, 各/r 部门 /n
四、区别词的切分规范
①一般为切分单位,并标以词性b
女/b 司机/n, 金/b 手镯/n, 慢性/b 胃炎 /n, 古/b 钱币/n 副/b 主任/n, 总/b 公 司/n,
1、交集型歧义字段的类型(续)
副词+形容词
例如,在句子“这本小说的情节太平淡了”中,歧义字段 “太平淡”是由副词“太”与形容词“平淡”的交叉组合 产生的——“太平”(歧义词)+“平淡”(非歧义词)。
助词+形容词
例如,在短语“对这种现象的确切描述”中,歧义字段 “的确切”是由助词“的”与形容词“确切”的交叉组合 产生的——“的确”(歧义词)+“确切”(非歧义词)。
② 单音节区别词和单音节名词或名语素组合, 作为一个切分单位,并标以名词词性n。
雄鸡/n, 雌象/n, 女魔/n, 古币/n
③少数“单音节区别词+双音节词”的结构作 为一个词收入了词典,则不再切分。
总书记/n
五、述补结构的切分规范
未收入词典的双音节述补结构,若拆开各是一个词,通常作为两个切 分单位。如:
为一个分词单位。如: 来得及/v, 来不及/v, 对得起/v, 对不起/v 说得过去/v, 说 不过去/v 有的去掉“得”或“不”后虽然是一个合成词,但其中至少有一个是 语素,拆开了是难以理解的,仍作为一个切分单位。如: 如:形得成/v, 形不成/v
六、四字以上语法单位的切分规范
四个字以上的短语,通常应切分。
但少数数量词已是词典的登录单位,则不再切分。
一个/m, 一些/m(“分词规范”中也将“一些” 作为一个切分单位)
④ 表序关系的“数+名”结构,应予切分。例如:
二/m 连/n ,三/m 部/n
二、时间词的切分规范
① 年月日时分秒,按年、月、日、时、分、秒切 分,标注为t 。例如:
1997年/t 3月/t 19日/t下午/t 2时/t 18分/t
事实上图形是歧义词它是歧义字段图形式在给定句子中错误地切分出来的片段形式是非歧义词它是歧义字段图形式在给定句子中按正确的切分方式切分出来的片名词名词名词名词例如在句子研究生命的本质中歧义字段研究生命是由动词研究与名词生命之间的交叉组合产生的研究生歧义词生命非歧义例如在句子白天鹅游过来了中歧义字段白天鹅是由形容词白与名词天鹅之间的交叉组合产生的白天歧义词天鹅非歧义词
名词+方位词
例如,在“他骑在马上”中,歧义 切分字段“马上”是由名词“马” 和方位词“上”的串联组合产生的。
2、组合型歧义字段的类型(续)
方位词+动词
例如,在“他在庄稼地里间麦 苗”中,歧义切分字段“里间” 是由方位词“里”和动词“间” 的串联组合产生的。
副词+动词
例如,在“他将来北京探亲” 中,歧义切分字段“将来”是 由副词“将”和动词“来”的 串联组合产生的。
课堂练习
切分并标注下列字串
三十余人 60年时间 走不到 饭后
五十万元 78年出生 来得及 乡里
八、汉语分词错误及人工校对
计算机的切分错误包括歧义切分、未登录词切分。 歧义切分分为两种类型,一种为交集型,一种为 组合型。所谓交集型歧义切分就是指如果字段 ABC,既可以切分为AB/C,又可以切分为A/BC, 所谓组合型(也叫包孕型)歧义切分就是指如果 字段ABC,既可以切分为ABC/,又可以切分为 A/BC或AB/C,如“烤白薯”,既可以切分为 “烤白薯”(名词),也可以切分为“烤/白薯” (动宾结构),这种字段就是组合(包孕)型歧 义切分字段。
教学目标
➢ 数词与数量词组的切分规范 ➢ 时间词的处理 ➢ 汉语分词错误及人工校对
一、数词与数量词组的切分规范
① 基数、序数、小数、分数、百分数一律不予切分,
为一个切分单位,标注为 m 。例如:
一百二十三/m, 第一/m, 123.54/m ,三分之二 /m ,20%/m, 千分之三十/m
饭/n 前/f, 树/n 上/f, 包/n 里/f, 床/n 下/f
b.“单字名词性语素字+单字的方位词”的结构,合为一个处所词 或时间词。
桌/Ng 上/f --> 桌上/s,
午/Ng 后/f --> 午后/t,
身/Ng 上/f -->身上/s,
胸/Ng 前/f -->胸前/s
c.“省、市、县、乡、村、部、局、处、团、营、连、院、系、班” 等名词后“里、上”等方位词,仍有组织、机构的意义,作为 一个切分单位,标为名词。
最后一个简称如与后面一个字(语素)可合成 一个词的,则不单独切分出来。
农/j 、/w 林/j 、/w 牧/j 、/w 副/j 、/w 渔 业/n
七、语素和非语素字的处理
除下列特殊情况外,语素和非语素字一般不 作为切分单位。
① 某些双音节离合词分开使用,其中一个是语素, 可将它标注为语素。
出/v 过/u 两/m 天/q 差/Ng, 理/v 了/u 一 /m 次/q 发/Ng,
1、交集型歧义字段的类型(续)
名词+连词
例如,在句子“社会需求和生产水平有矛盾”中,歧义字 段“需求和”是由名词“需求”与连词“和”的交叉组合 产生的——“需求”(非歧义词)+“求和”(歧义词)。
动词+介词
例如,在句子“他们看中的和日本人做生意的机会”中, 歧义字段“看中和”是由动词“看中”与介词“和”的交 叉组合产生的——“看中”(非歧义词)+“中和”(歧义 词)。
3、汉语切分错误的类型及人工校对
该合的未合
(1)可见/v,/w“/w财贵善/l用/v”/w,/w古 /t今/t一/m理/n。/w校正为:财贵善用/l,“财 贵善”不能成立。 (2)踏/v上/v北/f上/v的/u征途/n,校正为:北 上/v (3)吸/v纳/v劳动力/n多/a的/u产品/n和/c产业 /n。校正为:吸纳/v (4)要/v实现/v体制/n转/v轨/n,校正为:转轨 /v (5)在/p谈/v及/c处理/v土地/n问题/n时/Ng, 校正为:谈及/v
二、时间词的切分规范(续)
② 历史朝代的名称虽然有专有名词的性质,仍标注 为t。
西周/t, 秦朝/t, 东汉/t, 南北朝/t, 清代 /t “牛年、虎年”等一律不予切分,标注为: 牛年/t、 虎年/t。 “甲午年、庚子、戊戌”等也不予切分,标注 为: 甲午年/t, 甲午/t 战争/n, 庚子/t 赔 款/n, 戊戌/t 变法/n
相关文档
最新文档