现代汉语词义标注语料库的研究与开发

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
词语多义区分
语义词典
2.真实文本中词语义项的确定 在一定上下文中这个词语表示什么意义?
词义自动消歧
词义标注语料库
可编辑ppt
6
总体思路——
语义词典和词义标注语料的互动构建
语义词典
词义标注 义项区分
词义标注语料
面向大规模真实文本的 词语义项标注规范
一方面依据《语义词典》中的义项信息对语料中的多义词进行词义标注,一 方面依据词语在语料中的句法表现(syntactic behavior)对词典中的义项区 分作出调整,词典和语料形成一个互动良性的发展。
2. 细粒度标注—— 在“同形”基础上进行更适应于语言信息处理的义项区

可编辑ppt
4
现代汉语语义词典(含6万实词)
—— 《现代汉语语法信息词典》的扩充,面向机器翻译。 动词库部分信息样例(增加了“义项”等字段)
词 词 同 义 语义 释义 语 类 形项 类
英译 配 主 客 与 价体 体事
冲 v A 1 创造 冲茶
a. 24/m 小时/n 值班/v 守/v 电话/n
①?②?
b. 公布/v 3/m 部/q 征求/v 意见/n 电话/n ①?②?
a. If 电话= ①, Then 守+电话 不符合语用。
b.
If 电话= ②, Then 守+电话 Fail.
c. b. If 电话= ①, Then 公布+电话 Fail.
b. 公布3部征求意见电话 —— 欢迎随时安装。(**)
—— 欢迎随时拨打。
②!
可编辑ppt
17
难点之解决
系列文章: ✓ 信息处理用词语义项区分的原则和方法 ✓ 信息处理用动词义项的区分 ❖ 信息处理用名词义项的区分 信息处理用形容词义项的区分 信息处理用虚词义项的区分
可编辑ppt
18
请您批评,谢谢!
1.词语义项的区分 一个词可以分割为几个义项?
词语多义区分
语义词典
2.真实文本中词语义项的确定 在一定上下文中这个词语表示什么意
义?
词义自动消歧
词义标注语料库
可编辑ppt
面向大规模 真实文本的 语言处理
15
难点分析——示例
【电话】 ① 利用电流使两地的人互相交谈的装置 (《现汉》) ② 用电话装置传递的话
可编辑ppt
7
总体思路——
词义标注语料的滚雪球似增长
基本标注语料 (词语切分、
词性标注)
人工词义标注
小规模 词义标注语料库
大规模 词义标注语料库
人工校对
机器学习 词义自动消歧
可编辑ppt
8
词义标注校对辅助软件
体现了总体思路, 提高了工作效率。
可编辑ppt
9
可编辑ppt
10
可编辑ppt
11
可编辑ppt
现代汉语词义标注语料库 的研究与开发
吴云芳
北京大学计算语言学研究所 2005-08-15
可编辑ppt
1
报告提纲
目标 总体思路 辅助软件 成果展示 难点分析
可编辑ppt
2
目标
建成2-3个具有国际先进水平(或规模最大)的数据资 源库并制定相应的规范或标准。
—— 973项目“数字内容理解的理论与方法”预期目标之一
可编辑ppt
19
我们的目标:建设成为规模最大、质量上乘的具有国际
先进水平的现代汉语词义标注语料库。
具体运用意义:是词义自动消歧(WSD)的数据基础,
进而提升信息检索、机器翻译等系统的应用水平。是现 代汉语词汇语义研究的资源库。
可编辑ppt
3
总体思路——
粗粒度到细粒度的两步走策略
1. 粗粒度标注—— 基于《现代汉语语法信息词典》中的“同形”信息 填补《现代汉语语法信息词典》和语料库的缝隙
make 2 人 固
(tea)

冲 v A 2 促变 冲胶卷 develop 2 人 材
(a film)

冲 v A 3 促变 冲盘子 rinse 2 人 器
(a plate)

冲 vB
位移 冲锋 charge 1 动 物
可编辑ppt
5
总体思路——
语义词典和词义标注语料的互动构建
1.词语义项的区分 一个词可以分割为几个义项?
d.
If 电话= ②, Then 3部+电话 Fail.
可编辑ppt
16
难点分析——示例
关于词语意义的一点认识:内容和载体是一个事物不可 分割的两方面意义,存在着句法结构混合运用的情形, 即可能存在着意义和结构搭配错位的情形。
扩展法消歧:
a. 24小时值班守电话 —— 结果电话丢了。 (? ?)
——结果一个电话也没人打来。 ② !
Leabharlann Baidu12
成果展示——词义标注语料库
从/p 科学/a 的/u 苍穹/n 上{shang5}/f!B$ ,/wd 采/v 来/v!4-4 日辉/n 、/w 月华/n 、/w 星/n 芒/Ng ,/wd 每天/r 为 {wei4}/p!B1$ 我/r 的/u 祖国/n ,/wd 深情/d 献/v 一/m 掬/q 科技/n 之/u 光/n 。/wj ”/w 这/r 是/v!B1$ 大家/r 的/u 座右 铭/n 。/wj 有人/r 对/p 《/wkz 科技/n 之/u 光/n 》/w 做/v!2$ 过/u 这样/r 的/u 评价/v :/w “/w 长城/n!0-2 上{shang5}/f!B$ 的/u 每/r 一/m 块/q!1$ 砖/n 拆/v 下来/v 单独/d 看 {kan4}/v!B2-1 ,/wd 是/v!B1$ 普通/a 甚至/c 粗糙/a 的/u ,/w 但/c 垒/v 在/p 一起/s 却/d 变/v!1$ 得/u 蔚为/v 壮观/a ,/w 令/v 人/n 惊叹/v 。/w ”/w 今天/t 《/w 科技/n 之/u 光/n 》 /w 已经/d 成/v 了/u 在/p 国内外/s 有/v!1$ 一定/b 知名度/n 的/u 电视/n 品牌/n 。/w
可编辑ppt
13
成果汇总
在《人民日报》基本标注语料的基础上: 1. 完成了 270 万语料的同形标注; 2. 完成了 46 个动词的义项区分,
并标注 8639 义项; 3. 完成了 150 个名词的义项区分,
并标注 6000 多义项; 4. 正在进行形容词义项区分和标注。
可编辑ppt
14
难点分析
相关文档
最新文档