基于WordNet的语义分布词典建设
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
) ) 表 ( 简单说明了词汇矩阵的设想: 假定表中的列代 表词形, 行代表词义, 矩阵中的表元素对应列上的词形可 以被用来表示相应表行上的词义 ( 在一个适当的上下文
பைடு நூலகம்
・ NN・
知识组织与知识管理 《 现代图书情报技术》 . /LLZ 年. 第 N 期 . . 总第 "QV 期 ################################################
. . . . . . [ 8 8-H+ K /M I [ ) )-H+ K /Z I [ SU P+2 K 2&-* 12U K 8*1)&- 8&) K 33% ’*++< K 8*1)&- S-)- K " LN : LL : :8- K 8*1)&- I $<(&1]0;’’;<+]RD ]7<14)U;*’2 ’*\)- K " :
. . 表 /. 0&123*4 的概念语义关系及标记符号 名词概念 反义关系 6-4&-(+( 下位关系 7(8&-(+( 上位关系 7(8*1-(+( 部分关系 $*1&-(+( 整体关系 7&’&-(+( 属性 6441;JH4* 动词概念 !反义关系 6-4&-(+( 9 下位关系 :1&8&-(+( A 上位关系 7(8*1-(+( E蕴涵关系 !-4<;’+*-4 F 致使关系 G<H)* K 又见 6’)& ,** 形容词概念 !反义关系 6-4&-(+( 9 近义关系 ,;+;’<1 A 关系性形容词 B*’<4;&-<’ 62CD $又见 6’)& ,** I 属性 6441;JH4*
另一个 它的一个作用是为 0&123*4 的各词条提供示例, 作用是作 为 经 过 语 法 和 语 义 标 注 的 语 料 库 单 独 使 用。 ,*+P&1 的原始语料是从 R1&S- 语料库中选出的, 利用各 种工具进行了语法和语义的自动标注, 最后由手工进行 了校对。 . . 根据标注内容和标注时间的不同, ,*+P&1 被分为三 部分, 放在三个目录里, 如表 N 所示。 . . 每个目录包含 G-4’;)4, :<T’;)4 和 ,4<4;)4;P) 三个文件及 4<TU;’*) 目录。其中 4<TU;’*) 目录中存放着语义标注文件。 因为我们要统计所有开放类词汇的总分布, 所以构建语 义分分布词典时只用了 R1&S-" 和 R1&S-/ 。
=(7>7,3 9,:#)$+’7#, ?17(,1( +,@ 0(1/,#2#3A B,7C().7’A ,=(7>7,3 !55!5! , "/7,+)
) ) 【 ?0$%&.(%】 ) < /&’="$ ’" 0"12’#>0’ 2&/71’40 $42’#4?>’4"1 $40’4"17#@ ?72&$ "1 !"#$%&’ 42 A#&2&1’&$ 41 ’=42 A7A <B’&# 41’#"$>0418 !"#$%&’ 2@2’&/ 71$ 2&/0"# 0"#A>2,’=& 2’#>0’>#& "B 2&/71’40 $42’#4?>’4"1 $40’4"17#@ 42 $&2481&$3 6=& 0"1’&1’2 "B 2&12&3 4$5 B49& 71$ ’78942’ B49& 7#& 7179@C&$,71$ ’=& A#"0&$>#& B"# 0"12’#>0’418 2&/71’40 $42’#4?>’4"1 $40’4"17D #@ ?72&$ "1 ’=&/ 42 $&20#4?&$ 41 $&’7493 ) ) 【 @,1A"&3$】 ) E718>78& #&2">#0&) .&/71’40 $42’#4?>’4"1 $40’4"17#@) !"#$%&’) .&/0"#
.
. . 表 N. ,*+P&1 的构成 目录名 R1&S-" R1&S-/ R1&S-@ 标注文件数 "LN VN "OO 标注内容 所有开放类词汇 所有开放类词汇 动词
. . 每个语义标注文件中, 使用类似 ,W$X 的标记语言 进行标注。对全文进行段落和句子编号。对句子内的每 但只对名词、 动 一个单词、 标点根据 0&123*4 进行标注, 词、 形容词、 副词这四种开放类词汇进行语义标注, 其它 类词汇只进行词性标注。以下为 J1 Y <L" 文件中第 /M 段 的标注, 其中包括编号为 /Z 和 /V 的两个句子:
副词概念 !反义关系! 6-4&-(+( = 导出形式 > ?*1;@*2 #1&+ >
.
[ ^ SU I . . [ SU P+2 K 2&-* 8&) K _R ’*++< K U;’* S-)- K " ’*\)- K / : N/ : L/ : : I U;’*2 [ ^ SU I . . [ SU P+2 K 2&-* 8&) K 33 ’*++< K )H;4 S-)- K / ’*\)- K " : LQ : LL : : I )H;4 [ ^ SU I . . . . [ SU P+2 K ;T-&1* 8&) K ‘3 I U&1 [ ^ SU I [ SU P+2 K 2&-* 8&) K 33 ’*++< K 2;@&1P* S-)- K " ’*\)- K " : LQ : LL : : I 2;@&1P* [ ^ SU I . . [ SU P+2 K ;T-&1* 8&) K ‘3 I U1&+ [ ^ SU I [ SU P+2 K ;T-&1* 8&) K %B% a I b;) [ ^ SU I [ SU P+2 K 2&-* 8&) K 33 ’*++< K S;U* S-)- K " ’*\)- K " : "V : LL : : I S;U* [ ^ SU I . . [ 8H-P I , [ ^ 8H-P I [ SU P+2 K 2&-* 12U K 8*1)&- 8&) K 33% ’*++< K 8*1)&- S-)- K " ’*\)- K " : LN : LL : :8- K 8*1)&- I %*<1’]0;’’;<+)]7<14)U;*’2 [ ^ SU I . . . . . . [ 8H-P I , [ ^ 8H-P I [ SU P+2 K ;T-&1* 8&) K ‘3 I ;- [ ^ SU I [ SU P+2 K 2&-* 12U K T1&H8 8&) K 33% ’*++< K T1&H8 S-)- K " ’*\)LN : LL : :8- K T1&H8 I #H’4&-],H8*1;&1]G&H14 [ ^ SU I K ": . . [ SU P+2 K 2&-* 8&) K 33 ’*++< K U1;2<( S-)- K " ’*\)- K " : /V : LL : : I #1;2<( [ ^ SU I . . . . . . . . . . [ 8H-P I D [ ^ 8H-P I [ ^)I [ ) )-H+ K /V I [ SU P+2 K ;T-&1* 8&) K %B% a I 7;) [ ^ SU I [ SU P+2 K 2&-* 8&) K 33 ’*++< K 8*4;4;&- S-)- K " ’*\)- K " : "L : LL : : I 8*4;4;&- [ ^ SU I . . [ SU P+2 K 2&-* 8&) K _R ’*++< K Pb<1T* S-)- K O ’*\)- K / : N/ : LL : : I Pb<1T*2 [ ^ SU I . . [ SU P+2 K 2&-* 8&) K cc ’*++< K +*-4<’ S-)- K / ’*\)- K N : L" : LL : : I +*-4<’ [ ^ SU I
) ) 【 摘要】 ) 提出一种基于 !"#$%&’ 自动构建语义分布词典的方法。在介绍 !"#$%&’ 系统和 .&/0"# 语料库的 基础上, 设计语义分布词典的结构。分析 .&12&3 4$5 文件和 678942’ 文件内容, 详细描述以它们为基础自动构建 语义分布词典的过程。 ) ) 【 关键词】 ) 语言资源) 语义分布词典) !"#$%&’) .&/0"#) ) ) ) 【 分类号】 ) 6:+;(
K
. . . .
. . 0&123*4 的当前最高版本是 /D " , 于 /LLM 年 N 月发 行。国内的许多研究工作是以 0&123*4"D O 版为参考的, 这里也是如此。
. .
/D /. ,*+P&1 语义标注语料库
[Q] . . ,*+P&1 是 0&123*4 附带的一个语义标注语料库。
环境中) 。这样, 表元素 ! (", ") 就表示: 词形 #" 可以表 则该词形具 示词义 $" 。如果同一表列中有两个表元素, 有两个义项, 是个多义词 ( %&’()*+( ) ; 如果同一表行中有 两个表元素, 则对应的两个词形是同义的, 相应的两个词 。 是同义词 ( ,(-&-(+) . . 在表 " 中, 词义 $" 可以简单地用词形 ( #" , #/ , … #- ) … 来表示。 0&123*4 中就用这种 同 义 词 集 合 ( ,(-5 )*4) 作为标识词汇概念的定义。 0&123*4 构造的核心是 如何表示词汇概念节点, 以及在这些概念节点之间建立 起各种语义关系。 0&123*4 将英语词汇组织为一个同义 词集合, 每个集合标明一个词汇概念; 同时力图在概念间 建立不同的指针, 表达上下位、 同义反义等不同的语义关 系。这样就构成了一个比较完整的词汇语义网络系统。 . . 0&123*4 中的语义关系如表 / 所示。
要, 计算语言学家把它应用于自然语言处理中涉及语义
[ (* G (I ] 分析的诸多领域 。因此产生了广泛影响。 !"#$%&’
的核心思想是词汇矩阵。使用同义词集来代表词汇 概 念, 在词的形式和意义之间建立起映射关系, 形成词汇矩 阵。
) ) 表 () 词汇矩阵概念示意: O( 和 O* 为同义词;O* 是多义词 词义 O( O* M( M* M+ … M/ P ( /, 1) P ((, () P ((, *) P (*, *) P (+, +) 词) ) 形 O+ … … O1
是普林斯顿大学建设的一个英语语义词典, .&/0"# 是它 附带的语义标注语料库
[I]
。本文就是以 !"#$%&’ 系统和
.&/0"# 语料库为基础自动构建英文语义分布词典。
*) !"#$%&’ 和 .&/0"# *3 () !"#$%&’ 的词汇矩阵思想
) !"#$%&’ 是普林斯顿大学认知科学实验室的 L3 M499&#
知识组织与知识管理 《 现代图书情报技术》 ) *,,F 年) 第 + 期 ) ) 总第 (IH 期 ################################################
基于 !"#$%&’ 的语义分布词典建设 $
张会平( ) 吕学强* ) 施水才* ) 李渝勤*
( ( 抚顺师范高等专科学校计算机系) 抚顺 ((+,,- ) * ( 北京信息科技大学中文信息处理研究中心) 北京 (,,(,( )
() 引) 言
) ) 语义分布词典是词义消歧、 机器翻译等自然语言处 理中的重要资源。构造语义分布词典的前题是拥有一个
[( G +] 较大的经过人工校对的语义标注语料库。 !"#$%&’
初设计并不是为计算语言学服务, 而是心理语言学家的
[ (, , (( ] 一个实验品 。上世纪 H, 年代末, 由于语义计算的需
!"#$%&’(%)#* +,-.#%)( /)$%&)0’%)"# /)(%)"#.&1 2.$,3 "# 4"&35,%
67.#* 8’)9)#*( ) :; <’,=).#** ) +7) +7’)(.)* ) :) >’=)#*
! ( "#$%&’() *(%+)’$(,’,-&./&, 0(+1/(). "#22(3(, -&./&, !!4556 ,"/7,+) 8 ( "/7,(.( 9,:#)$+’7#, ;)#1(..7,3 <(.(+)1/ "(,’() ,
[N, -] 教授指导下开发的 , 是当前世界上影响最大的英语语 [F G ;] 义词典 。!"#$%&’ 的思想产生于 *, 世纪 F, 年代末,
(;HN 年开始进行大规模语言工程的实施。 !"#$%&’ 的最
) ) 收稿日期: *,,F G ,( G +( ) ) $ 本文系国家自然科学基金项目 “ !&? 数据挖掘技术研究” (项 目编号: -,*F*,HI ) 和北京市教育委员会科技发展计划重点项目 “ 面向 大规模真实文本的数据挖掘技术” ( 项目编号: JK*,,+(,FF*,(+ ) 的研 究成果之一。