基于短语和依存句法结构的中文语义角色标注

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
f a u e f r s n e e d n y s n a t tu t r , y t x te r r n d fl ae r u i c h a e n t n e ai ns p n d so y a r e e t r so a e a d d p n e c y tc i sr c u e s n a r e a e p u e , i r t sg o p p e ep r s su i a d r l t ph c t o hi o e fs ntx te wh c a ’ a s me s m a tc r l , a e s r l ae o y f r g o p p e e a d n de ih a s me s m a tc r e Re o ni o e u t h w h tt e i h c n t s u e n i o e l b l o e c t g r o r u i c n o s wh c s u e n i ol . c g t n r s lss o t a h i
地 点、时间、方式、原 因等) S L标注 的语义角色对 回答 5 。R W
方面 ,文献【] N m a k为实验语 料,将基于动词性谓词 1以 o B n
的英文 S L方法移植于名词性谓词 的英文 S L, R R 并探索了大 量与英文名词性谓词相 关的特征 。在 中文 方面 ,文献[ 利用 2 ] 大 规模 语料 库 中文 No ak,展 开 了中文 名词 性谓 词 的 mB n
[ ywod ]S ma t oeL bl gS L ; haesnat aue dp n e c nat aue n miape i t;y t t t cue Ke r s e ni R l aei (R )p rs y tcif tr; ee d nys tci f tr; o nl rdc e sna i s utr c n ce y ce a cc r DOI 1 .9 9 .s.0 03 2 .0 i 407 : 03 6 /i n10 —4 82 1. .5 js 2
中 分 号 T36 图 类 :P 0
基 于短语 和依存 句法结构 的中文语 义角 色标 注
徐 靖 ,李军辉 ,朱巧 明 ,李培 蜂
( 苏州大 学计 算机科 学与技 术学院 ,江苏 苏州 2 5 0 ) 106 摘 要 :提 出一种基于短语和依 存句 法结构的中文语义角色标 注(R ) S L 方法 。联合短语句法特征 和依 存句法特征 ,对句 法树进行剪 枝,过
第3 7卷 第 2 4期
、0 -7 ,l3






21 年 l 01 2月
De e c mbe 01 r2 1
N O.4 2
Co mpu e t rEng n e i g i e rn
人工智能及识别技术 ・
文 编 : o _ 4 ( 12一l _ 文 标 码 A 章 号 1 o 3 80) 1 _4 0 2 2 14 6 0 献 识 :
S L相 关特征 的基础上 , R 进一步提 出了名词性谓词 S L相 关 R
( o Wh tWh n Wh r 和 Wh ) Wh , a, e , ee y问题提供 了强有力 的支持 。
这使其 应用非常广 泛 , 包括 问答系统、指代消解、信息检索 、 机器翻译等领 域,具有广泛 的应用前景 。
究相对很少 ,文献【】 7分别训练了基于短语结构和依存关系的
也不大一样。如 图 3所示 :首先是角色剪枝( 预处理) ,其次
是角色识别 ,最后是角色分类 ,并标注其类型。
剪枝 : _ 卜 \ 角色 识 别 : 过滤掉 不可能 担 当语义 角色 的 ———]/ 判 断组块 或节点 是 否担 当语义角色 —— — 组块单元 或关系节点
根据利 用的句法结构信息不 同, 以将现有 的 S L分为 可 R 3个类别 :基于组块 的 S L R ,基于短语 的 S L和基于依存关 R 系 的 S L。基于组块的 S L建立于浅层句法分析 的基础上 , R R 由于 不能获 得全部句 法分析信息 ,其性能有限 ;基 于短语的
的特征集 , 并且探索 了中文动词性谓词 S L对 中文名词 性谓 R
法实现语 义角色标 注 ,所使 用的依存树是 由短语句 法树转化 而来。文 献【】 C B转换语料和 C N L2 0 6在 T o L 0 9中文语料上, 研究了基于依 存句 法分析 的中文语义角色标注研究 ,基于正 确谓词和 自动谓词 的情况下 , C B语料 上分别得到系统性 在 T
1 概 述
语义 角色标 注(e ni R l L b l g S L 是 目前 自然 Sma t oe a e n , R ) c i 语 言处理的一个热点研究课题之一 ,是 目前语义分析 的一种 实现 方式。所谓语义 角色标 注, 就是对于给定句子 , 采用 “ 谓 词. 论元角色 ”的结构形式 ,对句 中的每个谓词( 动词 性谓词 或名词性谓词 等) 注出句子 中谓词 的相应语义角色成分 , 标 包 括 核心的语义角色( 如施事者、受事者等) 和附属语义角色( 如
融合依存关系的特征 , 分析基于依存 关系 的 S L的常用特征 R
对基于短语 的 S L的作 用。 R
科学重大基础研究基金资助项 目(8 J 500) 0K A 202 作 者简介 : 徐 靖( 8一) 男 , 16 , 9 硕士研 究生, 研方 向:自然语言 主 处理 ; 李军辉 ,博士研究生 ; 朱巧 明,教授、博士 生导师 ; 李培峰 ,
副教授
2 相关工作
由于 中文 No ak 发布得 比较 晚和其语料 的标注实例 mB n 少 ,N :e 的名词性谓词 的 S L研究也相对较少。在英文 J o文 I t R
收稿 日期 :2 1— —8 01 81 0
Ema :xj g 13 6 _ m . i un00 @13 0 l i c
n mi lS o na RL p r a ha h e e ep rom a c f7 5 % i 一 au eo ole a s e sa dg le r dc ts a p o c c iv st ef r n eo 3.3 h nF1me s r ng d np ret e n od npe iae . r
[ sr c]T i p prpo oe hn s e ni R l L b l gS ) ae np rs n e ed n ysnat t c r. o iigte Abtat hs a e rp ssfC ieeS mat oe aei (RL b sdo haeadd pn e c y t i s ut e C mbnn h l c n cc r u
X ig L u -u, HUQiomig L e- n U Jn , I nh iz a - n , I i e g J P f
( c o l f mp tr ce c S h o o Co ue i e& T c n lg , o c o ies y S z o 1 0 6 C i a S n e h oo y S o h w Unv ri , u h u2 5 0 , h n ) t
— — — — — — —
S L系统 ,使 用这 2 R 个系统 的输出作为附加特征 ,用基于 块
结构 的 S L系统标注。比起单一 的标注 ,结果得到 பைடு நூலகம்很大的 R 提高 ,而该文献也提到 了联合使用多种句法分析也是极其复 杂的。
角色分类 : 标注其所阍 角色 类别
3 联合短语和依存句法结构的中文名词性谓词
1O 7





21年 1月 2 01 2 0日
能 F 值 8 . %和 8 .2 1 43 0 1 %,在 C NL 0 o L语料上分别得到系统
性谓词 ,本文 系统共分为 3个步骤 ,但由于短语句法树和依 . 存句法树关注的句法结构不一样 ,因此在相应 的步骤处理上
性能 F 值 8 .8 1 1 %和 8 .3 6 1 %。然而 , 3 联合 多种句法结构的研
//\
Ar 0 Re I g / l
词 s L的影响。 R 除了以上描述的基于短语句法树的 S L外 , R 基于依 存句
法树 的 S L已成 为 目前研究 的热点 , R 然而其相关研究大多集
中在动词性谓词 S L上进行 。 献[] 用基于依存分析 的方 R 文 5采
S L建立在句法分析 的基础上 ,以句法成分为标注单元 ,性 R 能 较好 。随着依 存分 析研 究的不 断深 入 ,基于 依存 关 系的 S L研究也越来越受到关注 。然而 ,已往 的 S L研究大多局 R R 限于某种句 法结 构信 息,而忽略了各种句法 结构 信息之间的 互补 、探索联合不 同句法结构的 S L研究。 R
Ch n s e a tcRo eLa e i g h e eS m n i l a l  ̄ i b n Ba e n Ph a ea d De e d n y S n a tcS r c u e s d 0 r s n p n e c y t c i t u t r
SL R ,在使用正确和 自动句法树情况下 ,性能 F 值分别取得 l 7 .%和 4 . 1 6 83 %。文献[】 3进一步探索了中文名词性谓词 S L, R 该文还尝试 了借助动词性谓词的标注实例 ,用来扩展名词性 谓词 S L的训练集规模 ,以期 望提 高名词性谓词 S L性能 。 R R 不过实验结果并未如愿 ,其 原因在于动词性和名词性谓词标 注实例中的特征值 差异非常 明显 。文献【】 4在传统动词性谓词
滤句法树 上不可 能担当语义角色的组块短语单元和关系结点 , 担当语 义角色的组块或节点进行角色类别标注。基于正确句法树和正确谓 对 词 的识别结果表 明 , 方法的 S L性 能 F 值为 7 . %,优于 目前国内外的同类系统。 该 R 1 33 5 关健词 :语义 角色 标注 ;短语句法特征 ;依存句法特征 ;名词性谓词 ;句法结构
基金 项 目:国家 自然科 学基金 资助项 目 9900, 0706 683 (0204 6905, 07
10; 5) 江苏省 自然科学基金资助项 目(K 0 86) 江苏省高校 自然 B 20 1 ; 0
本文研 究了联合短语句法分析和依存句法分析 的中文名
词性谓词语义角色标注。在 基于短语 S L的基础上 ,进一步 R
3 实验语料 . 1
英文 N mB n 语料库采用与Po Bak 致 的标注框架 , o ak rp n - 由于中文 N mB n o ak继承 了英文 N m a k的标 注框架 ,因此 o Bn 与 PoB n rp a k的标注框架基 本一致 。图 1给出中文 N mB n o ak 的标注实例。其 中,谓词 “ 扩大”包含 2个核心语义 角色 , 分别为 “ 青 ̄(r0”和 “ A g) 企业规模 ( g )。 ArI”
I P
图 3 语义角色标注步骤
预处理主要是对句法树进行 剪枝 。在短语句法分析 时, 三 结MN 构 资MN : N 本 过滤掉句 法树 上最不大可能承担语义 角色 的组块短语 单元 ,
本文参照文献【—】 34的剪枝规则 ;在依 存分析 时,过滤掉句 法 树上最不可能承担语义角色 的关系结点,本文参照文献L—】 56 的剪枝方法。
相关文档
最新文档