汉语语义角色标注研究概述

合集下载

基于浅层句法分析的中文语义角色标注研究

基于浅层句法分析的中文语义角色标注研究

2 De a t n f mp t t n lL n u s is& h n t sS a ln n v r iy a r r c e a r n -r n . p rme to Co u a i a i g i t o c .P o e i a ra d U i e st .S a b k n S a l d G e ma ) c a
该 文 所 实现 的 角 色标 注 系 统 的 F 值 达 到 了 0 7 比 前 人 的 工 作 ( . 】 有 较 为 显 著 的 提 升 , 而 证 明 了 该 文 的 方 法 . 4, 07) 标 注 ; 层 句 法 分 析 ; 素 ; 词 法 浅 语 构 中 图 分 类 号 :TP 9 31 文 献 标 识 码 :A
( .I s i t fC mp t t n l1 n u s is P k n n v r i 1 n t u eo o u a i a i g it , e i g U i e s t t o c y,Be i g 1 0 7 , ia i n 0 8 1 Ch n ; j
f m a e oflbei s d n h f l yntc i pa s s s tl ot a if c o y. T h s a er e lz SRI m e h s or nc a lng ba e o t e ul s a tc r e i sil n s ts a t r i p p r a ies t od
Re e r h o s a c n Chi e e S m a tc Ro e La e i g Ba e n S a l w r i g n s e n i l b ln s d o h l o Pa sn
W AN G n。 Xi ,SU N ewe W i i 。S IZ ia g U hfn

语义角色标注与语义关系分析

语义角色标注与语义关系分析

语义角色标注与语义关系分析语义角色标注(Semantic Role Labeling,SRL)和语义关系分析(Semantic Relationship Analysis)是自然语言处理领域中的两个重要任务,旨在对句子中的词汇进行深入的语义分析和理解。

本文将介绍这两个任务的背景、方法和应用,并探讨它们在自然语言处理领域中的重要性和挑战。

一、背景在自然语言处理领域中,理解句子的深层次语义是一项重要而困难的任务。

传统的浅层次句法分析方法(如词性标注、句法分析)无法准确捕捉到词汇之间复杂而细致的关系。

因此,研究者们开始探索如何对句子进行更深入、更准确地理解。

二、方法1. 语义角色标注SRL旨在对句子中每个动词及其相关论元进行标注,以揭示动词与论元之间复杂而细致的关系。

传统方法主要基于基于规则或者基于统计机器学习模型,这些模型使用手工设计特征来捕捉动词与论元之间的依存关系。

近年来,随着深度学习的兴起,基于神经网络的方法也逐渐应用于SRL任务。

这些方法通过学习句子中词汇的分布式表示来捕捉词汇之间的语义关系。

2. 语义关系分析语义关系分析旨在识别句子中不同词汇之间的语义关系,如上位与下位、同义与反义、因果与条件等。

传统方法主要基于基于规则或者基于统计机器学习模型,这些模型使用手工设计特征来捕捉不同词汇之间的关系。

近年来,随着深度学习的兴起,基于神经网络的方法也逐渐应用于语义关系分析任务。

这些方法通过学习句子中不同词汇之间的分布式表示来捕捉不同关系。

三、应用1. 机器翻译SRL和语义关系分析在机器翻译任务中起着重要作用。

通过对源语言句子进行深层次语义分析和理解,可以更准确地理解源语言句子,并生成更准确、更自然流畅的目标语言翻译。

2. 信息抽取SRL和语义关系分析在信息抽取任务中也发挥着重要作用。

通过对句子中的词汇进行深层次语义分析和理解,可以更准确地识别出句子中的实体、关系和事件等重要信息,从而更准确地抽取出有用的信息。

面向二语教学的汉语辞书陪义标注研究

面向二语教学的汉语辞书陪义标注研究

面向二语教学的汉语辞书陪义标注研究一、引言对于二语教学而言,汉语辞书中的义项标注可能存在一定的不足,这在很大程度上会影响学习者对词语理解的准确性和全面性。

本文将进行一项关于面向二语教学的汉语辞书陪义标注的研究,探讨如何通过对汉语辞书义项的标注,提高二语学习者对词语的理解能力和语言能力。

二、汉语辞书陪义标注的现状在目前的汉语教学中,学习者通常在使用汉语辞书时,会查找词语的释义、词性、读音等信息。

在对一个词语的解释中,往往不仅仅只有一个释义,而是有多个相关义项。

这些义项中的关系往往需要学习者通过上下文来加以区分和理解。

尤其对于二语学习者来说,这种理解和运用常常会出现困难,并且有可能导致误解和理解不全面的问题。

对汉语辞书进行陪义标注,可以帮助学习者更准确地理解和运用词语,提高其语言能力。

目前,对于汉语辞书的陪义标注研究还比较欠缺,有待进一步深入。

在目前的汉语教学中,有一些较为常见的做法,比如在义项中使用数字或符号区分不同义项,或者在例句中使用标记来说明不同意思的词语的使用情况。

这些方法对于某些学习者来说或许有效,但对于一些学习者而言,还需要更具体的标注来帮助他们更好地理解和掌握词语的用法和意思。

对汉语辞书的陪义标注研究有着迫切的需求,并且有望在二语教学中发挥积极的作用。

1. 提高学习者对词语的理解和运用在二语教学中,学习者往往需要面临理解和运用词语的难题。

通过对汉语辞书进行陪义标注,可以帮助学习者更准确地理解和掌握词语的意思和用法。

通过标注不同义项之间的关系和区别,学习者可以更快地掌握词语的用法并且避免误解。

2. 提高学习者的语言能力在二语学习者的学习过程中,有效地利用工具书和教材对其语言能力的提升至关重要。

通过对汉语辞书进行陪义标注,可以帮助学习者更快地提高他们的语言能力,从而更好地应对日常生活和学习中的语言交际。

3. 促进汉语教学的发展随着全球汉语热的兴起,对汉语教学的专业化要求也不断提高。

对汉语辞书进行陪义标注的研究和应用,可以为汉语教学提供更好的教材和工具书,从而促进汉语教学的发展,提高汉语教学的质量。

基于特征的中文语义角色标注系统的开题报告

基于特征的中文语义角色标注系统的开题报告

基于特征的中文语义角色标注系统的开题报告一、研究背景中文语义角色标注是自然语言处理领域的一个重要问题,它可以为许多应用提供基础支持,如自然语言理解、机器翻译、语音识别、问答系统等。

语义角色标注就是对于句子中的每个词或短语在其上下文中所扮演的语义角色进行标注。

中文语义角色标注的过程就是在句子中找到动词或谓词短语,然后分别标注其它元素属于它所要求的语义角色。

语义角色标注是自然语言处理中的核心问题之一,是信息抽取、问答系统、机器翻译等应用的基础。

在英文语义角色标注中,已经有了许多成熟的方法,如基于规则的方法、机器学习方法、神经网络方法等。

但是中文语义角色标注由于中文本身的复杂性,其研究难度更大。

因此,中文语义角色标注的研究也变得更加重要。

二、研究目的本研究旨在开发一种基于特征的中文语义角色标注系统,通过结合基于规则的方法、机器学习方法和神经网络方法来达到更好的效果,并对比不同方法的优缺点。

三、研究内容1. 中文语义角色标注的概述:介绍中文语义角色标注的背景和意义,详细讨论中文语义角色标注问题的基本原理和流程。

2. 基于规则的中文语义角色标注方法研究:介绍基于规则的中文语义角色标注方法的原理和流程,分析该方法的优缺点以及适用场景。

3. 基于机器学习的中文语义角色标注方法研究:介绍基于机器学习的中文语义角色标注方法的原理和流程,讨论该方法的优缺点,介绍相关的算法和技术。

4. 基于神经网络的中文语义角色标注方法研究:介绍基于神经网络的中文语义角色标注方法的原理和流程,讨论该方法的优缺点,介绍相关的算法和技术。

5. 基于特征的中文语义角色标注系统开发:结合以上三种方法,设计并开发一种基于特征的中文语义角色标注系统,并对该系统进行性能测试和评估。

6. 不同方法的比较分析:通过实验数据比较分析,对比不同方法的优缺点和适用场景,提出改进和优化方案。

四、研究方法本研究采用理论与实验相结合的方法,首先对中文语义角色标注的相关理论和方法进行深入研究,然后结合实际应用需求,设计并实现一个基于特征的中文语义角色标注系统,并在实验中对其性能进行评估和对比分析。

汉语话语标记语研究综述

汉语话语标记语研究综述

汉语话语标记语研究综述话语标记语是近年来研究的一个热点,与国外的话语标记语理论相比,汉语话语标记语的研究相对薄弱。

本文以汉语话语标记语的研究为综述对象,总结了这一领域二十多年的发展情况,并在此基础上提出研究中存在的问题。

标签:汉语话语标记语角度理论个体研究研究综述作为一种语言现象,话语标记语早在上世纪50年代就引起了国外一些学者的兴趣,进入了他们的研究视野,在此后的五六十年中,话语标记理论被不断地充实和发展,虽然在很多问题上人们至今也未能取得一致的看法,但就其研究的广度和深度而言,国外的话语标记语研究已经具备了一定的规模,各研究阵营也基本上形成了自己的理论体系①。

与之相比,国内的相关研究明显滞后。

在国内,对话语标记语普遍的关注始于上世纪90年代,其理论成果主要集中在英语语言学方面,研究队伍也以英语语言学界的学者为主,汉语话语标记语的研究则相对薄弱。

2000年以后,汉语的话语标记语逐渐为人们所重视,一些学者,尤其是一批年轻的硕士、博士研究生致力于汉语话语标记语理论体系的构建和话语标记语的个体分析,并取得了一些成果。

本文以汉语话语标记语的研究成果为综述对象,以期彰显当前汉语话语标记语研究领域的成绩与不足。

一、名称、定义、范围的界定汉语中有这样一种语言现象,句子或者话语中的一些词语跟处在其前后的词语没有结构上的关系,将它们从句子或者话语中抽离出来也不会影响原句或者原话语的语义内容,但是,在句子和话语的构建中它们是不可或缺的部分。

如例(1)、(2)中的斜体部分②:(1)事情明摆着,你看,我们还能不管?(2)A:刚才和我妈吵起来了,说我这不对那不对的。

B:父母说说你也都是为了你好。

A:行了,不想说了,你吃饭吧。

语言中的这一类单位,最初被人们称为“插入语”或“独立成分”。

随着国际上话语标记语研究的蓬勃发展,汉语语言学界的学者们也开始尝试着用新的视角来审视这类语言单位。

国外的学者从各自的研究角度出发,赋予了这类语言单位一系列名称,在众多名称中,汉语语言学界的学者们主要采纳了以下三种:1.话语标记语(discourse markers)。

中文名词性谓词的语义角色标注的研究

中文名词性谓词的语义角色标注的研究
进 行展望
二 、 料 库 语
( r1 这 两个 语义 角 色是 稳定 的 。 据 S e ( 0 7 Ag) 根 h n等 2 0 )
的 统 计 . rO和 A g Ag rI占 到 了 各 种 语 义 角 色 总 量 的 要 想 进行 语义 角 色标 注 .需 要好 的语 料 资源 的支 8 %以上 。而 且 . 5 目前 绝 大 多数 的 S L工 具 对 A g R rO和 rl Ag 5 持 。 目前 ,英 语 较 为 知 名 的 浅 层 语 义 分 析 资 源 为 A g 的 标 注结果 较好 . rO的准 确率都 达 到 了 8 ' r pa e n fJ h ” . 词 lc me tB n 和 B ns e lc me to o n 中 名
相 对 而言 . 名词 性谓 词 S L的研究 要 少得 多 , R 其原 rpae n 便 是 谓词 , e e leme t B n是 A G , 示 替代 者 , h R O表 J n o R 表 因在 于 名 词性 谓 词 S L的大 规 模 标 注 语 料 的发 布要 是 A G1 示被 替代 者 R
除 英 语 外 .许 多 其 它语 言也 建 立 了各 自的语 义 角 究 通常 采用 与 动词 S L的相 同框 架 . 究 的主要 内容 色标 注 库 ,例 如 :A S R 研 S L A是 德语 版 的 Fa e e;rg e rm N tPa u e e d n vTe b n 在 于探 索适 合 于名 词 性谓 词 S L的特 征 集 . R 其代 表 工 D p n e c re a k项 目进 行 了大 量 的 句 法 和 语 义 捷 甚 C iee " 作 有 Pa h n等 (0 4 、 a g和 N ( 0 6 、 i rd a 2 0 )J n i g 2 0 )Lu和 N 标 注 ( 克 语 ), 至包 括 指 代 消解 的标 注 等 ; hn s g ( 0 7 以及 G re 等 (0 9 。 20 ) eb r 2 0 ) Po B n rp a k以 及 C ieeN m a k分 别 是 U e n基 于 hn s o B n pn hn s e n T eB n rp a k 本 文结构 :文章第 2部 分简 单介 绍 中文语 义角 色 C iee P n re a k标 注 的 . 和 Po B n 以 及

基于机器学习的中文语义角色标注算法研究

基于机器学习的中文语义角色标注算法研究

基于机器学习的中文语义角色标注算法研究中文语义角色标注(Chinese Semantic Role Labeling,简称中文SRL)是自然语言处理领域的一个重要任务,旨在识别出句子中的谓词及其对应的语义角色。

随着机器学习技术的发展,基于机器学习的中文SRL算法逐渐成为主流。

本文将对基于机器学习的中文SRL算法进行深入研究,并探讨其在自然语言处理应用中的潜在价值。

首先,本文将介绍中文SRL任务及其在自然语言处理领域的重要性。

随着人工智能技术的迅猛发展,自然语言处理已经成为一个热门研究领域。

而中文SRL作为其中一个重要任务,对于深入理解句子结构、推理推断以及问答系统等应用具有重要意义。

接着,本文将详细介绍基于机器学习的中文SRL算法,并分析其核心思想和技术流程。

基于机器学习的方法主要分为两个阶段:特征提取和角色分类。

特征提取阶段通过从句子和谓词周围提取各种特征来表示句子结构和上下文信息。

角色分类阶段使用机器学习模型,如支持向量机(SVM)或深度学习模型,来对每个候选角色进行分类。

本文将详细介绍常用的特征提取方法和机器学习模型,并分析它们的优缺点。

然后,本文将对基于机器学习的中文SRL算法进行实验评估,并与其他相关方法进行比较。

实验评估主要包括数据集选择、评价指标、实验结果分析等内容。

本文将选择一些常用的中文SRL数据集,并使用准确率、召回率、F1值等指标来评估算法性能。

同时,本文还将与其他相关方法进行比较,如基于规则的方法和基于深度学习的方法,以验证基于机器学习的中文SRL算法在性能上的优势。

接下来,本文将探讨基于机器学习的中文SRL算法在自然语言处理应用中的潜在价值。

中文SRL任务可以应用于很多自然语言处理任务中,如信息抽取、问答系统和句子理解等。

通过准确地识别出句子中各个成分之间的语义关系,可以提高这些任务在语义理解和推理方面的性能。

最后,在总结部分,本文将总结基于机器学习的中文SRL算法的研究现状和存在的问题,并提出未来的研究方向。

汉语语义角色研究述评

汉语语义角色研究述评
ห้องสมุดไป่ตู้
自然 语 言理 解 , 键 是 语 义 理 解 , 法 分 析 只是 一 种 手 关 句 段 。因 此 , 义 分 析 在 自然 语 言 理 解 中 占据 中 心 地 位 。计 语 算 语 言 学 工 作 者 在 语 言 工 程 的 实践 中 感 受 到 语 义 分 析 的迫 切 需 要 , 想 使 处 理 系 统 既 有 计 算 机 的速 度 又 具 备 人 类 的 要 智 能 , 不 能 没 有 一 定 深 度 的语 义 分 析 。 要 想 进 行 深 层 的 就 语 义 分 析 、 义 理解 , 必 须 进 行 语 义 角 色 的 标 注 。在 当前 语 就 的 信 息 处 理 界 , 国学 者 对 语 义 角 色 问 题 产 生 了 越 来 越 浓 各 厚的学术兴趣 。 汉 语 语 义 角 色 的 研 究 轨 迹 汉 语 语 法 学 中第 一 次 全 面 描 写 句 子 的语 义 结 构 及 构 成 的 著 作 是 吕叔 湘 先 生 的《 国 文 法 要 略 》 中 。其 中讲 到 “ 词 ” 起 和“ 词 ” 说 : 我 们 在 句 法 上 把 动 作 的 起 点 称 为 ‘ 词 ’ 止 时 “ 起 , 把 动作 的 止 点 称 为 ‘ 词 ’ 止 。这 两 个 名 称 都 是 跟 着 动 词 来 的, 有动作 , 没 就无 所 谓 起 和 止 。 ( 叔 湘 , 9 1 书 中 还 提 ”吕 14 ) 出 了“ 切 补 词 … ‘ 借 补 词 ” “ 所 补 词 ” 1 关 凭 和 方 等 4种 补 词 , 大致 相 当 于 F l o e 出 的 几 种 深 层 格 。尽 管 此 书研 究 语 im r 提 l 义 成 分 的 出发 点 是 为 了帮 助 辨 别 主 语 或 宾 语 等 句 法 成 分 , 看 施 动 和 受 动关 系 也 仅 着 眼 于 动 词 跟 主 语 的 关 系 , 不 可 但 否 认 其 中蕴 含 了 中 国格 语 法 思 想 的 萌 芽 。丁 声 树 等 的 《 现 代 汉 语 语 法 讲 话 》 在 对 宾 语 进 行 分 析 时 就 指 出 : 有 各 种 中 “ 不 同 的动 词 , 此 动 词 跟 宾 语 也 有 各 种 不 同 的 关 系 。 … … 因 就 是 同一 个 动 词 也 常 带 各 种 关 系 不 同 的 宾 语 。 他 们 还 认 ” 为 : 主 语 对 谓 语 讲 , 时 候 是 ‘ 事 ’ 有 时 候 是 ‘ 事 ’ 有 “ 有 施 , 受 , 时 既 不 是 ‘ 事 ’ 也 不 是 ‘ 事 ’ 只 是 谓 语 陈 述 的 对 象 。 施 , 受 , ” ( 丁声 树 , 9 1 16 ) 上世纪 8 O年 代 以 后 中 国 学 者 对 汉 语 的 语 义 角 色 进 行 了更 深 入 的讨 论 , 关 语 义 成 分 的 研 究 进 入 了新 的 阶 段 。 有 朱 德 熙 区分 了句 子 中各 成 分 之 间 的 显 性 语 法 关 系 和 隐 性 语 法 关 系 。所 谓 隐 性 的语 法 关 系就 是 指 “ 事 ” 受 事 ” 工具 ” 施 “ “ 等 语 义 角 色 。汉 语 与 俄 语 、 语 等 屈 折 语 不 同 , 乏 形 态 标 英 缺 志 和 形 态 变 化 , 汉 语 里 识 别 语 义 角 色 主 要 靠 语 序 与介 词 。 在 李 临 定 指 出 : 具 有 同一 语 义 角色 的词 语 町 以 处 在 不 同 的 句 “ 法 位 置 上 。 ( 临定 , 9 6 史 有 为 比 较 了“ ” “ ”的 不 ”李 18 ) 格 与 价 同 , 出有 时尽 管价 数 相 同 , 实 现 后 的“ ” 句 法 语 义 关 指 但 格 其 系 是 不 同 的 。胡 裕 树 、 斌 等 提 出 了 句 法 、 义 、 用 三 个 张 语 语 平 面 , 底 摆 脱 了语 义 成 分 是 句 法 成 分 的 附 庸 的 观 念 。 同 彻 时 , 换 生 成 语 法 、 语 法 、 价 语 法 、 汇 功 能语 法 等 国 外 转 格 配 词

基于语义组块分析的汉语语义角色标注

基于语义组块分析的汉语语义角色标注

第23卷 第5期2009年9月中文信息学报JOU RNAL OF CH INESE INFORM AT ION PROCESSIN GV ol.23,No.5Sep.,2009文章编号:1003-0077(2009)05-0053-09基于语义组块分析的汉语语义角色标注丁伟伟,常宝宝(北京大学计算语言学研究所,北京100871)摘 要:近些年来,中文语义角色标注得到了大家的关注,不过大多是传统的基于句法树的系统,即对句法树上的节点进行语义角色识别和分类。

该文提出了一种与传统方法不同的处理策略,我们称之为基于语义组块分析的语义角色标注。

在新的方法中,语义角色标注的流程不再是传统的/句法分析)))语义角色识别)))语义角色分类0,而是一种简化的/语义组块识别)))语义组块分类0流程。

这一方法将汉语语义角色标注从一个节点的分类问题转化为序列标注问题,我们使用了条件随机域这一模型,取得了较好的结果。

同时由于避开了句法分析这个阶段,使得语义角色标注摆脱了对句法分析的依赖,从而突破了汉语语法分析器的时间和性能限制。

通过实验我们可以看出,新的方法可以取得较高的准确率,并且大大节省了分析的时间。

通过对比,我们可以发现在自动切分和词性标注上的结果与在完全正确的切分和词性标注上的结果相比,还有较大差距。

关键词:计算机应用;中文信息处理;语义角色标注;语义组块分析;条件随机域;序列标注中图分类号:T P391 文献标识码:AC hinese Semantic Role Labeling Based on Semantic C hunkingDING Weiwei,CHAN G Baobao(Institute of Computational Ling uistics,P eking U niver sity,Beijing 100871,China)Abstract:In recent years,the Chinese SRL (semantic ro le labeling )has a roused the intensiv e att ention.M any SRLsy stems have been built on the par sing tr ees,in w hich the constituents of the sentence str ucture are identified and then classif ied.In contrast,this paper establishes a semantic chunking based method which chang es the SRL task from the traditional /parsing -semantic ro le ident ificatio n -semantic ro le classificatio n 0pr ocess into a simple /semant ic chunk identification -semantic chunk classificatio n 0pipeline.T he semantic chunking,w hich is named after the syn -tactic chunking,is used to identify the semantic chunk,namely the arg uments of the v erbs.Based on the semant ic chunking result,the Chinese SR L can be changed into a sequence labeling pr oblem instead of the classificatio n prob -lem.W e a pply the co nditional r andom fields to the pr oblem and g et bet ter perfo rmance.A long w it h the remo val o f the parsing stage,the SRL task avoids the dependence o n parsing,which is alwa ys t he bottleneck both of speed and pr ecision.T he ex per iments hav e sho wn that the outper for ms of our appro ach pr evio usly best -r epo rted methods on Chinese SRL with an impressive time reduction.We also show that the pr oposed method w o rks much better on go ld wo rd seg mentat ion and P OS tag ging than o n the automatic r esults.Key words:co mputer application;Chinese info rmatio n pr ocessing ;semant ic ro le labeling;semantic chunking ;con -ditional r andom fields;sequence labeling收稿日期:2008-08-28 定稿日期:2008-10-09基金项目:国家自然科学基金资助项目(60303003);国家社会科学基金资助项目(06BYY 048)作者简介:丁伟伟(1985)),男,硕士生,主要研究方向为自然语言处理;常宝宝(1971)),男,副教授,主要研究方向为自然语言处理。

中文名词性谓词语义角色标注的特征研究

中文名词性谓词语义角色标注的特征研究
第 3 卷 第 6期 1
21 0 1年 6月
计算机应 用
J un l fC mp trA piain o r a o o ue p l t s c o
Vo . 1 No 6 13 .
Jn 0 1 u e2 l
文章编号 :0 1 0 1 2 1 )6—17 0 10 —9 8 (0 1 0 6 1— 4
关 键 词 : 义 角 色标 注 ; 征 ; 词 性 谓 词 ;名 词 性 谓 词 ; 构 化 信 息 语 特 动 结
中图分 类号 : P 1 T 31
文献标 志码 : A
Fe t e o e a tc r l a ln fn m i lp e c ts i Ch ne e a ur sf r s m n i o e lbei g o o na r dia e n i s
(. 1 苏州大学 计算机科学 与技术 学院 , 江苏 苏州 2 5 0 ; 2 江苏省计算机信息处理技术重点实验室 , 10 6 . 江苏 苏州 2 50 ) 1 06
摘 要 : 在语 义角色标 注 中, 相对 于动词 性谓词 , 词性谓 词与其 角 色之 间的结构 更灵 活和 复杂 。为 了更好地捕 名 获这 些结构化信息 , 通过 对名词性谓词语 义角 色标 注相 关特征集 的研 究 , 索 了新 的单词特征 和 句法特征 , 于名词 探 用 性谓词语 义角 色标注 。基 于正确 句法树 和正确谓词识别 , 中文名 词性谓 词语 义角 色标 注 的 F 1值 达到 了 7 .9 优 于 39 , 目前 国 内外的 同类 系统 ; 于 自动句法树和 自动谓词识 别 , 能 F 值 为 5 .6 基 性 1 7 1 。最后 , 讨论 了使 用动词性谓 词的特征 实例来提 高名词 性谓 词 S L的准确率 , R 然而性能的提 高并不是很 明显。

面向二语教学的汉语辞书陪义标注研究

面向二语教学的汉语辞书陪义标注研究

面向二语教学的汉语辞书陪义标注研究随着中国的崛起和国际交流的增多,学习汉语作为第二语言的人数也越来越多。

为了帮助这些学习者更好地理解和运用汉语,研发一本面向二语教学的汉语辞书成为研究的一个热点。

其中一个重要的研究方向就是辞书中的义标注。

义标注是指在辞书中对词语的义项进行解释和标注,以帮助读者更准确地理解词语的意思。

对于二语学习者来说,他们通常需要更详细的解释和例句来帮助他们理解汉语词语的用法。

在面向二语教学的汉语辞书中进行义标注成为必不可少的一环。

义标注的内容应当包括以下几个方面:1. 定义解释:对每个义项给出准确而简明的解释,帮助二语学习者理解词语的基本意思。

2. 运用场景:给出词语在不同场景下的使用情况,通过实际例句展示词语的用法,帮助学习者更好地掌握词语的应用范围。

3. 同义词辨析:对于容易混淆的词语,在义标注中进行比较和辨析,帮助学习者区分它们的细微差异。

4. 语法搭配:给出词语与其他词语的常见搭配,帮助学习者理解词语的语法用法,并学会正确地搭配使用。

5. 语用提示:给出一些特殊场合下的用法提示,帮助学习者了解不同语境下的使用要求。

在进行义标注时,需要注意以下几个问题:1. 目标学习者:义标注的内容和形式需要适应不同程度的学习者,从初级到高级的学习者都应该能够理解和使用辞书中的义项解释。

2. 标注内容的精准性:义项解释和例句中的内容应准确无误,避免给学习者带来误导或困惑。

3. 语言简明扼要:义项解释应简明扼要,尽量避免使用复杂的语言和长句。

例句应简洁清晰,突出重点。

4. 实用性和多样性:例句应当具有实际应用的意义,涵盖多个领域和场景,以帮助学习者更好地理解和掌握词语的用法。

面向二语教学的汉语辞书陪义标注研究,旨在帮助二语学习者更好地理解和运用汉语词语。

通过准确的解释、丰富的例句和明晰的语法搭配,使辞书成为学习者的有力助手,提高学习者的汉语水平和应用能力。

这一研究方向对于促进汉语的国际传播和推动汉语教学的发展具有重要的意义。

现代汉语语义角色研究述评

现代汉语语义角色研究述评

现代汉语语义角色研究述评作者:段潇雪来源:《文教资料》2012年第27期摘要:语义角色作为深层语义分析的一个重要内容,是进一步语义研究的基石。

本文从理论研究和现有汉语语义标注语料库两个方面,分析了语义角色范畴划分的成果与分歧。

在总结当前语义角色范畴划分困难的基础上,提出今后这一研究领域的发展趋势。

关键词:语义角色范畴划分困难趋势随着语言学研究的进一步深入,人们越来越认识到语言的本质共性是语义性。

借助于句法分析的手段,自然语言理解的研究也必须建立在语义理解的基础上。

语言工程对语义分析的迫切要求充分说明要使计算机具有人类的智能和高速的分析能力,就必须进行深度的语义分析。

目前现代汉语的语义角色研究取得了一定的成绩,但对语义角色的分类和鉴别仍然存在较大的分歧。

一、语义角色的划分与鉴别(一)理论上的研究“语义格”的提出将语义分析引向深入,然而语义格数目的不确定也是学者们对这一理论诟病的主要原因。

Fillmore(1968)首先提出了6种语义格,之后又增补了10个,但语义格的数量难以确定,有些NP如何划类仍存在争议。

显然这16种格是不够的,“不能做到相同的格表示相同的关系,不同的格表示不同的关系。

有些不同的关系不得不用同一种格描述”(徐烈炯,1995)。

Dowty(1991)把题元划分为两个大类,即“原型施事”、“原型受事”。

然而,语义角色划分得过于简单就不能很好地区分句子的语义特点。

同样这种以原型理论为背景的语义角色划分是否完全适合于汉语的特点也值得商榷。

事实上用“语义角色”的概念来研究语义也并不只是西方学者的创见。

吕叔湘在《中国文法要略》中所提的“起词”、“止词”以及14种补词的区分,都已经蕴含了汉语语法研究的格语法思想。

任善铭(1956)认为“施受关系和结构在句子里本来都存在,两者的存在本身并没有抵触。

在认识和分析句子的时候,两者都应该适当的应用”。

丁声树和等(1961)也指出“有各种不同的动词,因此动词跟宾语也有各种不同的关系。

基于依存关系的中文名词性谓词语义角色标注研究

基于依存关系的中文名词性谓词语义角色标注研究
第2 8卷第 5期
21 0 1年 5月
计 算机 应 用与软 件
Co u e mp tr Appi a in nd S fwa e l to s a ot r c
Vo . 128 No. 5 M a 01 v2 1
基 于 依 存 关 系 的 中 文 名 词 性 谓 词 语 义 角 色 标 注 研 究

竺/
L + 2候选谓词 +中心词 。( l s 合作 + 流) 交
2 3 角 色标 注特征选 取 .
特征一直是决定语义角色标注系统性能的重要因素。本 文 在角色识别和角色分类 中使用相同 的特征集 。参考基于短语结 构句法分析 的系统 , 采用贪心策 略 对角色进行选 择。就是根 据 每个 候选特征在开 发集上 对角 色识别 ( 或分类 ) 务 的贡献 任
Absr c ta t S ma tc e n i Roe l La ei g s n m p ra t o o n o Na u a La ua e b ln i a i ot n c mp ne t f trl ng g Pr c s i . I p a s c iia r l i o e sng t l y a rtc l oe n ma h n c ie
收稿 日期 :00一 1 2 。国家 自然科 学基 金 (0 7 10 ; 2 1 O 4 6 83 5 ) 江苏省
高 校 省 级 重点 实 验 室 开 放 课 题 ( J0 2 。 袁 晓 虹 , 士 生 , 研 领 域 : K S9 5) 硕 主
本文采用动词性谓词 S L相关研究 方法 , R 构建 了一个 基于 依存关系 的名词性谓词 S L系统 , R 进行 研究。
Yua a h n W a g Ho gi g W a g Bu a g Z o o o g n Xio o g n n ln n k n h u Gu d n

基于短语和依存句法结构的中文语义角色标注

基于短语和依存句法结构的中文语义角色标注
f a u e f r s n e e d n y s n a t tu t r , y t x te r r n d fl ae r u i c h a e n t n e ai ns p n d so y a r e e t r so a e a d d p n e c y tc i sr c u e s n a r e a e p u e , i r t sg o p p e ep r s su i a d r l t ph c t o hi o e fs ntx te wh c a ’ a s me s m a tc r l , a e s r l ae o y f r g o p p e e a d n de ih a s me s m a tc r e Re o ni o e u t h w h tt e i h c n t s u e n i o e l b l o e c t g r o r u i c n o s wh c s u e n i ol . c g t n r s lss o t a h i
地 点、时间、方式、原 因等) S L标注 的语义角色对 回答 5 。R W
方面 ,文献【] N m a k为实验语 料,将基于动词性谓词 1以 o B n
的英文 S L方法移植于名词性谓词 的英文 S L, R R 并探索了大 量与英文名词性谓词相 关的特征 。在 中文 方面 ,文献[ 利用 2 ] 大 规模 语料 库 中文 No ak,展 开 了中文 名词 性谓 词 的 mB n
[ ywod ]S ma t oeL bl gS L ; haesnat aue dp n e c nat aue n miape i t;y t t t cue Ke r s e ni R l aei (R )p rs y tcif tr; ee d nys tci f tr; o nl rdc e sna i s utr c n ce y ce a cc r DOI 1 .9 9 .s.0 03 2 .0 i 407 : 03 6 /i n10 —4 82 1. .5 js 2

语义角色研究述评

语义角色研究述评

语义角色研究述评语义角色指谓词和句子中其他成分之间的语义结构关系,从某种意义上说,语义角色是语言学家对句子中有关结构成分之间的意义关系的一种分类。

语义角色的划分和确定一直是语言学家们比较关心的一个问题,目前学界也取得了一定的研究成果。

随着研究的深入,深层的语义分析将成为未来研究的重点,为达到这一目标,我们必须进一步深入研究语义角色的体系,明确语义角色的分类和界定标准。

标签:语义角色分类界定标准人类习惯于将感知到的世界切割成各种事物、属性、状态、动作、行为、过程、事件,并且认为它们之间存在各种关系,通过这些关系又可将它们组合、联结起来。

这种思维方式通过自然语言表达的语义关系与其他类型的概念得到了充分的反映。

人们对语义角色的研究已有一定历史,并已取得不少成果。

目前语义角色经常出现于各种理论模式与工程项目中,尤其对自然语言信息处理具有至关重要的作用。

但是,多年来各家设立的名称和界定标准总是不能一致。

这个问题至今依然困扰着一些研究者。

本文试图对前人的研究作出评述,以期对未来的语义角色研究提供参考。

一、语义角色的内涵语义角色这一概念可以追溯到20世纪60年代Gruber和Fillmore提出的表示述语跟与之相关名词短语之间的语义关系的格(case),又称之为语义格(semantic case)。

格语法模式明确了过去各种转换生成语法事实上都没有处理过的一个重要问题,这就是英语的各种语法关系跟语义角色的相互联系十分松散,因此为了对英语里配价的句法和语义作完整的说明,除了语法关系还需要增加某些其他术语。

这就是Fillmore关于“格(case)”的概念。

在中国早期的语义语法研究中我们也可以看到与“语义角色”相关的内容。

吕叔湘(1941)对几种施事和受事分别充当主宾语的情况进行了分析。

丁声树(1961)指出:有各种不同的动词,因此动词跟宾语也有各种不同的关系。

80年代以后中国学者对汉语的语义角色进行了更深入的讨论。

面向二语教学的汉语辞书陪义标注研究

面向二语教学的汉语辞书陪义标注研究

面向二语教学的汉语辞书陪义标注研究陪义标注是指在词条中对该词的不同义项进行标注,以方便读者理解、区分和运用。

对于英语词典来说,陪义标注已经成为了标配。

在汉语词典中,陪义标注同样非常必要,因为汉语的语义变化较为复杂,而且不同词的同一义项较多,给学习者造成了很大的困扰。

目前,一些汉语辞书已经开始加强陪义标注工作,比如《现代汉语词典》、《新华字典》等,但是这些词典中的陪义标注仍然存在一些问题。

首先,标注过于简单化,只是罗列出单词的各种义项,没有很好地解释和区分。

其次,标注不够全面,对于一些常见的多义词,也没有标注出所有的含义。

最后,标注的适配性不高,没有针对二语学习者的特殊需求进行优化。

因此,需要对面向二语教学的汉语辞书陪义标注进行深入的研究。

具体来说,需要解决以下几个问题:一、如何提高标注的精准度?为了使陪义标注更加精准,我们可以采用多种标注方式,并结合语境进行标注。

比如可以使用例句、短语、搭配等方式来阐释和区分不同义项。

此外,我们还可以利用语料库等工具,从大量的语言数据中获取更准确的标注信息。

针对标注不够全面的问题,我们可以建立完整的多义词库,对每个词的各个义项进行全面标注。

此外,我们还可以通过对学习者的词汇使用情况进行分析,针对学习者更常用的义项进行重点标注。

针对标注的适配性问题,我们可以考虑采用多种标注方式,比如汉语拼音、英语翻译、图片、视频等方式,以满足不同层次、不同文化背景的学习者的需求。

此外,我们还可以利用人工智能等技术,根据学习者的学习情况和语言水平,自动调整陪义标注的难度和内容。

总之,面向二语教学的汉语辞书陪义标注研究还有很大的进展空间。

只有不断地优化和完善陪义标注,才能更好地满足学习者的需求,促进外国人学习汉语的发展。

基于语义角色标注的文本关系识别研究

基于语义角色标注的文本关系识别研究

基于语义角色标注的文本关系识别研究近年来,随着自然语言处理技术的不断发展,文本关系识别成为了研究的热点之一。

文本关系识别旨在从文本中识别出实体之间的关系,对于理解文本中的语义关联具有重要意义。

而语义角色标注作为一种重要的语义分析技术,被广泛应用于文本关系识别中。

语义角色标注是指将句子中的每个词语标注为其在句子中所扮演的语义角色,如施事者、受事者、时间等。

通过语义角色标注,可以更准确地捕捉到句子中的语义信息,从而为文本关系识别提供有力支持。

在文本关系识别中,语义角色标注的应用主要体现在两个方面。

首先,语义角色标注可以帮助识别出实体之间的关系。

通过标注每个词语的语义角色,可以确定实体之间的语义关系,如主谓关系、动宾关系等。

其次,语义角色标注可以辅助关系类型的分类。

通过分析每个词语的语义角色,可以提取出与关系类型相关的特征,从而实现关系类型的分类。

在进行文本关系识别时,语义角色标注面临一些挑战。

首先,语义角色标注需要考虑到词语的上下文信息。

同一个词语在不同的句子中可能扮演不同的语义角色,因此需要通过上下文信息来确定其具体的语义角色。

其次,语义角色标注需要解决一词多义的问题。

同一个词语可能有多种不同的语义角色,需要根据具体的语境来进行准确标注。

最后,语义角色标注需要解决标注错误的问题。

由于语义角色标注是一种人工标注的过程,存在标注者主观判断的问题,因此需要对标注结果进行验证和修正。

为了解决上述挑战,研究者们提出了一系列的方法和技术。

其中,基于机器学习的方法是目前应用最广泛的一种方法。

该方法通过构建特征向量,并利用机器学习算法进行分类,从而实现语义角色标注。

此外,近年来,深度学习技术的发展也为语义角色标注带来了新的机遇。

通过利用深度学习模型,可以更准确地捕捉到句子中的语义信息,从而提高语义角色标注的准确率。

除了基于机器学习和深度学习的方法,还有一些其他的研究方向。

例如,基于知识图谱的方法可以通过构建实体之间的关系图谱,来辅助文本关系识别。

机器翻译中的语义角色标注技术研究

机器翻译中的语义角色标注技术研究

机器翻译中的语义角色标注技术研究语义角色标注是自然语言处理领域中一项重要的任务,它可以帮助机器理解句子中词语之间的关系和语义角色。

随着机器翻译技术的不断发展,语义角色标注在机器翻译中的应用也越来越广泛。

本文旨在探讨机器翻译中的语义角色标注技术的研究现状和发展趋势。

首先,我们需要了解什么是语义角色标注。

语义角色标注是指对句子中的每个词语进行标注,标明其在句子中所扮演的语义角色,如主语、宾语、谓语等。

通过语义角色标注,机器可以更准确地理解句子的含义,从而提高翻译质量和准确性。

在机器翻译中,语义角色标注技术可以帮助机器更好地理解句子的结构和语义,从而提高翻译的准确性和流畅度。

通过标注句子中的语义角色,机器可以更准确地捕捉句子中词语之间的关系,从而更好地理解句子的含义。

这对于解决翻译中的歧义和语义模糊问题非常重要。

近年来,随着深度学习和神经网络技术的快速发展,语义角色标注技术在机器翻译中的应用取得了巨大进展。

传统的基于规则和统计的语义角色标注方法已经逐渐被深度学习方法取代,深度学习方法在语义角色标注任务上取得了更好的性能和效果。

目前,在机器翻译中,语义角色标注技术主要有两种应用方式:一种是将语义角色标注作为预处理步骤,用于提取句子的语义信息,然后输入到机器翻译模型中进行翻译;另一种是将语义角色标注和机器翻译模型集成在一起,共同进行句子的翻译和语义角色标注。

在实际应用中,语义角色标注技术的性能和效果受到多方面因素的影响,如语料库的质量、标注准确性、模型的选择等。

因此,如何提高语义角色标注技术在机器翻译中的性能和效果是一个重要的研究课题。

未来,随着人工智能技术的不断发展和深入,语义角色标注技术在机器翻译中的应用前景将更加广阔。

我们可以通过引入更多的语义信息和知识库,结合深度学习和神经网络技术,不断提升语义角色标注技术的性能和效果,进一步改善机器翻译的质量和准确性。

让我们总结一下本文的重点,我们可以发现,机器翻译中的语义角色标注技术是一项重要的研究课题,它可以帮助机器更好地理解句子的结构和语义,提高翻译的准确性和流畅度。

面向二语教学的汉语辞书陪义标注研究

面向二语教学的汉语辞书陪义标注研究

面向二语教学的汉语辞书陪义标注研究随着越来越多的外国人学习汉语,汉语教学的需求也越来越大。

对于学习汉语的外国学生来说,汉语辞典是一种重要的工具。

在使用汉语辞典时,有时会遇到一些汉字有多种义项的情况,这时就需要辞典的陪义标注了。

而对于二语教学而言,陪义标注也非常重要,因为它可以帮助学生更准确、更快速地学习汉语。

本文将探讨面向二语教学的汉语辞书陪义标注研究。

首先将介绍汉语辞书陪义标注的概念和作用,然后分析当前汉语辞书陪义标注的问题以及未来的发展方向。

一、陪义标注的概念和作用陪义标注是指在一个词条下标注该词条中不同义项的标志。

对于词义较多的汉字来说,陪义标注可以帮助用户快速准确地找到需要的义项,避免混淆。

此外,陪义标注还可以帮助学生理解汉语。

在阅读汉语文本时,学生可能会遇到自己不认识的汉字,通过使用陪义标注,学生可以更快速地掌握汉字的不同含义,有利于学习和记忆。

随着汉语的日益发展,汉语辞书的陪义标注也在不断完善。

但是,现有的陪义标注还存在以下问题:1. 标注方式不一致。

不同的汉语辞书采用的标注方式不一致,给用户带来了不便。

2. 标注内容不够全面。

虽然现有的陪义标注已经可以准确地标出汉字的不同含义,但是对于很多汉字的用法和搭配,却没有作出详细的标注,这给学生学习汉语造成了困难。

3. 标注难度大。

对于初学者来说,汉字的意义和用法并不容易理解,因此他们可能会遇到标注难度较大的情况。

三、未来汉语辞书陪义标注的发展方向为了更好地服务于二语教学和提高汉语辞书的效率,以下是汉语辞书陪义标注的发展方向:2. 增加标注内容。

对于一些汉字的用法和搭配,需要增加更加详细的标注,以便学生更好地理解和应用汉语。

3. 降低标注难度。

为初学者提供适合他们理解的标注,降低他们的学习难度。

总之,随着汉语的不断普及和发展,汉语辞书陪义标注的发展也将越来越重要。

二语教学需要更加准确、全面、易于理解的陪义标注,才能更好地服务于学生的学习和教育需求。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

中文语义角色标注研究概述南京师范大学文学院陈菜芳1摘要:语义角色标注是实现浅层语义分析的一种方式,在问答系统、机器翻译和信息抽取等方面得到了成功地应用,是目前自然语言理解领域中比较热门的一个研究方向。

本文介绍了中文语义角色标注语料资源、中文语义角色标注发展现状以及对中文语义角色标注未来工作进行了展望。

关键词:浅层语义分析语义角色标注资源语义角色标注0 引言语义角色的自动标注是对句子中谓词所支配的语义角色进行自动标注,是对句子进行浅层语义分析的一种方法。

语义角色标注技术在大规模语义知识库的构建、问答系统、机器翻译和信息抽取等领域都有着广泛的应用,其深入的研究对自然语言处理技术的整体发展有着重要意义。

下面主要从三个方面来介绍中文语义角色标注研究状况:首先,介绍相关的中文语义角色标注语料资源;其次,描述了中文语义角色标注的发展现状;最后,对中文语义角色标注未来的工作进行展望。

1 中文语义角色标注语料资源语义角色标注离不开语料资源的支持。

英语较为知名的语义角色标注资源有FrameNet、PropBank和NomBank等。

中文语义角色标注语料资源主要是从英语语义角色标注语料资源的基础上发展起来或参照其建设的。

Chinese Proposition Bank(CPB)同英文PropBank基本类似。

在CPB中,总共定义了20多个角色,只对每个句子中的核心动词进行了标注,所有动词的主要角色最多有6个,均以Arg0~Arg5和ArgM为标记,其中核心的语义角色为Arg0~5六种,其余为附加语义角色,用前缀ArgM表示,后面跟一些附加标记来表示这些参数的语义类别。

它几乎对Penn Chinese Treebank中的每个动词及其语义角色进行了标注,国内大多数语义角色标注研究都是基于此资源。

中文Nombank是在英文命题库(Proposition Bank)和Nombank的标注框架上进行扩展,对中文名词性谓词的标注。

中文Nombank加入了语义角色层的标注信息,与CPB一样,也标注了核心语义角色和附加语义角色这两类语义角色。

中文NomBank中的角色位置有两类情况:一是角色在以名词性谓词为核心词的名词短语中;二是当以名词性谓词为核心词的名词1陈菜芳,女,南京师范大学2010级硕士研究生,研究方向计算语言学短语作支持动词的宾语时,允许语义角色在名词短语外。

山西大学构建的Chinese FrameNet是基于框架语义理论,类似FrameNet风格的中文词典。

它描述了框架元素的详细句法信息和词汇单元以及参与者框架元素之间的关系。

Chinese FrameNet的架构和英文FrameNet相似,并且有许多只是稍作修改直接对英文FrameNet进行翻译,但也有一些创新,增加了相应语义角色的汉语名称。

目前Chinese FrameNet已经有130多个汉语框架,还在不断补充。

台湾中研院陈凤仪建立的中文句结构树资料库(Sinica Treebank)。

Sinica Treebank 是一个包含语义标记和句法标记的混合语料库。

它的基本框架是以讯息为本的格位语法,主要是对小句进行标注。

目前己标注了61 087个句子,包含了361 834个词语。

语义角色标记共有50多个,基本沿袭了格语法的标记体系,如:受益格、感受格等。

北京大学袁毓林教授组织建设的中文网库,是在北大汉语句法分析树库的基础上进行语义标注的。

有着更为细致的语义角色设置,尤其是核心论元,分别在主体论元和客体论元内部各划分出五个子类。

具体如下:(一)必有论元:A主体论元:施事、感事、经事、致事、主事;B客体论元:受事、与事、对象、系事。

(二)非必有论元:A凭借论元:工具、材料、方式、原因、目的;B环境论元:时间、处所、源点、终点、路径、范围、量幅。

董振东主持建立的知网(HowNet)是一个常识知识库,描述对象为汉语和英语的词语所代表的概念,揭示了概念与概念之间以及概念所具有的属性之间的关系。

《知网》描述了多种类型的词汇语义关系,涉及了词汇语义的各个方面,着重描述了不同词性的词语所代表的概念之间的语义关系,其中特别重视名词所代表的概念与动词所代表的概念之间的语义关系,也即我们通常称作实体与事件之间的语义关系即语义角色关系,例如作为实体的“医生”和作为事件的“医治”,两者有着“事件”与“施事”的关系。

在知网中,800个事件主要特征中的每一个都标识有一个角色框架。

2 中文语义角色标注的发展现状2.1 语义角色标注的研究最早关注的是英文,随着宾州大学命题库的建立,语义角色标注任务得到广泛的国际关注,并取得了许多很好的结果。

出现了一些相关的国际评测:如CoNLL2004、CoNLL2005、EMNLP-CoNLL2007和CoNLL2008都包含了语义角色标注的任务,同时也促进了语义角色标注研究的蓬勃发展。

2.2 中文语义角色标注的工作开展较晚,最早进行研究的是Sun等人,当时因为还没有中文方面的专门语料,所以他们只能先人工标记了包含某些动词的语料然后在此基础上进行研究。

后来,伴随着Chinese Proposition Bank(CPB)的构建,就有了一些比较系统的中文语义角色标注的工作。

国内最早关注语义角色标注是刘挺、于江德等人,不过他们研究的重点是提升英文的语义角色标注的性能。

2.3 语料资源和中文自动句法分析的不理想等因素使得国内中文语义角色标注的研究还局限在语义角色分类方面,完整的语义角色标注研究还不多见。

虽然与英文方面的工作相比,中文语义角色标注方面的研究仍处在开始阶段,但该项工作已引起了许多研究人员的重视。

国内的研究工作主要集中在以下四大高校。

北京大学关于语义角色标注的工作主要集中在两个方面:一是基于语义组块分析和词汇语义特征的语义角色标注;二是利用北大网库的标注语料进行语义角色标注的研究。

丁伟伟[1]提出了一种基于语义组块分析的语义角色标注的处理策略。

该方法将中文语义角色标注从一个节点的分类问题转化为序列标注问题,是一种简化的“语义组块识别——语义组块分类”流程,而不是传统的“句法分析——语义角色识别——语义角色分类”的流程。

由于避开了句法分析这个阶段,使得语义角色标注摆脱了对句法分析的依赖,从而突破了汉语语法分析器的性能限制。

北大网库构建了一种全新的语义角色标注资源,改变了以往无论中英文研究都基于宾州大学命题库的标注体系的局面。

文献[2]的主要目的是将之前的各种研究方法在北大网库的标注语料中进行验证,考察它们在北大网库标注体系中的作用,进而讨论特征的选择对标注体系的依赖性问题,这种在北大网库基础上建立的语义角色分类系统,在语义角色分类阶段取得与在PropBank上相当的实验结果。

哈尔滨工业大学主要贡献是在不断优化特征和特征组合的基础上,进行不同方法的实验。

文献[3]把汉语的特点与英文语义角色标注特征相结合,构建出一些新的特征和组合特征,如:谓词和短语类型的组合、谓语动词类别信息和路径的组合等,并在CPB语料数据上使用最大熵分类器进行了实验。

文献[4]以CPB为实验数据,首次将核方法应用于汉语语义角色标注中,通过对已有特征进行组合或分解,提取了更适用于汉语的新特征,得到了接近英文语义角色标注的性能。

文献[5]提出一种基于特征组合和支持向量机的语义角色标注方法。

该方法的基本标注单元是句法成分,基本特征集合是从当前基于句法分析的语义角色标注系统中选出高效特征,然后选择基于统计的特征组合方法,利用支持向量机在CPB语料上进行分类实验。

苏州大学的研究重点在两个方面:一是名词性谓词语义角色标注,二是以依存关系为标注单元进行语义角色标注。

文献[6]和[7]讨论了汉语名词性谓词的语义角色标注特征问题。

通过对名词性谓词语义角色标注的研究,探索了新的词汇、句法特征,选取了适合名词性谓词相关的特征集,用于名词性谓词语义角色标注,同时进一步利用动词性谓词已有的成果,极大地提高了名词性谓词语义角色标注的性能。

文献[8]提出标注单元为依存关系的语义角色标注系统,经过依存关系分析、谓词标识、特征抽取、角色识别和角色分类,最终在CoNLL2008 SRL Shared Task自动依存分析的WSJ测试集取得了较好的结果,结果证明其性能明显好于基于句法分析的SRL。

山西大学的工作主要是在汉语框架语义知识库(CFN)语料库上进行,文献[9]基于汉语框架语义知识库(CFN),采用条件随机场模型,将语义角色标注问题通过IOB策略转化为以词为基本标注单元的线性序列标注问题,研究了汉语框架语义角色的自动标注。

模型以词为基本标注单元,选择词、词性、词相对于目标词的位置、目标词及其组合为特征。

从CFN的219个框架中,挑选那些例句个数相对较多的25个框架的6 692个例句的语料上进行。

对每一个框架,分别按照其例句训练一个模型,同时进行语义角色的边界识别与分类,进行2-fold交叉验证。

其他还有南师大的陈丽江[10]利用清华大学的中文树库 (TCT),通过梅家驹等人编纂的《同义词词林》对谓词、名词进行划分,建立了谓词词表、名词词表和介词词表等来区分语义角色。

在标注过程中使用规则确定谓词论元,使用规则和词表判定成分的语义角色,基于决策树分类的算法,对汉语真实文本的语义角色标注进行了实验。

3 展望可以说,对中文语义角色标注的研究还任重而道远,下一步需要进行的研究工作还很多,集中表现在如下三个大的方面:3.1成熟的语义理论。

语义角色标注属于语义分析的范畴,离不开语义理论的支持。

语义角色标注需要语义角色相关理论、语义分类体系、词汇语义等知识。

目前,汉语语义这些相关理论都还不是很成熟。

因此,建立合理有效的语义分类体系,系统地总结语法与语义之间的对应关系,是取得突破的关键。

3.2资源库建设。

语料库和知识库是自然语言处理的两大基础性工程,语料库是对真实语言现象的收集,知识库是对语言知识的系统性总结,它们对自然语言处理的质量起着关键性的作用。

由于语言现象与语言知识的复杂性,语料库和知识库都十分庞大,一般都需要耗费十年乃至数十年的时间来构建。

今后计算语言学工作开展的重点之一就是建立语义层次上的语料库和知识库。

3.3改进分析方法。

自然语言分析处理的方法包括基于规则的方法和基于统计的方法。

这两种方法同样也适用于语义角色标注。

如何选择合适的方法,如何将这两种方法有机地结合起来,对语义角色标注任务是至关重要的。

而且,无论是基于规则的方法,还是基于统计的方法,它们所采用的技术,以及得到的准确性和效率也同语义角色标注的准确性和实用性相关,这些也需要不断地研究与改进。

参考文献[1]丁伟伟,常宝宝. 基于语义组块分析的汉语语义角色标注[J].中文信息学报,2009.9,VOL23(5).[2]杨敏,常宝宝. 基于北京大学中文网库的语义角色分类[J].中文信息学报,2011.3,VOL25(2).[3]刘怀军,车万翔,刘挺. 中文语义角色标注的特征工程[J].中文信息学报,2007.1,VOL21(1).[4]车万翔. 基于核方法的语义角色标注研究[D].哈尔滨:哈尔滨工业大学,2008年.[5]李世奇,赵铁军,李晗静,刘鹏远,刘水. 基于特征组合的中文语义角色标注[J].软件学报, 2011,22(2):222-232.[6]李军辉,周国栋,朱巧明,钱培德. 中文名词性谓词语义角色标注[J]. 软件学报,2011, 22(8).[7]徐靖,李军辉,朱巧明,李培峰. 中文名词性谓词语义角色标注的特征研究[J].计算机应用,2011.6,VOL31(6).[8]汪红林,王红玲,周国栋. 基于依存关系的语义角色标注[J].计算机工程,2009.8,VOL35(15).[9]李济洪,王瑞波,王蔚林,李国臣. 汉语框架语义角色的自动标注[J].软件学报,2010.4,VOL21(4).[10]陈丽江. 汉语真实文本的语义角色标注[D].南京:南京师范大学,2007年.。

相关文档
最新文档