基于语义分析的汉语介词短语识别方法研究
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
表 1 特 征模 板
1 引 言 .
】 序号 模板
1 2 3 4 P S ur1P S uf 0 cr , 0 cr, - P S ur 0 cr +1 P cr,0Suf l 0SufP cr+ P S ur1P S ur 0 cr., 0 cr P cr, 0Sur WOR Br Dcr
1n 一
型 赋予 的概率 分布 为均 匀分 布 。满 足熵 值在 限制 条件 下最
大 的 原 则 。在 最 大 熵 模 型 中 , 每 一 个 特 征 是 寻找在 约束 条件 下 能满足 最大 熵 的概率分 布模型 『 4 _ 。 2 .基于 最大熵介 词短语识别
2 1 特 征 表 示 及 特 征 选 择 . 特 征 一 般 由 两 部 分 组 成 , 部 分 是 约 束 条 件 , 一 部 分 一 另
pxpy ) (,)x ( ()(l f x ye pA ex y) p£ xi (, ) () :
x ,Y
的解 。其
Px y= fx y ( ,) i ,) (
法结合 了汉语介词 短语 左右边界词 语的依存 语 法知 识 , 由最大熵模 型对介词短 语进 行识 别 , 先 然后利 用依存 树库 中介 词短语
的 左 右 边界 词 语 的 依 存 语 法 知 识 , 介 词 短 语 右 边 界 的 错 误 识 别 进 行 校 正 , 高 了介 词 短 语 的 识 , 率 。 对 提 - 5 1 】 [ 键 词 ] 汉 语 介 词 短 语 ;短 语 识 别 ;最 大 熵 ; 存 语 法 关 依
i l =
() 一 + 4 ,A , 新 的 值 ; 更 ( ) 设 有 不 收 敛 的 , 复 () ) 步 , 则 算 法 结 束 。 5假 重 3( 两 4 否 () 出 参 数 值 . , , { , , , } 6输 , … . … 。 : : 2 3 介 词 短 语 识 别 流 程 . 用 最 大 熵 识 别 汉 语 介 词 短 语 主 要 包 括 四 个模 块 :辅 助 模
是 介 词 短 语 的 后 词 。 假 设 能 正 确 找 到 介 词 短 语 的 前 界 和 后 界 , 就 是正确 识别 出这个介 词短语 。 也 12 最 大 熵 模 型 框 架 . 从 直 观 上 理 解 最 大 熵 模 型 [] 基 本 思 想 是 : 如 我 们 1的 - 3 假
基 于语义分析 的汉语 介词短语 识别方 法研 究
卢朝 华
[ 摘
徐好 芹 王玉芬
商丘 460) 7 00
( 商丘 工 学 院 , 南 河
要 ] 针 对 介 词 短 语 右 边 界 存 在 多 种 错 误 识 , 的 问 题 , 出 了 一 种 基 于 最 大 熵 的 汉 语 介 词 短 语 自动 识 别 方 法 。 方 5 - 1 】 提 该
2 2 特 征 提 取 及 参 数 估 计 .
增量特 征选择 算法 :
我 们 采用 I I 法【I S算 5 I 法 是 改 进 的 G S算 法 , 用 】 S算 , I 适 于 任 何 特 征 函数 非 负 的情 况 。具 体 算 法 过 程 如 下 : () 入 n个 特 征 函数 ‘ £ … ,n 经 验 概 率 分 布 px 1输 , , f及 (,
动 作( 足上 下文约 束条件 时) 满 。针对 识别介 词短 语来说 , 如
果 “当 前 词 为 ‘ ’ 词 性 为 方 位 词 , 且 介 词 ‘ ’ 现 在 上 , 并 在 出
‘ ’ 上 的前面 ” 则“ 词 ‘ ’ 注为 介词短 语 的后边 界 ” , 介 上 标 。即
“ 果 … ”条 件 ) “ … ”行 动 ) 部 分 组 成 了 识 别 特 征 。用 如 ( 和 则 ( 两 特 征函数表 示上面 的关系 为: 『 , 果 S 介 词 短语 后 界 且 t 示 后 界 为 ’ ’ 1如 是 表 上
的 句 子 中 找 出 介 词 短 语 并 给 予 标 注 。例 如 : 要 把 科 学 发 展 “
观落 实到 实处 , 还需要 我们付 出艰 巨努 力 。” 在这 个句 子中 ,
“ 科 学 发展 观 ” 是 我们 要 识别 的介 词 短语 ,把 ” 这个 把 就 “ 是
介 词短语 的前 界 , 科学 发展观 ” “ 是介词 短语 的后 界 , 落 实 ” “
块、 训练模块 、 识别模块和测试 模块 。 在辅助模块 中, 由人 工对
经 过 分 词 和 词 性 标 注 的语 料 进 行 分 析 ,挑 选 出包 含 介 词 短语 的 句 子 ,进 行 人 工 标 注 , 并 由 计 算 机 对 标 注 结 果 进 行 格 式检
查。 合格 的存入介词短语 人工语料库 。 训练 模块 中, 比例 在 按 从 人工语料库 中抽取训练 语料 ,对所有训练语料 进行特 征提 取、 选择 , 用最大熵模 型计 算所 有符合特征模板 的特征 函数的 权值 , 存入特征 参数 文档。 测试模块按 比例 从人工语料库 中取 出训练 语料 ,去掉句子 中的介 词短语标注信 息,交给识 别模 块 。识 别模 块根据特征参数文档 中的权值计算各个 候选后 界 概 率, 识别句子 中的介词短语 , 测试 模块根据机器 提交的结果
意义
当 前 词 的 词 性 及 前 后 各 一 个 词 的 词 性 当 前 词 的 词 性 及 后 一 个 词 的词 性 当 前 词 的 词 性 及 前 一 个 词 的词 性 当 前 词 及 当 前 词 的 词 性
1 1 有 关 介 词 短 语 识 别 .
简单 来说 ,介 词短 语识别 就 是从经 过分 词和 词性 标注
y: )
对 一个 随机事 件 的概率 分布 不是 完全很 清 楚时 ,可 以仅用
我 们 现 有 所 观 察 到 的 进 行 推 测 , 而 对 不 能 观 察 到 的情 况 模
() 始化 1O ∈{ , , n ; 2初 = Vi 12 …, } () 3 计算 : 令A 为公式 :
1 引 言 .
】 序号 模板
1 2 3 4 P S ur1P S uf 0 cr , 0 cr, - P S ur 0 cr +1 P cr,0Suf l 0SufP cr+ P S ur1P S ur 0 cr., 0 cr P cr, 0Sur WOR Br Dcr
1n 一
型 赋予 的概率 分布 为均 匀分 布 。满 足熵 值在 限制 条件 下最
大 的 原 则 。在 最 大 熵 模 型 中 , 每 一 个 特 征 是 寻找在 约束 条件 下 能满足 最大 熵 的概率分 布模型 『 4 _ 。 2 .基于 最大熵介 词短语识别
2 1 特 征 表 示 及 特 征 选 择 . 特 征 一 般 由 两 部 分 组 成 , 部 分 是 约 束 条 件 , 一 部 分 一 另
pxpy ) (,)x ( ()(l f x ye pA ex y) p£ xi (, ) () :
x ,Y
的解 。其
Px y= fx y ( ,) i ,) (
法结合 了汉语介词 短语 左右边界词 语的依存 语 法知 识 , 由最大熵模 型对介词短 语进 行识 别 , 先 然后利 用依存 树库 中介 词短语
的 左 右 边界 词 语 的 依 存 语 法 知 识 , 介 词 短 语 右 边 界 的 错 误 识 别 进 行 校 正 , 高 了介 词 短 语 的 识 , 率 。 对 提 - 5 1 】 [ 键 词 ] 汉 语 介 词 短 语 ;短 语 识 别 ;最 大 熵 ; 存 语 法 关 依
i l =
() 一 + 4 ,A , 新 的 值 ; 更 ( ) 设 有 不 收 敛 的 , 复 () ) 步 , 则 算 法 结 束 。 5假 重 3( 两 4 否 () 出 参 数 值 . , , { , , , } 6输 , … . … 。 : : 2 3 介 词 短 语 识 别 流 程 . 用 最 大 熵 识 别 汉 语 介 词 短 语 主 要 包 括 四 个模 块 :辅 助 模
是 介 词 短 语 的 后 词 。 假 设 能 正 确 找 到 介 词 短 语 的 前 界 和 后 界 , 就 是正确 识别 出这个介 词短语 。 也 12 最 大 熵 模 型 框 架 . 从 直 观 上 理 解 最 大 熵 模 型 [] 基 本 思 想 是 : 如 我 们 1的 - 3 假
基 于语义分析 的汉语 介词短语 识别方 法研 究
卢朝 华
[ 摘
徐好 芹 王玉芬
商丘 460) 7 00
( 商丘 工 学 院 , 南 河
要 ] 针 对 介 词 短 语 右 边 界 存 在 多 种 错 误 识 , 的 问 题 , 出 了 一 种 基 于 最 大 熵 的 汉 语 介 词 短 语 自动 识 别 方 法 。 方 5 - 1 】 提 该
2 2 特 征 提 取 及 参 数 估 计 .
增量特 征选择 算法 :
我 们 采用 I I 法【I S算 5 I 法 是 改 进 的 G S算 法 , 用 】 S算 , I 适 于 任 何 特 征 函数 非 负 的情 况 。具 体 算 法 过 程 如 下 : () 入 n个 特 征 函数 ‘ £ … ,n 经 验 概 率 分 布 px 1输 , , f及 (,
动 作( 足上 下文约 束条件 时) 满 。针对 识别介 词短 语来说 , 如
果 “当 前 词 为 ‘ ’ 词 性 为 方 位 词 , 且 介 词 ‘ ’ 现 在 上 , 并 在 出
‘ ’ 上 的前面 ” 则“ 词 ‘ ’ 注为 介词短 语 的后边 界 ” , 介 上 标 。即
“ 果 … ”条 件 ) “ … ”行 动 ) 部 分 组 成 了 识 别 特 征 。用 如 ( 和 则 ( 两 特 征函数表 示上面 的关系 为: 『 , 果 S 介 词 短语 后 界 且 t 示 后 界 为 ’ ’ 1如 是 表 上
的 句 子 中 找 出 介 词 短 语 并 给 予 标 注 。例 如 : 要 把 科 学 发 展 “
观落 实到 实处 , 还需要 我们付 出艰 巨努 力 。” 在这 个句 子中 ,
“ 科 学 发展 观 ” 是 我们 要 识别 的介 词 短语 ,把 ” 这个 把 就 “ 是
介 词短语 的前 界 , 科学 发展观 ” “ 是介词 短语 的后 界 , 落 实 ” “
块、 训练模块 、 识别模块和测试 模块 。 在辅助模块 中, 由人 工对
经 过 分 词 和 词 性 标 注 的语 料 进 行 分 析 ,挑 选 出包 含 介 词 短语 的 句 子 ,进 行 人 工 标 注 , 并 由 计 算 机 对 标 注 结 果 进 行 格 式检
查。 合格 的存入介词短语 人工语料库 。 训练 模块 中, 比例 在 按 从 人工语料库 中抽取训练 语料 ,对所有训练语料 进行特 征提 取、 选择 , 用最大熵模 型计 算所 有符合特征模板 的特征 函数的 权值 , 存入特征 参数 文档。 测试模块按 比例 从人工语料库 中取 出训练 语料 ,去掉句子 中的介 词短语标注信 息,交给识 别模 块 。识 别模 块根据特征参数文档 中的权值计算各个 候选后 界 概 率, 识别句子 中的介词短语 , 测试 模块根据机器 提交的结果
意义
当 前 词 的 词 性 及 前 后 各 一 个 词 的 词 性 当 前 词 的 词 性 及 后 一 个 词 的词 性 当 前 词 的 词 性 及 前 一 个 词 的词 性 当 前 词 及 当 前 词 的 词 性
1 1 有 关 介 词 短 语 识 别 .
简单 来说 ,介 词短 语识别 就 是从经 过分 词和 词性 标注
y: )
对 一个 随机事 件 的概率 分布 不是 完全很 清 楚时 ,可 以仅用
我 们 现 有 所 观 察 到 的 进 行 推 测 , 而 对 不 能 观 察 到 的情 况 模
() 始化 1O ∈{ , , n ; 2初 = Vi 12 …, } () 3 计算 : 令A 为公式 :