中文文本分割模式获取及其优化方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第 3 卷第 6 5 期 21 年 l 01 2月
南 昌 大 学学 报 ( 理科 版 )
J u n l fNa e a g Unv r i ( tr l ce c ) o r a o n h n ie st Na u a in e y S
Vo 5 No 6 L3 .
3 江 西省 图 书馆 , . 江西 南 昌 3 0 4 ) 30 6
摘 要 : 本 分 割 是 非 结 构 化 文 本 处 理 的一 个 重 要 预 处 理 步 骤 , 自然 语 言 处 理 中 的 许 多 任 务 如 自动 摘 要 、 文 对 自动 问
答和信息检索等 的处理效果具 有重要的影响 。针对文本分割算法要解决 的最根本 问题 : 主题相关性度 量和边界划
S g cr( 。 e S o e b)
定 义 1 假 定 D是一个 由句子 序列 ( S , , S , …
S ) 成 的文 本 , 中的 每个 句 子 S 可 以是 简单 句 组 其
假 定 每 两个 潜 在分 割 点 b、, 间对 应 的的 文 6 之 本 块 记 为 S g , 文 本 块 内 部 的 紧 凑 度 记 为 e C h s n S g 相 邻 文 本 块 之 间 的 相 关 度 记 为 o ei ( e ¨ o R( e , e ̄ , 间 隔点 b 的分 隔值可 以用 ( )式 S g Sg )则 k 1
子 的句 首起 始位 置 , 最后 一个 句子 的句 尾位 置 , b为
A
因此 , 本 分 割 的本 质就 是 要 找 到一 个分 割 模 文
A
.
.
A
f PI r 一1
因此 b 。和 b 是 固有 的分 割 点 ) 每个 潜 在 分 割点 b , 也 称 为句子 S 与句 子 S 。 间 的一个 间 隔点 。 汁之 定义
关键词 : 文本 分 割 ; 式 获 取 ; 式 优 化 模 模 中图 分 类 号 : P 9 T 31 文 献标 志码 : A
1 文本 分 割模 式 获 取 及 其优 化
本 文关 于文 本 分 割 任务 的基 本 思 路 是 : 先 利 首
文 本 D 的一个 分 割模式 P c 即 P= ( P , , B, P , … P ) , 中 P ∈ B。 为 其
分策略 , 利用 “ 割 单 元 ” 部 具 有 最 大 的主 题 相 关 性 而 “ 割 单 元 ” 间 具 有 最 小 的 主 题 相 关 性 的思 想 , 上 下 文 分 内 分 之 以
相关性分析计算为基础 , 构建面 向中文文本 的文本分 割模 型框架和分割模式的优化方 法 。通过三组选 白国家汉语 语料库的测试结果表 明 , 该方法识别分割边界 的平均错误 率和最低 值均好于现有的其他 中文文本分割方法。
示 , 本 在 D 初 始 状 态 下 , B 一 {。b , … , 文 有 b, b,
Co e so ( e j)一 R( e , e j) h n in S g^ S g S gk
() 1
6 。 b} , , 等 + 1 潜在 分 割点 ( 中 b 为第 一个 句 r 个 其 。
用 词语 之间 的语 义相 关关 系计 算上 下文 句 子之 间的 语 义相关 性 , 然后 利 用 “ 割 单 元 ” 部具 有 最 大 的 分 内
主题 相关 性 而“ 分割单 元” 间具有 最小 的 主题相 关 之 性 的思想 , 建潜 在分 隔 点 的分 割值 计算 模 型 , 后 构 最
文本 D的一个分割模式 P中, 每两个相邻 的分割
点 P,斗 P ∈ B之 间对应 的文 本块 ( 由句 子序 列子 集 ( , , ) 5 … 组成 ) 都构成 了一个分 割单元 (eme t Sg n
Un , 称 S , i简 t U) 因此一个 分割模 式 P将 文本 D分 割
式 P, 得 P— ag i { x S g c r( £) 即 P 使 r r n ma e S oe p) , a
进 行 计算 。
S g c r (  ̄ = Co e so ( e l e S o e b) h n in S J g )+
ห้องสมุดไป่ตู้
S , 可 以是 复 杂 句 C 因此 定 义 文本 D 兰 Es l S也 S, s
c ] {( s c J ) s+ E s』 s ) 。 定 义 2 对 于文 本 D, 假定 存 在 于 每 两个 完 整 句 子之 间 的句 号 “ ” 问 号 “ ”或 感 叹 号 “ ”等分 割 。、 ? ! 标记 位 置上 都有 可能 成 为潜在 分 割点 b 则 如 图 1 , 所
成 为
S (S _’£) S (S ”, ,) … , U1 < .S ) , < 汁 S),
用 间隔 点深 度计 算方 法 , 实现 分 割模式 的求解 , 来 并 用语 言 特征 分析 结果 对分 割模 式进 行优 化 。下 面介
绍 具体 的实 现方 法 。
1 1 文本 分割 问题描 述 .
De . 01I c2
文 章 编 号 :0 6O 6 (O 1O —5 70 10 一4 4 2 l) 60 9 —5
中文 文本 分 割模 式 获 取 及 其优 化 方 法
邹 箭 钟 茂 生 孟 荔。 , ,
(. 西 司法 警 官 职 业 学 院 图 书馆 , 西 南 昌 3 0 1 ;. 东交 通 大 学 信 息 工 程 学 院 , 西 南 昌 3 0 1 ; 1江 江 30 3 2 华 江 3 0 3
S 0 ( 抖 .' > 等 m 一 1 分割单元 。 【 (S . ) 个
定 义 3 对 于 间 隔点 ∈ B, 够按 主题 相 关 能
性 原则 将其 对应 的上 下文 分割成 不 同单 元块 的能 力 的 量 化 值 称 为 该 间 隔 点 的 分 隔 值 , 记 为
南 昌 大 学学 报 ( 理科 版 )
J u n l fNa e a g Unv r i ( tr l ce c ) o r a o n h n ie st Na u a in e y S
Vo 5 No 6 L3 .
3 江 西省 图 书馆 , . 江西 南 昌 3 0 4 ) 30 6
摘 要 : 本 分 割 是 非 结 构 化 文 本 处 理 的一 个 重 要 预 处 理 步 骤 , 自然 语 言 处 理 中 的 许 多 任 务 如 自动 摘 要 、 文 对 自动 问
答和信息检索等 的处理效果具 有重要的影响 。针对文本分割算法要解决 的最根本 问题 : 主题相关性度 量和边界划
S g cr( 。 e S o e b)
定 义 1 假 定 D是一个 由句子 序列 ( S , , S , …
S ) 成 的文 本 , 中的 每个 句 子 S 可 以是 简单 句 组 其
假 定 每 两个 潜 在分 割 点 b、, 间对 应 的的 文 6 之 本 块 记 为 S g , 文 本 块 内 部 的 紧 凑 度 记 为 e C h s n S g 相 邻 文 本 块 之 间 的 相 关 度 记 为 o ei ( e ¨ o R( e , e ̄ , 间 隔点 b 的分 隔值可 以用 ( )式 S g Sg )则 k 1
子 的句 首起 始位 置 , 最后 一个 句子 的句 尾位 置 , b为
A
因此 , 本 分 割 的本 质就 是 要 找 到一 个分 割 模 文
A
.
.
A
f PI r 一1
因此 b 。和 b 是 固有 的分 割 点 ) 每个 潜 在 分 割点 b , 也 称 为句子 S 与句 子 S 。 间 的一个 间 隔点 。 汁之 定义
关键词 : 文本 分 割 ; 式 获 取 ; 式 优 化 模 模 中图 分 类 号 : P 9 T 31 文 献标 志码 : A
1 文本 分 割模 式 获 取 及 其优 化
本 文关 于文 本 分 割 任务 的基 本 思 路 是 : 先 利 首
文 本 D 的一个 分 割模式 P c 即 P= ( P , , B, P , … P ) , 中 P ∈ B。 为 其
分策略 , 利用 “ 割 单 元 ” 部 具 有 最 大 的主 题 相 关 性 而 “ 割 单 元 ” 间 具 有 最 小 的 主 题 相 关 性 的思 想 , 上 下 文 分 内 分 之 以
相关性分析计算为基础 , 构建面 向中文文本 的文本分 割模 型框架和分割模式的优化方 法 。通过三组选 白国家汉语 语料库的测试结果表 明 , 该方法识别分割边界 的平均错误 率和最低 值均好于现有的其他 中文文本分割方法。
示 , 本 在 D 初 始 状 态 下 , B 一 {。b , … , 文 有 b, b,
Co e so ( e j)一 R( e , e j) h n in S g^ S g S gk
() 1
6 。 b} , , 等 + 1 潜在 分 割点 ( 中 b 为第 一个 句 r 个 其 。
用 词语 之间 的语 义相 关关 系计 算上 下文 句 子之 间的 语 义相关 性 , 然后 利 用 “ 割 单 元 ” 部具 有 最 大 的 分 内
主题 相关 性 而“ 分割单 元” 间具有 最小 的 主题相 关 之 性 的思想 , 建潜 在分 隔 点 的分 割值 计算 模 型 , 后 构 最
文本 D的一个分割模式 P中, 每两个相邻 的分割
点 P,斗 P ∈ B之 间对应 的文 本块 ( 由句 子序 列子 集 ( , , ) 5 … 组成 ) 都构成 了一个分 割单元 (eme t Sg n
Un , 称 S , i简 t U) 因此一个 分割模 式 P将 文本 D分 割
式 P, 得 P— ag i { x S g c r( £) 即 P 使 r r n ma e S oe p) , a
进 行 计算 。
S g c r (  ̄ = Co e so ( e l e S o e b) h n in S J g )+
ห้องสมุดไป่ตู้
S , 可 以是 复 杂 句 C 因此 定 义 文本 D 兰 Es l S也 S, s
c ] {( s c J ) s+ E s』 s ) 。 定 义 2 对 于文 本 D, 假定 存 在 于 每 两个 完 整 句 子之 间 的句 号 “ ” 问 号 “ ”或 感 叹 号 “ ”等分 割 。、 ? ! 标记 位 置上 都有 可能 成 为潜在 分 割点 b 则 如 图 1 , 所
成 为
S (S _’£) S (S ”, ,) … , U1 < .S ) , < 汁 S),
用 间隔 点深 度计 算方 法 , 实现 分 割模式 的求解 , 来 并 用语 言 特征 分析 结果 对分 割模 式进 行优 化 。下 面介
绍 具体 的实 现方 法 。
1 1 文本 分割 问题描 述 .
De . 01I c2
文 章 编 号 :0 6O 6 (O 1O —5 70 10 一4 4 2 l) 60 9 —5
中文 文本 分 割模 式 获 取 及 其优 化 方 法
邹 箭 钟 茂 生 孟 荔。 , ,
(. 西 司法 警 官 职 业 学 院 图 书馆 , 西 南 昌 3 0 1 ;. 东交 通 大 学 信 息 工 程 学 院 , 西 南 昌 3 0 1 ; 1江 江 30 3 2 华 江 3 0 3
S 0 ( 抖 .' > 等 m 一 1 分割单元 。 【 (S . ) 个
定 义 3 对 于 间 隔点 ∈ B, 够按 主题 相 关 能
性 原则 将其 对应 的上 下文 分割成 不 同单 元块 的能 力 的 量 化 值 称 为 该 间 隔 点 的 分 隔 值 , 记 为