基于潜在语义分析的文本连贯性分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 相关研究
M ann等提出的层次篇章模型 [ 1]。 Burste in等提对篇章元素
进行标注, 标 注的 类 别 包 括: 主 题 句, 主 要 思 想, 支 撑 思 想 和 结论 [ 2] 。
G. Sa lton等 给 出 了 基 于 结 构 关 系 图 的 文 本 结 构 分 解 方 法 [ 3, 4]。其基本思想把 文本 表示 为向 量, 同时 将文 本的 每个 段 落也表示成向量形式 , 按照公 式计算 任意两 个段落 P 1 和 P 2 之 间的相似系数:
2 基于潜在语义分析的文本连贯性分析方法
对于输入文本, 经过前期 处理, 很快得 到文本 的物理 结构, 它表示了文本的组 成情 况, 文本 的物 理结 构 = {标 题, 段 落, 句 子, 词 汇 }。而文本的 逻辑 结构 更着 重于 表示 文本 所包 含的 思 想内容和表达的逻 辑方 式, 文本 的逻 辑结 构 = {主 题, 层 次, 段
P i 在 H 1、H 2 中的 划分不一致。
实验结果见表 1。
表 1 文本层次结构分析实验结果
体裁
篇数
平均准确率
议论文
40
85. 24
记叙文
40
76. 11
其它
20
52. 10
层次分析的效果受体裁影响较大, 对于议论文最佳, 记叙 文 次之, 对于其它类的文本划 分效果 一般。议论 文和记 叙文的 逻 辑性较强, 用词规范, 比较有规律, 关键词分布比较均匀, 段落 内 部的集聚性强, 因此层次划 分结果 比较理 想。其它类 文本包 括 体育新闻、国际新闻、简讯、诗歌等内容, 其中体育报道和国际 新 闻中非登录词所占的比率较高, 影响到概念间的联系程度, 造 成 段落间的集聚性下降, 影响到聚类的效果。
收稿日期: 2006- 02 - 21。博士点基金 ( 20050007023) 。汤世 平, 博 士生, 主研领域: 自然语言理解。
96
计算机应用与软件
2008 年
落 }, 但这里的段落单元主要指 段落所 包含的 中心思 想, 而 不仅
仅是段落的位置和边 界等信息。
文本是文章在计 算机内的 存储表 示, 因 此在下 面叙述 中文
况下是从 2到 6。
3 实验结果与分析
选择 100篇文 章, 其中 40篇记 叙文, 40篇议 论文, 20 篇其 它类文章, 包括体育报道、国际新闻、简讯、诗歌等 。按照层 次分 析方法对这 100篇文章进 行层次 划分, 并与人 工处理 结果 相比
较, 加 以评判打分。其评判标准如下:
设文本共有 N 个 自然 段, 专家划 分 H 1 = ( Pi Pi - 1 ) ( P i
这一事实, 我们尝试采用有序方式划分文本的层次。
设文本 T 具有 n 个自然段, K 个层 次, 用 H 表示 文本层次,
P 表示自然段, 则有如下组成关系: T = H 1H 2 H k = ( Pi Pi - 1 )
1
2
( Pi P i - 1 ) ( Pi P i - 1 )。其中, i1 = 1# i2#
Abstrac t T ext coherence ana lysis is the key to com pute r assisted assessm ent. A h iera rchical analysis me thod for text structu re ana ly sis is proposed. T he m ethod com bines latent sem antic ana lysis and hierarch ica l analysism e thod based on o rderly cluster. T he m a in idea is show n as fo llow s: F irstly, the phy sica l structure o f tex t is obta ined from the input text; Secondly, text hierarch ica l analysis is automa tica lly perform ed; F i nally, as a resu lt, the log ica l structure o f text is ga ined. The approach enab les the h ierarch ies to keep parag raphs in a natu ra l o rder, and it can be applied to m any fie lds. T he exper im enta l result shows that the propo sed m ethod is effective, and it has achieved prec ision of 74. 96% .
相当于把 n个段落 分成 两个 部分 i1 = { 1, , # ik - 1} { ik, , n}, 将前一部分进行最优 K - 1分法, 设 S0 ( n, K, cK ) 是使总体误 差函数达到最小的分 法, 其中 cK 是上 述最佳 分法 的分 割点 iK, 则有如下递推公式:
E ( S0 ( n, K, ck ) ) = M in{ E ( S ( ik- 1, K - 1, ck- 1 ) + D ( ik, n ) ) } ( 3) 文本层数的确定 关系到文 本逻辑 结构的建 立, 它可以 通过
式、并列式和递进式等。层次是文章思想内容的表现次序, 它着
眼于文章思想内容的逻辑关系 , 是表示意义的结构单位, 而段落 是构成文章的最小单位, 段落是体现层次的外部形式, 在一般情
况下, 层次大于或等于自 然段。但是 层次不 象自然 段那样 有明
显的边界, 必须由读者按照文章内容的表达方式来划分, 需要强
关键词 向量空间 模型 潜在语义分析 文本连贯性 计算机辅助评估
LATENT SEMANTIC ANALYSIS BASED TEXT COHERENCE ANALYSIS
T ang Shiping Fan X iaozhong Zhu Jianyong
(S chool of Compu ter S cien ce and T echn ology, B eijing In sti tu te of T echnology, B eij ing 100081, Ch ina )
密度。
将
n个段落划分 为 K
个层次, 则所 有可能的 分法共有
Ck - 1 n- 1
种, 设 S ( n, K )是任一种分法, 其中, S ( n, K ) = { i1 = 1, i1 + 1, ,
i2 - 1}, , { ij, ij + 1, , ij+ 1 - 1}, , { ik, ik+ 1, , n}, 有序 聚类
章与文本不加严格 区分。另外 由于标 题、自 然段和 句子等 部分
的可识别性, 因此, 我们重点研 究文本层次的划分问题。
H ind指出 [ 5] : ! 不同的文章类型有不同的组织 形式, 大 多数
文章的自然段有很好的组织 层次 ∀。例如记 叙文章 层次可 以时
空为序、问题为序 和因 果为 序等, 议 论类 文章 层次 可以 有总 分
n
uivi
S im (P 1, P2 ) =
i= 1
n
n
( 1)
其中, P 1 = ( u1, u2,
u
2 i
v
2 i
i= 1 i= 1
, un ) , P 2 = ( v1, v2, , vn )。
然后建立段落关系图, 以段落序号为节点, 带权的边表示 两 段落之 间的相 似系数, 如果 文章共 有 m 个 段落, 则关系 图中 最 大的边数为 m (m - 1) /2。为了简化, 便于观察, 一般 选取阈值, 去掉联系较小的边, 更好地体现整体联系。
如下方法确定最优 层次 划分 的数 目, 一是 给定 阈值 , 当 |E ( S
( n, K + 1) ) - E ( S ( n, K ) ) |# 时, 则 最优层数 为 K。二是 根据
语言学知识和实验经验, 预先给定层数 K。这里, 我们在运 行过 程中根据段落数目和 总体误 差情况 给定层 数, K 的范 围一 般情
就是寻找一种分法使 K 个层次内差异 尽可能 地小, 而层次 间差
异尽可能大。设 D ( ij, ij + 1 - 1) 表示 第 j 层内 的差 异量, 则 总体 误差函数:
k
E ( S ( n, K ) ) = D ( ij, ij+ 1 - 1)
( 2)
j= 1
为了使上述总 体误 差函 数达 到最 小, 寻求 最优 的 K 分法,
调的是层次的有序性 , 层次是由若干连续有序的自然段组成。
利用潜在语义索引, 将特征项映射至概念级, 无疑将有助于 加强同一层次内段 落间的 聚合能力 。同一层 次的若 干自然段,
由于共同支持该层次 所表达的 主题思 想, 因 此在概 念上具 有很
强的集聚性, 在使用的频率上也往往具有很大的相同之处, 根据
K eywords V ector space mode l La tent sem antic ana lysis T ex t cohe rence Com puter assisted assessm ent
0引 言
对答案文本进行 连贯性分 析, 是 对文本 的表达 质量进 行评 估的基础。一篇短文是 否连贯, 不仅 表现在 短文中 各句子 的用 词, 还体现在句子与短文 的主题 相关性 上。为了更 好地理 解文 本的主题思想和了解 文本所表 达的内 容及采用 的方式, 需 要对 文本进行文 本结 构分 析。它包 括识 别文 本的 标题 、子标 题、段 落、句子、词 汇以 及文本 层次 的划分, 分 析文 本主题 与层 次、段 落、句子之间的关系。
关系图直观地反映了文章的许多信息。为了解文本表达 的 深层结构和各个层次间的内在关系提供了有价值的线索。分 析 的内容包 括: 主 题数, 即文章由哪 几个相对 独立的部分 组成; 各 个段落所属的主题; 段落间 的相关 程度等。通 过调整 相似度 的 阈值, 增添和删 除关系图 中的边, 观察关系 图的动态 变化规律, 进行主题分析和聚类, 但这种 方法形成 的主题 往往是 由不连 续 的段落组成, 缺乏有序性, 使得 路径解 释比较困 难。另外, 对 于 用词比较简洁, 很少重复的文章, 采用发生频率的方法进行主 题 划分也是不太合适的。虽然, 在主题内句子的共同点较少, 但 是 存在许多 语义 上 相关 的词。因此, 通 过寻找语义词汇是 关键问 题。鉴于此, 我们提出了基于潜在语义分析的文本结构分析方法。
1
2
2
P i - 1 ) ( Pi P i - 1 ), 机器自动划分 H 2 = ( Pj Pj - 1 ) (P j
3
k
k+ 1
1
2
2
N
P j - 1 ) (P j Pj - 1 ), 定义评判得分 Q =
h (P i ) N , 其
3
k
k+ 1来自百度文库
i= 1
中函数 h (P i ) = 1, 若 Pi 在 H 1、H 2 中的 划分一致 ; h( P i ) = 0, 若
第 25卷第 2期 2008年 2月
计算机应用与软件 Com puter Applications and Softw are
Vo l 25 No. 2 Feb. 2008
基于潜在语义分析的文本连贯性分析
汤世平 樊孝忠 朱建勇
(北京理工大学计算机科学技术学院 100081 北京 )
摘 要 文本连贯 性分析是计算机辅助评估中的重要内容, 是对文本 的表达质 量进行评估 的基础。提出 一种将潜 在语义分析 方 法与基于有序聚类的 层次分析方法相结合的文本层次结构分析方法, 该方 法保证了 层次划分的 有序性, 可操作 性强, 不依赖于具 体 领域。基本思想是: 对于输入文本, 首先 识别文本物理结构, 然后将文本依据主题划分为若干 层次, 最终获得文本的逻辑结构。实 验 结果表明, 该方法是有效的, 其 准确率达到 74. 96% 。
2
3
k
k+ 1
# ik # ik+ 1 -
1= n(为了叙述和书写方便, P1, P2, , Pn 简记为 1, 2, , n )。
设文本 T 的特征向量为 ( c1, c2, , cm ), 则设 P i = ( w i1, w i2,
, w im )为第 i段特征向量, 其中 w ij是概念 ci 在第 i段中的 概念