基于潜在语义分析的文本连贯性分析

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

1 相关研究
M ann等提出的层次篇章模型 [ 1]。 Burste in等提对篇章元素
进行标注, 标注的类别包括: 主题句, 主要思想, 支撑思想和结论 [ 2] 。
G. Sa lton等给出了基于结构关系图的文本结构分解方法 [ 3, 4]。其基本思想把文本表示为向量, 同时将文本的每个段落也表示成向量形式 , 按照公式计算任意两个段落 P 1 和 P 2 之间的相似系数:
2 基于潜在语义分析的文本连贯性分析方法
对于输入文本, 经过前期处理, 很快得到文本的物理结构, 它表示了文本的组成情况, 文本的物理结构 = {标题, 段落, 句子, 词汇 }。而文本的逻辑结构更着重于表示文本所包含的思想内容和表达的逻辑方式, 文本的逻辑结构 = {主题, 层次, 段
P i 在 H 1、H 2 中的划分不一致。
实验结果见表 1。
表 1 文本层次结构分析实验结果
体裁
篇数
平均准确率
议论文
40
85. 24
记叙文
40
76. 11
其它
20
52. 10
层次分析的效果受体裁影响较大, 对于议论文最佳, 记叙文次之, 对于其它类的文本划分效果一般。议论文和记叙文的逻辑性较强, 用词规范, 比较有规律, 关键词分布比较均匀, 段落内部的集聚性强, 因此层次划分结果比较理想。其它类文本包括体育新闻、国际新闻、简讯、诗歌等内容, 其中体育报道和国际新闻中非登录词所占的比率较高, 影响到概念间的联系程度, 造成段落间的集聚性下降, 影响到聚类的效果。
收稿日期: 2006- 02 - 21。博士点基金 ( 20050007023) 。汤世平, 博士生, 主研领域: 自然语言理解。
96
计算机应用与软件
2008 年
落 }, 但这里的段落单元主要指段落所包含的中心思想, 而不仅
仅是段落的位置和边界等信息。
文本是文章在计算机内的存储表示, 因此在下面叙述中文
况下是从 2到 6。
3 实验结果与分析
选择 100篇文章, 其中 40篇记叙文, 40篇议论文, 20 篇其它类文章, 包括体育报道、国际新闻、简讯、诗歌等。按照层次分析方法对这 100篇文章进行层次划分, 并与人工处理结果相比
较, 加以评判打分。其评判标准如下:
设文本共有 N 个自然段, 专家划分 H 1 = ( Pi Pi - 1 ) ( P i
这一事实, 我们尝试采用有序方式划分文本的层次。
设文本 T 具有 n 个自然段, K 个层次, 用 H 表示文本层次,
P 表示自然段, 则有如下组成关系: T = H 1H 2 H k = ( Pi Pi - 1 )
1
2
( Pi P i - 1 ) ( Pi P i - 1 )。其中, i1 = 1# i2#
Abstrac t T ext coherence ana lysis is the key to com pute r assisted assessm ent. A h iera rchical analysis me thod for text structu re ana ly sis is proposed. T he m ethod com bines latent sem antic ana lysis and hierarch ica l analysism e thod based on o rderly cluster. T he m a in idea is show n as fo llow s: F irstly, the phy sica l structure o f tex t is obta ined from the input text; Secondly, text hierarch ica l analysis is automa tica lly perform ed; F i nally, as a resu lt, the log ica l structure o f text is ga ined. The approach enab les the h ierarch ies to keep parag raphs in a natu ra l o rder, and it can be applied to m any fie lds. T he exper im enta l result shows that the propo sed m ethod is effective, and it has achieved prec ision of 74. 96% .
相当于把 n个段落分成两个部分 i1 = { 1, , # ik - 1} { ik, , n}, 将前一部分进行最优 K - 1分法, 设 S0 ( n, K, cK ) 是使总体误差函数达到最小的分法, 其中 cK 是上述最佳分法的分割点 iK, 则有如下递推公式:
E ( S0 ( n, K, ck ) ) = M in{ E ( S ( ik- 1, K - 1, ck- 1 ) + D ( ik, n ) ) } ( 3) 文本层数的确定关系到文本逻辑结构的建立, 它可以通过
式、并列式和递进式等。层次是文章思想内容的表现次序, 它着
眼于文章思想内容的逻辑关系 , 是表示意义的结构单位, 而段落是构成文章的最小单位, 段落是体现层次的外部形式, 在一般情
况下, 层次大于或等于自然段。但是层次不象自然段那样有明
显的边界, 必须由读者按照文章内容的表达方式来划分, 需要强
关键词向量空间模型潜在语义分析文本连贯性计算机辅助评估
LATENT SEMANTIC ANALYSIS BASED TEXT COHERENCE ANALYSIS
T ang Shiping Fan X iaozhong Zhu Jianyong
(S chool of Compu ter S cien ce and T echn ology, B eijing In sti tu te of T echnology, B eij ing 100081, Ch ina )
密度。
将
n个段落划分为 K
个层次, 则所有可能的分法共有
Ck - 1 n- 1
种, 设 S ( n, K )是任一种分法, 其中, S ( n, K ) = { i1 = 1, i1 + 1, ,
i2 - 1}, , { ij, ij + 1, , ij+ 1 - 1}, , { ik, ik+ 1, , n}, 有序聚类
章与文本不加严格区分。另外由于标题、自然段和句子等部分
的可识别性, 因此, 我们重点研究文本层次的划分问题。
H ind指出 [ 5] : ! 不同的文章类型有不同的组织形式, 大多数
文章的自然段有很好的组织层次 ∀。例如记叙文章层次可以时
空为序、问题为序和因果为序等, 议论类文章层次可以有总分
n
uivi
S im (P 1, P2 ) =
i= 1
n
n
( 1)
其中, P 1 = ( u1, u2,
u
2 i
v
2 i
i= 1 i= 1
, un ) , P 2 = ( v1, v2, , vn )。
然后建立段落关系图, 以段落序号为节点, 带权的边表示两段落之间的相似系数, 如果文章共有 m 个段落, 则关系图中最大的边数为 m (m - 1) /2。为了简化, 便于观察, 一般选取阈值, 去掉联系较小的边, 更好地体现整体联系。
如下方法确定最优层次划分的数目, 一是给定阈值 , 当 |E ( S
( n, K + 1) ) - E ( S ( n, K ) ) |# 时, 则最优层数为 K。二是根据
语言学知识和实验经验, 预先给定层数 K。这里, 我们在运行过程中根据段落数目和总体误差情况给定层数, K 的范围一般情
就是寻找一种分法使 K 个层次内差异尽可能地小, 而层次间差
异尽可能大。设 D ( ij, ij + 1 - 1) 表示第 j 层内的差异量, 则总体误差函数:
k
E ( S ( n, K ) ) = D ( ij, ij+ 1 - 1)
( 2)
j= 1
为了使上述总体误差函数达到最小, 寻求最优的 K 分法,
调的是层次的有序性 , 层次是由若干连续有序的自然段组成。
利用潜在语义索引, 将特征项映射至概念级, 无疑将有助于加强同一层次内段落间的聚合能力。同一层次的若干自然段,
由于共同支持该层次所表达的主题思想, 因此在概念上具有很
强的集聚性, 在使用的频率上也往往具有很大的相同之处, 根据
K eywords V ector space mode l La tent sem antic ana lysis T ex t cohe rence Com puter assisted assessm ent
0引言
对答案文本进行连贯性分析, 是对文本的表达质量进行评估的基础。一篇短文是否连贯, 不仅表现在短文中各句子的用词, 还体现在句子与短文的主题相关性上。为了更好地理解文本的主题思想和了解文本所表达的内容及采用的方式, 需要对文本进行文本结构分析。它包括识别文本的标题、子标题、段落、句子、词汇以及文本层次的划分, 分析文本主题与层次、段落、句子之间的关系。
关系图直观地反映了文章的许多信息。为了解文本表达的深层结构和各个层次间的内在关系提供了有价值的线索。分析的内容包括: 主题数, 即文章由哪几个相对独立的部分组成; 各个段落所属的主题; 段落间的相关程度等。通过调整相似度的阈值, 增添和删除关系图中的边, 观察关系图的动态变化规律, 进行主题分析和聚类, 但这种方法形成的主题往往是由不连续的段落组成, 缺乏有序性, 使得路径解释比较困难。另外, 对于用词比较简洁, 很少重复的文章, 采用发生频率的方法进行主题划分也是不太合适的。虽然, 在主题内句子的共同点较少, 但是存在许多语义上相关的词。因此, 通过寻找语义词汇是关键问题。鉴于此, 我们提出了基于潜在语义分析的文本结构分析方法。
1
2
2
P i - 1 ) ( Pi P i - 1 ), 机器自动划分 H 2 = ( Pj Pj - 1 ) (P j
3
k
k+ 1
1
2
2
N
P j - 1 ) (P j Pj - 1 ), 定义评判得分 Q =
h (P i ) N , 其
3
k
k+ 1来自百度文库
i= 1
中函数 h (P i ) = 1, 若 Pi 在 H 1、H 2 中的划分一致 ; h( P i ) = 0, 若
第 25卷第 2期 2008年 2月
计算机应用与软件 Com puter Applications and Softw are
Vo l 25 No. 2 Feb. 2008
基于潜在语义分析的文本连贯性分析
汤世平樊孝忠朱建勇
(北京理工大学计算机科学技术学院 100081 北京 )
摘要文本连贯性分析是计算机辅助评估中的重要内容, 是对文本的表达质量进行评估的基础。提出一种将潜在语义分析方法与基于有序聚类的层次分析方法相结合的文本层次结构分析方法, 该方法保证了层次划分的有序性, 可操作性强, 不依赖于具体领域。基本思想是: 对于输入文本, 首先识别文本物理结构, 然后将文本依据主题划分为若干层次, 最终获得文本的逻辑结构。实验结果表明, 该方法是有效的, 其准确率达到 74. 96% 。
2
3
k
k+ 1
# ik # ik+ 1 -
1= n(为了叙述和书写方便, P1, P2, , Pn 简记为 1, 2, , n )。
设文本 T 的特征向量为 ( c1, c2, , cm ), 则设 P i = ( w i1, w i2,
, w im )为第 i段特征向量, 其中 w ij是概念 ci 在第 i段中的概念