基于动态共现的中文话题关联检测
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
a i C — c u r n e c n e p e s t e s ma t n o ma in o t r o a c r i e r e T e smi r y c mp tt n meh d i r v sa ht n d m c O o c re c a x r s h e ni if r t fa so t et n d g e . h i l i o u ai t o c o y a at o mp o e ltt e p roma c ft e C ie e so i k d tc in s se Th r a e b e o d f e b c s o h e r n e o h n s t r l ee t y t m. e e h v e n g o d a k . f h y n o e Ke wo d y rs T pc d tc in a d ta k n Dy a c o i ee t n c i g o r n mi
庞 海 杰
( 青岛滨海学院大专理科基础学院 山东 青 岛 26 5 ) 6 5 5
摘
要
话题关联检测是 话题 检测与跟踪 的一项子任务 , 是判断随机抽取 的两篇 新 闻报道是 否讨论 同一个话题 的技术。 受词语
共现模 型 的启发 , 结合话题关联检测 的特 点, 出了词语 间的动态 同现关系 , 提 实现 了基 于动态共现关系的报道相似度计算方法 ; 探讨 了相似 度计算方法在 中文话题 关联 检测 中的应用。通过 实验 可知 , 动态共现关 系可 以在 一定程度 上反映报道 的语义信息 , 相似度 计 算方法很好地 改善 了中文话 题关联检测系统 的性 能, 取得 了不错 的效果 。
so e r ic si g a s mee e t Mo ia e y t ewo d C - c u r n e mo e , y i tg ai g c a a tr t so o i k d tc in, e p p r t r s a e d s u sn a v n . t t d b r O o c re c d l b e r t h r ce si fs r l ee t i v h n n i c ty n o t a e h
第2 9卷 第 3期
21 0 2年 3月
计 算机 应 用与软 件
C mp trAp l ain n ot r o u e p i t sa d S f c o wa e
V0. 9 No. 12 3 Ma.2 2 r 01
基 于 动 态 共现 的 中文 话 题 关 联 检 测
关键 词 中图分 类号 话题关联检测 话题 检测与跟踪 动态共现 归一化检 测开销 T3 1 P 9 文献标识码 A
CHI NES ToRY NK ES LI DETECTI oN BAS ED N o DYNAM I Co . C oCCURRENCE
Pn ai a gH ie j
在报道 的相似度计 算方 面 , M s U as验证 了多种 相似 度计算 方法在话题 关联检测系统 中的性能 , 包括余 弦 函数 、 加权 和 ,
语 言模 型以及交叉熵 , 并得 出结论 :oi C s e函数的性能最好 。 n
p o o e y a c c - c u e c ea in h p a n r s a d r aie tr i l r y c mp t t n r p s s a d n mi o o c r n e r lt s i mo g wo d n e l s a so y smi i o u ai meh d b s d n d n mi O・ - o z a t o t o a e o y a c C - o c re c . h n t e a p ia in o h i lr y c mp tt n meh d t h n s tr i k d tci n i d s u s d Ex e me t e u t s o c u r n e T e h p l t f e smi i o ua i t o o C i e e so l ee t s ic s e . p r n a r s l h w c o t at o y n o i l s
( o eeo c neF ud t nIst eQn d oBnH i nvrt, ig a 6 5 5 S a dn C i C lg Si c on ai ntu , ig a i a i sy Qn do2 6 5 ,h nog, hn l f e o it U ei a)
A src b tat
S r n e co uts f oi d t t na dt c i .ts cnlg dew e e orno l l tdnw t yl kdt t ni asbako pc e c o n akn Ii at h ooyt j g ht rw adm ys e e e s o i ei s t ei r g e ou h t ec
N r a ie e e t n c s o l z d d tc i o t m o
何 表示报道 ; 二是 如何计算报道 之问的相似度… 。
0 引 言
话题关 联检测是指判断 随机抽取 的两个新 闻报道是否讨论 同一个话题 的技术 , 它是 话题 检测与 跟踪研 究 中的一个 重要 的
庞 海 杰
( 青岛滨海学院大专理科基础学院 山东 青 岛 26 5 ) 6 5 5
摘
要
话题关联检测是 话题 检测与跟踪 的一项子任务 , 是判断随机抽取 的两篇 新 闻报道是 否讨论 同一个话题 的技术。 受词语
共现模 型 的启发 , 结合话题关联检测 的特 点, 出了词语 间的动态 同现关系 , 提 实现 了基 于动态共现关系的报道相似度计算方法 ; 探讨 了相似 度计算方法在 中文话题 关联 检测 中的应用。通过 实验 可知 , 动态共现关 系可 以在 一定程度 上反映报道 的语义信息 , 相似度 计 算方法很好地 改善 了中文话 题关联检测系统 的性 能, 取得 了不错 的效果 。
so e r ic si g a s mee e t Mo ia e y t ewo d C - c u r n e mo e , y i tg ai g c a a tr t so o i k d tc in, e p p r t r s a e d s u sn a v n . t t d b r O o c re c d l b e r t h r ce si fs r l ee t i v h n n i c ty n o t a e h
第2 9卷 第 3期
21 0 2年 3月
计 算机 应 用与软 件
C mp trAp l ain n ot r o u e p i t sa d S f c o wa e
V0. 9 No. 12 3 Ma.2 2 r 01
基 于 动 态 共现 的 中文 话 题 关 联 检 测
关键 词 中图分 类号 话题关联检测 话题 检测与跟踪 动态共现 归一化检 测开销 T3 1 P 9 文献标识码 A
CHI NES ToRY NK ES LI DETECTI oN BAS ED N o DYNAM I Co . C oCCURRENCE
Pn ai a gH ie j
在报道 的相似度计 算方 面 , M s U as验证 了多种 相似 度计算 方法在话题 关联检测系统 中的性能 , 包括余 弦 函数 、 加权 和 ,
语 言模 型以及交叉熵 , 并得 出结论 :oi C s e函数的性能最好 。 n
p o o e y a c c - c u e c ea in h p a n r s a d r aie tr i l r y c mp t t n r p s s a d n mi o o c r n e r lt s i mo g wo d n e l s a so y smi i o u ai meh d b s d n d n mi O・ - o z a t o t o a e o y a c C - o c re c . h n t e a p ia in o h i lr y c mp tt n meh d t h n s tr i k d tci n i d s u s d Ex e me t e u t s o c u r n e T e h p l t f e smi i o ua i t o o C i e e so l ee t s ic s e . p r n a r s l h w c o t at o y n o i l s
( o eeo c neF ud t nIst eQn d oBnH i nvrt, ig a 6 5 5 S a dn C i C lg Si c on ai ntu , ig a i a i sy Qn do2 6 5 ,h nog, hn l f e o it U ei a)
A src b tat
S r n e co uts f oi d t t na dt c i .ts cnlg dew e e orno l l tdnw t yl kdt t ni asbako pc e c o n akn Ii at h ooyt j g ht rw adm ys e e e s o i ei s t ei r g e ou h t ec
N r a ie e e t n c s o l z d d tc i o t m o
何 表示报道 ; 二是 如何计算报道 之问的相似度… 。
0 引 言
话题关 联检测是指判断 随机抽取 的两个新 闻报道是否讨论 同一个话题 的技术 , 它是 话题 检测与 跟踪研 究 中的一个 重要 的