在线增量标签主题模型
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第 5 3 卷ቤተ መጻሕፍቲ ባይዱ
第 5 期
吉 林 大 学 学 报 (理 学 版 )
J o u r n a l o f J i l i n Un i v e r s i t y( S c i e n c e E d i t i o n )
V ol J 53 NO. 5
S e p 2 015
Ab s t r ac t :Ba s e d o n t he i n t r o duc t i on o f t he f e a t u r e s of t i me s e r i e s a nd l a be l s o f t he do c u me n t i nt o l a t e n t
摘 要 :将 文本之 间存 在 的时序 关联 性元信 息和 文档 的标 签信 息 ,引入 到 隐 藏 D i r i c h l e t 分 配模 型 中,提 出 一 种 在 线 增 量 标 签 主 题 ( o n — l i n e l a b e l e d i n c r e me n t a l t o p i c mo d e l ,0L T) 模 型.
2 .Co l l e g e o f Co mp u t e r Sc i e n c e a n d Te c h n o l o g y,Ji l i n Un i v e r s i t y,C h a n g c h u n 1 3 0 0 1 2,Ch i n a )
on — l i n e 1 a be l e d i nc r e me nt a 1 t o pi c mo de l r e a l i z e s t h e p r e di c a t e o f m ul t i — l a b e l s o n t h e b a s i s of t he op t i mi z e d l a be l a n d t o pi c ma p pi n g r e l a t i on a n d i mp r ov e s t h e c l us t e r i ng r e s u l t s . Se c o ndl y,t h e o n — l i ne
演变分 析 的 问题.实验结 果表 明 ,所提 出的在 线增量 标 签 主题模 型 能 显著 改 善 多标 签判 别 精
度, 提 高模 型 的泛化 能力 并提 升模 型 的运 行 性能. 关键 词 : 信 息处 理 ;隐藏 D i r i c h l e t 分 配( L DA) 模 型 ;自然语 言处理 ;主题模 型 中图分 类号 : TP 3 0 1 . 6 文献标 志码 : A 文章编 号 :1 6 7 1 — 5 4 8 9 ( 2 0 1 5 ) 0 5 — 0 9 9 2 — 0 7
On — Li n e I n c r e me n t a l La b e l e d To p i c Mo d e l
CHEN Yo n g h e n g ,ZUO Xi a n g l i n 。 ,LI N Ya o j i n
( 1 .Co l l e g e o f Co mp u t e r Sc i e n c e ,M i n n a n No r ma l Un i v e r s i t y,Zh a n g z h o u 3 6 3 0 0 0,Fu j i a n Pr o v i n c e ,C h i n a;
Di r i c h l e t a l l o c a t i o n( LDA )mo d e l ,a n o n — l i n e l a b e l e d i n c r e me n t a l t o p i c mo d e l wa s p r e s e n t e d .F i r s t l y ,
d y na mi c d i c t i o na r y a nd t he o pt i mi z a t i on c a l c u l a t i on o f h yp e r — p a r a me t e r . The e xpe r i me n t a l r e s u l t s s u gge s t o n — l i ne l a be l e d i nc r e me nt a l t op i c mo de l c a n i mp r ov e t he d e c i s i on a c c u r a c y o f m u l t i — l ab e l s, op t i mi z i ng t h e g e n e r a l i z a t i on a bi l i t y a nd o pe r a t i n g e f f i c i e nc y .
2 0 1 5年 9月
d o i :1 0 . 1 3 4 1 3 / j . c n k i . j d x b l xb . 2 01 5 . 0 5 . 3 1
在 线 增 量 标 签 主 题 模 型
陈 永 恒 ,左 祥 麟 , 林 耀 进
( 1 .闽 南 师 范 大 学 计 算 机 学 院 , 福建 漳 州 3 6 3 0 0 0 ;2 .吉林 大 学 计 算 机 科 学 与 技 术 学 院 , 长春 1 3 0 0 1 2 )
l a b e l e d i n c r e me n t a l t o p i c mo d e 1 a c h i e v e s t h e r e a s o n a b l e c o r r e l a t i o n o f t e x t s t r e a ms wi t h t h e h e l p o f
首先 ,在 线增 量标签 主题模 型 优化 了文本 标 签元 信 息 与主 题 之 间 的映 射 关 系;其 次 ,利 用 动
态字典 增加 了模 型与文 本 的拟合 程度.该模 型优 化 了先验 分 布超 参 数迁 移 计算 的连 续 性 ,解 决 了隐藏 D i r i c h l e t 分 配( L DA) 模 型 不 能利 用 文本 属 性 与 主题 之 间的相 关 性进 行 主 题 发 现及
第 5 期
吉 林 大 学 学 报 (理 学 版 )
J o u r n a l o f J i l i n Un i v e r s i t y( S c i e n c e E d i t i o n )
V ol J 53 NO. 5
S e p 2 015
Ab s t r ac t :Ba s e d o n t he i n t r o duc t i on o f t he f e a t u r e s of t i me s e r i e s a nd l a be l s o f t he do c u me n t i nt o l a t e n t
摘 要 :将 文本之 间存 在 的时序 关联 性元信 息和 文档 的标 签信 息 ,引入 到 隐 藏 D i r i c h l e t 分 配模 型 中,提 出 一 种 在 线 增 量 标 签 主 题 ( o n — l i n e l a b e l e d i n c r e me n t a l t o p i c mo d e l ,0L T) 模 型.
2 .Co l l e g e o f Co mp u t e r Sc i e n c e a n d Te c h n o l o g y,Ji l i n Un i v e r s i t y,C h a n g c h u n 1 3 0 0 1 2,Ch i n a )
on — l i n e 1 a be l e d i nc r e me nt a 1 t o pi c mo de l r e a l i z e s t h e p r e di c a t e o f m ul t i — l a b e l s o n t h e b a s i s of t he op t i mi z e d l a be l a n d t o pi c ma p pi n g r e l a t i on a n d i mp r ov e s t h e c l us t e r i ng r e s u l t s . Se c o ndl y,t h e o n — l i ne
演变分 析 的 问题.实验结 果表 明 ,所提 出的在 线增量 标 签 主题模 型 能 显著 改 善 多标 签判 别 精
度, 提 高模 型 的泛化 能力 并提 升模 型 的运 行 性能. 关键 词 : 信 息处 理 ;隐藏 D i r i c h l e t 分 配( L DA) 模 型 ;自然语 言处理 ;主题模 型 中图分 类号 : TP 3 0 1 . 6 文献标 志码 : A 文章编 号 :1 6 7 1 — 5 4 8 9 ( 2 0 1 5 ) 0 5 — 0 9 9 2 — 0 7
On — Li n e I n c r e me n t a l La b e l e d To p i c Mo d e l
CHEN Yo n g h e n g ,ZUO Xi a n g l i n 。 ,LI N Ya o j i n
( 1 .Co l l e g e o f Co mp u t e r Sc i e n c e ,M i n n a n No r ma l Un i v e r s i t y,Zh a n g z h o u 3 6 3 0 0 0,Fu j i a n Pr o v i n c e ,C h i n a;
Di r i c h l e t a l l o c a t i o n( LDA )mo d e l ,a n o n — l i n e l a b e l e d i n c r e me n t a l t o p i c mo d e l wa s p r e s e n t e d .F i r s t l y ,
d y na mi c d i c t i o na r y a nd t he o pt i mi z a t i on c a l c u l a t i on o f h yp e r — p a r a me t e r . The e xpe r i me n t a l r e s u l t s s u gge s t o n — l i ne l a be l e d i nc r e me nt a l t op i c mo de l c a n i mp r ov e t he d e c i s i on a c c u r a c y o f m u l t i — l ab e l s, op t i mi z i ng t h e g e n e r a l i z a t i on a bi l i t y a nd o pe r a t i n g e f f i c i e nc y .
2 0 1 5年 9月
d o i :1 0 . 1 3 4 1 3 / j . c n k i . j d x b l xb . 2 01 5 . 0 5 . 3 1
在 线 增 量 标 签 主 题 模 型
陈 永 恒 ,左 祥 麟 , 林 耀 进
( 1 .闽 南 师 范 大 学 计 算 机 学 院 , 福建 漳 州 3 6 3 0 0 0 ;2 .吉林 大 学 计 算 机 科 学 与 技 术 学 院 , 长春 1 3 0 0 1 2 )
l a b e l e d i n c r e me n t a l t o p i c mo d e 1 a c h i e v e s t h e r e a s o n a b l e c o r r e l a t i o n o f t e x t s t r e a ms wi t h t h e h e l p o f
首先 ,在 线增 量标签 主题模 型 优化 了文本 标 签元 信 息 与主 题 之 间 的映 射 关 系;其 次 ,利 用 动
态字典 增加 了模 型与文 本 的拟合 程度.该模 型优 化 了先验 分 布超 参 数迁 移 计算 的连 续 性 ,解 决 了隐藏 D i r i c h l e t 分 配( L DA) 模 型 不 能利 用 文本 属 性 与 主题 之 间的相 关 性进 行 主 题 发 现及