一种改进的LDA主题模型
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
b te e e aia i n p ro ma c y a i tn t e c r ea i n mo g t o is a d t e p e iy e t r g n rlz to e f r n e b v lda i g h o r l to s a n he t p c n he p r l x t v leo d 1 au fmo e . 、
Z NGXi pn HOUXuz og ,HU NG H u u n ,F NG Q HA a ig ,Z o ehn A o ka E i,
C HEN h b ,】A0 Ho g u n S io I ng a
( .c ol f o ue a dIfr t nT cn l y B in i tn ies y B in 0 04 C ia 1Sh o o mp t n oma o eh o g , eigJ oo gUn r t, eig10 4 , h ; C r n i o j a v i j n 2 G agn e opt , hn cd m f hns dcl c ne ,10 5 , eig C ia . un a m nH si l C iaA ae yo ieeMei i cs 0 0 3 B in , h ; a C aSe j n
t e f a u e wo d sn u s f n t n Th x e me t n ia e t a h i h i g t p c mo e s h e t r r s u i g Ga s u c i . o e e p r n s i d c t h t t e weg t o i d li i n
一
种 改进 的 L DA 主 题 模 型
(. 1北京交通大学 计算机与信息技术学院 , 北京 10 4 ; 00 4
张小平 周 雪忠 黄厚 宽 冯 奇 陈世 波2焦宏 官 , , , , ,
2 中国中医科学院广安门医院 , . 北京 105 ;. 0033 中国中医科学 院 中医药信息研究所 , 北京 100 ) 070
Ab t a t T e d srb t n o r si h o u n a i y p we u e ,wh c a s h o isi c n sr c : h it u i fwo d t e d c me t ts o rr ls i o n s f i h c u et e t p c h e n t e h g r q e c r s n h n ma y wo d ih c n r p e e t o i sa es b r e h i h fe u n y wo d ,a d t e n r s wh c a e r s n p c r u me g d.I a st t t e d o l
第 3 4卷 第 2 期
21 0 0年
学
学
报
Vo . 4 No. 13 2 ADr 01 .2 O
OURNAL 0F BE NG I HI J A0T0NG UNI VERS TY I
文章编号 :6 30 9 (00 0 . 110 17 .2 12 1 )20 1-4
摘
要: 由于文档 中的词 符合 幂律 分布 , 得 L A模 型 的主题 分布 向 高频 词倾 斜 , 使 D 导致 能够代表 主
题 的 多数 词被 少量 的高频 词淹 没使 得 主 题 表 达 能 力 降低 . 过 一 种 高斯 函数 对特 征 词 加 权 , 进 通 改
L A主题 模 型的主 题分 布 . D 实验显 示加权 L A模 型 获得 的主 题 间 的相 关性 以及 复 杂度 ( ep x. D P rl i e
K yw rsltn ic l l ct n L A) ic lt i r uin w ihigtpcmoe e od : e t r he a oai ( D ;dr he dsi t ; eg t i a di t l o i tb o n o dl
主题模 型 ( o i Moe)l 可 以 自动提 取 隐含 T pc d1【 J 在文档集 中的主题 , 按 照 词 的分 布 形 式 直 观地 表 并 达主题 , 为无监 督地 分 析 文 档 和 预测 新 文 档 提供 了 方便 的工 具 . 题模 型的基 本思想 是假 设存 在 K 个 主
3. n t u eo n o ma in o a i o a i e e Me i n ,C i a Ac d my I si t fI f r t n Tr d t n Chn s d c e t o i l i hn a e
o h eeMe c cecs 0 7 0 B in ,C ia f i s d a Si e,10 0 , eig hn ) C n il n j
t) y值都降低 , 说明改进模型在主题表达和预测性能方面都有所提 高. 关键词 : D L A;Dr he 分布 ; ic l i t 加权 主题模 型
中图分 类号 : P 9 .3 T 3 1 4 文献标 志码 : A
An I pr v d LDA p c M o l m o e To i de
r d c h x r s i n c pa i y o e u e t e e p e so a b ht fLDA o c .An i t pis mpr v d LDA o i d li h we y weg i g o e t p cmo e ss o d b i htn
Z NGXi pn HOUXuz og ,HU NG H u u n ,F NG Q HA a ig ,Z o ehn A o ka E i,
C HEN h b ,】A0 Ho g u n S io I ng a
( .c ol f o ue a dIfr t nT cn l y B in i tn ies y B in 0 04 C ia 1Sh o o mp t n oma o eh o g , eigJ oo gUn r t, eig10 4 , h ; C r n i o j a v i j n 2 G agn e opt , hn cd m f hns dcl c ne ,10 5 , eig C ia . un a m nH si l C iaA ae yo ieeMei i cs 0 0 3 B in , h ; a C aSe j n
t e f a u e wo d sn u s f n t n Th x e me t n ia e t a h i h i g t p c mo e s h e t r r s u i g Ga s u c i . o e e p r n s i d c t h t t e weg t o i d li i n
一
种 改进 的 L DA 主 题 模 型
(. 1北京交通大学 计算机与信息技术学院 , 北京 10 4 ; 00 4
张小平 周 雪忠 黄厚 宽 冯 奇 陈世 波2焦宏 官 , , , , ,
2 中国中医科学院广安门医院 , . 北京 105 ;. 0033 中国中医科学 院 中医药信息研究所 , 北京 100 ) 070
Ab t a t T e d srb t n o r si h o u n a i y p we u e ,wh c a s h o isi c n sr c : h it u i fwo d t e d c me t ts o rr ls i o n s f i h c u et e t p c h e n t e h g r q e c r s n h n ma y wo d ih c n r p e e t o i sa es b r e h i h fe u n y wo d ,a d t e n r s wh c a e r s n p c r u me g d.I a st t t e d o l
第 3 4卷 第 2 期
21 0 0年
学
学
报
Vo . 4 No. 13 2 ADr 01 .2 O
OURNAL 0F BE NG I HI J A0T0NG UNI VERS TY I
文章编号 :6 30 9 (00 0 . 110 17 .2 12 1 )20 1-4
摘
要: 由于文档 中的词 符合 幂律 分布 , 得 L A模 型 的主题 分布 向 高频 词倾 斜 , 使 D 导致 能够代表 主
题 的 多数 词被 少量 的高频 词淹 没使 得 主 题 表 达 能 力 降低 . 过 一 种 高斯 函数 对特 征 词 加 权 , 进 通 改
L A主题 模 型的主 题分 布 . D 实验显 示加权 L A模 型 获得 的主 题 间 的相 关性 以及 复 杂度 ( ep x. D P rl i e
K yw rsltn ic l l ct n L A) ic lt i r uin w ihigtpcmoe e od : e t r he a oai ( D ;dr he dsi t ; eg t i a di t l o i tb o n o dl
主题模 型 ( o i Moe)l 可 以 自动提 取 隐含 T pc d1【 J 在文档集 中的主题 , 按 照 词 的分 布 形 式 直 观地 表 并 达主题 , 为无监 督地 分 析 文 档 和 预测 新 文 档 提供 了 方便 的工 具 . 题模 型的基 本思想 是假 设存 在 K 个 主
3. n t u eo n o ma in o a i o a i e e Me i n ,C i a Ac d my I si t fI f r t n Tr d t n Chn s d c e t o i l i hn a e
o h eeMe c cecs 0 7 0 B in ,C ia f i s d a Si e,10 0 , eig hn ) C n il n j
t) y值都降低 , 说明改进模型在主题表达和预测性能方面都有所提 高. 关键词 : D L A;Dr he 分布 ; ic l i t 加权 主题模 型
中图分 类号 : P 9 .3 T 3 1 4 文献标 志码 : A
An I pr v d LDA p c M o l m o e To i de
r d c h x r s i n c pa i y o e u e t e e p e so a b ht fLDA o c .An i t pis mpr v d LDA o i d li h we y weg i g o e t p cmo e ss o d b i htn