【CN109885675A】基于改进LDA的文本子话题发现方法【专利】
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201910138793.6
(22)申请日 2019.02.25
(71)申请人 合肥工业大学
地址 230009 安徽省合肥市包河区屯溪路
193号
(72)发明人 倪丽萍 李想 倪志伟 朱旭辉
李应 夏千姿
(74)专利代理机构 安徽省合肥新安专利代理有
限责任公司 34101
代理人 陆丽莉 何梅生
(51)Int.Cl.
G06F 16/34(2019.01)
G06F 16/33(2019.01)
G06F 17/27(2006.01)
(54)发明名称
基于改进LDA的文本子话题发现方法
(57)摘要
本发明公开了一种基于改进LDA的文本子话
题发现方法,其步骤包括:1、计算文本集合中单
词的TF -IDF值,挑选TF -IDF值大于阈值的名词和
动词作为下一步加权的特征词;2、基于特征词加
权LDA模型发现子话题以及相应的关键词;3、基
于TSR方法和KL散度对子话题进行优化;4、利用
Word2Vec模型进行子话题关键词扩展,提高子话
题关键词语义可理解性;5、构建子话题词向量和
标题词向量,利用余弦距离聚类。
本发明能在话
题区分度和语义可理解性上提高子话题发现效
果。
权利要求书3页 说明书8页 附图1页CN 109885675 A 2019.06.14
C N 109885675
A
1.一种基于改进LDA的文本子话题发现方法,其特征是按如下步骤进行:
步骤一、将经过预处理后的文档集合记为D={D 1,…,D d ,…,D |D|},其中,D d 表示第d篇预处理后的文档,1≤d≤|D|,|D|表示文档集合总数;且第d篇文档D d
的单词集合记为
W d ,j 表示第d篇预处理后的文档D d 中第j个单词,1≤j≤N d ,N d 表
示第d篇预处理后的文档D d 中的单词总数;则令所述文档集合中所有单词构成的单词集为W ={W 1,...,W t ,...,W V },W t 表示第t个单词,1≤t≤|V|,|V|表示单词集的总数;
使用TF -IDF特征提取方法计算第d篇预处理后的文档D d 中第j个单词W d ,j 的TF -IDF值v d ,j ,从而得到第j个单词W d ,j 及其TF -IDF值v d ,j 的对应关系为<W d ,j ,v d,j >;
若第j个单词W d ,j 为名词或动词,且其TF -IDF值v d ,j 大于阈值x,则将第j个单词W d ,j 记为加权特征词,从而得到文档集合D中所有的加权特征词;
步骤二、利用吉布斯采样方法训练特征词加权LDA模型得到子话题以及相应的关键词:步骤2.1、
设置主题数为K以及超参数向量和
步骤2.2、初始化时,对第d篇文档D d 中第j个单词W d ,j 随机地赋予一个主题编号;步骤2.3、判断第j个单词W d ,j 是否为加权特征词,若是,则利用如式(1)所示的改进的吉布斯采样公式更新第j个单词W d ,j 的主题编号;否则,利用如式(2)所示的未加权重的吉布斯采样公式更新第j个单词W d ,j
的主题编号;
式(1)和式(2)中,z d ,j =k表示第j个单词W d ,j 对应的主题编号为k;
表示从文档集合D 中去掉第j个单词W d ,j 后的主题分布;
表示从文档集合D中剔除第j个单词W d ,j 后第t个单词W t 分配给第k个主题的个数;表示第d篇预处理后的文档D d 中剔除第j个单词W d ,j 后分配给第k个主题的单词个数;表示第t个单词W t 的狄利克雷先验分布,αk 表示第k个主题的狄利克雷先验分布;
表示第d篇预处理后的文档D d 中第j个单词W d ,j 为对应的主题编号为k的概率,表示第d篇预处理后的文档D d 中第j个单词W d ,j 为单词集W中的第t个单词W t 且第j个单词W d ,j 对应的主题编号为k的联合概率;
步骤2.4、重复执行步骤2.3的采样过程,
直至所有的单词的收敛,使得所有单词的主题编号确定,从而得到子话题;
步骤2.5、利用式(3)计算第d篇预处理后的文档D d 在第k个主题上的概率θd ,k ,
并利用式(4)计算第k个主题中第t个单词W t
的概率从而得到d篇预处理后的文档D d -主题分布
权 利 要 求 书1/3页2CN 109885675 A。