融合C-Value和LDA的社会化标签研究热点识别与分析

合集下载

基于LDA的用户行为话题分析研究

基于LDA的用户行为话题分析研究

基于LDA的用户行为话题分析研究随着互联网的发展,大数据时代已经到来,各种社交平台、电商平台等互联网产品不断涌现,这些平台为用户提供了丰富的信息和服务,同时也对用户产生了强大的影响力。

因此,如何对用户的行为进行分析,了解用户行为背后的动机和需求,将会对企业的发展和改进带来重要的启示。

话题分析是用户行为分析的一种方法,它的原理是利用机器学习和自然语言处理技术,将海量文本数据分析成一些简单易懂的话题,从中提取出用户的需求和兴趣,为企业提供更准确的数据分析依据。

LDA(Latent Dirichlet Allocation)是其中一种常见的话题模型,它能够有效地识别文本中隐藏的话题,为用户行为分析提供了更高效的工具和方法。

LDA的原理是将一篇文档中的每个单词都看作是从多个话题中抽取而来的,在一个文档中,话题的比例和单词在话题中的分布都是随机的。

通过对多篇文档进行分析,LDA可以对每个文档的话题进行提取,并判断每个话题在整个语料库中的分布情况。

通过这种方式,可以得出对话题的描述和识别度,从而了解用户的兴趣和需求。

在实际应用中,LDA的相关算法不仅可以运用于文本分析,也可以应用于图像、音频等非文本领域的数据分析,但在文本分析中,LDA较为常用。

在大量文本数据上,LDA可以自动地识别和划分话题,并将这些话题分类汇总让用户快速浏览和分析。

例如,在社交平台上监测用户关注的话题,可以发现用户对哪些话题关注度最高,从而更好地理解他们的需求,为用户提供的内容和服务更准确。

在广告投放方面,了解用户的需求和行为后,可以根据用户的兴趣和关注领域投放相应的广告,提高广告的点击率和转化率,从而增加企业的营销效果。

但是,LDA模型在实际应用中,仍然存在一些问题。

首先,LDA算法的计算量很大,需要进行大量计算和迭代,且模型参数较多,因此在实际处理大量数据时,处理时间和资源的消耗较大。

另外,LDA仅仅是一种基于统计学的模型,其演化过程并不是完全准确,因此在使用时,我们还需要结合专业领域知识和实际应用情况进行比对调整。

基于LDA主题模型的社交媒体数据分析与挖掘研究

基于LDA主题模型的社交媒体数据分析与挖掘研究

基于LDA主题模型的社交媒体数据分析与挖掘研究随着互联网技术逐渐普及,社交媒体平台在我们的生活中扮演着日益重要的角色。

越来越多的人开始使用社交媒体来表达自己的观点、分享自己的经验,而这些信息所蕴含的价值已经引起了广泛的关注。

这些海量的社交媒体数据如何加以整理、分析和挖掘,成为了一个备受关注的问题。

在这篇文章中,我们将探讨基于LDA主题模型的社交媒体数据分析与挖掘。

一、LDA主题模型的概念与原理LDA主题模型是一种用于文本挖掘的概率模型,用于从文本中自动发现隐含的主题。

它最早由普林斯顿大学的David Blei等人于2003年提出,成为了文本挖掘领域的重要研究方向。

LDA主题模型的原理是将文本看做是由多个主题的组合所构成的,每个主题都由一些特定的词汇所组成。

例如,一个包含汽车、京东、速卖通等词汇的文本可能是属于“电商”这个主题的。

而一个包含鞋子、包包、裙子等词汇的文本可能属于“时尚”这个主题的。

LDA主题模型的目的就是从这些文本中自动地识别出这些隐含的主题。

二、LDA主题模型在社交媒体数据分析中的应用社交媒体平台中的信息具有多样性、实时性和海量性等特点,而LDA主题模型可以发挥其优势,快速地发现其中的隐含主题,对社交媒体数据进行分析和挖掘。

1、舆情分析社交媒体平台上的每一条信息都可以用LDA主题模型进行分类,进而对社会公共事件发生前、发生中、发生后的情感态度进行识别和分析。

通过监控社交媒体平台上社会公共事件的影响者和事件的关键词,结合LDA主题模型对事件发生的舆论进行实时的判定和预测,为政府和企业提供决策参考。

2、产品含义分析通过分析用户在社交媒体平台上频繁出现的词汇及其相关的主题,可以发现用户对于产品的使用体验、产品功能或者是对其他竞品的看法等,可以帮助企业了解用户需求和分析行业竞争状况,在产品优化和市场竞争中发挥参考作用。

3、话题挖掘社交媒体平台上的用户活跃与否、用户间互动的频率、话题的广度与热度等,都可以通过LDA主题模型进行分析和研究。

基于改进的ccLDA多数据源热点话题检测模型

基于改进的ccLDA多数据源热点话题检测模型

基于改进的ccLDA多数据源热点话题检测模型陈兴蜀;马晨曦;王文贤;高悦;王海舟【期刊名称】《工程科学与技术》【年(卷),期】2018(050)002【摘要】目前,跨文本集的话题发现模型(cross-collection LDA,ccLDA)只适用于各个数据源话题相似度很高的场景,而且其全局话题和每个数据源的局部话题会强制对齐,存在词语稀疏的问题。

针对ccLDA模型中的不足,提出了改进的跨文本集话题发现模型(improved ccLDA,IccLDA)。

该模型在采样时先判断词语属于全局话题还是局部话题,再分别进行采样,避免了ccLDA模型中全局话题和局部话题必须对齐的缺点,进而降低了词语在全局话题和局部话题的分散程度,使该模型可以适用于多数据源的场景。

在公开数据集上进行了多数据源文本集的话题发现实验,并进行了话题比较性分析。

实验结果表明,在设置不同的话题数时,IccLDA模型的困惑度值均低于LDA模型和ccLDA模型,表明IccLDA模型具有更优的建模能力。

最后,在真实数据集上开展了进一步实验验证,证明了本文提出的改进模型不仅建模能力优于原始模型,还可以有效地发现各个数据源讨论的公共话题和每个数据源讨论的局部话题,更适用于多数据源场景的文本话题发现。

【总页数】7页(P141-147)【作者】陈兴蜀;马晨曦;王文贤;高悦;王海舟【作者单位】[1]四川大学网络空间安全学院,四川成都610065;[2]四川大学计算机学院,四川成都610065;[2]四川大学计算机学院,四川成都610065;[3]四川大学网络空间安全研究院,四川成都610065;[2]四川大学计算机学院,四川成都610065;[1]四川大学网络空间安全学院,四川成都610065【正文语种】中文【中图分类】TP391.1【相关文献】1.基于改进的OLDA模型话题检测及演化分析2.基于改进的ccLDA多数据源热点话题检测模型3.基于改进 TF*PDF 算法的网络新闻热点话题检测和跟踪4.基于LDA模型的微信图书馆热点话题检测5.基于微博多维度及综合权值的热点话题检测模型因版权原因,仅展示原文概要,查看原文内容请购买。

一种基于LDA模型的新兴主题识别与探测方法

一种基于LDA模型的新兴主题识别与探测方法

一种基于LDA模型的新兴主题识别与探测方法
吴东雪;沈桂兰
【期刊名称】《河南师范大学学报(自然科学版)》
【年(卷),期】2024(52)2
【摘要】新兴主题识别是科技研究领域识别新兴技术的重要方式,高效精准地识别新兴主题是早期辨识新兴技术研究方向的前提.提出一种基于LDA模型的新兴主题识别与趋势预测方法,通过LDA模型提取科技文献中的研究主题,构建主题强度、主题新颖度和复合主题关注度的指标体系识别新兴主题,采用Prophet模型预测新兴主题的主题强度,探测未来发展趋势.以智慧农业领域最近14年的科研文献为数据集,对提出的识别和探测方法进行验证,识别出了5个新兴主题,并预测了未来3年的发展趋势,同时验证所提方法的有效性.
【总页数】9页(P72-80)
【作者】吴东雪;沈桂兰
【作者单位】北京联合大学应用文理学院;北京联合大学商务学院
【正文语种】中文
【中图分类】TP399
【相关文献】
1.基于LDA与新兴主题特征分析的新兴主题探测研究
2.基于LDA模型的科技文献主题探测方法研究
3.基于LDA主题模型的图像场景识别方法
4.基于线性回归模型
的单词加权LDA主题识别方法研究5.基于LDA主题模型和扎根理论的我国金融科技领域热点主题识别与进展分析
因版权原因,仅展示原文概要,查看原文内容请购买。

一种改进的LDA和PCA特征空间融合的人脸识别方法

一种改进的LDA和PCA特征空间融合的人脸识别方法

一种改进的LDA和PCA特征空间融合的人脸识别方法作者:何俊芦明来源:《电脑知识与技术》2020年第35期摘要:为了改善传统的人脸识别Fisherface方法的识别率和稳定性,采用LDA + PCA组合的两步人脸识别过程来消除小样本问题;通过融合LDA和PCA特征空间,使类内离散度最小而类间离散度最大,来解决统计相关问题。

通过约束空间维数和采样维数来提高识别率和稳定性。

最后,在ORL人脸库上进行实验,结果表明该方法是有效的,识别率较高,而且识别结果比较稳定,满足实际应用的要求。

关键词:人脸识别;LDA特征;PCA特征;特征空间融合中图分类号: TP319 文献标识码:A文章编号:1009-3044(2020)35-0184-02开放科学(资源服务)标识码(OSID):An Improved Face Recognition Method Based on LDA and PCAHE Jun, LU Ming(School of Computer Science and Software Engineering, University of Science and Technology Liaoning, Anshan 114051,China)Abstract: In order to improve the recognition rate and stability of Fisherface method in traditional face recognition, a two-step face recognition process combining LDA and PCA is used to eliminate the small sample problem, and the statistical related problems are solved by fusing LDA and PCA feature space to minimize the within-class scatter and maximize the between-class scatter. The recognition rate and stability are improved by constraining the spatial dimension and sampling dimension. Finally, experiments on ORL face database show that the method is effective, the recognition rate is high, and the recognition results are stable, which meets the requirements of practical application.Key words: face recognition; LDA feature; PCA feature; feature space fusion自从美国“9.11”事件后,人的身份认证问题不仅涉及银行存款、电子商务、金融安全等方面,而且已经提升到了国家安全的高度。

基于LDA的社会化标签综合聚类方法

基于LDA的社会化标签综合聚类方法

基于LDA的社会化标签综合聚类方法李慧宗;胡学钢;杨恒宇;林耀进;何伟【期刊名称】《情报学报》【年(卷),期】2015(034)002【摘要】社会化标注系统产生了大量歧义的、不受控制的标签,不仅会降低用户的体验,而且会限制资源的利用效率.标签聚类能够把具有相近语义的标签聚集在一起,反映标签的潜在语义结构,从而有效缓解上述问题.传统的标签聚类方法通常只利用资源的被标注信息进行聚类,由于忽略了用户的标注信息使得聚类结果不能表达准确的语义.本文提出一种基于LDA (Latent Dirichlet Allocation)模型的社会化标签综合聚类方法,该方法分别利用用户的标注信息和资源的被标注信息来建立主题学习模型,通过学习,获取基于用户的标签潜在主题和基于资源的标签潜在主题,综合标签在这两类主题上的概率分布结果,建立标签主题的二次学习模型,学习出标签的混合主题并在此基础上判定标签的聚类簇.与传统方法相比,本文的方法不仅可以有效地利用标签之间的语义关系,而且能够在一定程度上缓解传统标签聚类方法所面临的高维和稀疏性问题.实验结果表明,本文的方法具有较好的效果.【总页数】10页(P146-155)【作者】李慧宗;胡学钢;杨恒宇;林耀进;何伟【作者单位】合肥工业大学计算机与信息学院,合肥230009;安徽理工大学经济与管理学院,淮南232001;合肥工业大学计算机与信息学院,合肥230009;合肥工业大学计算机与信息学院,合肥230009;安徽省科学技术情报研究所,合肥230001;合肥工业大学计算机与信息学院,合肥230009;闽南师范大学计算机学院,漳州 363000;合肥工业大学计算机与信息学院,合肥230009【正文语种】中文【相关文献】1.基于资源内容聚类的社会化标签聚类方法 [J], 王向前;李慧宗2.基于LDA的社会化标签系统推荐技术 [J], 张彬彬;林丕源;黄沛杰3.融合C-Value和LDA的社会化标签研究热点识别与分析 [J], 冯翠翠;莫富传4.基于LDA模型和Doc2vec的学术摘要聚类方法 [J], 张卫卫; 胡亚琦; 翟广宇; 刘志鹏5.基于改进LDA的社会化标签主题识别方法 [J], 邰悦;葛斌;李慧宗因版权原因,仅展示原文概要,查看原文内容请购买。

基于主题词和LDA模型的知识结构识别研究

基于主题词和LDA模型的知识结构识别研究

基于主题词和LDA模型的知识结构识别研究一、本文概述随着信息技术的迅猛发展,海量的知识资源已经渗透到人类社会的各个角落。

如何有效地识别、组织和管理这些知识,使其能够更好地服务于人类社会的发展,已成为当前研究的重要课题。

在此背景下,基于主题词和LDA(Latent Dirichlet Allocation)模型的知识结构识别研究应运而生,旨在从海量的知识资源中挖掘出潜在的主题结构,进而实现知识的有效组织和利用。

本文首先介绍了知识结构识别的研究背景和意义,阐述了基于主题词和LDA模型的知识结构识别方法的基本原理和流程。

接着,文章详细描述了主题词提取和LDA模型构建的具体步骤,包括数据预处理、特征选择、模型训练等关键环节。

在此基础上,文章进一步探讨了基于主题词和LDA模型的知识结构识别方法在不同领域的应用,包括文献分析、主题挖掘、知识图谱构建等方面。

本文的研究不仅有助于深入理解知识结构识别的基本原理和方法,而且能够为相关领域的研究提供有益的参考和借鉴。

同时,文章还指出了当前研究存在的不足和未来研究的方向,以期为推动知识结构识别研究的发展做出一定的贡献。

二、主题词提取技术对原始文本进行预处理,确保输入数据的质量与一致性,为后续的主题词提取奠定坚实基础。

预处理步骤通常包括:分词:将连续的文本流分解为单个词语或短语,依据汉语或英语等语言特点采用相应的分词算法。

停用词去除:移除高频但缺乏主题信息的词语,如“的”、“和”、“在”(汉语)或“the”、“of”、“in”(英语)等。

词干化词形还原:对于英文文本,通过词干化(stemming)或词形还原(lemmatization)处理,将不同形式的同义词归并到其基本形态,如将“running”还原为“run”。

经过预处理后的文本数据转化为文档词语矩阵(DocumentTerm Matrix, DTM),这是一个稀疏矩阵,行代表文档,列代表词语,矩阵元素值记录了词语在对应文档中出现的频率、TFIDF权重或其他量化指标。

基于LDA的社会化标签系统推荐技术

基于LDA的社会化标签系统推荐技术

基于LDA的社会化标签系统推荐技术张彬彬;林丕源;黄沛杰【摘要】标签推荐中采用将三维模型拆分成多个二元关系的方法,导致用户信息的描述模糊、语义丢失、标签的个性化信息减弱问题,提出一种基于LDA模型的个性化标签推荐模型(LTR).使用LDA模型的吉布斯采样算法对参数进行估计,利用模型输出的概率关系进行排序,选取最高的N个预测结果作为最终的个性化推荐.以CiteULike数据集为研究对象,实验结果表明,该模型考虑了具有丰富语义信息的摘要文本,发挥了涵盖用户意识的个性化标签作用来增强推荐的准确性,有效为用户推荐个性化标签,提高了推荐效果.【期刊名称】《计算机工程与设计》【年(卷),期】2016(037)010【总页数】6页(P2722-2727)【关键词】社会化标签系统;标签推荐;个性化推荐;主题模型;狄利克雷分配模型【作者】张彬彬;林丕源;黄沛杰【作者单位】华南农业大学数学与信息学院,广东广州510642;华南农业大学数学与信息学院,广东广州510642;华南农业大学数学与信息学院,广东广州510642【正文语种】中文【中图分类】TP301.6标签是由用户人为自由、不受约束地环境下创造出来的,因此具有自由性和低限度的特点,当然标签系统的优点往往也正是它的缺点,标签具备一定的社会性和含糊性,也同时存在着例如同义词、多义词等一词多义甚至是错误的拼写等情况,所以导致了标签系统中存在了大量重复、不规范、无效的标签,我们称之为噪音。

当用户对其感兴趣的资源进行标注标签行为的时候,规范、有效、质量高的标签则会创造出标签系统的循环性,促进系统的良性循环。

很多时候,用户正准备给资源进行标注的时候,却发现自己难以确定该使用哪个标签更为合适,则应该凭借目前已经存在的标签、现有的资源内容或者结合用户的兴趣有选择性地向因犹豫等因素造成的困难用户进行推荐标签。

这种推荐的优点在于不仅可以减少用户在标注标签过程中由于思考而造成的压力、方便用户进行标签标注,而且还可以避免由于不同用户的文化水平、不规范、无效的标签而造成标签系统的数据稀疏性问题,所以长期以来一直是人们研究的热点[1,2]。

混合词汇特征和lda的语义相关度计算方法

混合词汇特征和lda的语义相关度计算方法

混合词汇特征和LDA的语义相关度计算方法一、背景简介在自然语言处理和文本挖掘领域,语义相关度计算是一个重要而复杂的问题。

传统的基于词袋模型的相似度计算往往无法很好地捕捉词语之间的语义关联,因此引入了深度学习和主题模型等方法来提高语义相关度的计算精度。

混合词汇特征和LDA的语义相关度计算方法就是其中之一,它结合了词汇特征和主题模型的优势,能够更准确地评估文本之间的语义相关性。

二、混合词汇特征和LDA的基本原理混合词汇特征和LDA的语义相关度计算方法的基本原理是将词汇特征和LDA主题模型结合起来,利用它们各自的优势来计算文本之间的语义相关度。

通过词袋模型和词嵌入模型等方法提取文本的词汇特征,将文本表示为向量;利用LDA主题模型来挖掘文本的主题分布,将文本表示为主题分布的向量;将词汇特征向量和主题分布向量进行融合,通过一定的计算方法得到文本之间的语义相关度。

三、混合词汇特征和LDA的计算方法1. 词汇特征提取词汇特征提取是语义相关度计算的基础,包括词袋模型、TF-IDF、词嵌入等方法。

在混合词汇特征和LDA的计算方法中,可以使用词袋模型将文本表示为词频向量,也可以利用词嵌入模型将词语转换为稠密的向量表示。

这些词汇特征能够捕捉文本中词语的语义信息,为后续的语义相关度计算奠定了基础。

2. LDA主题模型LDA主题模型是一种用于挖掘文本主题分布的概率生成模型,能够将文本表示为主题分布的向量。

在混合词汇特征和LDA的计算方法中,利用LDA主题模型可以发现文本隐含的语义主题,从而更好地表征文本的语义信息。

3. 混合计算方法混合词汇特征和LDA的计算方法采用了词汇特征向量和主题分布向量的融合策略,常见的计算方法包括余弦相似度、欧氏距离等。

这些方法能够将词汇特征和主题信息进行有效地整合,得到文本之间的语义相关度。

四、实际应用与案例分析混合词汇特征和LDA的语义相关度计算方法在文本相似度计算、信息检索、推荐系统等领域有着广泛的应用。

基于LDA模型的主题分析及应用

基于LDA模型的主题分析及应用

基于LDA模型的主题分析及应用近年来,随着互联网的不断发展和普及,数据量呈爆炸式增长,如何从这些海量数据中挖掘出有价值的信息成为了研究的热点之一。

主题分析作为信息学中的一项重要技术,能够将海量文本数据聚类在同一个语义空间中,将文本根据其主题进行分类,从而更好地了解文本的内容和意义,为后续的数据分析和挖掘提供有益的帮助。

LDA模型是国际上非常流行的一种主题模型,它最早被引入新闻分析领域,但在当今分析各种类型的文本信息上,LDA模型已被广泛应用。

下文将详细介绍LDA模型的基本原理,以及其在主题分析领域的应用,同时探讨LDA模型的局限性及未来发展方向。

一、LDA模型基本原理LDA模型是一种基于概率分布的主题模型,它将文本看作是由多个主题词组成的混合,主题又是由多个单词组成的概率分布。

这个模型的基本思路是通过计算文本中每个单词的分布概率,从而将文本的主题分解成多个单词的分布。

但具体地说,LDA模型是如何得到这些单词分布概率呢?下面介绍LDA模型从生成角度获得每个单词分布概率的步骤:1. 设置一个主题数量N和一个单词数量M,同时定义一个主题w分布概率θ和单词分布概率φ2. 定义每个主题都是由多个主题词组成的分布,即根据θ生成一个长度为N的主题词向量,向量中每个元素的值都是0到1之间的概率分布3. 对于每一个循环t,遍历文本中的每个单词,根据主题向量θ中的概率分布随机选择一个主题4. 根据当前选定的主题,根据单词分布概率φ随机选择一个单词5. 为了更好的匹配文本,LDA模型对选择的主题和单词进行加权重,最后将权重加总输出6. 通过以上步骤,LDA模型可生成一个主题词向量,该向量表示单词在主题上是如何分布的。

二、LDA模型在主题分析领域的应用1. 产品主题分析在产品设计阶段,LDA模型可用于主题分析和核心主题的提取。

对一定数量的产品消费评论进行分析,并将不同的评论视为一篇文本进行聚类分析,就可以通过LDA算法计算不同主题的生成概率,进而找到核心主题。

基于LDA模型的主题分析研究

基于LDA模型的主题分析研究

基于LDA模型的主题分析研究随着网络信息的飞速发展,海量的文本数据不断涌现。

对这些文本数据进行有意义的分析,能够帮助人们更好地了解文本背后的信息和意义。

主题分析是一种常见的文本分析方法,它可以将一篇文本拆分成多个具有语义性的主题,从而帮助人们更好地理解文本内容。

LDA(Latent Dirichlet Allocation)模型是一种常见的主题分析模型,它在文本分析领域得到了广泛的应用。

本文将介绍LDA模型的原理、应用,并且探讨其优缺点和未来发展方向。

一、LDA模型的原理LDA模型是一种基于贝叶斯概率模型的主题分析方法。

它将文本看做是一系列词汇的集合,将每个文档看做是一系列词汇集合的混合,然后根据这些文档的词汇集合,去推断出它们背后的主题。

LDA模型假设每个文档都由多个主题组成,而每个主题又由多个单词组成。

在LDA模型中,主题是潜在变量,这意味着它们无法直接观测到,但可以从词汇出现的模式来推断。

在模型训练过程中,我们需要不断地调整主题和单词之间的关系,从而得到最优的主题分析结果。

二、LDA模型的应用LDA模型在文本分析领域中有着广泛的应用,例如社交媒体分析、情感分析、文本分类等。

以下是一些LDA模型应用的实例:1. 社交媒体分析LDA模型可以用于分析社交媒体上的话题和趋势。

例如,我们可以使用LDA模型来分析推特上的话题,从而了解用户对某个事件或产品的态度和情感。

该方法还可以用于分析竞争对手的营销策略和用户需求,帮助企业做出更好的决策。

2. 情感分析LDA模型可以用于情感分析,帮助人们了解文本中蕴含的情感,并洞察用户对某些产品、服务或事件的态度。

例如,我们可以使用LDA模型来了解评论中的情感,从而对产品质量、服务质量等进行评估。

3. 文本分类LDA模型可以用于对文本进行分类。

例如,我们可以使用LDA模型对新闻进行分类,从而方便用户选择他们感兴趣的新闻类型。

此外,LDA模型还可以用于研究特定主题的关键词,从而帮助人们更好地了解某些领域的知识体系。

基于LDA模型的中文微博热点话题发现

基于LDA模型的中文微博热点话题发现

基于LDA模型的中文微博热点话题发现
谈成访;汪材印;张亚康
【期刊名称】《宿州学院学报》
【年(卷),期】2014(29)4
【摘要】针对微博文本数量增加速度快、信息量繁杂等问题,将LDA模型应用到热点话题的挖掘中,构建出微博热点话题的识别过程.首先应用LDA模型对微博语料库进行主题建模,采用困惑度方法确定最佳主题个数,通过Gibbs抽样算法实现参数推理,获得语料库的主题一词汇概率分布和文本一主题概率分布,在此基础上计算并识别出微博中的热点话题、热点词汇和热点话题微博.实验结果显示该模型与人工挑选的结果基本一致,表明该模型具有较好的热点识别效果.
【总页数】4页(P71-73,77)
【作者】谈成访;汪材印;张亚康
【作者单位】宿州学院信息工程学院,安徽宿州,234000;宿州学院智能信息处理实验室,安徽宿州,234000;宿州学院智能信息处理实验室,安徽宿州,234000;宿州学院信息工程学院,安徽宿州,234000
【正文语种】中文
【中图分类】TP391
【相关文献】
1.基于LDA的微博热点话题发现研究 [J], 梁韬;朱艳辉
2.基于LDA模型的Twitter中文微博热点主题词组发现 [J], 孙世杰;濮建忠
3.基于分类的中文微博热点话题发现方法研究 [J], 郑飞;张蕾
4.面向LDA和VSM模型的微博热点话题发现研究 [J], 李勇;张克亮
5.基于中心词和LDA的微博热点话题发现研究 [J], 刘干;林杰豪;翟雯熠
因版权原因,仅展示原文概要,查看原文内容请购买。

基于LDA模型的研究领域热点及趋势分析

基于LDA模型的研究领域热点及趋势分析

基于LDA模型的研究领域热点及趋势分析杨星,李保利,金明举【摘要】摘要:随着研究的不断深入以及信息传播手段的进步,与某个研究领域相关的科学文献越来越多,也越来越容易得到,然而要阅读和分析这些数以千计的文献,仅凭人力已经难于实现对该领域研究重点、研究热点以及趋势进行全面系统地分析。

鉴于此,提出一种基于LDA模型对某研究领域在一定时期内的热点及趋势进行自动识别的方法。

该方法利用Gibbs抽样计算模型参数,获取领域热点主题以及热点词语,通过按时间后离散的主题演化方法分析热点主题在时间轴上的强度演化。

以中文信息处理领域为例,通过对《中文信息学报》2001—2010十年间发表的学术论文进行分析,自动获取中文信息处理领域十年内的研究热点以及热点主题在时间轴上的演化趋势。

实验结果初步证明了该方法的有效性。

【期刊名称】计算机技术与发展【年(卷),期】2012(000)010【总页数】5【关键词】关键词:研究热点;LDA模型;Gibbs抽样;主题数目;主题演化0 引言随着信息时代的来临,网络已经成为人们获取信息的重要渠道,大量以文本格式存储的科学文献信息出现在图书馆和相关主题网站上。

这些数据的主要特点是海量且繁杂,如何利用一种有效的方法分析这些文本数据,从中识别出重要的研究热点信息,并且进一步分析研究热点的发展趋势,成为急需解决的问题。

研究领域热点及趋势分析,就是对某一科学领域的文献数据进行综合全面的分析,挖掘出该领域的研究热点,并分析热点随时间的演化趋势。

其目的是找出人们所关注的热点问题、热点技术及发展状况等重要信息。

研究领域热点挖掘可以帮助人们及时了解领域内的热点研究问题、获得该领域的热点知识和发展趋势,便于研究者对自己将要或正在从事的研究领域有一个全面的理解,以帮助他们发现现有研究的不足并确定个人的研究方向。

目前,对热点主题的识别研究主要有以下三种方法:(1)以词语切分和噪声库为基础,采用三级滤噪方法对网络热点信息进行拼接,最后依靠适当的收录策略提取出热点信息串。

融合LDA

融合LDA

融合LDA⁃LSTM算法的微博档案关注度和情感分析
孙思怡;王家强;罗子江
【期刊名称】《现代计算机》
【年(卷),期】2024(30)7
【摘要】为了解析《档案法》实施三年后社会公众对档案的关注度与情感态度,利用Python工具和LDA模型对数据进行提取和主题聚类,获得不同时间下档案热点主题;采用LSTM模型得到各档案主题的情感倾向,分析用户产生不同情感倾向的原因。

根据各主题间的联系,得到档案项目、影视娱乐档案、学生-学校档案以及专项档案四类主题。

各类档案主题具有较高的积极倾向,说明公众对档案事业的发展比较支持和理解,对于消极倾向较高的学生-学校档案类别,有关部门应加强档案宣传教育,从根本上保障公众利用档案的权利,增强全社会的档案意识。

【总页数】6页(P70-75)
【作者】孙思怡;王家强;罗子江
【作者单位】贵阳人文科技学院经济与管理学院;贵州财经大学信息学院;顺德职业技术学院智能制造学院
【正文语种】中文
【中图分类】TP3
【相关文献】
1.基于微博标签和LDA的微博主题提取算法
2.融合多媒体特征的LSTM微博情感分析方法
3.基于LDA和XGBoost模型的环境公共服务微博情感分析
4.基于
LSTM-LDA算法和IPA分析的在线品牌社群用户关注热点研究5.新冠肺炎疫情期间微博话题“中医新冠肺炎”的关注热点分析——基于LDA模型的微博主题挖掘
因版权原因,仅展示原文概要,查看原文内容请购买。

基于LDA模型的中文微博热点话题发现

基于LDA模型的中文微博热点话题发现
数 字字 符 、 标 点符号 , 同时统 计微博 中频繁 出现 的无
以及 每个 单词 在 各个 潜 在 主题 上 的概 率 分布 情况 。
设 在 微博 文 本集 合 D 一 { d , d : , …, d }中, 一条 微 博 的影 响力表 示 为 厂 d :
/ — Nu ( 5 )
解析, 再使 用 中 国科 学院计 算机研 究所 的“ 汉语 词法 分 析 系统 I C T C L A S ” 进行 中文分 词 和词 性 标 注 , 然
利用 L D A模 型对微 博语料 库进 行 主题 建模 , 可 以获得 每条微 博在 这些 潜在 主题 上 的概率 分布情 况
后 在 已有停 用 词 表 的基 础上 , 加 入英 文 字符 、 数字、
汇数 。
2 . 3 热 点话 题 发 现
R( , 丁)= >: C( , 丁) TF ( 口 f )
( 9 )
其中, T F( v ) 是微博 M 中单词 的 T F I DF 权重 , S 为
微博 中 的单 词数 。
2 . 3 . 1 热点话题 计算
7 2
P( d )表示 L DA 主题 模 型产 生文 档 的概率 。
L DA 模 型的参数 求解 方法有很 多种 , 本 文利 用
MC MC 中的 G i b b s 抽样 算 法进行 推 理 , 通过 对 变量 进行 G i b b s 抽 样 间接计 算 出文本 一 主 题概 率分 布和 主题 一 词 概率分 布 , 即 和 , 计算 公式 如下 :
根 据 公式 ( 9 ) 计 算 出微 博 和热 点话 题 之 间 的相
意 义 的词语 和 符号 , 如“ @” 、 “ 转发” 等, 构建 出适 用

融合空间信息LDA的视觉对象识别研究

融合空间信息LDA的视觉对象识别研究

L D A Mo d e l C o mb i n e d S p a t i a l I n f o r ma t i o n f o r V i s u a l 0b j e c t c o g n i t i o n R e s e a r c h
L I Y a n gຫໍສະໝຸດ , L I U Y a n g , G U 0 Ma o z u
李 阳 ,刘 扬, 郭茂 祖
( 哈尔滨工业大 学 计算机科学与技术学院 .哈尔滨 1 5 0 0 0 1 l
摘 要 : 近年来 国内外有很多学者将 广 泛用 于 自然语 言处理 的 L D A模型 引入视 觉对 象识别 , 对 象分 割, 场景 分类 等应用 中。
L D A模 型是产 生式模 型 , 所以必然存 在产生式模型共有的弊端 , 即假设 每个视觉词汇所对应主题的产生是条件独立 的。根据 图像
第3 卷 第 4期
2 0 1 3年 8月
智 能 计 算 机 与 应 用
I NTELLI GENT COMP UTER AND AP PLI CAT1 0NS
V0 J . 3 No . 4 Au g ; l 3
融合 空 间信 息 L D A 的视 觉对 象识 别研 究
本身的特征 , 图像的空间信息对图像物体识别起 了很大 的作用 , 一 个视觉词 汇主题 的生成过程是 受其相邻 视觉词汇 主题所影 响
的, 为了提高图像视觉词汇 的主题分 配正确率 , 提 出融合 空间信息 L D A模型 , 即融合条件 随机场 的 L D A模 型, 从 而在 图像 的局部
( S c h o o l o f C o mp u  ̄r S c i e n C e a n d T e c h n o l o g y ,Ha r b i n I n s t i t u t e o f Te c hn o l o y, g Ha r b i n 1 5 0 0 0 1 ,C h i n a )

基于LDA主题模型的数字经济热点主题识别与趋势

基于LDA主题模型的数字经济热点主题识别与趋势

基于LDA主题模型的数字经济热点主题识别与趋势目录一、内容概览 (2)1.1 研究背景 (2)1.2 研究意义 (4)1.3 研究内容与方法 (5)二、相关理论 (6)2.1 数字经济概述 (7)2.2 主题模型简介 (9)2.3 LDA主题模型原理 (10)三、研究方法 (11)3.1 数据收集与预处理 (13)3.2 LDA模型构建 (13)3.3 主题评估与优化 (14)四、数字经济热点主题识别 (16)4.1 主题提取 (18)4.2 主题可视化 (19)4.3 主题分析 (21)五、数字经济热点趋势分析 (22)5.1 趋势识别方法 (24)5.2 趋势演变分析 (25)5.3 趋势预测 (26)六、案例分析 (28)6.1 案例选择 (29)6.2 案例分析 (30)6.3 案例总结 (31)七、实验结果与分析 (32)7.1 实验设置 (33)7.3 结果分析 (36)八、结论与展望 (37)8.1 研究结论 (39)8.2 研究不足与展望 (40)一、内容概览本报告旨在运用LDA主题模型对数字经济领域的热点主题进行深入分析与识别,并在此基础上探讨相关主题的发展趋势。

报告首先对数字经济的概念及其在我国的发展背景进行简要介绍,随后详细阐述LDA主题模型在文本分析中的应用原理及其优势。

接着,通过对大量数字经济相关文本数据的处理与分析,提取出核心主题,并对这些主题进行归纳与分类。

进一步地,报告将结合具体案例,对各个主题的发展现状、关键影响因素以及未来趋势进行深入剖析。

提出针对数字经济热点主题识别与趋势分析的策略建议,以期为政策制定者、企业决策者以及广大研究工作者提供有益的参考。

1.1 研究背景随着全球经济的快速发展,数字经济已成为推动经济增长的重要引擎。

近年来,我国政府高度重视数字经济的发展,将其作为国家战略进行布局。

数字经济涵盖了互联网、大数据、云计算、人工智能等多个领域,涉及面广、发展迅速,对经济社会发展产生了深远影响。

基于LDA主题模型的标签推荐方法研究

基于LDA主题模型的标签推荐方法研究

〔摘要〕针对现有的标签推荐方法存在的推荐准确率不高与效果不理想等问题,本文提出了基于lda主题模型的社会化标签推荐方法。

该方法利用lda主题建模技术将传统的基于对象间关系的推荐方法扩展到融合对象间关系与资源内容特征的统一推荐。

实验结果表明,该方法取得了理想的预期效果,能够显著提高标签推荐的质量与效果。

〔关键词〕标签推荐;lda主题模型;推荐方法doi:10.3969/j.issn.1008-0821.2016.02.010〔中图分类号〕g203 〔文献标识码〕a 〔文章编号〕1008-0821(2016)02-0053-04 (1)基于资源内容的标签推荐方法。

基于资源内容的标签推荐方法从标注资源所具备的属性特征出发,通过提取描述资源内容的关键词作为标签推荐的依据。

由于该方法在处理过程中仅仅利用了资源本身的信息,没有兼顾相似资源、邻居用户等信息,无法发挥标签的社会化特性,在实际运用过程中的准确率与效率并不理想[3]。

(2)基于协同过滤的标签推荐方法。

基于协同过滤的标签推荐方法利用协同过滤技术获取相似资源、邻居用户等标签信息,实现对目标资源的推荐,如hotho等[4]提出的folkrank 方法利用社会化标注系统中用户、标签、资源三者之间存在的关联信息对标签进行排序,根据排序结果进行协同推荐;mishne[5]提出的autotag方法利用相似度计算获取与目标资源内容相似的资源,并将相似资源的标签进行聚类、排序,根据排序结果实现协同推荐。

这类方法的关键是准确获取相似资源的标签信息,然后从已有的标签库中查找到相似标签进行推荐,故该方法的推荐效果会受到候选标签库规模、标签相似度计算方法准确度的影响[6]。

(3)基于标签语义的标签推荐方法。

基于标签语义的标签推荐方法利用用户、标签、资源三者之间蕴含的语义关系获取推荐标签所需的知识并运用到推荐任务中,提高标签推荐的准确性与推荐效果,如adrian[7]提出的contag方法将本体思想运用到标签推荐之中,通过将用户、标签、资源三者之间的关系表达成rdf格式进行文档主题建模,实现基于语义主题的标签推荐;marchetti等[8]提出的semkey方法将语义网与协同过滤技术相结合进行基于语义协作的标签推荐。

基于LDA主题模型的RCEP研究热点主题及发展导向研判

基于LDA主题模型的RCEP研究热点主题及发展导向研判

基于LDA主题模型的RCEP研究热点主题及发展导向研判目录一、内容概述 (2)1.1 研究背景与意义 (3)1.2 研究目的与内容 (4)1.3 研究方法与技术路线 (5)二、LDA主题模型概述 (6)2.1 LDA主题模型的基本原理 (6)2.2 LDA主题模型的应用领域 (7)2.3 LDA主题模型的优势与挑战 (8)三、RCEP的背景与概况 (9)3.1 RCEP的签署背景与意义 (10)3.2 RCEP的主要内容与特点 (12)3.3 RCEP的发展前景与影响 (13)四、基于LDA主题模型的RCEP研究热点主题分析 (14)4.1 数据收集与预处理 (15)4.2 主题模型构建与参数设置 (16)4.3 热点主题识别与解读 (17)4.4 主题分布与趋势分析 (18)五、RCEP研究热点主题的发展导向研判 (20)5.1 政策建议与发展方向 (21)5.2 技术创新与产业升级 (22)5.3 跨境合作与互联互通 (24)5.4 应对挑战与风险防范 (25)六、结论与展望 (27)6.1 研究成果总结 (28)6.2 研究不足与展望 (29)6.3 政策建议与实践应用 (30)一、内容概述首先,报告将介绍研究背景与意义,阐述RCEP的重要性和对区域经济合作的影响。

接着,报告将详细介绍LDA主题模型的基本原理和方法,以及如何将这一模型应用于RCEP研究领域的热点主题分析。

在此基础上,报告将分析RCEP研究领域的主要研究热点,通过LDA 主题模型揭示当前研究的趋势和主要议题。

其次,报告将利用LDA主题模型,通过文本挖掘和数据分析技术,系统地梳理和归纳RCEP研究的热点主题。

这些主题可能包括贸易自由化、投资便利化、知识产权保护、电子商务发展、区域经济一体化等方面。

通过深入剖析这些主题,报告将探讨当前研究的进展和未来发展方向。

再次,报告将从定性和定量两个角度,结合数据分析和案例分析等方法,研究RCEP成员国的经济趋势和政策动态。

融合CNN和LDA的短文本分类研究

融合CNN和LDA的短文本分类研究

融合CNN和LDA的短文本分类研究
张小川;余林峰;桑瑞婷;张宜浩
【期刊名称】《软件工程师》
【年(卷),期】2018(021)006
【摘要】应用卷积神经网络分类文本是自然语言处理领域的研究热点,针对神经网络输入矩阵只提取词粒度层面的词向量矩阵,忽略了文本粒度层面整体语义特征的表达,导致文本特征表示不充分,影响分类准确度的问题.本文提出一种结合
word2vec和LDA主题模型的文本表示矩阵,结合词义特征和语义特征,输入卷积神经网络进行文本分类,以丰富池化层特征,达到精确分类的效果.对本文提出模型进行文本分类实验,结果表明,本文算法相比传统特征输入的卷积神经网络文本分类,在F 度量值上取得一定程度的提升.
【总页数】5页(P17-21)
【作者】张小川;余林峰;桑瑞婷;张宜浩
【作者单位】重庆理工大学计算机科学与工程学院,重庆 401320;重庆理工大学计算机科学与工程学院,重庆 401320;重庆理工大学计算机科学与工程学院,重庆401320;重庆理工大学计算机科学与工程学院,重庆 401320
【正文语种】中文
【中图分类】TP391
【相关文献】
1.关键词关联融合CNN的短文本分类算法 [J], 陈海霞;杨喜旺;卫洁洁
2.融合TF-IDF和LDA的中文FastText短文本分类方法 [J], 冯勇;屈渤浩;徐红艳;王嵘冰;张永刚
3.融合CNN和LDA的短文本分类研究 [J], 张小川;余林峰;桑瑞婷;张宜浩;
4.融合LDA主题模型和二维卷积的短文本分类 [J], 康宸;郑山红;李万龙
5.一种融合语义知识和BiLSTM-CNN的短文本分类方法 [J], 杨秀璋;李晓峰;袁杰;李坤琪;杨鑫;罗子江
因版权原因,仅展示原文概要,查看原文内容请购买。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2019年3月情报探索第3期(总257期)MAR.2019InformationResearch No.3(Serial No.257)融合C-Value和LDA的社会化标签研究热点识别与分析冯翠翠莫富传(华中师范大学信息管理学院湖北武汉430079)摘要:[目的/意义]旨在帮助研究人员更清晰地认识与界定国内社会化标签研究领域的热点和发展演化过程。

[方法/过程]综合基于C-value术语抽取的词频分析和融合Gibbs抽样方法的LDA概率模型的优势,对社会化标签领域的研究热点进行识别。

[结果/结论]个性化推荐、社会化标签系统、知识管理、网络信息资源检索、资源聚合、用户兴趣和情感倾向等是目前国内社会化标签研究的6大热点。

社会化标签领域研究热点的识别与分析,有助于研究者更好地把握未来的研究方向。

关键词:社会化标签;C-Value算法;LDA模型;热点主题;个性化推荐;资源聚合中图分类号:G250.7文献标志码:A Adoi:10.3969/j.issn.1005-8095.2019.03.006 Hotspots Identification and Analysis of Social Tags Based on C-value and LDAFeng Cuicui Mo Fuchuan(School of Information Management,Central China Normal University,Wuhan Hubei430079)Abstract:[Purpose/significance]The paper is to help researchersunderstand and define the hotspots and development process of the research field of social tags in China more clearly.[Method/process]The paper synthesizes the advantagesof C-value term extrac-tion-based word frequency analysis and the LDA probability model fused with Gibbs sampling method,to identify the research hotspots of social tags.[Result/conclusion]Personalized recommendation,social tagging system,knowledge management,network information resource retrieval,resource aggregation,user interest and emotion tendency are the six hotspots in the study of social tags in China.Ana-lyzing the research hotspots in social tags will be helpful for researchers to better grasp the future research direction.Keyword:social tags;C-value algorithm;LDA model;hotspots;personalized recommendation;resource aggregation0前言社会化标签是社会化标注的结果,是人们在社会化环境下为实现资源的共享和用户的交互而使用的、描述资源的关键词,其融入了人们的认知,是更高层次的元数据[1]。

在Web2.0环境下,由于社会化标签具有流行性、多面性、社会性、灵活性、个性化和动态性等特点,在产业界得到了广泛应用,出现了Delicious、Flickr、Youtube、LibraryThing、Last.fm、Con-notea、CiteUlike、Technorati等社会化标签系统。

社会化标签是用户对自己感兴趣的互联网资源进行标注的结果,且所有用户标注的标签都互为可见。

这种开放共享的模式,反映用户真实的理解和观点,为用户的兴趣识别与个性化推荐,为网络资源的聚合、检索与共享,提供了新的理念和模式[2]。

在学术界,这种模式激发了研究人员的研究热情,并有众多研究成果问世。

本文基于C-value术语抽取算法和LDA主题概率模型,对国内社会化标签领域的研究主题术语进行抽取,进而识别并分析研究热点,以期能够帮助研究人员更清晰地认识与界定国内社会化标签研究领域的热点与发展演化过程,更好地把握未来的研究方向。

1数据来源本文以国内社会化标签研究的文献为分析对象,因此选择CNKI作为数据来源。

为提高论文数据的主题针对性,本次检索在高级检索功能中以“社会标签”“社会化标签”“社会标注”“社会化标注”“用户标签”“评论标签”“大众分类”“情感标签”作为检索词进行检索,检索字段限定为“篇名”,选择精确匹配,不限定论文发表的时间范围。

检索33收稿日期:2018-11-16作者简介:冯翠翠(1994—),女,2017级硕士研究生,研究方向为个性化信息推荐;莫富传(1993—),男,2017级学硕士研究生,研究方向为文献计量与科学评价、信息资源管理。

2019年3月情报探索第3期(总257期)时间为2018年8月20日,共检索到370篇文献。

为提高数据的学术性,剔除了无关的论文、学术性不强的报纸,最后得到357篇的期刊论文和学位论文作为本文的分析对象。

2研究方法目前,词频统计法、共词聚类法、引文内容分析法、LAD 主题概率模型是学界讨论和运用比较多的文献主题与热点识别的方法。

本文认为,综合基于C -value 术语抽取的词频分析和融合Gibbs 抽样方法的LAD 概率模型的优势,将二者结合起来,运用到论文主题分析的研究热点识别过程中,更为可靠。

2.1C -value 术语抽取算法C -value 算法是一种语言学规则和统计学相结合的混合术语抽取方法,由英国曼彻斯特城市大学T.K.Frantzi 等人提出[3]。

C -value 方法组合了语言学知识和概率信息,形成了一个词组的术语度(ter-mhood )测量准则,C -value 值越大,候选术语是一个真术语的可能性就越大。

C -value 考虑了术语的长度因素,在非嵌套术语识别上改进了效果,因此与纯粹的共现频率方法相比,能够更精确地提取术语。

C -value 值的计算基于如下考虑:一般来说,如果一个词出现次数越多,那么它越可能是术语;一个词在更多的长词语中出现,则它是一个术语的可能性越大;同样词频下,一个长词比一个短词更可能是术语。

C -value 提出后经过几次变化,最后确定的计算公式[4]为:其中,a 是抽取的某个候选术语,|a |是候选术语a 的长度,f (a )表示候选术语a 在语料库中的词频,bi 表示抽取的包含a 的候选术语(即嵌套术语),c (a )表示嵌套术语的数量。

2.2LDA 主题概率模型LDA (Latent Dirichlet Allocation )模型是一种包含词、主题、文档3层结构的贝叶斯概率模型,该模型它假设每篇文档是多个主题的混合分布,而每个主题又是一组词的混合分布[5]。

1篇文章的构造过程,首先是以一定的概率选择某个主题,然后再在这个主题下以一定的概率选出某1个词,这样就生成了这篇文章的第1个词,不断重复这个过程,就生成了整片文章。

LDA 的使用是上述文档生成的逆过程,它将根据1篇得到的文章,去寻找出这篇文章的主题,以及这些主题对应的词。

LDA 模型可由图1所示的结构表示,M 表示文档集中的文档总数,α是Dirichlet 分布的参数,能够反映隐含主题的相对强弱,β则刻画了隐含主题在词语上的概率分布,θ表示文档集中某个隐含主题的权重z 表示目标文档分配在每个特征词上的N 维主题向量,w 是目标文档的词向量表示。

图1LDA 主题概率模型[6]LDA 主题概率模型是自然语言处理中主题挖掘的典型模型,是一种完全的产生式模型,可以很好地模拟文档的生成过程,所识别的主题能准确地表达词的语义层次关系[7],能更精确地把握主题识别过程,并对主题分析以及主题预测有很好的效果。

从LDA 应用情况来看,由于获取数字化科学文献全文存在一定的局限性,所以构建文本语料库的语料主要有关键词、摘要、关键词+摘要3种形式[8]。

其中关键词在传统的共词分析中使用得比较多,而摘要及关键词+摘要的形式在主题模型中使用得比较普遍。

本研究综合各文本库的优势,构建标题+关键词+摘要语料库,进行社会化标签研究术语抽取与主题识别。

2.3Gibbs 抽样算法Gibbs 是马尔可夫链蒙特卡尔理论(MarkovChain Monte Carlo ,MCMC )中用来获取一系列近似等于指定多维概率分布观察样本的算法,其目的是构造收敛于某目标概率分布的马尔科夫链,并从链中抽取被认为接近该概率分布值的样本[9]。

Gibbs抽样算法具有速度快、所需内存较小、易于实现等诸多特点,可以借助机器学习和文本挖掘的自动快速处理能力,提高主题识别效率。

LDA 模型聚合了Gibbs 抽样算法,因此运行LDA 模型过程中,利用Gibbs 抽样方法可获得潜在主题聚类在论文上的概率分布,以及论文关键词在潜在主题聚类上的概率分布,最终构建文档—主题二维矩阵和主题—关键432019年3月冯翠翠等:融合C-Value和LDA的社会化标签研究热点识别与分析第3期(总257期)词二维矩阵。

根据文档—主题二维矩阵,可获得文档的主题构成,并据此识别论文所论述或研究的主题内容;根据主题—关键词二维矩阵,可获得主题的关键词构成,并据此进行论文主题的聚类。

本文基于C-value术语抽取算法和LDA主题概率模型,进行在社会化标签研究主题术语的抽取研究热点的识别。

首先在获得社会化标签研究相关文献集的基础上,从论文的标题、摘要中抽取关键词,综合构建标题+关键词+摘要语料库,以避免主题术语抽取的主观性;然后基于词频分析和C-val-ue术语抽取算法,计算各候选术语的C-value值,选取C-value值大于其均值的候选主题术语作为社会化标签研究的最终主题术语,以客观地识别论文的研究主题,提高研究主题和热点识别的完整性和准确性。

最后基于融合Gibbs抽样方法的LAD概率模型,设置恰当的主题数和其他参数值,进行社会化标签研究热点主题的识别和聚类。

3热点主题识别基于上述基础理论和分析过程的描述,本文运用R语言Rwordseg和jiebaR程序包对原始语料库进行分词处理、计算词频和C-Value值,获得主题术语。

相关文档
最新文档