基于主题的关键词提取方法对比研究(上)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

摘要

关键词提供了文档的概要信息,在信息检索、文本聚类和分类系统中受到了越来越多的应用,关键词的提取算法也受到了越来越多的重视。传统的方法主要依靠词汇的统计信息进行关键词提取,本文在回顾关键词提取的算方法的基础上,从文档主题的角度,综述了基于主题的关键词提取的三种算法--潜在语义分析(LSA)、概率潜在语义分析(PLSA)、隐含狄利克雷分布(LDA)。

LSA方法将文档从稀疏的高维词汇空间映射到一个低维的向量空间,主要通过奇异值分解SVD的方式来求解。PLSA方法它用概率的方法来表示LSA,在文档和词汇之间引入一个潜在语义层(即主题层)。LDA的基本思想是: 利用概率推导等方式可以将单个文档表示为这些潜在主题的集合,对于主题而言,它又可以看成是若干词汇的概率分布。

为了验证这三种方法的性能的优越与否,将理论与实践结合,本文通过实验将三种基于主题的关键词提取算法与TF-IDF方法进行对比,对实验结果进行总结归纳;实验证明,这三种方法无论是从召回率上还是从准确率上都优于TF-IDF方法,能够有效推荐关键词。

关键词:关键词提取;LSA;PLSA;LDA

Research on Algorithms of Topic Based Keyword Extraction

Abstract

Keywords provide semantic metadata producing an overview of the content of a document. They are widely used in information retrieval, text clustering and classification system. As a result, people pay a lot of attention to keyword extraction algorithm. Traditional methods for keyword extraction simply rank keywords according to the statistical information of words. After reviewing some methods of keyword extraction, this article summarizes three topic based methods of keyword extraction which are Latent Semantic Analysis (LSA), Probability Latent Semantic Analysis (PLSA), Latent Dirichlet Allocation (LDA).

LSA maps the document from sparse high dimension space to a low dimensional vector space, mainly through the singular value decomposition (SVD). PLSA brings in a latent semantic layer which is called theme layer between documents and words. It explains LSA in a probabilistic way. The basic idea of LDA is: document can be regarded as the combination of several potential themes. A single document can be described as the collection of the underlying theme in a probabilistic way.

To prove whether the topic based keyword extraction algorithms are efficient,this article combines theory with practice. After experiment, it compares these three algorithms with the traditional TF-IDF algorithm. It proves that both the recall and the precision get improved. The three topic based keyword extraction algorithm dose well in keyword extraction.

Key Words:keyword extraction; LSA; PLSA; LDA

1绪论

1.1 研究的背景和意义

1.1.1 研究背景

随着网络信息量的激增,人们对信息质量的需求不断地提升,促使信息的组织和获取方式发生了极大的变化也面临着极大的挑战。信息量的剧增,信息内容的丰富多样、信息结构的复杂多变,信息传递的速度加快;用户范围宽广,需求多样化,处理信息的方式透明化、易用化等这些成为新型互联网环境下的主要特点[1]。2012年1月16日,中国互联网络信息中心(CNNIC)发布《第29次中国互联网络发展状况统计报告》(下简称报告)。报告显示,截至2011年12月底,中国网民规模突破5亿,达到5.13亿,全年新增网民5580万(见下图1.1)。随着网络表达和传递信息的渠道和形式不断丰富,传播方式更具互动性、自主性、多样性,这也促使网络媒体的发展更加活跃,而各类网络资源使用情况也在不断增长。

图1.1中国互联网络信息中心(CNNIC)发布《第29次中国互联网络发展状况统计报告》图

网络门户网站层出不穷,网页浏览量也呈几何倍数不断地增加。国内著名的门户网站有“新浪”、“搜狐”等。门户网站的主要特色在于提供及时滚动的分类新闻,以此来满足不同兴趣爱好的资讯浏览者的浏览需求。信息总量的增长速度呈现指数上升,对于浩渺无穷的网页,如果不能有效地组织和分类,很难吸引用户的眼球;而分类组织有序,重点主题突出的门户网站才是用户的首选。信息环境的这一巨变确实为用户提供了海量的信息,但同时却使得用户辨别和选择适合自己的信息带来了很大的困难。因此,在保证及时性的同时,如何按照用户兴趣来分类组织新闻信息并以快速、醒目的方式(如关

相关文档
最新文档