单文档关键词自动提取方法述评
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
检索效率,将统计规则应用于关键词自动提取中。 单文档关键词的基本提取方法有以下三种:基于统计规则的提取方法,如词共现算法;基于语言学方 法的提取方法,如句法分析的应用;机器学习,如 TF*IDF、TextRank、PageRank 等[4,5]。
1.1 共现词算法
共现词算法就是使用统计学方法,计算独立的词汇出现的频率和词汇间共同出现的频率,并将两个结 果相比较得出候选关键词。算法首先统计文章中单词的出现次数,选取出高频词集合作为接下来的共现词 提取标准。如果被测单词或词组 w 与高频词集合中的某几个词共同出现的次数更多时,通常认为被测单词 或词组 w 可能代表重要的含义,可以作为候选关键词。但是,当所谓的“高频词”出现频率过小的时候, 上述的统计方法并不可靠,为此共现词算法引入了卡方检验来判断被测单词和高频词的共现倾向。假设 G (高频词集合)中单词的出现次数和位置与单词或词组 w 无关,其计算公式如下: 2 ( freq( w, g ) nw pg ) x 2 ( w) nw pg gG 其中,nw 表示单词或词组 w 与高频词集合中的所有高频词共同出现的次数, pg 表示预期的可能值, freq(w,g)表示单词或词组 w 与特定高频词 g 共同出现的频率。根据预期假设和计算公式,w 的卡方值越大, 意味着它与某一个或某几个特定的高频词共同出现的倾向越高,w 就越有可能代表更重要的含义。在将所有 的单词或词组的卡方值计算完成后,挑选卡方值高的单词或词组作为文章的候选关键词[6]。 词共现方法中对根据单词出现的次数来采集高频词的做法虽然简单可行,但没有考虑到词语的出现位 置和分布密度等其他综合因素。因此根据高频词计算出的候选关键词有时并不能很好的代表文章的含义。 为了避免上述问题,Salton 引入机器学习,提出 TFIDF 方法。
Scientific Journal of Information Engineering February 2013, Volume 3, Issue 1, PP.1-7
Overview of Keyword Extraction in Single Document
Yueling Zhang1,2
1. MOE Research Center for Software/Hardware Co-Design Engineering of Software Engineering Institute in East China Normal University, Shanghai 200062, China 2. Shanghai Embedded System Institute, Shanghai 200062, China Email: yueling671231@163.com
单文档关键词自动提取方法述评*
张越龄 1,2
1.华东师范大学软件学院 教育部软硬件协同设计与应用工程研究中心,上海 200062 2.上海嵌入式系统研究所,上海 200062 摘 要:关键词作为定义一篇文章主旨的重要元素,在文本处理、文档聚类、数据挖掘、新闻阅读、机器翻译、自动问答 系统等多个方面都扮演着重要的角色。本文对单文档关键词提取方法进行了综述,分析了现有提取方法的技术特点、优 势与不足,并指出提高关键词自动标注算法的实用性是未来的研究热点。 关键词:关键词;提取算法;语料库;词共现;词汇链;PageRank 算法
2
2.1.1
单文档关键词综合提取方法
KEA 算法
2.1 KEA 算法与只使用文章内部知识来提取关键词的方法的比较分析
比较已提出的各类提取算法,笔者认为,通过在计算机中预存相关的知识库进行关键词提取的方法最为 简单。这种方法通过预存的关键词表来筛选命中关键词,通过停顿词表(无意义词表)去除文中的一些助词 或承接词,如“的”、“首先”、“总结”等。但是由于算法过于简单,一般不会单独使用。较为著名的是 由 Witten 等人提出[9]的 KEA 关键词提取系统,KEA 算法采用朴素贝叶斯技术对短语离散的特征值进行训 练,进而获取模型的权值,从文档中抽取关键短语。程岚岚等人采用 KEA 算法的思路提出了一种基于朴素 贝叶斯的关键词提取算法,整个算法分为训练阶段和提取阶段两部分。训练阶段包括挑选候选关键词、特征 值计算和构建模型三个步骤。特征值包括 TF-IDF 值,词语第一次出现的位置和词语在文档中平均出现的位 置。[程岚岚,何丕廉,孙越恒. 2005]其中构建模型是核心步骤,需要进行统计训练集中关键词和非关键词个 数、离散特征值、根据是否为关键词计算候选短语在各个离散区间的频率三个操作。训练完成后,将训练所 得模型应用到测试文本集中,完成算法的提取阶段[10]。 2.1.2 只使用文章内部知识来提取关键词的方法
引言
关键词是为了文献标引工作,从报告、论文中选取出来用于表示全文主题内容信息款目的单词或术 语。关键词在文档中能够表征文档的重要信息和核心内容,方便读者迅速的理解文档的摘要信息并快速的 检索具体文档,对于新闻阅读、广告推荐、历史文化研究、文本处理、机器翻译、输入法词汇选取等一系 列产业和研究都有着至关重要的作用。而关键词提取在文档聚类,web 页面获取、数据挖掘以及自动问答系 统等方面都扮演极其重要的角色。无论是从传递信息角度,还是储存信息角度考虑,关键词的标引都给文 献的储存和检索带来极大的方便。通过自动标注关键词,补充拓展文献中已有的关键词信息,帮助检索系 统对文档进行聚类、索引、管理和总结。而如何提高单文本关键词自动标注系统的准确性、时效性和自适 应特性也是目前研究的重点。目前,针对英文的关键词提取已经取得了较多的研究成果,提取方法也比较 成熟,如 TF*IDF 算法[1]。由于中文的语言特点,在词与词之间没有明显的界限,因此分词成为中文关键词 提取中一个重要的影响因素,而分词的效率和准确率也在某些程度上限制了中文关键词提取的研究。中文
1.3 TextRank 算法
在 TFIDF 方法的基础之上,TextRank 算法除了使用图表示记录单词间的位置关系和出现频率、密度, 还综合考虑到单词间的“重要度分配”,TextRank 是 PageRank 算法在文本信息处理中的应用,其算法的核 心思想和 PageRank 相同,即在文本网络中节点(词)的重要程度取决于与它相连的单词的分给它的票数 (重要程度),用数学语言表示如下:
1.2 TFIDF 方法
TFIDF 的核心思想是:一个词在特定的文档中出现的频率越高,说明它在区分该文档内容属性方面的 能力越强 (TF) ;一个词在文档中出现的范围越广,说明它区分文档内容的属性越低 (IDF) 。其经典计算公 式为:
Wij tf ij idf j tf ij log( N / n j )
*
中国博士后科学基金特别资助项目(201003297) -1http://www.sjie.org
关键词较早和较成熟的自动提取算法是 PAT-TREE 算法[2]。
1
单文档关键词的基本提取方法
关键词自动提取工作最早由 Luhn 在 19 世纪 50 年代开始研究[3]。1963 年,美国化学摘要为了提高文档
指出现特征项 tj 的文档数[7]。 其中, tf ij 指特征项 t j 在文档 di 中出现的次数;idfi 指出现特征项 tj 的文档的倒数。N 表示总文档数,nj TFIDF 方法通过机器学习综合考虑了单词出现的频率、位置及密度,弥补了传统统计方法提取关键词 的不足。由于其算法逻辑简单,使用方便,经常用于特征选取和离散化等步骤。通过 TFIDF 自动提取得到 的候选关键词更加准确,能够更明确的描述学术论文的研究方法、内容、结果。提高了学术论文的自动分 类和检索,也方便读者查阅。随着机器学习的广泛应用,图论的不断发展和计算机运算水平的提高,一种 由 PageRank 发展而来的 TextRank 方法应用而生。
-2http://www.sjie.org
S (Vi ) (1 d ) d
jIn (Vi )
1 Out (V j )
S (V j )
其中, In(Vi ) 表示节点 V 的入度, Out(Vi ) 表示节点 V 的出度。节点 V 的得分为表示为 S (Vi ) ,同 pagerank 算法相同,d 是衰减因子,一般取值为 0.85[8]。
Rachada Kongkachandra[11]提出了一种只使用文章的内部知识提取关键词的方法,不使用其他常用的外 部知识,如词典、语义信息、训练组等。首先对文章标题进行句法分析,将其中的所有名词作为种子关键 词,而在文章中任何与种子关键词相关的词汇都会被标记为候选关键词。然后根据已有的和新生成的关键 词构建语义图,挑选候选关键词并将选择结果与已通过检测的种子关键词一起存入基础知识库,最后根据 种子关键词和基础知识库得到最后的提取结果。Rachada Kongkachandra 的论文摆脱了外部知识库,精简了 算法的空间开销。但由于只使用文章的内部信息,较容易受到语料组织和逻辑的影响。Meng 等人[12]指出传 统的关键词提取方法不能够适应新生词的不断产生,他们改进已有的基于语义提取方法,通过计算得出词 语间的相似值,进而构建相似词典并总结词典中条目的属性,替代人工选定生成的词典,解Leabharlann Baidu了新生关键 词的提取工作。
Abstract
Keyword, as an significant indicator in defining the subject of an article, is playing an important role in document managing, document clustering, data mining, news reading, machine translating and auto-answer system. This paper summarizes keyword extraction methods for single document, analyzes the tectonic features, advantages and disadvantages of current extraction algorithms, and pointes out how to make the keyword automatically extraction system more useful will be the hot spot in the future research. Keywords: Keyword; Extraction Algorithm; Corpus Set; Word Co-occurrence; Lexical Chain; Page Rank
1.4 三种方法的比较分析
综合比较三种方法,各有千秋。基于统计规则的方法(以词共现为例)的优势在于统计学已经发展的 较为完善,通过分析学术论文中各种统计指标可以方便的得出各种统计指标结果,根据这些统计指标可以 综合分析得出候选关键词。但由于文章体系结构千变万化,因此这些既定的统计指标有些过于死板,影响 最终结果的准确度。 TFIDF 方法综合考虑了单词出现频率、位置、密度等因素,在计算候选关键词时更加 灵活,且逻辑简单,因此经常和统计学方法相结合,应用于特征选取和离散化的步骤中。但 TFIDF 方法也 仅仅考虑了单个单词的出现特征,并没有对整篇文章中互相有联系的词组综合考虑。TextRank 方法是三中 方法中较为复杂的一种,其最初由计算网页重要程度的 PageRank 演变而来,借助于图这种数据结构,综合 考虑单个词的特征和词与词之间的关系,衡量每个单词的重要程度。此方法已较为成熟,且得到的候选关 键词已有很高的可靠性,正在逐渐演变为一种主流的关键词自动提取方法。 从以上介绍可以看出,单文档关键词提取的基本算法已经比较完善,并且都可使用数学语言或者数学 模型描述。