中文文本关键词抽取方法的研究

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

中文文本关键词抽取方法的研究

摘要:在关键词抽取方法研究中,提出了多步骤的中文文本关键词抽取方法。该方法采用一元、二元及三元文法进行文本候选关键词的抽取,提出基于语言学特征的扩展tf/idf关键词的加权计算方法,以及对抽取未登录词的关键词的方法和对关键词抽取进行优化的策略。

关键词:多步骤;候选关键词;未登录词

在信息飞速发展的时代,人们在信息的海洋中要“广、快、精、准”地查找到自己所需要的信息也变得越来越困难。合适的抽取出关键词,能在一定程度上解决信息过剩所带来的一些问题。

文章综合各种算法的优缺点并结合中文关键词抽取的特点。使用了一元、二元及三元文法在文本中掘挖候选关键词,提出基于标题挖掘的方法来检测未被分词器发现的潜在关键词。试验表明文章提出的关键词抽取方法在查准率和查全率上都比已有的算法有显著的提高,同时也为信息检索和文本的自动生成打下良好的基础。

1关键词抽取步骤及算法

关键词是指几个能对文本概述、与文本语义内容相关的词或短语,具体包括文中出现的人物、地点(国家、地区或特定场所)、机构、组织、主题概念等,抽取步骤如图1所示。

1.1预处理

对于一篇文本,首先利用ICTCLAS(汉语词法分析系统)来完成文档的分句、分词和词性标注的预处理工作。同时去掉一些不符合定义的词及停用词(不符合作为关键词的词),虚词、标点符号是毫无疑问要被滤去的。另外,一些方法中中认为关键词只包括名词或名词短语,因而要把词性为形容词、副词、动词等词性的词给过滤了,剩下的为关键词候选词集。

1.2特征计算

从词的词频、词性、出现位置及形态四方面考虑,除词性外为每个词设置了七个特征值,各特征及计算方法如表1所示。特征计算过程还负责将一些时间词、地点词等进行归一化的处理,如“元宵”及“元宵节”、这些词在同一篇文本中出现,其实是同一个概念,文章根据它们的常用程度w.ctf及在文中的出现频率w.tf,将一词合并到另一词中,然后频率相加,其他特征的合并以强特征为准。

1.3新词发现

文本中新词发现方法的目的不是检索出文本中的所有新词,而是为了发现潜在的关键词,因此,文章的监测方法与一般的新词监测方法略有不同。通过观察发现,潜在关键词必须满足有以下几个方面:不能是单词;频率大于;必须是最大重复和完整的。

1.4特征拟合及结果优化

特征拟合及结果优化如图2所示,特征拟合计算公式参考经典的tf/idf公式,并在此基础上加入其他特征及权重。如下:

tf / idf(w)=w.tf *log [(N+1)/(n+1)](1)

公式1是经典的tf / idf公式,当中的对数项即是idf项,N是某个文档集中的文档总数,n是该文档集中包括词w的文档数。考虑到我们文本集不是很大,idf不能准确地指示词的常用程度,文章采用ln(termSum/w.ctf) 来替换log((N+1)/(n+1))项,得到公式2:

tf / idf’(w)=w.tf *ln (termsum / w.ctf)(2)

最后,在公式2中加入1.2节中的其他特征及对应的参数,得到公式3,

score(w)=(w.tf)t1*(1+w.fi*tfi)*ln (3)

在以用户理解内容为目的的抽取中,要求关键词的信息量丰富,数目少且准确,结果优化的意义就更为重要,我们在计分后会针对最后的结果进行优化处理。采取的措施如下:

①检测词的稳定度:在新词发现机制中,它的计算公式如下:

stability(w)=MI(S)=(4)

新词一般是由几个连续的字所组成,稳定度是用来衡量这个字串是否为一个词的重要指标,还用来检测这个字串中的字是经常出现在文本中还是纯属巧合地连在一起了。

②字符重叠。该步骤检测最高分值的前n个词是否具有包含关系。如果有,则会根据具体情况,通过对它们的频率、长度等特征进行比较,决定是否要删除其中的一个词。在整个结果优化阶段如图2的下半部分,不合格的词会被删除,同时分数比它低的候选词排名次序会向前移一位,接着前n个候选词继续被检查。最后,直到最高分的n个候选词都附合要求或再没有候选词时,剩下的词即为所选的关键词。

2结语

文章就是在以往关键词抽取的基础上根据词语在文本中的特征,增加词一些特性。以提高各自关键项的抽取效果及提高了关键词语的查全率和查准率,同时关键词抽取在自动文摘、信息检索、文本分类、文本聚类等方面具有十分重要的作用。

参考文献:

[1] 王永成,顾晓明,王丽霞.中文文献主题的自动标引[J].情报学报,1998,17(3):212-217.

[2] 郑家恒,卢娇丽.关键词抽取方法的研究[J].计算机工程, 2005,(18).

注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文

相关文档
最新文档