一种改进的朴素贝叶斯关键词提取算法研究

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

ＷａｎｇＪｉｎｂｏＷａｎｇＬｉａｎｚｈｉＧａｏＷａｎｌｉｎＹｕＪｉａｎ
（ＣｏｌｌｅｇｅｏｆＩｎｆｏｒｍａｔｉｏｎａｎｄＥｌｅｃｔｒｉｃａｌＥｎｇｉｎｅｅｒｉｎｇ，ＣｈｉｎａＡｇｒｉｃｕｌｔｕｒａｌＵｎｉｖｅｒｓｉｔｙ，Ｂｅｊｉｉｎｇ１０００８３，Ｃｈｉａ）ｎ
ｔｈｅｗｏｒｄｒｅｆｑｕｅｎｃｙ，ｉｔｃｏｎｓｉｄｅｒｓｔｈｅｒｅｌａｔｉｏｎｓｈｉｐｏｆｃｏｎｔａｉｎｉｎｇａｎｄｔｏｂｅｃｏｎｔａｉｎｅｄｂｅｔｗｅｅｎｔｈｅｗｏｒｄｓ．Ｔｈｅｎ，ｉｔｕｓｅｓｎａｉ＇ｖｅＢａｙｅｓｉａｎｍｏｄｅｌｔｏｔｒａｉｎｔｈｅｔｅｘｔｓｗｉｔｈｔｈｅｋｅｙｗｏｒｄｓｍａｒｋｅｄａｎｄｔｏｇｅｔｔｈｅｏｃｃｕｒｅｎｃｅｐｒｏｂａｂｉｌｉｔｙｏｆｅａｃｈｆｅａｔｕｒｅｉｔｅｍｆｏｒｅｘｔｒａｃｔｉｎｇｔｈｅｋｅｙｗｏｒｄｓｏｆｔｅｘｔ．
和人力，并且随着文档数量的增加，手工提取越来越难以满足实际的需求… 。所以，如何自动生成关键词显得十分必要。关键词自动提取技术是指用机器提取文本中最能表现文本主题的词语。现有关键词提取方法主要有以下三种：
是没有考虑到词性的影响。
本文在通过相同词语的前后词共现频率识别组合词的基础
王锦波王莲芝高万林喻健
（中国农业大学信息与电气工程学院北京１０００８３）
摘
要
为了提高关键词提取的准确率，在利用文本中相同词的前后词共现频率识别组合词的基础上，提出一种基于改进词语统
计特征的朴素贝叶斯关键词提取算法。该算法选取词语的词长、词性、位置、ＴＦＩＤＦ值作为词语的特征项，改进了统计词长、ＴＦ — ＩＤＦ和词频的方法，使长词和ＴＦ — ＩＤＦ大的词具有更高的概率，而在统计词频时，考虑了词语之间包含与被包含的关系。然后，采用朴素贝叶斯模型对标记好关键词的文本进行训练，获得各个特征项出现的概率，用来提取文本的关键词。实验表明，与传统基于词频和决策树Ｃ４．５的关键词提取算法相比，采用该方法提取的关键词具有更高的准确率和可读性。
关键词
中图分类号
朴素贝叶斯组合词识别词语特征项关键词提取
ＴＰ３９１文献标识码ＡＤＯＩ：１０．３９６９／ｊ．ｉｓｓｎ．１０００ — ３８６ｘ．２０１４．０２．０４７
ＯＮＡＮＩＭＰＲＯＶＥＤＮＡⅣＥＢＡＹＥＳＩＡＮＫＥＹＷＯＲＤＥＸＴＲＡＣＴＩＯＮＡＬＧＯＲＩＴＨＭ
第２期
算法框架如图１所示。
训练过程
王锦波等：一种改进的朴素贝叶斯关键词提取算法研究
ｌ７５
的分类模型。需要的估计参数很少，对缺失数据不太敏感，算法比较简单，而且速度快。
圆
关键词提取是一个二分类问题，即一个词语是否属于关
ｔｈｅＴＦ — ＩＤＦｖａｌｕｅｏｆｔｈｅｗｏｒｄｓａｎｄｅｘｐｒｅｓｓｉｏｎｓａｓｔｈｅｆｅａｔｕｒｅｉｔｅｍｓｏｆｔｈｅｗｏｒｄｓａｎｄｅｘｐｒｅｓｓｉｏｎｓ，ｉｍｐｒｏｖｅｓｔｈｅｍｅｔｈｏｄｏｆｃｏｕｎｔｉｎｇｔｈｅｗｏｒｄ
收稿日期：２０１２— ０９—１８。国家“ 十二五” 科技支撑计划项目（２０１
２ＢＡＤ３５Ｂ０２）。王锦波，硕士生，主研领域：人工智能，智能信息处理。王莲芝，副教授。高万林，教授。喻健，硕士生。
键词。Ｗｉｔｔｅｎ等人使用朴素贝叶斯作为训练模型，对文本中
Ａｃｃｏｒｄｉｎｇｔｏｔｈｅｅｘｐｅｒｉｍｅｎｔ，ｔｈｅｋｅｙｗｏｒｄｓｅｘｔｒａｃｔｅｄｂｙｔｈｅａｌｇｏｉｒｔｈｍｉｎｔｈｉｓｐａｐｅｒｈａｖｅａｈｉｇｈｅｒｐｒｅｃｉｓｉｏｎｒａｔｅａｎｄｒｅａｄａｂｉｌｉｔｙｔｈａｎｂｙｔｈｅｔｒａｄｉｔｉｏｎａｌｗｏｒｄｒｅｆｑｕｅｎｃｙ — ｂａｓｅｄａｎｄｄｅｃｉｓｉｏｎｔｒｅｅＡ．Ｃ５－ｂａｓｅｄｋｅｙｗｏｒｄｅｘｔｒａｃｔｉｏｎａｌｇｏｒｉｔｈｍｓ．
ＡｂｓｔｒａｃｔＩｎｏｒｄｅｒｔｏｉｍｐｒｏｖｅｔｈｅｋｅｙｗｏｒｄｅｘｔｒａｃｔｉｏｎａｃｃｕｒａｃｙ，ｂａｓｅｄｏｎｒｅｃｏｇｎｉｓｉｎｇｔｈｅｃｏｍｐｏｕｎｄｂｙｕｓｉｎｇＣＯ — ｏｃｃｕｒｒｅｎｃｅｒｆｅｑｕｅｎｃｙｏｆ
词语的特征值进行训练，开发了ＫＥＡ系统，用来抽取关键词，但
０引言
关键词是指一篇文章中能展现文章内容的词眼，通过阅读关键词，可以迅速获得文章的主旨大意，检索相关的文档，另外关键词是生成自动摘要，进行文本聚类的重要方法。但是一般文章中很少包含关键词，而手工生成关键词需要花费大量时间
键词。
计算训练集关键词和非【Ｉ统计训练集词语特关键词特证项的概率『Ｉ征的值
第３ｌ卷第２期
２０１４年２月
计算机应用与软件
ＣｏｍｐｕｔｅｒＡｐｐｌｉｃａｔｉｏｎｓａｎｄＳｏｆｔｗａｒｅ
Ｖ０１．３１Ｎｏ．２Ｆｅｂ．２０１４
一
种改进的朴素贝叶斯关键词提取算法研究
中抽取关键词。
（１）基于统计的方法，该方法一般将文章中出现频率较高的词语作为关键词输出，比较简单，不需要大规模语料的训练，但是由于一般只考虑词语出现的频率，所以准确率不高。（２）基于自然语言理解的方法，即基于语义的关键词提取算法，在文本统计信息的基础上，利用词语的语义特征提取关键词Ｊ。（３）基于机器学习的方法，Ｔｅｒｎｅｙ等人使用ＣＡ．５决策树
上，选取词语的词性、词长、词语位置、ＴＦ — ＩＤＦ值作为词语的特征项。改进了词长、ＴＦ．ＩＤＦ（词频和反文档频率的乘积）和词频的统计方法，使长词和ＴＦ — ＩＤＦ大的词具有更高的概率，统计词频时，考虑了词语之间包含与被包含的关系。使用朴素贝叶斯模型对词语的特征值进行训练，获取模型的概率值，然后ｅｆｏｒｅａｎｄａｆｔｅｒｔｈｅｉｄｅｎｔｉｃａｌｗｏｒｄｓｉｎｔｅｘｔ，ｗｅｐｒｏｐｏｓｅａｎａｉｖｅＢａｙｅｓｉａｎｋｅｙｗｏｒｄｅｘｔｒａｃｔｉｏｎａｌｇｏｒｉｔｈｍｗｈｉｃｈｉｓｂａｓｅｄＯ１３．ｔｈｅｉｍｐｒｏｖｅｍｅｎｔｏｆｓｔａｔｉｓｔｉｃａｌｃｈａｒａｃｔｅｒｉｓｔｉｃｓｏｆｗｏｒｄｓａｎｄｅｘｐｒｅｓｓｉｏｎｓ．Ｔｈｅａｌｇｏｉｒｔｈｍｓｅｌｅｃｔｓｔｈｅｗｏｒｄｌｅｎｇｔｈ，ｔｈｅｐａｒｔｏｆｓｐｅｅｃｈ，ｔｈｅｐｏｓｉｔｉｏｎａｎｄ
ＫｅｙｗｏｒｄｓＮａｉｖｅＢａｙｅｓＣｏｍｐｏｕｎｄｒｅｃｏｇｎｉｔｉｏｎＷｏｒｄａｎｄｅｘｐｒｅｓｓｉｏｎｆｅａｔｕｒｅｉｔｅｍＫｅｙｗｏｒｄｅｘｔｒａｃｔｉｏｎ
和遗传算法作为分类器，开发了ＧｅｎＥｘ系统用来抽取文本的关
１算法框架
该算法分为训练阶段和测试阶段，训练阶段包括对文本进行预处理，构建朴素贝叶斯模型，测试阶段即在文本预处理的基础上，使用训练阶段构建的朴素贝叶斯模型提取文本的关键词，
ｌｅｎｇｔｈ，ＴＦ — ＩＤＦａｎｄｗｏｒｄｆｒｅｑｕｅｎｃｙ，ｍａｋｅｓｔｈｏｓｅｗｏｒｄｓｗｉｔｈｌｏｎｇｅｒｌｅｎｔｈｇａｎｄｈｉｇｈｅｒＴＦ — ＩＤＦｖａｌｕｅｈａｖｅｈｉｇｈｅｒｐｒｏｂａｂｉｌｉｔｙ．Ｗｈｉｌｅｃｏｕｎｔｉｎｇ