一种改进的朴素贝叶斯关键词提取算法研究
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
上, 选取 词语 的词 性 、 词长 、 词 语位 置 、 T F — I D F值 作为 词语 的特 征项 。改进 了词长 、 T F . I D F ( 词频和反文档 频率 的乘积 ) 和词频 的统计方法 , 使长词和 T F — I D F大 的词 具有更 高 的概 Βιβλιοθήκη Baidu , 统计 词 频时, 考虑 了词语之间包 含与被包 含 的关 系。使用朴 素贝 叶斯 模 型对词语 的特 征值进行训练 , 获取模型的概率值 , 然后从 文本
Wa n g J i n b o Wa n g L i a n z h i Ga o Wa n l i n Yu J i a n
( C o l l e g e o fI n f o r m a t i o n a n d E l e c t r i c a l E n g i n e e r i n g, C h i n a A g r i c u l t u r a l U n i v e r s i t y , B e j i i n g 1 0 0 0 8 3, C h i a) n
第 2期
算 法框 架如图 1 所示 。
训练 过程
王锦 波等 : 一 种 改进 的朴素 贝叶斯 关键 词 提取 算 法研 究
l 7 5
的分类模 型。需要的估计参数很少 , 对 缺失数据不太敏感 , 算法 比较简单 , 而且速度快 。
圆
关键词 提取 是 一个 二 分类 问题 , 即一 个词 语 是 否 属 于关
Ab s t r a c t I n o r d e r t o i mp r o v e t h e k e y wo r d e x t r a c t i o n a c c u r a c y,b a s e d o n r e c o g n i s i n g t h e c o mp o u n d b y u s i n g C O — o c c u r r e n c e r f e q u e n c y o f
王锦波 王莲芝 高万林 喻 健
( 中国农业 大学信息与 电气工程学院 北京 1 0 0 0 8 3 )
摘
要
为 了提 高关键词提取 的准确率 , 在利用文本 中相 同词 的前后词共现频 率识别组合词 的基础上 , 提 出一种基于改进词语统
计特征 的朴 素贝叶斯关键 词提取 算法。该 算法选取 词语 的词长、 词性 、 位置 、 T F I D F值 作为词语 的特 征项 , 改进 了统计 词长 、 T F — I D F 和 词频的方法 , 使长词和 T F — I D F大 的词具有更 高的概 率, 而在统计词 频时, 考虑 了词语之 间包 含 与被包含 的关 系。然 后, 采用 朴 素 贝叶斯模 型对标 记好关键词 的文本进 行训练 , 获得各个特征项 出现 的概 率, 用来提取文本 的关键词 。实验 表 明, 与传统基 于词 频和 决策树 C 4 . 5的关键词提 取算法相比, 采用该方法提取 的关键词具有更高 的准确 率和 可读 性。
t h e w o r d re f q u e n c y,i t c o n s i d e r s t h e r e l a t i o n s h i p o f c o n t a i n i n g a n d t o b e c o n t a i n e d b e t w e e n t h e w o r d s .T h e n,i t u s e s n a i ' v e B a y e s i a n mo d e l t o t r a i n t h e t e x t s w i t h t h e k e y w o r d s ma r k e d a n d t o g e t t h e o c c u re n c e p r o b a b i l i t y o f e a c h f e a t u r e i t e m f o r e x t r a c t i n g t h e k e y wo r d s o f t e x t .
t h e T F — I DF v a l u e o f t h e wo r d s a n d e x p r e s s i o n s a s t h e f e a t u r e i t e ms o f t h e w o r d s a n d e x p r e s s i o n s ,i mp r o v e s t h e me t h o d o f c o u n t i n g t h e wo r d
t h e wo r d s b e f o r e a n d a f t e r t h e i d e n t i c a l w o r d s i n t e x t ,we p r o p o s e a n a i v e B a y e s i a n k e y wo r d e x t r a c t i o n a l g o r i t h m wh i c h i s b a s e d O 1 3 . t h e i mp r o v e me n t o f s t a t i s t i c a l c h a r a c t e r i s t i c s o f w o r d s a n d e x p r e s s i o n s .T h e a l g o i r t h m s e l e c t s t h e w o r d l e n g t h,t h e p a r t o f s p e e c h,t h e p o s i t i o n a n d
Ac c o r d i n g t o t h e e x p e r i me n t ,t h e k e y wo r d s e x t r a c t e d b y t h e a l g o i r t h m i n t h i s p a p e r h a v e a h i g h e r p r e c i s i o n r a t e a n d r e a d a b i l i t y t h a n b y t h e t r a d i t i o n a l wo r d re f q u e n c y — b a s e d a n d d e c i s i o n t r e e A . C 5 - b a s e d k e y wo r d e x t r a c t i o n a l g o r i t h ms .
l e n g t h,T F — I DF a n d wo r d f r e q u e n c y ,ma k e s t h o s e w o r d s w i t h l o n g e r l e n th g a n d h i g h e r T F — I D F v a l u e h a v e h i g h e r p r o b a b i l i t y .W h i l e c o u n t i n g
词语的特征值进行训练 , 开 发了 K E A系统 , 用来 抽取关键词 , 但
0 引 言
关键词是 指一 篇文章 中能展现文 章 内容 的词 眼 , 通过 阅读 关键 词 , 可 以迅速获 得文章 的主 旨大意 , 检索相关 的文档 , 另外 关键 词是 生成 自动摘要 , 进行 文本 聚类 的重要 方法 。但 是一般 文章 中很少包含关键词 , 而手工 生成关键 词需要 花费大 量时 间
收稿 日期 : 2 0 1 2— 0 9—1 8 。国家“ 十 二 五” 科技 支撑 计划 项 目( 2 0 1
2 B A D 3 5 B 0 2 ) 。王锦波 , 硕士生 , 主研领域 : 人工智能 , 智能信息处理。王 莲芝 , 副教授 。高万 林, 教授 。喻健 , 硕士生。
键词 。Wi t t e n等人 使用朴 素 贝叶斯作 为训 练模 型 , 对 文本 中
中抽取关键 词。
( 1 )基于统计 的方法 , 该方 法一般 将文章 中出现频 率较 高 的词语作 为关键词输 出 , 比较简单 , 不需要 大规模语料 的训练 , 但是 由于一般只考虑词语 出现 的频率 , 所以准确率不高。 ( 2 )基于 自 然语言理解的方法 , 即基于语义的关键词提取算 法, 在文本统计信息的基础上 , 利用词语的语义特征提取关键词 J 。 ( 3 )基于机器学 习的方法 , T e r n e y等人 使 用 C A. 5 决 策树
键词 。
计算训练集关键词和非【 I 统计训练集词语特 关键词特证项的 概率 『 I 征的 值
关键词
中图分类号
朴 素贝叶斯 组合 词识别 词语特 征项 关键词提取
T P 3 9 1 文献标识码 A D O I : 1 0 . 3 9 6 9 / j . i s s n . 1 0 0 0 — 3 8 6 x . 2 0 1 4 . 0 2 . 0 4 7
ON AN I MP R OV E D N AⅣE B AY E S I AN KE YW OR D E XT RA CT I ON A L GOR I T HM
和遗传算法作 为分类器 , 开发 了 G e n E x系统用 来抽取 文本 的关
1 算法框架
该算法分为训练阶段和测试 阶段 , 训练 阶段包 括对文 本进 行 预处 理 , 构建朴素贝叶斯模型 , 测试 阶段 即在文本 预处理的基 础上 , 使用训练阶段构建的朴素贝叶斯模型提取文本 的关键 词 ,
和人力 , 并且随着文档数量 的增加 , 手工提取越来越难 以满足 实 际的需求… 。所以 , 如何 自动生成关键词显得 十分必要 。 关键词 自动提取技术是指用机器提取文本 中最能表现文本 主题 的词语 。现有关键词提取方法主要有 以下三种 :
是没有考虑到词性 的影响 。
本文在通过相 同词语 的前后词共现频率识别组合词 的基础
Ke y wo r d s Na i v e B a y e s C o mp o u n d r e c o g n i t i o n Wo r d a n d e x p r e s s i o n f e a t u r e i t e m K e y w o r d e x t r a c t i o n
第3 l卷 第 2期
2 0 1 4年 2月
计 算机 应 用与软件
C o mp u t e r Ap p l i c a t i o n s a n d S o f t w a r e
V 0 1 . 3 1 N o . 2 F e b .2 0 1 4
一
种 改进 的 朴 素 贝 叶 斯 关 键 词 提 取 算 法 研 究
Wa n g J i n b o Wa n g L i a n z h i Ga o Wa n l i n Yu J i a n
( C o l l e g e o fI n f o r m a t i o n a n d E l e c t r i c a l E n g i n e e r i n g, C h i n a A g r i c u l t u r a l U n i v e r s i t y , B e j i i n g 1 0 0 0 8 3, C h i a) n
第 2期
算 法框 架如图 1 所示 。
训练 过程
王锦 波等 : 一 种 改进 的朴素 贝叶斯 关键 词 提取 算 法研 究
l 7 5
的分类模 型。需要的估计参数很少 , 对 缺失数据不太敏感 , 算法 比较简单 , 而且速度快 。
圆
关键词 提取 是 一个 二 分类 问题 , 即一 个词 语 是 否 属 于关
Ab s t r a c t I n o r d e r t o i mp r o v e t h e k e y wo r d e x t r a c t i o n a c c u r a c y,b a s e d o n r e c o g n i s i n g t h e c o mp o u n d b y u s i n g C O — o c c u r r e n c e r f e q u e n c y o f
王锦波 王莲芝 高万林 喻 健
( 中国农业 大学信息与 电气工程学院 北京 1 0 0 0 8 3 )
摘
要
为 了提 高关键词提取 的准确率 , 在利用文本 中相 同词 的前后词共现频 率识别组合词 的基础上 , 提 出一种基于改进词语统
计特征 的朴 素贝叶斯关键 词提取 算法。该 算法选取 词语 的词长、 词性 、 位置 、 T F I D F值 作为词语 的特 征项 , 改进 了统计 词长 、 T F — I D F 和 词频的方法 , 使长词和 T F — I D F大 的词具有更 高的概 率, 而在统计词 频时, 考虑 了词语之 间包 含 与被包含 的关 系。然 后, 采用 朴 素 贝叶斯模 型对标 记好关键词 的文本进 行训练 , 获得各个特征项 出现 的概 率, 用来提取文本 的关键词 。实验 表 明, 与传统基 于词 频和 决策树 C 4 . 5的关键词提 取算法相比, 采用该方法提取 的关键词具有更高 的准确 率和 可读 性。
t h e w o r d re f q u e n c y,i t c o n s i d e r s t h e r e l a t i o n s h i p o f c o n t a i n i n g a n d t o b e c o n t a i n e d b e t w e e n t h e w o r d s .T h e n,i t u s e s n a i ' v e B a y e s i a n mo d e l t o t r a i n t h e t e x t s w i t h t h e k e y w o r d s ma r k e d a n d t o g e t t h e o c c u re n c e p r o b a b i l i t y o f e a c h f e a t u r e i t e m f o r e x t r a c t i n g t h e k e y wo r d s o f t e x t .
t h e T F — I DF v a l u e o f t h e wo r d s a n d e x p r e s s i o n s a s t h e f e a t u r e i t e ms o f t h e w o r d s a n d e x p r e s s i o n s ,i mp r o v e s t h e me t h o d o f c o u n t i n g t h e wo r d
t h e wo r d s b e f o r e a n d a f t e r t h e i d e n t i c a l w o r d s i n t e x t ,we p r o p o s e a n a i v e B a y e s i a n k e y wo r d e x t r a c t i o n a l g o r i t h m wh i c h i s b a s e d O 1 3 . t h e i mp r o v e me n t o f s t a t i s t i c a l c h a r a c t e r i s t i c s o f w o r d s a n d e x p r e s s i o n s .T h e a l g o i r t h m s e l e c t s t h e w o r d l e n g t h,t h e p a r t o f s p e e c h,t h e p o s i t i o n a n d
Ac c o r d i n g t o t h e e x p e r i me n t ,t h e k e y wo r d s e x t r a c t e d b y t h e a l g o i r t h m i n t h i s p a p e r h a v e a h i g h e r p r e c i s i o n r a t e a n d r e a d a b i l i t y t h a n b y t h e t r a d i t i o n a l wo r d re f q u e n c y — b a s e d a n d d e c i s i o n t r e e A . C 5 - b a s e d k e y wo r d e x t r a c t i o n a l g o r i t h ms .
l e n g t h,T F — I DF a n d wo r d f r e q u e n c y ,ma k e s t h o s e w o r d s w i t h l o n g e r l e n th g a n d h i g h e r T F — I D F v a l u e h a v e h i g h e r p r o b a b i l i t y .W h i l e c o u n t i n g
词语的特征值进行训练 , 开 发了 K E A系统 , 用来 抽取关键词 , 但
0 引 言
关键词是 指一 篇文章 中能展现文 章 内容 的词 眼 , 通过 阅读 关键 词 , 可 以迅速获 得文章 的主 旨大意 , 检索相关 的文档 , 另外 关键 词是 生成 自动摘要 , 进行 文本 聚类 的重要 方法 。但 是一般 文章 中很少包含关键词 , 而手工 生成关键 词需要 花费大 量时 间
收稿 日期 : 2 0 1 2— 0 9—1 8 。国家“ 十 二 五” 科技 支撑 计划 项 目( 2 0 1
2 B A D 3 5 B 0 2 ) 。王锦波 , 硕士生 , 主研领域 : 人工智能 , 智能信息处理。王 莲芝 , 副教授 。高万 林, 教授 。喻健 , 硕士生。
键词 。Wi t t e n等人 使用朴 素 贝叶斯作 为训 练模 型 , 对 文本 中
中抽取关键 词。
( 1 )基于统计 的方法 , 该方 法一般 将文章 中出现频 率较 高 的词语作 为关键词输 出 , 比较简单 , 不需要 大规模语料 的训练 , 但是 由于一般只考虑词语 出现 的频率 , 所以准确率不高。 ( 2 )基于 自 然语言理解的方法 , 即基于语义的关键词提取算 法, 在文本统计信息的基础上 , 利用词语的语义特征提取关键词 J 。 ( 3 )基于机器学 习的方法 , T e r n e y等人 使 用 C A. 5 决 策树
键词 。
计算训练集关键词和非【 I 统计训练集词语特 关键词特证项的 概率 『 I 征的 值
关键词
中图分类号
朴 素贝叶斯 组合 词识别 词语特 征项 关键词提取
T P 3 9 1 文献标识码 A D O I : 1 0 . 3 9 6 9 / j . i s s n . 1 0 0 0 — 3 8 6 x . 2 0 1 4 . 0 2 . 0 4 7
ON AN I MP R OV E D N AⅣE B AY E S I AN KE YW OR D E XT RA CT I ON A L GOR I T HM
和遗传算法作 为分类器 , 开发 了 G e n E x系统用 来抽取 文本 的关
1 算法框架
该算法分为训练阶段和测试 阶段 , 训练 阶段包 括对文 本进 行 预处 理 , 构建朴素贝叶斯模型 , 测试 阶段 即在文本 预处理的基 础上 , 使用训练阶段构建的朴素贝叶斯模型提取文本 的关键 词 ,
和人力 , 并且随着文档数量 的增加 , 手工提取越来越难 以满足 实 际的需求… 。所以 , 如何 自动生成关键词显得 十分必要 。 关键词 自动提取技术是指用机器提取文本 中最能表现文本 主题 的词语 。现有关键词提取方法主要有 以下三种 :
是没有考虑到词性 的影响 。
本文在通过相 同词语 的前后词共现频率识别组合词 的基础
Ke y wo r d s Na i v e B a y e s C o mp o u n d r e c o g n i t i o n Wo r d a n d e x p r e s s i o n f e a t u r e i t e m K e y w o r d e x t r a c t i o n
第3 l卷 第 2期
2 0 1 4年 2月
计 算机 应 用与软件
C o mp u t e r Ap p l i c a t i o n s a n d S o f t w a r e
V 0 1 . 3 1 N o . 2 F e b .2 0 1 4
一
种 改进 的 朴 素 贝 叶 斯 关 键 词 提 取 算 法 研 究