基于贝叶斯分类器的中文文本分类
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
出 以下 公 式 :
p =p1 +P 2 … + P
精度设为 R ,数据集 中分类精度数量为 m,则 影响分查速度 ,在应用 的过程 中需要平衡速度
5结论
综 上所 述, 贝叶斯 分类 器在 中文 文本 分 类 中有着 重要的应 用,本文提 出了一种以遗传 器的设计 流程和 功能实现 , 通过实例验证表明,
实质 上就 是解 的遗 传 表 示 过程 。
影响系数取值 不同,g N B C分类精度 也有着一
定多个差异性 ,因此 ,适 当对差异度进行考虑 有助于提升文本分类能力。 但 同时也 需要注意 , 实验过程 中,如果增加特征数 目,会一 定程度
和 效 率 ,这 是 本 方 法 需 要 改 进 之 处 。
D= Rl …
个 种群 ,而遗 传算法就从代表 问题可能潜在
解集 的种群 开始 。
3 基于遗传 算法的朴 素贝叶斯 分类器
本文 提 出了一种 应用 于 中文 文本分 类 的 贝叶斯分类器,其 以自适应遗传算法为基础 , 具体设计方案如下:
3 . 1 设 计 思 路
应用效果 良好,分类精度较高,但在实际应用 由上述 公式可 知 ,分 类器 差异度 D 的取 的过程中需要平衡分类效率和速度,这也是需
【 关键词 】贝叶斯分类器 文本分类 遗传算法
3 . 2 . 1数据预处理
在知 识获 取 系统 中,数据 预处 理是 关键 4 . 2 验 证 结 果 分 析 贝叶斯 分类 器在 文本 分类 中有着 重要 的 应用 ,其中朴素贝叶斯分类器是一种简单有效 的概 率分类方法。但需要注意的是,朴素 贝叶
应用 [ J 】 .微 机 发 展 , 2 0 1 3 , i 3 ( 0 2 ) : 4 8 — 5 0 .
应 度函数能够对个体适应度进行评估 ,从而对
( 1 )进 行数据采 样、收集 、整 理等预 处 理工作 ,必要时进行数据 的离散化 。 ( 2 )对 实体样 本数据进 行分类 ,之后 将
要进一步改善之处。
wk.baidu.com
值 范 围为 ( O 。 1 ) ,D 的 值 越 大 , 即越 接 近 于 1 ,
代表 分类器 差异性越好 。 3 . 2 . 4适应度 函数 适 应度 是度 量群 体 中个体 优化 计算 中接 近 找到最优解的优 良程度的重要标准 ,利用适
参考文献
[ 1 】罗海蛟 . 数据挖掘 中分类 算法的研 究及其
数据库技术 ・ D a t a B a s e T e c h n i q u e
基于贝叶斯分类器的中文文本 分类
文/ 钟 磊
表 1 :分类精度 比较 在数 据 挖掘 领域 中,文本 分 类备 受 关 注。本 文研 究 了基 于 贝 叶斯 分 类 器的 中文文 本分 类 的相 关问题 ,提 出 了一种 以遗 传 算法 为基础 的 朴素 贝叶 斯 分类 器,分 析 了分 类 器的设 计 流程 和功 能 实 现 过程 ,验 证表 明,本文 提 出的 贝叶斯 分 类器 在 中文文 本分 类 中 的应 用效果 良好 ,分类精度较 高。
本 文 提 出 的 贝 叶 斯 分 类 器 在 中 文 文 本 分 类 中 的
2遗传算法基本思想
遗 传算 法是 以遗 传思 想为基 础 的一种 算 法 ,一定数 量的个体经过基因编码之后会组成
一
R=P 1 Rl +P 2 R2 …+ Pm R 们 / P
R ; 为第 i 类正确分类记录数 与所有划分 到 算法 为基础 的朴素贝叶斯分类 器,分析了分类 第i 类 的记录数之 间的比值,则可 以得 出分 类 器差异度 D的计算公式 :
g NB C对应 的属 性集 则 是所 需要 的最优 属 性
集。
3 . 2 g N B C 设计
为 了对 本文 提 出方法 的有 效性和 可 行性 进行验证,本文 以搜狗实验室文本分类数据为
语料库,选取五类 中文文档,分别是汽车类 、
教育类、体育类、文化类及旅游类 ,每类文档 中包含新闻报 1 9 9 0篇 ,文档数量为 9 9 5 0 。
步骤 ,这是因为取得的原始数据不能够直接进
行知识获取 ,需要进行一定 的预处理加工才 能 及整理等都属于数据预处理的范畴 。
3 . 2 . 2编 码
将 数 据 库 分 为 验 证 集 和 训 练 集 , 前 者 g NB C的分类精度进 行比较 ,结果 如表 1 所示。 由表 1可知,相较于 NBC来 说 , B C分 类精度普遍更优 良,在同一数据集中 ,差异度
[ 2 】 王灏 , 黄厚 宽 , 田盛丰 . 文 本 分 类 实现
群体中个体优 良程度进行评价。 3 . 2 . 5 遗传操作
( 1 )选 择操作 ,即个体 的优 胜劣汰 ,选 的种群 。
技术 [ J 】 . 广 西 师范 大学学报 :自然科 学
版 , 2 0 1 3 , 2 I ( 0 1 ) : I 7 3 — 1 7 9 .
1 文 本 分 类
事先 定义 好 文本类 别 ,以文 本 内容为基 础 ,计算机根据相关 自动分类算法 ,对 文本 进 行预先定义好 的类别划分就是 文本分类 。文本 分类一般可 以分为三个步骤 ,分别是文本向量 模型表示 、选择文本特征及分类器训练 。
3 . 2 . 3分类 器差 异度 差异 度指 的是 空 间中分布 程 度,将 分类 有R 1 ,R 2 ,…,R ,用 P代表数据集记录个数 , 则每一类记录数为 P . ,P 2 ,… ,P ,则可 以得
够满足知识获取条件 ,原始数据 的采样 、收集 3 0 %,后 者 7 0 %,测 试 验 证 集 , 对 NBC和
斯分类器模型在实际应用的过程 中往往会 出现
一
定的问题,例如条件假设难 以实现 ,属性约
简影响分类效果等。
在 遗传 算法 中,编 码 的过程 就是 基 因型 与表 现型的映射 工作,保证二者的一一对应 ,
p =p1 +P 2 … + P
精度设为 R ,数据集 中分类精度数量为 m,则 影响分查速度 ,在应用 的过程 中需要平衡速度
5结论
综 上所 述, 贝叶斯 分类 器在 中文 文本 分 类 中有着 重要的应 用,本文提 出了一种以遗传 器的设计 流程和 功能实现 , 通过实例验证表明,
实质 上就 是解 的遗 传 表 示 过程 。
影响系数取值 不同,g N B C分类精度 也有着一
定多个差异性 ,因此 ,适 当对差异度进行考虑 有助于提升文本分类能力。 但 同时也 需要注意 , 实验过程 中,如果增加特征数 目,会一 定程度
和 效 率 ,这 是 本 方 法 需 要 改 进 之 处 。
D= Rl …
个 种群 ,而遗 传算法就从代表 问题可能潜在
解集 的种群 开始 。
3 基于遗传 算法的朴 素贝叶斯 分类器
本文 提 出了一种 应用 于 中文 文本分 类 的 贝叶斯分类器,其 以自适应遗传算法为基础 , 具体设计方案如下:
3 . 1 设 计 思 路
应用效果 良好,分类精度较高,但在实际应用 由上述 公式可 知 ,分 类器 差异度 D 的取 的过程中需要平衡分类效率和速度,这也是需
【 关键词 】贝叶斯分类器 文本分类 遗传算法
3 . 2 . 1数据预处理
在知 识获 取 系统 中,数据 预处 理是 关键 4 . 2 验 证 结 果 分 析 贝叶斯 分类 器在 文本 分类 中有着 重要 的 应用 ,其中朴素贝叶斯分类器是一种简单有效 的概 率分类方法。但需要注意的是,朴素 贝叶
应用 [ J 】 .微 机 发 展 , 2 0 1 3 , i 3 ( 0 2 ) : 4 8 — 5 0 .
应 度函数能够对个体适应度进行评估 ,从而对
( 1 )进 行数据采 样、收集 、整 理等预 处 理工作 ,必要时进行数据 的离散化 。 ( 2 )对 实体样 本数据进 行分类 ,之后 将
要进一步改善之处。
wk.baidu.com
值 范 围为 ( O 。 1 ) ,D 的 值 越 大 , 即越 接 近 于 1 ,
代表 分类器 差异性越好 。 3 . 2 . 4适应度 函数 适 应度 是度 量群 体 中个体 优化 计算 中接 近 找到最优解的优 良程度的重要标准 ,利用适
参考文献
[ 1 】罗海蛟 . 数据挖掘 中分类 算法的研 究及其
数据库技术 ・ D a t a B a s e T e c h n i q u e
基于贝叶斯分类器的中文文本 分类
文/ 钟 磊
表 1 :分类精度 比较 在数 据 挖掘 领域 中,文本 分 类备 受 关 注。本 文研 究 了基 于 贝 叶斯 分 类 器的 中文文 本分 类 的相 关问题 ,提 出 了一种 以遗 传 算法 为基础 的 朴素 贝叶 斯 分类 器,分 析 了分 类 器的设 计 流程 和功 能 实 现 过程 ,验 证表 明,本文 提 出的 贝叶斯 分 类器 在 中文文 本分 类 中 的应 用效果 良好 ,分类精度较 高。
本 文 提 出 的 贝 叶 斯 分 类 器 在 中 文 文 本 分 类 中 的
2遗传算法基本思想
遗 传算 法是 以遗 传思 想为基 础 的一种 算 法 ,一定数 量的个体经过基因编码之后会组成
一
R=P 1 Rl +P 2 R2 …+ Pm R 们 / P
R ; 为第 i 类正确分类记录数 与所有划分 到 算法 为基础 的朴素贝叶斯分类 器,分析了分类 第i 类 的记录数之 间的比值,则可 以得 出分 类 器差异度 D的计算公式 :
g NB C对应 的属 性集 则 是所 需要 的最优 属 性
集。
3 . 2 g N B C 设计
为 了对 本文 提 出方法 的有 效性和 可 行性 进行验证,本文 以搜狗实验室文本分类数据为
语料库,选取五类 中文文档,分别是汽车类 、
教育类、体育类、文化类及旅游类 ,每类文档 中包含新闻报 1 9 9 0篇 ,文档数量为 9 9 5 0 。
步骤 ,这是因为取得的原始数据不能够直接进
行知识获取 ,需要进行一定 的预处理加工才 能 及整理等都属于数据预处理的范畴 。
3 . 2 . 2编 码
将 数 据 库 分 为 验 证 集 和 训 练 集 , 前 者 g NB C的分类精度进 行比较 ,结果 如表 1 所示。 由表 1可知,相较于 NBC来 说 , B C分 类精度普遍更优 良,在同一数据集中 ,差异度
[ 2 】 王灏 , 黄厚 宽 , 田盛丰 . 文 本 分 类 实现
群体中个体优 良程度进行评价。 3 . 2 . 5 遗传操作
( 1 )选 择操作 ,即个体 的优 胜劣汰 ,选 的种群 。
技术 [ J 】 . 广 西 师范 大学学报 :自然科 学
版 , 2 0 1 3 , 2 I ( 0 1 ) : I 7 3 — 1 7 9 .
1 文 本 分 类
事先 定义 好 文本类 别 ,以文 本 内容为基 础 ,计算机根据相关 自动分类算法 ,对 文本 进 行预先定义好 的类别划分就是 文本分类 。文本 分类一般可 以分为三个步骤 ,分别是文本向量 模型表示 、选择文本特征及分类器训练 。
3 . 2 . 3分类 器差 异度 差异 度指 的是 空 间中分布 程 度,将 分类 有R 1 ,R 2 ,…,R ,用 P代表数据集记录个数 , 则每一类记录数为 P . ,P 2 ,… ,P ,则可 以得
够满足知识获取条件 ,原始数据 的采样 、收集 3 0 %,后 者 7 0 %,测 试 验 证 集 , 对 NBC和
斯分类器模型在实际应用的过程 中往往会 出现
一
定的问题,例如条件假设难 以实现 ,属性约
简影响分类效果等。
在 遗传 算法 中,编 码 的过程 就是 基 因型 与表 现型的映射 工作,保证二者的一一对应 ,