基于机器学习的文本分类方法综述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2 3 中 心 向量 法 .
中心 向量法 的基本 思想 是通过 对训 练集进行 训 练得到 每一个 已知类 别 的 中心 , 之为类 中心 向量 , 称 分类 过程 中将 待分 文档 与 已知 的类 中心 向量进行 相 似度 比较 , 判定规 则 为相 似度 最 大 的类 中心 向量 所 代表 的类 别 为 待 分 文 档 的类 别 。 心 向 量 法最 初用 于 信息 检 索 . 已 广 泛 应 用 于 文本 分 类 。 C 一 中 现 令 { 代表 训练 集所包 含 的 个类 。 过 程描述 如下 : C} 其
= a g m a r ( , f) r x Si V( 。 )。 e
设整 个 训练 集 的文档 数 为 Ⅳ, 类别 数 为 , 则训 练 阶段 的时 间 复杂 度 为 0( 。 类 阶段 对 每 一个 待 分 文档 计 算 N) 分 个 相 似度值 , 间复 杂度 为 O( 。 时 m) 中心 向量 法 的特 性是 当 训
第 3 卷 第 2蝴 1
2 0 10年 6月
渤 海 大 学 学报 ( 自然科 学 版 )
J u n l fB h i ie st Na u a ce c iin) o r a o a o Unv r iy( t r lS in e Edt o
VO . l 1 3 N0. 2
决策 树方法 是从训 练集 中 自动归纳 出分类 树 。 在应用 于文本 分类 时 , 策树算 法基 于一种 信息增 益 决 标准 来选择 具 有信息 的词 , 然后 根据 文本 中出现的 词的组合 判断类 别 归属 。 在分类 的过 程 中需 要注 意一 些 问题 。 先是 需要根 据数据 的特 点对数 据作 预处理 , 首 比如 做数据 清理 , 进行 特征 选择 等 。 次就是对 分 其 类方 法 的评 估 , 要选择 合适 的方法 来评 价方 法的好 坏 , 价方法 的选择 对 最终 的结果 有很大 影响 。 需 评
占。本 文对 现 有 的基 于机 器学 习的 文本 分 类方 法进 行 了详 细的介 绍 , 析 了各 种 方 法的 优 缺 ’ 分
点, 阐述 了文本 分 类方 法 未来 的发展 趋 势 。 并
关键 词 : 本 分 类 ; 类 方法 ; 器学 习 文 分 机
中图分类 号 : 3 1 TP 1
文献 标识 码 : A
文章 编号 :ห้องสมุดไป่ตู้ 30 6 (0 0 0 —2 10 1 7 —5 9 2 1 ) 20 0 — 5
1 引 言
自动文本 分类 就 是在 给 定 的分类 体 系 下 , 由计 算机 系统 根 据待 分 类文 本 的 内容 自动确 定 文本 类 别
的过 程 。 目前 基于机 器 学 习的 文本分 类 的研 究成 果 主要有 朴素 贝 叶斯法 E 3 KNNⅢ、 策树 法 嘲、 l] -、 决 中心 向量 法 和支持 向量 机 “ 等 。近 几年 文本 分类 方法 进展 迅速 , 出现 了 各种分类 方 法 的相 结合 , 大 又 大 加快 了分 类 的速 度 和准确 性 。本 文 主要 介 绍 了基 于机 器学 习 的文本 分 类 方法 , 提 出 了未 来 的发 展 趋 并
J n. 0l u 2 0
基于机 器学 习的文本分类方法综述
陈秫 获 , 玉 平 秦
( 渤海 大学 信 息 科 学 与工 程 学 院 . 宁 锦 州 l l 1 ) 辽 2 0 3
摘 要 : 本 分 类是 信 息 检 索 与数 据 挖掘 领 域 的 核 心技 术 , 机 器学 习领 域 新 的研 究 热 文 是
22 0
渤海 大 学学报 ( 自然科 学版)
第3 卷 l
基 于上 述假设 的概率 分类 器一般 称 为贝叶斯 分类 器 。 贝叶斯 分类 器容 易理 解 , 算 简单 , 计 分类 效果
基本 能满 足要求 , 但其关 于词 项独 立性 的假设 受到 了质疑 。
2 2 决策 树方法 .
练集 中各类 别间大 小相对 均衡 , 同类 别 文档分 布稠 密时 . 且 分
类 效果 较好 ; 而训 练集 中各类别 问大 小不 均衡 , 同类 别文档 且 分布稀 疏 时 , 类 效果 较 差 。 图 1 当 f、 两 类 大 小不 均衡 分 如 , I c 时 , > d , 类 边缘 文本 易被误 分 至 f 类 中 。 f
尸( (一 )一
() 2
( 3)
P
㈤
一
r ∑ 十
~
1
其 中 。, , 为类 ‘ 的文档 数 目 , 词项 t l 。中 为 在类 中出现 的词 频 总数 。
收 稿 I 期 : 0 【 ( 9 I 2 1 一1n . )) 1
f 抒筋 介 : 祚 被 ( 9 5 ) 女 . ~ 研 究 生 . 事 研 究 领 域 为 机 器 学 习 1 陈 18一. 硕 f : 从
P (i c 一 ㈩
其 中 ,( ) 计算 结果 无 影 响 , ) , 对 因此 可 以不 计算 。 1斯 方 法 的基 本假设 是 词 项之 间 的 独立 性 , 贝1 - r 于
是:
P d ) I ( ) ( 一I pw
尸( 和 P( l, 可用 以下公式 来 估算 : 0) 训, ) f
步骤 l 对 每一个 类 计 算该类 中所 有 文档 向量的算术 平均 作为该 类 的类 中心 向量 V( ) : c ;
步骤 2 给定 一个待 分类 文档 d, 算 d与所 有类 中心 向量 V( ) : 计 c 的相 似度 S m( V( ) 返 回 c c i , ) , () ,
势。
2 基 于机 器 学 习的 文 本 分 类 方 法
2 1 朴素 贝 叶斯方 法 .
朴 素 贝叶斯 方法 是最 早 用 于 文本 分类 的分 类 器算 法 , 率分 类器 基 于贝 叶斯 理论 来 计算 待 定文 , 概 与已知 各类 的条件 概 率 , P(, 来 表示 : 用 cI ) d
中心 向量法 的基本 思想 是通过 对训 练集进行 训 练得到 每一个 已知类 别 的 中心 , 之为类 中心 向量 , 称 分类 过程 中将 待分 文档 与 已知 的类 中心 向量进行 相 似度 比较 , 判定规 则 为相 似度 最 大 的类 中心 向量 所 代表 的类 别 为 待 分 文 档 的类 别 。 心 向 量 法最 初用 于 信息 检 索 . 已 广 泛 应 用 于 文本 分 类 。 C 一 中 现 令 { 代表 训练 集所包 含 的 个类 。 过 程描述 如下 : C} 其
= a g m a r ( , f) r x Si V( 。 )。 e
设整 个 训练 集 的文档 数 为 Ⅳ, 类别 数 为 , 则训 练 阶段 的时 间 复杂 度 为 0( 。 类 阶段 对 每 一个 待 分 文档 计 算 N) 分 个 相 似度值 , 间复 杂度 为 O( 。 时 m) 中心 向量 法 的特 性是 当 训
第 3 卷 第 2蝴 1
2 0 10年 6月
渤 海 大 学 学报 ( 自然科 学 版 )
J u n l fB h i ie st Na u a ce c iin) o r a o a o Unv r iy( t r lS in e Edt o
VO . l 1 3 N0. 2
决策 树方法 是从训 练集 中 自动归纳 出分类 树 。 在应用 于文本 分类 时 , 策树算 法基 于一种 信息增 益 决 标准 来选择 具 有信息 的词 , 然后 根据 文本 中出现的 词的组合 判断类 别 归属 。 在分类 的过 程 中需 要注 意一 些 问题 。 先是 需要根 据数据 的特 点对数 据作 预处理 , 首 比如 做数据 清理 , 进行 特征 选择 等 。 次就是对 分 其 类方 法 的评 估 , 要选择 合适 的方法 来评 价方 法的好 坏 , 价方法 的选择 对 最终 的结果 有很大 影响 。 需 评
占。本 文对 现 有 的基 于机 器学 习的 文本 分 类方 法进 行 了详 细的介 绍 , 析 了各 种 方 法的 优 缺 ’ 分
点, 阐述 了文本 分 类方 法 未来 的发展 趋 势 。 并
关键 词 : 本 分 类 ; 类 方法 ; 器学 习 文 分 机
中图分类 号 : 3 1 TP 1
文献 标识 码 : A
文章 编号 :ห้องสมุดไป่ตู้ 30 6 (0 0 0 —2 10 1 7 —5 9 2 1 ) 20 0 — 5
1 引 言
自动文本 分类 就 是在 给 定 的分类 体 系 下 , 由计 算机 系统 根 据待 分 类文 本 的 内容 自动确 定 文本 类 别
的过 程 。 目前 基于机 器 学 习的 文本分 类 的研 究成 果 主要有 朴素 贝 叶斯法 E 3 KNNⅢ、 策树 法 嘲、 l] -、 决 中心 向量 法 和支持 向量 机 “ 等 。近 几年 文本 分类 方法 进展 迅速 , 出现 了 各种分类 方 法 的相 结合 , 大 又 大 加快 了分 类 的速 度 和准确 性 。本 文 主要 介 绍 了基 于机 器学 习 的文本 分 类 方法 , 提 出 了未 来 的发 展 趋 并
J n. 0l u 2 0
基于机 器学 习的文本分类方法综述
陈秫 获 , 玉 平 秦
( 渤海 大学 信 息 科 学 与工 程 学 院 . 宁 锦 州 l l 1 ) 辽 2 0 3
摘 要 : 本 分 类是 信 息 检 索 与数 据 挖掘 领 域 的 核 心技 术 , 机 器学 习领 域 新 的研 究 热 文 是
22 0
渤海 大 学学报 ( 自然科 学版)
第3 卷 l
基 于上 述假设 的概率 分类 器一般 称 为贝叶斯 分类 器 。 贝叶斯 分类 器容 易理 解 , 算 简单 , 计 分类 效果
基本 能满 足要求 , 但其关 于词 项独 立性 的假设 受到 了质疑 。
2 2 决策 树方法 .
练集 中各类 别间大 小相对 均衡 , 同类 别 文档分 布稠 密时 . 且 分
类 效果 较好 ; 而训 练集 中各类别 问大 小不 均衡 , 同类 别文档 且 分布稀 疏 时 , 类 效果 较 差 。 图 1 当 f、 两 类 大 小不 均衡 分 如 , I c 时 , > d , 类 边缘 文本 易被误 分 至 f 类 中 。 f
尸( (一 )一
() 2
( 3)
P
㈤
一
r ∑ 十
~
1
其 中 。, , 为类 ‘ 的文档 数 目 , 词项 t l 。中 为 在类 中出现 的词 频 总数 。
收 稿 I 期 : 0 【 ( 9 I 2 1 一1n . )) 1
f 抒筋 介 : 祚 被 ( 9 5 ) 女 . ~ 研 究 生 . 事 研 究 领 域 为 机 器 学 习 1 陈 18一. 硕 f : 从
P (i c 一 ㈩
其 中 ,( ) 计算 结果 无 影 响 , ) , 对 因此 可 以不 计算 。 1斯 方 法 的基 本假设 是 词 项之 间 的 独立 性 , 贝1 - r 于
是:
P d ) I ( ) ( 一I pw
尸( 和 P( l, 可用 以下公式 来 估算 : 0) 训, ) f
步骤 l 对 每一个 类 计 算该类 中所 有 文档 向量的算术 平均 作为该 类 的类 中心 向量 V( ) : c ;
步骤 2 给定 一个待 分类 文档 d, 算 d与所 有类 中心 向量 V( ) : 计 c 的相 似度 S m( V( ) 返 回 c c i , ) , () ,
势。
2 基 于机 器 学 习的 文 本 分 类 方 法
2 1 朴素 贝 叶斯方 法 .
朴 素 贝叶斯 方法 是最 早 用 于 文本 分类 的分 类 器算 法 , 率分 类器 基 于贝 叶斯 理论 来 计算 待 定文 , 概 与已知 各类 的条件 概 率 , P(, 来 表示 : 用 cI ) d