基于贝叶斯的文本分类方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
| =arg max{ | * },=1,2,…,
(5)
文档 由其包含的特征词表示,即 = ( 1, 2,…, ,…, ),
是 的特征词个数| |, 是第 个特征词,由特征独立性假设,得
| = 1, 2,…, | =
|
(6)
=1
式中: | 表示分类器预测单词 在类 的文档中发生的
概 率 。 因 此 式 (2) 可 转 换 为
| )。 根据贝叶斯定理, 类的后验概率为
|: |= |
/
(1)
对 于 所 有 类 均 为 常 数 ,可 以 忽 略 ,则 式 (1) 简 化 为
|∝ | *
(2)
为避免 等于 0,采用拉普阿斯概率估计
=(1+| * |)/(| |+| * |)
(3)
式中:| |— — 训练集中类的数目,| * |— — 训练集中属于类 的文档数,| * |— — 训练集包含的总文档数。在特殊情况下, 训练样本集中各类样本数相等,此时类的先验概率相等,式(2) 可以简化
文本特征的提取有词频法、互信息、CHI 统计、信息增量 表示等方法 。 [4~9] 本文分析了上述方法的优缺点,进而提出了 一种该进型的 CHI。
1 贝叶斯方法
模型选择问题可以表述为在给定的数据样本和相关参数
信 息 的 条 件 下 ,寻 求 具 有 最 大 后 验 概 率 的 模 型 。 在 给 定 的 样
2 特征抽取
构 成 文 本 的 词 汇 ,数 量 是 相 当 大 的 ,因 此 ,表 示 文 本 的 向
量空间的维数也相当大,可以达到几万维,因此我们需要进行 维 数 压 缩 的 工 作 ,这 样 做 的 目 的 主 要 有 两 个 :
(1) 为 了 提 高 程 序 的 效 率 ,提 高 运 行 速 度 ; (2) 所 有 几 万 个 词 汇 对 文 本 分 类 的 意 义 是 不 同 的 ,一 些 通 用的、各个类别都普遍存在的词汇对分类的贡献小,在某特定 类中出现比重大而在其它类中出现比重小的词汇对文本分类 的 贡 献 大 ,为 了 提 高 分 类 精 度 ,对 于 每 一 类 ,我 们 应 去 除 那 些 表现力不强的词汇,筛选出针对该类的特征项集合,如下存在 多种筛选特征项的算法。
2.4 信 息 增 量 (information gain)
通过文档 c 中出现和不出现词条 t 来表示 t 对文档的增益 程度。词条的信息增量如下
= =1 log + ( ) =1 | log
=1 | log | +
其中: —— 类文档 在语料中出现的 概率, ——语料中
包含词条 的文档的概率, | ——文档包含词条 是属于
0引 言
常 见 的 分 类 器 有 简 单 向 量 距 离 、KNN、神 经 网 络 、贝 叶 斯 分类器等 。其 [1,3] 中贝叶斯分类器是基于贝叶斯学习方法的分 类 器 ,其 原 理 虽 然 较 简 单 ,但 是 其 在 实 际 应 用 中 很 成 功 。贝 叶 斯算法有一个很重要的假设,就是很强的属性间条件独立[2 , ,3] 而事实上属性之间独立性很弱,为了弥补该假设的不足,在本 文提出了一种基于多项式分布的贝叶斯方法。
第 27 卷 第 24 期 Vol. 27 No. 24
计算机工程与设计
Computer Engineering and Design
2006 年 12 月 Dec. 2006
基于贝叶斯的文本分类方法
罗海飞, 吴 刚, 杨金生 (上海交通大学 软件学院,上海 200240)
摘 要:文本分类中 的两个关键问题 ,算法和特征提 取。贝叶斯算法是最 有效的文本分 类算法之一,但是 属性间强独立 性的 假设 在现实中并不成 立,借 鉴概率论中的 多项式模型提出 了一种改进型的 贝叶斯方法;传统的 特征抽取方法有 词频法、互 信息 法、CHI 统 计、信息增益 法等,然而上述 方法对于词条的 权重未作考虑 ,引进了权重的 表征方式,给出 了改进方法。 由实 验证 明了通过以上方 面的改进,文本 分类的正确率得 到了提高。 关键 词:文本分类; 特征抽取; 贝叶 斯; 多项式; 统 计 中图 法分类号:TP181 文献标 识码:A 文章编号:1000-7024 (2006) 24-4746-03
Abstract:Two important factors in text classification are discussed— algorithm and feature abstraction. The practical Bayesian algorithm has an assumption of strong independence of different properties and a modified way on polynomial is introduced. In Feature abstraction, different ways of abstracting features are discussed and a modified CHI based on word weight is introduced. At last the experiments show seen that correct rate of text classification is improved. Key words:text classification; feature abstraction; Bayes; polynomial; statistic
本 D 下,某一模型 M 的后验概率与 M 的先验概率和似然函 数的乘积成比例,因而模型选择问题可以表示成下面的优
化问题
arg max
| = arg max
|
贝叶斯方法下的模型选择通过选取适当的模型先验分布
P (M),可 以 将 人 类 专 家 的 知 识 和 给 定 的 样 本 数 据 中 提 供 的 信
词频法是最简单的一种技术,其缺点也显而易见:在信息 研 究 中 ,往 往 低 频 词 对 文 档 分 类 的 贡 献 比 高 频 词 大 得 多 ;高 频 词 同 时 出 现 在 不 同 类 的 概 率 也 较 大 。这 是 相 当 朴 素 的 一 种 方 法 ,应 用 较 少 。 2.2 互 信 息 (mutual information)
Way of text classification based on Bayes
LUO Hai-fei, WU Gang, YANG Jin-sheng (School of Software Engineering, Shanghai Jiaotong University, Shanghai 200240, China)
× ++
2
++
其中 :N——文 档总 数,c—— 某一 特定 的类 别,t——特 定的
词条 ,A—— 属 于 c 类 且 包 含 t 的 文档 频 数 ,B——不 属 于 c
类但 是 包 含 t 的 文档 频 数 ,C——属 于 c 但 是 不 包 含 t 的 文
档频 数 ,D——既 不 包 含 t 也 不属 于 c 类 的 文 档 频 数。
词和类别的互信息表示为 log
,其中, | =
1+ =1 , + =1 =1
, ,
|
为 在 中出现的比重,| |为该类
的训练文本数, , 为词 在 中的词频, 为总词数, =1
=1 , 为该类所有词的词频和。
而 计算词在所有训练文本中的比重,其中,| |为全体
训练文本数。
2.3 CHI 方 法 对于每个词,计算词和类别的 CHI 统计为
布 、二 项 式 分 布 、泊 松 分 布 等 。我 们 可 以 选 取 其 中 之 一 作 为 文
本 各 属 性 的 分 布 规 律 。 在 各 个 领 域 中 ,这 些 分 布 都 获 得 了 很
好 的 统 计 效 果 ,因 而 我 们 不 妨 引 用 之 。 在 本 文 中 ,引 入 多 项
式模型。
式 中 : —— 文 档 在 中 出 现 的 次 数 , | —— 在 训 练 集
中文档 属于类别 的概率。
设 是带分类的测试文档集,根据贝叶斯定理,每个文档
属于 的概率为 |= *
式中:
|=
=1
= =1
*| | /| |
如果 = arg max
=
*|
=1
| ,将文档 划归到 类中,就完成了
对文档 的分类作用。
的 确 定 并 不 容 易 ,并 且 会 使 问 题 求 解 变 得 繁 琐 。
若求出了 | ,整个分类问题就能解决了,但是,我们不 知 道 证 据 的 确 切 分 布 ,该 方 法 就 不 能 够 使 用 。 由 概 率 学 知 识
可 以 知 道 ,在 实 验 次 数 较 大 的 情 况 下 ,很 多 事 件 服 从 正 态 分
类的条 件概率, ——语料 中不包 含词条 的文档 的概率 ,
| ——文档不包含词条是属于 的条件概率, ——类别数。
2.5 改 进 后 的 CHI: 增加 权 重
分析 CHI、MI、IG 算 法,我们 可以知道:词条和文档之间
的 关 系 只 是 通 过 文 档 是 否 包 含 词 条 表 征 ,对 于 词 条 的 权 重 未
来 简 化 模 型 ,从 而 达 到 降 低 学 习 复 杂 性 的 目 的 。
除 了 假 设 属 性 之 间 强 独 立 性 之 外 ,还 可 以 通 过 引 用 隐 含
变 量 的 方 法 来 简 化 属 性 之 间 的 联 系 ,这 样 可 使 得 多 个 测 量 变
量 相 对 于 中 间 变 量 独 立 ,从 而 简 化 了 模 型 。当 然 ,隐 含 变 量 值
|∝ *
|
(7)
=1
为了避免式 (7) 中的 | 等于 0,可以采用拉普拉斯概
率估计。
1.2 改 进 后 的 贝 叶 斯方 法 : 基 于 多 项 式 考 虑 到 文 本 属 性 之 间 非 独 立 ,容 易 导 致 高 维 空 间 里 建 模
难 度 的 增 大 。朴 素 贝 叶 斯 方 法 利 用 属 性 之 间 强 独 立 性 的 假 设
息 结 合 在 一 起 。 在 没 有 任 何 先 验 信 息 的 情 况 下 ,可 以 采 用 贝
叶斯假设将 P(M)看作均匀分布。这种情况下模型选择问题可
以进一步化简为似然函数 P(D|M)的优化问题:arg max
|
= arg max
|。
为了比较不同模型的优劣,通常采用贝叶斯因子 12(Baye-
收稿日期:2005-11-22。 作者简介:罗海飞 (1979-),男,湖北武汉人,硕士,研究方向为嵌入式; 吴刚,男,教授,研究方向为操作系统; 杨金生,男,副教授,研 究方向为操作系统。
- 4746 -
|∝ |
(4)
朴 素 贝 叶 斯 分 类 器 将 未 知 样 本 归 于 类 的 依 据 ,如 下
作考虑。在一篇文档出现 10 次的词条和出现一次的词条对
文档分类贡献不能同日而语。在我们的改进算法中应该包
括此项。
词语权重的计算需要考虑以下几个因素:
- 4747 -
(1) 词语频率(tf):词条在文档中出现代的概率。 (2) 词语倒排文档频率 (idf):该词语在文档集合中分布情
在 多 项 式 模 型 中 ,假 设 每 个 文 档 与 每 个 类 的 概 率 服 从 多
项 式 分 布 ,与 文 档 的 其 它 属 性 没 关 系 。
设 表示带有 类别标注的训练 集,| |表 示了训练文集 中 的文档数目, 表示特征集。则, 出现 在类文档中的
概率为
1+ *
|=
=1
+
*
=1 =1
sian factor): 12 = | 1 )* | 2 。
1.1 朴 源自文库 贝 叶 斯 方 法
设训练样本集分为 类,记为 ={ 1, 2,…, },则每个类
的 先验 概率 为 ,=1,2,…, ,其 值为 类 的样 本数 除以
训练 集总 样本 数 。对于 新样 本 ,其 属于 类 的条 件概 率是
2.1 词 频 法 文档频率(document frequency,DF)只的是词条出现在文档
中 的 数 目 。 该 方 法 基 于 这 样 一 个 假 设 :高 于 某 个 阈 值 的 词 称 之 为 高 频 词 ,反 之 称 为 低 频 词 ,选 择 高 频 词 作 为 表 征 该 文 档 的特征。