朴素贝叶斯分类器详细介绍
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.2292e+02 11.25 5.5833e+02 7.5
我们认为两种类别是等概率的,也就是 P(male)= P(female) = 0.5。在没有做 辨识的情况下就做这样的假设并不是一个好的点子。但我们通过数据集中两类 样本出现的频率来确定 P(C),我们得到的结果也是一样的。 测试[编辑] 以下给出一个待分类是男性还是女性的样本。 性别 身高(英尺) 体重(磅) 脚的尺寸(英尺) sample 6 130 8
,
对于
,所以联合分布模型可以表达为
这意味着上述假设下,类变量 的条件分布可以表达为:
其中 (证据因子)是一个只依赖与
等的缩放因子,当特征变量的值 和独立概率分布
已知时是一个常数。 由于分解成所谓的类先验概率
,上述概率模型的可掌控性得到很大的提高。如果这是一个 分类问 题,且每个 可以表达为 个参数,于是相应的朴素贝叶斯模型有 (k − 1) + n r k 个参数。实际应用中,通常取 (二分类问题), (伯努利分布作为特征),因此模型的参数个数为 ,其中 是二值分类 特征的个数。
(通过这种处理,我们进一步简化了工作,假设每个单词是在文中是随机分布 的-也就是单词不依赖于文本的长度,与其他词出现在文中的位置,或者其他文 本内容。) 对于一个给定类别 C,单词 的文本 D,概率表示为
我们要回答的问题是文档 D 属于类 C 的概率是多少。换而言之 现在定义
是多少?
通过贝叶斯定理将上述概率处理成似然度的形式
女 女 女
5.5 (5'6")
150
8 7 9
5.42 (5'5") 130 5.75 (5'9") 150
假设训练集样本的特征满足高斯分布,得到下表: 性 别 男 性 女 性 均值(身 高) 5.855 5.4175 方差(身 高) 3.5033e02 9.7225e02 均值(体 重) 176.25 132.5 方差(体 重) 均值(脚的尺 寸) 方差(脚的 尺寸) 9.1667e-01 1.6667e+00
用朴素的语言可以表达为:
实际中,我们只关心分式中的分子部分,因为分母不依赖于 而且特征 的值 是给定的,于是分母可以认为是一个常数。这样分子就等价于联合分布模型。
重复使用链式法则,可将该式写成条件概率的形式,如下所示:
现在“朴素”的条件独立假设开始发挥作用:假设每个特征 是条件独立的。这就意味着
对于其他特征
假设现在只有两个相互独立的类别,S 和¬S(垃圾邮件和非垃圾邮件),这里 每个元素(邮件)要么是垃圾邮件,要么就不是。
用上述贝叶斯的结果,可以写成
两者相除:
整理得:
这样概率比 p(S | D) / p(¬S | D)可以表达为似然比。实际的概率 p(S | D)可 以很容易通过 log (p(S | D) / p(¬S | D))计算出来,基于 p(S | D) + p(¬S | D) = 1。 结合上面所讨论的概率比,可以得到:
贝叶斯分类器特点[编辑]
1、 需要知道先验概率 先验概率是计算后验概率的基础。在传统的概率理论中,先验概率可以由大量 的重复实验所获得的各类样本出现的频率来近似获得,其基础是“大数定律”, 这一思想称为“频率主义”。而在称为“贝叶斯主义”的数理统计学派中,他 们认为时间是单向的,许多事件的发生不具有可重复性,因此先验概率只能根 据对置信度的主观判定来给出,也可以说由“信仰”来确定。 2、按照获得的信息对先验概率进行修正 在没有获得任何信息的时候,如果要进行分类判别,只能依据各类存在的先验 概率,将样本划分到先验概率大的一类中。而在获得了更多关于样本特征的信 息后,可以依照贝叶斯公式对先验概率进行修正,得到后验概率,提高分类决 策的准确性和置信度。 3、分类决策存在错误率 由于贝叶斯分类是在样本取得某特征值时对它属于各类的概率进行推测,并无 法获得样本真实的类别归属情况,所以分类决策一定存在错误率,即使错误率 很低,分类错误的情况也可能发生。
朴素贝叶斯分类器是一种应用基于独立假设的贝叶斯定理的简单概率分类器.更 精确的描述这种潜在的概率模型为独立特征模型。
目录
[隐藏]
1 2 3 4 5 6 7
简介 朴素贝叶斯概率模型 贝叶斯分类器特点 参数估计 样本修正 从概率模型中构造分类器 实例 o 7.1 性别分类 7.1.1 训练 7.1.2 测试 o 7.2 文本分类 8 讨论 9 参见 10 参考文献 11 外部链接
参数估计[编辑]
只要知道先验概率 和独立概率分布 ,就可以设计出一个贝叶斯分 类器。先验概率 不是一个分布函数,仅仅是一个值,它表达了样本空间中 各个类的样本所占数量的比例。依据大数定理,当训练集中样本数量足够多且 来自于样本空间的随机选取时,可以以训练集中各类样本所占的比例来估计
的值。独立概率分布 是以某种形式分布的概率密度函数,需要从 训练集中样本特征的分布情况进行估计。估计方法可以分为参数估计和非参数 估计。[参数估计]先假定类条件概率密度具有某种确定的分布形式,如正态分 布、二项分布,再用已经具有类别标签的训练集对概率分布的参数进行估计。 [非参数估计]是在不知道或者不假设类条件概率密度的分布形式的基础上,直 接用样本集中所包含的信息来估计样本的概率分布情况。 所有的模型参数都可 以通过训练集的相关频率来估计。常用方法是概率的最大似然估计。类的先验 概率可以通过假设各类等概率来计算(先验概率 = 1 / (类的数量)),或者通 过训练集的各类样本出现的次数来估计(A 类先验概率=(A 类样本的数量) /(样本总数))。为了估计特征的分布参数,我们要先假设训练集数据满足某种 分布或者非参数模型。[3] 如果要处理的是连续数据一种通常的假设是这些连续 数值为高斯分布。 例如,假设训练集中有一个连续属性, 。我们首先对数据 根据类别分类,然后计算每个类别中 的均值和方差。令 表示为 在 c 类上 的均值,令 为 在 c 类上的方差。在给定类中某个值的概率, 方差为 正态分布计算出来。如下, ,
(变量的均值和方差)。由于变量独立假设,只需要估计各个变量的方法,而 不需要确定整个协方差矩阵。
朴素贝叶斯概率模型[编辑]
理论上,概率模型分类器是一个条件概率模型。
独立的类别变量 有若干类别,条件依赖于若干特征变量 , ,..., 。但 问题在于如果特征数量 较大或者每个特征能取大量值时,基于概率模型列出 概率表变得不现实。所以我们修改这个模型使之变得可行。 贝叶斯定理有以下 式子:
简介[编辑]
贝叶斯分类的基础是概率推理,就是在各种条件的存在不确定,仅知其出现概 率的情况下,如何完成推理和决策任务。概率推理是与确定性推理相对应的。 而朴素贝叶斯分类器是基于独立假设的,即假设样本每个特征与其他特征都不 相关。举个例子,如果一种水果其具有红,圆,直径大概 4 英寸等特征,该水 果可以被判定为是苹果。 尽管这些特征相互依赖或者有些特征由其他特征决定,然而朴素贝叶斯分类器 认为这些属性在判定该水果是否为苹果的概率分布上独立的。朴素贝叶斯分类 器依靠精确的自然概率模型,在有监督学习的样本集中能获取得非常好的分类 效果。在许多实际应用中,朴素贝叶斯模型参数估计使用最大似然估计方法, 换而言之朴素贝叶斯模型能工作并没有用到贝叶斯概率或者任何贝叶斯模型。 尽管是带着这些朴素思想和过于简单化的假设,但朴素贝叶斯分类器在很多复 杂的现实情形中仍能够取得相当好的效果。2004 年,一篇分析贝叶斯分类器问 题的文章揭示了朴素贝叶斯分类器取得看上去不可思议的分类效果的若干理论 上的原因。[1] 尽管如此,2006 年有一篇文章详细比较了各种分类方法,发现更 新的方法(如 boosted trees 和随机森林)的性能超过了贝叶斯分类器。[2] 朴 素贝叶斯分类器的一个优势在于只需要根据少量的训练数据估计出必要的参数
实例[编辑]
性别分类[编辑]
问题描述:通过一些测量的特征,包括身高、体重、脚的尺寸,判定一个人是男 性还是女性。 训练[编辑] 训练数据如下: 性别 身高(英尺) 体重(磅) 脚的尺寸(英寸) 男 男 男 男 女 6 180 12 11 12 10 6 5.92 (5'11") 190 5.58 (5'7") 170 5.92 (5'11") 165 5 100
由于女性后验概率的分子比较大,所以我们预计这个样本是女性。
文本分类[编辑]
这是一个用朴素贝叶斯分类做的一个文本分类问题的例子。考虑一个基于内容 的文本分类问题,例如判断邮件是否为垃圾邮件。想像文本可以分成若干的类 别,首先文本可以被一些单词集标注,而这个单词集是独立分布的,在给定的 C 类文本中第 i 个单词出现的概率可以表示为:
可以通过将 表示为均值为
处理连续数值问题的另一种常用的技术是通 过离散化连续数值的方法。通常,当训练样本数量较少或者是精确的分布已知 时,通过概率分布的方法是一种更好的选择。在大量样本的情形下离散化的方 法表现更优,因为大量的样本可以学习到数据的分布。由于朴素贝叶斯是一种 典型的用到大量样本的方法(越大计算量的模型可以产生越高的分类精确度), 所以朴素贝叶斯方法都用到离散化方法,而不是概率分布估计的方法。
(这种对数似然比的技术在统计中是一种常用的技术。在这种两个独立的分类情 况下(如这个垃圾邮件的例子),把对数似然比转化为 sigmoid curve 的形式)。
最后文本可以分类,当 垃圾邮件,否则为正常邮件。
或者
时判定为
讨论[编辑]
尽管实际上独立假设常常是不准确的,但朴素贝叶斯分类器的若干特性让其在 实践中能够取得令人惊奇的效果。特别地,各类条件特征之间的解耦意味着每 个特征的分布都可以独立地被当做一维分布来估计。这样减轻了由于维数灾带 来的阻碍,当样本的特征个数增加时就不需要使样本规模呈指数增长。然而朴素 贝叶斯在大多数情况下不能对类概率做出非常准确的估计,但在许多应用中这 一点并不要求。例如,朴素贝叶斯分类器中,依据最大后验概率决策规则只要 正确类的后验概率比其他类要高就可以得到正确的分类。所以不管概率估计轻 度的甚至是严重的不精确都不影响正确的分类结果。在这种方式下,分类器可 以有足够的鲁棒性去忽略朴素贝叶斯概率模型上存在的缺陷。
样本修正[编辑]
如果一个给定的类和特征值在训练集中没有一起出现过,那么基于频率的估计 下该概率将为 0。这将是一个问题。因为与其他概率相乘时将会把其他概率的 信息统统去除。所以常常要求要对每个小类样本的概率估计进行修正,以保证 不会出现有为 0 的概率出现。
从概率模型中构造分类器[编辑]
讨论至此为止我们导出了独立分布特征模型,也就是朴素贝叶斯概率模型。朴 素贝叶斯分类器包括了这种模型和相应的决策规则。根据分类决策规则的不同, 贝叶斯分类有多种形式: 最小错误率贝叶斯分类器, 最大似然比贝叶斯分类 器,最小风险贝叶斯分类器。 一个普通的规则就是选出最有可能的那个,即将一个待分类样本划归到后验概 率最大的那一类中:这就是大家熟知的最大后验概率(MAP)决策准则,真正分 类器称为最大后验概率分类器,与最小错误率贝叶斯分类器是等价的。当采取 最大后验概率决策时,分类错误概率取得最小值。相应的分类器便是如下定义 的 公式:
我们希望得到的是男性还是女性哪类的后验概率大。男性的后验概率通过下面 式子来求取
女性的后验概率通过下面式子来求取
证据因子(通常是常数)用来使各类的后验概率之和为 1.
证据因子是一个常数(在正态分布中通常是正数),所以可以忽略。接下来我 们来判定这样样本的性别。
,其中 , 是训练集样本的正态分布参数. 注意,这里 的值大于 1 也是允许的 – 这里是概率密度而不是概率,因为身高是一个连续 的变量.
独立概率分布 ,也称为类 C 对特征向量 的样本取某个特征值的可能性。 =
的似然函数,表达了某类中
称为似然比,它与待识别的特征向量有关;
= 称为判决门限,它仅与两类的先验概率有关。 若 , 对任意的 i 不等于 j,则 x 属于 。该分类器称为最大似然 比贝叶斯分类器。 在最小错误率贝叶斯分类器中,仅考虑了样本属于每一类的后验概率就做出了 分类决策,而没有考虑每一种分类决策的风险。在获得样本属于每一类的后验 概率后,需要综合考虑做出各种分类决策所带来的风险,选择风险最小的分类 决策,称为最小风险贝叶斯分类器。 决策 :把待识别样本 x 归类到 类中; 损失 :把真实属于 类的样本 x 归类到 类中带来的损失; 条件风险 :对Fra Baidu bibliotekx 采取决策 后可能的风险; 则最小风险贝叶斯分类器的分类决策规则为:若 ,则 x 属于 。