朴素贝叶斯模型
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
朴素贝叶斯分类器的公式
假设某个体有n项特征(Feature),分别为F1、F2、...、Fn。
现有m个类别(Category),分别为C1、C2、...、Cm。贝叶 斯分类器就是计算出概率最大的那个分类,也就是求下面这 个算式的最大值: P(C|F1F2...Fn) = P(F1F2...Fn|C)P(C) / P(F1F2...Fn)
决策树的决策程序
决策树法的决策程序如下:
(1)绘制树状图,根据已知条件排列出各个方案和 每一方案的各种自然状态。 (2)将各状态概率及损益值标于概率枝上。 (3)计算各个方案期望值并将其标于该方案对应的 状态结点上。 (4)进行剪枝,比较各个方案的期望值,并标于方 案枝上,将期望值小的(即劣等方案剪掉)所剩的最后 方案为最佳方案。
性别分类的例子
下面是一组人类身体特征的统计资料
性别 身高(英尺) 男 6 男 5.92 男 5.58 男 5.92 女 5 女 5.5 女 5.42 女 5.75 体重(磅) 180 190 170 165 100 150 130 150 脚掌(英寸) 12 11 12 10 6 8 7 9
已知某人身高6英尺、体重130磅,脚掌8英寸,请问该人是男是女? 根据朴素贝叶斯分类器,计算下面这个式子的值。 P(身高|性别) x P(体重|性别) x P(脚掌|性别) x P(性别) 这里的困难在于,由于身高、体重、脚掌都是连续变量,不能采用离散变
P(F1|C)P(F2|C)P(F3|C)P(C)
账号分类的例子
上面这些值可以从统计资料得到,但是:F1和F2是连续变量,不适宜按照
某个特定值计算概率。 一个技巧是将连续值变为离散值,计算区间的概率。比如将F1分解成[0, 0.05]、(0.05, 0.2)、[0.2, +∞]三个区间,然后计算每个区间的概率。 在我们这个例子中,F1等于0.1,落在第二个区间,所以计算的时候,就 使用第二个区间的发生概率。 根据统计资料,可得: F1: 日志数量/注册天数(0.1) P(F1|C0) = 0.5, P(F1|C1) = 0.1 P(F2|C0) = 0.7, P(F2|C1) = 0.2 F2: 好友数量/注册天数 (0.2) P(F3|C0) = 0.2, P(F3|C1) = 0.9 F3: 是否使用真实头像 (0) 因此, P(F1|C0) P(F2|C0) P(F3|C0) P(C0) = 0.5 x 0.7 x 0.2 x 0.89 = 0.0623 P(F1|C1) P(F2|C1) P(F3|C1) P(C1) = 0.1 x 0.2 x 0.9 x 0.11 = 0.00198 可以看到,虽然这个用户没有使用真实头像,但是他是真实账号的概率, 比虚假账号高出30多倍,因此判断这个账号为真。
决策树的应用前景
决策树法具有许多优点:条理清晰,程序严谨,定量、定
性分析相结合,方法简单,易于掌握,应用性强,适用范 围广等。人们逐渐认识到,在投资方案比较选择时考虑时 间因素,建立时间可比原则和条件的重要性。当今的社会 经济活动中,竞争日趋激烈,现代企业的经营方向面临着 许多可供选择的方案,如何用最少的资源,赢得最大的利 润以及最大限度地降低企业的经营风险,是企业决策者经 常面对的决策问题,决策树法能简单明了地帮助企业决策 层分析企业的经营风险和经营方向。必然地,随着经济的 不断发展,企业需要做出决策的数量会不断地增加,而决 策质量的提高取决于决策方法的科学化。企业的决策水平 提高了,企业的管理水平就一定会提高。 西蒙说:管理就是决策。
Appendix
决策树(decision tree)一般都是自上而下的来生成 的。每个决策或事件(即自然状态)都可能引出两个 或多个事件,导致不同的结果,把这种决策分支画成 图形很像一棵树的枝干,故称决策树。
决策树的构成有四个要素:(1)决策结点;(2)方案枝;
(3)状态结点;(4)概率枝。如图所示:
这是因为NBC模型假设属性之间相互独立,这个假设在实际应用中往往是不 成立的,这给NBC模型的正确分类带来了一定影响。 解决这个问题的方法一般是建立一个属性模型,对于不相互独立的属性,把他们 单独处理。例如中文文本分类识别的时候,我们可以建立一个字典来处理一 些词组。如果发现特定的问题中存在特殊的模式属性,那么就单独处理。 这样做也符合贝叶斯概率原理,因为我们把一个词组看作一个单独的模式, 例如英文文本处理一些长度不等的单词,也都作为单独独立的模式进行处理, 这是自然语言与其他分类识别问题的不同点。 实际计算先验概率时候,因为这些模式都是作为概率被程序计算,而不是自 然语言被人来理解,所以结果是一样的。 在属性个数比较多或者属性之间相关性较大时,NBC模型的分类效率比不上 决策树模型。但这点有待验证,因为具体的问题不同,算法得出的结果不同, 同一个算法对于同一个问题,只要模式发生变化,也存在不同的识别性能。 这点在很多国外论文中已经得到公认,在机器学习一书中也提到过算法对于 属性的识别情况决定于很多因素,例如训练样本和测试样本的比例影响算法 的性能。 决策树对于文本分类识别,要看具体情况。在属性相关性较小时,NBC模型 的性能稍微良好。属性相关性较小的时候,其他的算法性能也很好,这是由 于信息熵理论决定的。
量的方法计算概率。而且由于样本太少,所以也无法分成区间计算。怎么 办?
性别分类的例子
这时,可以假设男性和女性的身高、体重、脚掌都是正态分布,
通过样本计算出均值和方差,也就是得到正态分布的密度函数。 有了密度函数,就可以把值代入,算出某一点的密度函数的值。 比如,男性的身高是均值5.855、方差0.035的正态分布。所以, 男性的身高为6英尺的概率的相对值等于1.5789(大于1并没有关 系,因为这里是密度函数的值,只用来反映各个值的相对可能 性) 有了这些数据以后,就可以计算性别的分类了。 P(身高=6|男) x P(体重=130|男) x P(脚掌=8|男) x P(男) = 6.1984 x e-9 P(身高=6|女) x P(体重=130|女) x P(脚掌=8|女) x P(女) = 5.3778 x e-4 可以看到,女性的概率比男性要高出将近10000倍,所以判断该 人为女性。
和决策树模型相比,朴素贝叶斯分类器(Naive Bayes Classifier,或 NBC)发源 于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。同时,NBC 模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。理论上, NBC模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此,
2017-06-09
分类模型
最为广泛的两种分类模型是决策树模型(Decision Tree
Model)和朴素贝叶斯模型(Naive Bayesian Model, NBM)
朴素贝叶斯模型
朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设
的分类方法
生活中很多场合需要用到分类,比如新闻分类、病人
分类等等。
定义
朴素贝叶斯分类器基于一个简单的假定:给定目标值
时属性之间相互条件独立。 通过以上定理和“朴素”的假定,我们知道: P( Category | Document) = P ( Document | Category ) * P( Category) / P(Document)
详细内容
分类是将一个未知样本分到几个预先已知类的过程。数据分类问题的
解决是一个两步过程:第一步,建立一个模型,描述预先的数据集或概 念集。通过分析由属性描述的样本(或实例,对象等)来构造模型。 假定每一个样本都有一个预先定义的类,由一个被称为类标签的属性 确定。为建立模型而被分析的数据元组形成训练数据集,该步也称作 有指导的学习。 在众多的分类模型中,应用最为广泛的两种分类模型是决策树模型 (Decision Tree Model)和朴素贝叶斯模型(Naive Bayesian Model, NBC)。决策树模型通过构造树来解决分类问题。首先利用训练数据 集来构造一棵决策树,一旦树建立起来,它就可为未知样本产生一个 分类。在分类问题中使用决策树模型有很多的优点,决策树便于使用, 而且高效;根据决策树可以很容易地构造出规则,而规则通常易于解 释和理解;决策树可很好地扩展到大型数据库中,同时它的大小独立 于数据库的大小;决策树模型的另外一大优点就是可以对有许多属性 的数据集构造决策树。决策树模型也有一些缺点,比如处理缺失数据 时的困难,过度拟合问题的出现,以及忽略数据集中属性之间的相关 性等。
出每个类别对应的概率,从而找出最大概率的那个类。
上式等号右边的每一项,都可以从统计资料中得到,由此就可以计算
Hale Waihona Puke 账号分类的例子 根据某社区网站的抽样统计,该站10000个账号中有89%为
真实账号(设为C0),11%为虚假账号(设为C1)。
C0 = 0.89 , C1 = 0.11
用统计资料判断一个账号的真实性 F1: 日志数量/注册天数 F2: 好友数量/注册天数 F3: 是否使用真实头像(真实头像为1,非真实头像为0) F1 = 0.1 , F2 = 0.2 , F3 = 0 请问该账号是真实账号还是虚假账号? 方法是使用朴素贝叶斯分类器,计算下面这个计算式的值。
决策树的适用范围
科学的决策是现代管理者的一项重要职责。我们在企业管理实践中,常遇到的 情景是:若干个可行性方案制订出来了,分析一下企业内、外部环境,大部分条件 是己知的,但还存在一定的不确定因素。每个方案的执行都可能出现几种结果,各 种结果的出现有一定的概率,企业决策存在着一定的胜算,也存在着一定的风险。 这时,决策的标准只能是期望值。即,各种状态下的加权平均值。 针对上述问题,用决策树法来解决不失为一种好的选择。 决策树法作为一种决策技术,已被广泛地应用于企业的投资决策之中,它是随 机决策模型中最常见、最普及的一种规策模式和方法此方法,有效地控制了决策带 来的风险。所谓决策树法,就是运用树状图表示各决策的期望值,通过计算,最终 优选出效益最大、成本最小的决策方法。决策树法属于风险型决策方法,不同于确 定型决策方法,二者适用的条件也不同。应用决策树决策方法必须具备以下条件: ①具有决策者期望达到的明确目标; ②存在决策者可以选择的两个以上的可行备选方案; ⑧存在着决策者无法控制的两种以上的自然状态(如气候变化、市场行情、经济 发展动向等); ④不同行动方案在不同自然状态下的收益值或损失值(简称损益值)可以计算出 来; ⑤决策者能估计出不同的自然状态发生概率
某个医院早上收了六个门诊病人,如下表。 症状 打喷嚏 打喷嚏 头痛 头痛 打喷嚏 头痛 职业 护士 农夫 建筑工人 建筑工人 教师 教师 疾病 感冒 过敏 脑震荡 感冒 感冒 脑震荡
现在又来了第七个病人,是一个打喷嚏的建筑工人。请问他患上感冒的概率有多大?
根据贝叶斯定理: P(A|B) = P(B|A) P(A) / P(B) P(感冒|打喷嚏x建筑工人) = P(打喷嚏x建筑工人|感冒) x P(感冒) / P(打喷嚏x建筑工人) 假定"打喷嚏"和"建筑工人"这两个特征是独立的 P(感冒|打喷嚏x建筑工人) = P(打喷嚏|感冒) x P(建筑工人|感冒) x P(感冒) / P(打喷嚏) x P(建筑工人) P(感冒|打喷嚏x建筑工人) = 0.66 x 0.33 x 0.5 / 0.5 x 0.33 = 0.66
由于 P(F1F2...Fn) 对于所有的类别都是相同的,可以省略,
问题就变成了求: P(F1F2...Fn|C)P(C) 的最大值。
朴素贝叶斯分类器则是更进一步,假设所有特征都彼此独立,
因此:P(F1F2...Fn|C)P(C) = P(F1|C)P(F2|C) ... P(Fn|C)P(C)