贝叶斯算法及其应用
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
贝叶斯网络-条件独立性假设
完整的概率模型必须具有表示所研究变量的联合 分布的能力。完全的联合分布表需要指数级的规 模,n个节点需要O(2n)规模的概率表;由于贝叶 斯网络假定了条件独立性,因此只需考虑与该变 量相关的有限变量,可以大大简化问题的求解难 度,从而使得许多复杂问题得到可行的解决方案 。
朴素贝叶斯(NB)在文本分类中的应用
P(C/W) = P(C) * P(W/C) / P(W)
➢ P(C)表示C这个类别在所有文本中的概率,是先验概率 。 实际中,这个值往往通过训练语料计算得到,例如,将 训练语料中所有的体育文本数除以训练语料总的文本数,就 是体育这个类别的先验概率。P(W)则是通过这个公式计算:
贝叶斯网络
贝叶斯网络又叫概率因果网络、信任网络、知识 图等,是一种有向无环图。贝叶斯网络用图形来 表示变量间连接概率关系。是为了解决不定性和 不完整性问题而提出的,在多个领域中获得广泛 应用。
其中贝叶斯网络中节点表示领域变量;有向边表 示结点间的依赖关系;对每一个节点都对应一个 条件概率分布表,该分布表指明了该变量与父节 点之间的依赖关系。
贝叶斯网络
因此,一个贝叶斯网络由2个部分构成:
贝叶斯网络
这是一个有向无环图可以看成 是一个贝叶斯网络。其中其中 每个圆圈表示一个状态。 状态之间的连线表示它们的 因果关系。这些关系可以有 一个量化的可信度 (belief), 用一个概率描述,因此,贝叶斯 网络也称信念网络。通过这样的 一张网络可以估计出一个人得 心血管疾病的可能性 。(解释)
小结
Naïve Bayes是较快的一种分类方法,效果 也较好。理论上错误率最低。
特别要注意的是: 朴素贝叶斯的核心在于 它假设向量的所有分量之间是独立的。
贝叶斯算法应用
目前,贝叶斯算法应用在很多地方,例如:文 本分类,问题分类,反垃圾邮件等等。有多种形式:
朴素贝叶斯 贝叶斯网络 …………
主要内容
贝叶斯定理背景 贝叶斯理论 贝叶斯算法应用及应用
贝叶斯理论
简单的讲,贝叶斯定理是基于假设的先验 概率、给定假设下观察到不同数据的概率 ,提供了一种计算后验概率的方法。
在人工智能领域,贝叶斯方法是一种非常 有代表性的不确定性知识表示和推理方法 。
贝叶斯公式
B2
B1
A
B3
B Bn1
P(C/W) = P(C) * P(W/C) / P(W)
➢ 在文本分类中:
公式的左边,C代表的是文本的类别(例如是体育),W往 往是一个测试样本(例如某一篇新闻),P(C/W)代表的是这 个样本归属于该类别的概率,我们实际中的任务常常就是要 得到样本归属各个类别的概率值 P(C1/W),P(C2/W)...P(CN/W),然后最大概率值所对应的类 别Ci就是该样本被分配的类。
P(W) = ∑P(W/Ci) * P(Ci) 可以看出,P(W)的计算可以通过 P(C)和P(W/C)得到。
朴素贝叶斯(NB)在文本分类中的应用
P(C/W) = P(C) * P(W/C) / P(W)
➢ P(W/C) 的计算方法: W这个样本往往是用向量表示的,包括了很多的 分量 W = (w1, w2, w3, ... wn), 所以 P(W/C) = P(w1, w2, w3, ... wn / C), NB的核心在于它假设向量的所有分量之间是独立的。 有了这个假设,P(W/C)的计算就变为: P(W/C) = ∏ P(wi / C) 假设Wi=“乔丹”,则P(Wi / C体育) 就是统计所有的体育 文章中有多少篇出现了“乔丹”这个词,然后用 出现篇 章数 / 所有体育篇章数就是我们要的概率值了。
有向图蕴涵了条件独立性假设。 贝叶斯网络规定图中的每个节点Xi 条件独立于由Xi的父节点给定的 非Xi后代节点构成的任何节点子集, 即如果用N(Xi)表示非Xi后代节点构成的任何节点 子集,用Pa(Xi)表示Xi的直接双亲节点, 则:P(Xi|N(Xi), Pa(Xi)) = P(Xi| Pa(Xi))
北信 计算机开放系统实验室
贝叶斯 算法及其应用
报告人:刘文华 2009-7-6
Open Computer System Lab., BITI
主要内容
贝叶斯定理背景 贝叶斯理论 贝叶斯算法形式及应用
定理背景:
贝叶斯 (Thomas Bayes),英国数学家。 1702年出生于伦敦,做过神甫。1742年成为 英国皇家学会会员。1763年4月7日逝世。贝 叶斯在数学方面主要研究概率论。他首先将 归纳推理法用于概率论基础理论,并创立了 贝叶斯统计理论 。
贝叶斯网络
和马尔科夫链的比较:和马尔可夫链类似,贝叶 斯网络中的每个状态值取决于前面有限个状态。 不同的是,贝叶斯网络比马尔可夫链灵活,它不 受马尔可夫链的链状结构的约束,因此可以更准 确地描述事件之间的相关性。可以讲,马尔可夫 链是贝叶斯网络的特例,而贝叶斯网络是马尔可 夫链的推广。
贝叶斯网络-条件独立性假设
后验概率:得到相关信息之后对以往数据 重新修正的概率叫后验概率。
主要内容
贝叶斯定理背景 贝叶斯理论 贝叶斯算法形式及应用
贝叶斯算法应用
目前,贝叶斯算法应用在很多地方,例如:文 本分类,问题分类,反垃圾邮件等等。有多种形式:
朴素贝叶斯 贝叶斯网络 …………
朴素贝叶斯(NB)在文本分类中的应用
贝叶斯网络的应用
贝叶斯网络在图像处理、文字处理、支持 决策等方面有很多应用。在文字处理方面 ,语义相近的词之间的关系可以用一个贝 叶斯网络来描述。我们利用贝叶斯网络, 可以找出近义词和相关的词,在 Google 搜 索和 Google 广告中都有直接的应用。
n
定义 设为试验E的样本空间, A为E的事件,
B1, B2, , Bn为的一个划分,且P(A) 0, P(Bi ) 0(i 1,2, , n),则
P(Bi | A)
P(A/ Bi )P(Bi )
n
,
i 1,2,
, n.
P(A| Bj )P(Bj )
j1
称此为贝叶斯公式.
先验概率:根据以往数据分析得到的概率 叫先验概率;