简单贝叶斯方法ppt课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
答:设 B :某人在一个月内死亡 , A :某人患有该种疾 P (B ) P (B| A )P (A )P (B| A )P (A ) 0 .002 P (AB ) 0 .90 .001 P (A| B ) 0 .45 P (B ) 0 .002
贝叶斯定理回顾
贝叶斯公式给出了‘结果’事件B已发生的条件 下,‘原因’属于事件Ai的条件概率.
分类问题1
税号 1 2 3 4 5 6 7 8 9 10 去年退税 是 否 否 是 否 否 是 否 否 否 婚姻状况 单身 婚姻中 单身 婚姻中 离婚 婚姻中 离婚 单身 婚姻中 单身 可征税收入 125k 100k 70k 120k 95k 60k 220k 85k 75k 90k 逃税 否 否 否 否 是 否 否 是 否 是
i 1
P ( A P ( B |A j) j)
式子就称为贝叶斯公式。
贝叶斯定理回顾
例子:已知某种疾病的发病率为0.1%, 该种疾病患者一个 月以内的死亡率为90%;且知未患该种疾病的人一个月以内 的死亡率为0.1%;现从人群中任意抽取一人,问此人在一个 月内死亡的概率是多少?若已知此人在一个月内死亡,则此 人是因该种疾病致死的概率为多少?
( i ) A S ; i ( ii )A ,( i j), i , j 1 ,2 ,..., n . iA j
… … B … … A2
i 1
n
A1
An
…
贝叶斯定理回顾
定理 设A1,…, An是S的一个划分,且P(Ai) > 0,(i=1 ,…,n),则对任何事件BS,有
P ( A ) n j |B , ( j 1 ,..., n ) P ( A P ( B |A i) i)
从这个意义上讲,它是一个“执果索因”的条 件概率计算公式.相对于事件B而言 ,概率论中 把 P(Ai) 称为先验概率( Prior Probability), 而 把 P(Ai|B) 称 为 后 验 概 率 ( Posterior Probability),这是在已有附加信息(即事件 B已发生)之后对事件发生的可能性做出的重新 认识,体现了已有信息带来的知识更新.
逃税 否 否 否 否 是 否 否 是 否 是
– 例如, P(C=否) = 7/10, P(C=是) = 3/10
– Nk 是类别C=Ck.的数量
• 对离散属性: P(Ai | Ck) = |Aik|/ Nk
– |Aik| 是属性值为Ai 且属于 Ck的记录数量 – 例如:
P(婚姻状况=婚姻中|否) = 4/7 P(去年退税=是|是)=0
分类问题1
去年 税号 退税 1 是 2 否 3 否 4 是 5 否 6 否 7 是 8 否 9 否 10 否 可征税 婚姻状况 收入 125k 单身 100k 婚姻中 70k 单身 120k 婚姻中 95k 离婚 60k 婚姻中 220k 离婚 85k 单身 75k 婚姻中 90k 单身
• 类别: P(Ck) = Nk/N
胎生
是
胎生 是 否 否 是 否 否 是 否 是 是 否 否 是 否 否 否 否 否 是 否
会飞
否
会飞 否 否 否 否 否 否 是 是 否 否 否 否 否 否 否 否 否 是 否 是
是
水中生活 否 否 是 是 有时 否 否 否 否 是 有时 有时 否 是 有时 否 否 否 是 否
水中生活 有腿
否
பைடு நூலகம்有腿 是 否 否 否 是 是 是 是 是 否 是 是 是 否 是 是 是 是 否 是
– 目标是预测类别C – 特别地, 我们想找能够最大化P(C| A1, A2,…,An )的 C值
• 能否从直接数据中估计P(C| A1, A2,…,An )?
贝叶斯分类方法
• 方法:
– 使用贝叶斯定理对于分类变量C的所有值计算后验概率 P(C | A1, A2, …, An) ,
P ( A A A | C ) P ( C ) P ( C | A A A ) P ( A A A )
分类问题1
• 对于连续属性:
– 离散化 把属性的范围划分为许多段:
?
类别 哺乳动物 非哺乳动物 非哺乳动物 哺乳动物 非哺乳动物 非哺乳动物 哺乳动物 非哺乳动物 哺乳动物 非哺乳动物 非哺乳动物 非哺乳动物 哺乳动物 非哺乳动物 非哺乳动物 非哺乳动物 哺乳动物 非哺乳动物 哺乳动物 非哺乳动物
类别
贝叶斯分类方法
• 把每一个属性(输入) 和分类变量(输出) 都看作随机变量 • 对于具有属性值(A1, A2,…,An)的观测记录
对 于 X ( 去 年 退 税 否 , 婚 姻 状 况 = 婚 姻 中 , 可 征 税 收 入 1 2 0 K )
这个人会不会逃税?
分类问题2
名称 Human python salmon whale frog komodo bat pigeon cat leopard_shark turtle penguin porcupine eel salamander gila_monster platypus owl dolphin eagle
1 2 n 1 2 n 1 2 n
– 选择C 使得P(C | A1, A2, …, An)最大 – 等价于选择C 使得 P(A1, A2, …, An|C) P(C)最大
• 如何估计P(A1, A2, …, An | C )?
简单贝叶斯
• 假设在给定的类别上属性变量 Ai 相互独立:
– P(A1, A2, …, An |C) = P(A1| Cj) P(A2| Cj)… P(An| Cj) – 对所有的Ai 和 Cj计算P(Ai| Cj). – 如果对某一个Cj ,P(Cj) P(Ai| Cj) 最大,新的数据点就 被分类到Cj 。
简单贝叶斯方法
本节内容纲要
• • • • • • 贝叶斯定理回顾 简单贝叶斯(Naï ve Bayes) 贝叶斯分类法:二类别 对分类法的实用评价 不对称错误分类代价和贝叶斯风险分类 贝叶斯风险分类:多类别
贝叶斯定理回顾
定义 事件组A1,A2,…,An (n可为),称为样 本空间S的一个划分,若满足: