分类器入门:最近临域与贝叶斯网络

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
5 8 PA 1 G 1 0.8 PG 1 3 8 PA 0 G 1 0.2 PG 0
PA 1 G 0 0.3
PG 1 A 1 ?
PA 0 G 0 0.7
PG 1 A 1
PA 1G i PG i
19/65 CDA数据分析师(严谨课程体系+专业师资团队+优质服务体验,学数据分析就学CDA!)
9.3.1 贝叶斯网络的表达
CDA数据分析师(严谨课程体系+专业师资团队+优质服务体验,学数据分析就学CDA!)
20
贝叶斯网络分类原理
贝叶斯网络也称为贝叶斯信念网络, 20世纪80年代由劳瑞茨恩和斯皮吉尔霍特尔提出。 贝叶斯网络最初用于人工智能中专家系统的知识表示。它以因果关系图的形式,展现专 家知识各因素的内在因果关系 该图为1988年劳瑞茨恩和斯皮吉尔霍特尔 图中的圆圈对应各个变量。例如,吸烟节点 提出的被称为“ Asia"模型的因果关系图 表示病人是一个吸烟者,亚洲旅游节点表示 中的一部分,用于帮助对新病人病情作出 病人最近到亚洲旅游。有向线段粗略代表因 果关系。例如,吸烟会增加发展中国家支气 诊断 管炎和肺癌的患病率,年龄与患肺癌的可能 性有关,支气管炎容易导致呼吸困难,肺结 核和肺癌均会导致肺部X光片异常,等等 20世纪90年代以后,贝叶斯网络开始应用 于数据分析领域。如何从庞大数据中寻找 输入变量之间的相关性,输入变量的组合 取值会对输出变量有怎么的影响,如何通 过恰当的网络结构直观展示这些关系,都 是贝叶斯网络研究的重点
21/65 CDA数据分析师(严谨课程体系+专业师资团队+优质服务体验,学数据分析就学CDA!)
贝叶斯网络构成
贝叶斯网络由网络结构S和参数集合θ两个部分组成 网络结构S 网络结构S用来表示分类型随机变量 集合X={X1, X2, X3, ..., Xn} 之间的独立和条件独立关系。网络 结构S由节点和弧线组成,是一个有 向无环图。其中,每个节点分别与 分类型变量Xi一一对应。图中的每 条弧线代表变量之间存在依赖关系。 如果节点之间没有弧线连接,表示 它们条件独立。节点Xi的父节点记 为Pai,父节点的取值集合用 参数集合θ
是否约会成功的KNN法演示
如何预测一个婚恋网站新注册的男生是否会 约会成功呢?这很简单,看看和这个新来的 男生条件最接近的男生是否约会成功了。 比如蓝色点代表约会成功的人,红色点代表 新来的男生,他和两个蓝色点一个灰色点最 近,因此该点约会成功地可能性是2/3。 K邻域法属于惰性算法,其特点是不事先建立 全局的判别公式或规则。当新数据需要分类 时,根据每个样本和原有样本之间的距离, 取最近K个样本点的众数(Y为分类变量的情 形)或均值( Y为连续变量的情形)作为新 样本的预测值。这体现了一句老话“近朱者 赤,近墨者黑”。
P( A | Bi ) P( Bi ) P( A | B j ) P( B j )
j
12/65 CDA数据分析师(严谨课程体系+专业师资团队+优质服务体验,学数据分析就学CDA!)
贝叶斯公式带来的思考
P A | D
PD | AP A PD
• 给定某些样本D,在这些样本中计算某结论A1、 A2……An出现的概率,即P(Ai|D)
声音识别 图像识别 欺诈识别
存在明确的分类,和 信息抽取 决策的不同在于决策 为二分类,标注为多 自然语言处理 分类 ...
CDA数据分析师(严谨课程体系+专业师资团队+优质服务体验,学数据分析就学CDA!)
9.1 KNN算法
CDA数据分析师(严谨课程体系+专业师资团队+优质服务体验,学数据分析就学CDA!)
13/65 CDA数据分析师(严谨课程体系+专业师资团队+优质服务体验,学数据分析就学CDA!)
贝叶斯公式的应用
• 8支步枪中有5支已校准过,3支未校准。一名射手用校准 过的枪射击,中靶概率为0.8;用未校准的枪射击,中靶 概率为0.3;现从8支枪中随机取一支射击,结果中靶。 求该枪是已校准过的概率。 • 解:
9.2 朴素贝叶斯
CDA数据分析师(严谨课程体系+专业师资团队+优质服务体验,学数据分析就学CDA!)
11
概率
• 条件概率: • 全概率公式:
P AB P A B P B
• 贝叶斯(Bayes)公式:
P A P A | Bi PBi
i
PBi A
根据数据表,购买的可能 性为: 10/37,不购买的 可能性为: 27/37 于是, 根据最大后验概率原则, 该顾客的购买行为预测为 no
17/65 CDA数据分析师(严谨课程体系+专业师资团队+优质服务体验,学数据分析就学CDA!)
朴素贝叶斯的注意事项
• 如果某个参数估计值为0,则可能导致后验概率为0.为此,通常采用拉 普拉斯调整法做如下调整
2/65 CDA数据分析师(严谨课程体系+专业师资团队+优质服务体验,学数据分析就学CDA!)
分类器概念
预测类型
排序(Rankings)
方法
逻辑回归 决策树
适用场景
不存在稳定的可辨识 的结果。比如流失经 常是一个定义,而很 少存在真实流失的情 况
举例
信用评分 流失预测 营销响应
神经网络
存在可以直接辨识的 贝叶斯网络、 决策(Decisions)KNN(基于记忆 结果。比如人脸图像 的模型)、SVM、 识别,是可以直接知 深度学习 道是否为某个人的脸 标注(Tagging) 隐马尔可夫 条件随机场
CDA数据分析师(严谨课程体系+专业师资团队+优质服务体验,学数据分析就学CDA!)
在R中实现kNN
require(class) #install.package(‘class’) knn(train, test, cl, k = 1, l = 0, prob = FALSE, use.all = TRUE)
kNN之前的数据标准化
• 极差标准化
• 中心标准化(z-score)
• 生成哑变量( m-1 principle)
CDA数据分析师(严谨课程体系+专业师资团队+优质服务体验,学数据分析就学CDA!)
K的选取
K值越小,模型越依赖于最近的 样本点的取值,不稳健;K值越 大,虽然模型稳健性增强了, 但是敏感度下降。因此需要采 用遍历的方法,选取最合适的K 值。 如左表所示,根据ROC曲线下面 积,选择K=15较合理。 为了避 免无法决策的麻烦,K一般取奇 数。
iG
PA 1 G 1PGwk.baidu.com 1

0.8
5 3 0.8 0.3 8 8
5 8
0.8163
14/65 CDA数据分析师(严谨课程体系+专业师资团队+优质服务体验,学数据分析就学CDA!)
朴素贝叶斯的假设
• 一个特征出现的概率,与其他特征(条件)独立(特 征独立性)
参数集合θ是与每个变量相对应的局部 概率,是给定父节点下的条件概率集合。 变量Xi的参数集合为:
22/65 CDA数据分析师(严谨课程体系+专业师资团队+优质服务体验,学数据分析就学CDA!)
贝叶斯网络构成-cont.
图中的有向弧线不再反映因果关系的指向,仅表示变量间的依赖关系。 例如,是否被约会与家庭资产之间的有向弧线表示是否被约会与家庭资 产有关,是否被约会依赖于家庭资产;家庭资产和个人魅力的父节点均 为是否被约会,表示是否被约会既依赖于家庭资产、也依赖于个人魅力。 家庭资产和个人魅力间没有弧线,表示两变量在给定父节点下条件独立。
18/65 CDA数据分析师(严谨课程体系+专业师资团队+优质服务体验,学数据分析就学CDA!)
对朴素贝叶斯的思考
• P(y|x1,x2,...,xn)与P(y,x1,x2,...,xn)成正比。由此可知,整个概率计算的核心是 给定输出变量条件下,输入变量联合概率计算, 由概率乘法公式:
可知,联合概率的计算与变量的排列顺序有关。由于最坏情况下可有n!种排列 方式,因此计算复杂度是比较高的。 • 为了便于计算,朴素贝叶斯分类法中假设输入变量条件独立。虽然朴素贝叶 斯分类法在实际应用中效果不错,但是该假设仍显得苛刻。一般情况下,输 入变量独立的假设很可能是不成立的,于是无法回避的最大问题仍是联合概 率的计算。 为此,人们开始探索各种有效途径,希望既能够直观表示变量的联合分布, 又便于分类预测时简化计算,这就是贝叶斯网络
式中, k表示变量Y所有可能取值的个数。 另外,如果输入变量为数值型,则P(xim|yi)为条件概率密度。
• 要比较的是P(y1|x)和P(y2|x) 的相对大小,而根据公式P(y|x) =P(x|y)*P(y) / P(x),二者的分母都是除以P(x),实践时可以不计算该 系数。 • 编程的限制:小数乘积下溢出怎么办?
• 其实是:对于给定分类的条件下,特征独立
• 每个特征同等重要(特征均衡性)
15/65 CDA数据分析师(严谨课程体系+专业师资团队+优质服务体验,学数据分析就学CDA!)
朴素贝叶斯分类器原理
朴素贝叶斯分类法是一种较为简单且应用极为广泛的贝叶斯方法,其目标是在训练 集样本集的基础上,学习和归纳输入和输出变量取值之间的规律性,以实现对新数 据输出变量值的分类预测。输入变量条件独立是朴素贝叶斯分类法应用的基本前提
max P Ai | D max PD | Ai P Ai max PD | Ai P Ai max PD | Ai P D
max P( A | D) max P( D | A ) i i • 第一个等式:贝叶斯公式; • 第二个等式:样本给定,则对于任何Ai,P(D)是常数,仅为归 一化因子; • 第三个箭头:若这些结论A1、A2……An的先验概率相等(或近 似),则得到最后一个等式:即第二行的公式。
(蓝色代表约会成功的人)
CDA数据分析师(严谨课程体系+专业师资团队+优质服务体验,学数据分析就学CDA!)
KNN介绍
K邻域法属于惰性算法,其特点是不事先建立全局的 判别公式或规则。当新数据需要分类时,根据每个 样本和原有样本之间的距离,取最近K个样本点的 众数(Y为分类变量的情形)或均值( Y为连续变量 的情形)作为新样本的预测值。这体现了一句老话 “近朱者赤,近墨者黑”。 对自变量和因变量的类型没有任何限制,最主要的参 数就是K,即取多少个邻近点合适。
16/65 CDA数据分析师(严谨课程体系+专业师资团队+优质服务体验,学数据分析就学CDA!)
朴素贝叶斯分类器计算示例
以超市顾客的数据为例,这里只考虑两个输入变量:性别( X1)和年龄段( X2),是 否购买( Y)为输出变量,数据如下表所示: 现需对性别( X1)为1、年龄 段( X2)为A的新顾客,利用 朴素贝叶斯分类法预测其是 否购买 由于是否购买( Y)包括购买( yes)和不购买( no)两种,究竟是购买还是不购买具 有不确定性。为减少这种不确定性,应收集数据,观察顾客的相关特征,并以此修正先 前的不确定性,得到后验概率。 根据贝叶斯公式,分别计算该顾客购买和不购买的可能性
Interpretation:
train: 训练集(注意,不带输出标签) cl k : 输出标签(对应训练集,必须是factor型的) : kNN的k,邻居个数 test : 测试集(自然不应该带标签)
其他参数,一般不用指定了
CDA数据分析师(严谨课程体系+专业师资团队+优质服务体验,学数据分析就学CDA!)
CDA数据分析师(严谨课程体系+专业师资团队+优质服务体验,学数据分析就学CDA!)
KNN算法
1、定义距离d(xi,xj),该距离代表两个观测之间的差 异程度,常用的距离如下: 欧式距离:
Minkowshi距离
当m=1时,为Manhattan 距离(Block距离)
CDA数据分析师(严谨课程体系+专业师资团队+优质服务体验,学数据分析就学CDA!)
第十讲 分类器入门: 最近临域与贝叶斯网络
CDA数据分析师(严谨课程体系+专业师资团队+优质服务体验,学数据分析就学CDA!)
主要内容
• 分类器的概念 • 最近临域(KNN)方法 • 朴素贝叶斯 • 贝叶斯网络的表达 • 网络结构和参数 • 构造贝叶斯网络用到的知识 • 相对熵、互信息(信息增益) • TAN贝叶斯网络
相关文档
最新文档