周志华 机器学习 西瓜书 全书16章 Chap07贝叶斯分类器 ppt课件

合集下载

周志华 机器学习 西瓜书 全书16章 ppt Chap06支持向量机

周志华 机器学习 西瓜书 全书16章 ppt Chap06支持向量机

的梯度往区域
外发散,如下
图红色箭头。
显然,走到极
小值点的时候,
g(x)的梯度和
f(x)的负梯度
同向。因为极
小值点在边界
上,这个时候
g(x)等于0
总结
极小值点落在可行域内(不包含边界):这个时 候可行域的限制不起作用,相当于没有约束,直 接f(x)的梯度等于0求解,这个时候g(x极小值 点)<0(因为落在可行域内)。 极小值点落在可行域外(包含边界):可行域的 限制起作用,极小值点应该落在可行域边界上即 g(x)=0,类似于等值约束,此时有g(x)的梯度和f(x) 的负梯度同向。
0
-A:应选择”正中间”, 容忍性好, 鲁棒性高, 泛化能力最强.
间隔与支持向量
超平面方程:
间隔
支持向量
0
支持向量机基本型
最大间隔: 寻找参数 和 , 使得 最大.
带有约束的优化问题s.t.
gi
min xD (x) 0,i
f (x) 1,2,,
q

hj
(x)

0,
j

q
1,,
m
其中f(x)是目标函数,g(x)为不等式约束,h(x)为等式约束。
若f(x),h(x),g(x)三个函数都是线性函数,则该优化问题称为线性规划。 若任意一个是非线性函数,则称为非线性规划。
若目标函数为二次函数,约束全为线性函数,称为二次规划。
若f(x)为凸函数,g(x)为凸函数,h(x)为线性函数,则该问题称为凸优化。 注意这里不等式约束g(x)<=0则要求g(x)为凸函数,若g(x)>=0则要求g(x)为凹函 数。
对偶问题
1 wT w

机器学习 西瓜书 全书16章 ppt ch13半监督学习

机器学习 西瓜书 全书16章 ppt ch13半监督学习
式”标记传播方法[Zhou et al., 2004].
仍基于
构建一个图
其中结点集
定义一个 行元素
的非负标记矩阵
,其第i
为示例 的标记向量, 相应的分类规则为:
将F初始化为:
图半监督学习
基于W构造一个标记传播矩阵
,其

, 于是有迭代计算式:
基于迭代至收敛可得:
பைடு நூலகம்
图半监督学习
事实上, 算法对应于正则化框架[Zhou et al., 2004]:
我们可将有标记样本所对应的结点想象为染过色, 而未标记样本所对应 的结点则尚未染色. 于是, 半监督学习就对应于“颜色”在图上扩散或传 播的过程。
由于一个图对应了一个矩阵, 这就使得我们能基于矩阵运算来进行半监 督学习算法的推导与分析。
图半监督学习
我们先基于
构建一个图
,其中结点集
边集E可表示为一个亲和矩阵(affinity matrix),常基于高斯函数
聚类假设(clustering assumption):
假设数据存在簇结构,同一簇的样本属于同一类别。
流形假设(manifold assumption):
假设数据分布在一个流形结构上,邻近的样本具有相似的输出值。
流形假设可看做聚类假设的推广
大纲
未标记样本 生成式方法 半监督SVM 图半监督学习 基于分歧的方法 半监督聚类
定义为:
图半监督学习
假定从图
将学得一个实值函数

直观上讲相似的样本应具有相似的标记,即得到最优结果于是可定
义关于f的“能量函数”(energy function)[Zhu et al., 2003]:

机器学习7周志华ppt课件

机器学习7周志华ppt课件

• h* 称为 贝叶斯最优分类器(Bayes optimal classifier),其总体风险称为 贝叶斯 风险 (Bayes risk)
• 反映了 学习性能的理论上限
精选ppt
2
判别式 vs. 生成式
在现实中通常难以直接获得
从这个角度来看,机器学习所要实现的是基于有限的训练样本 尽可能准确地估计出后验概率
给定父结点集,贝叶斯网假设每个属性与其非后裔属性 独立
父结点集
精选ppt
15
三变量间的典型依赖关系
条件独立性
边际独立性
条件独立性
• 给定 x4, x1 与 x2 必不独立 • 若 x4 未知,则 x1 与 x2 独立
精选ppt
16
分析条件独立性
“有向分离”( D-separation)
先将有向图转变为无向图
两种基本策略:
判别式 (discriminative)
模型
思路:直接对
建模
代表: • 决策树 • BP 神经网络
• SVM
生成式 (generative) 模型 思路:先对联合概率分布 建模,再由此获得
代表:贝叶斯分类器
精选ppt
注意:贝叶斯分类器 ≠ 贝叶斯学习 (Bayesian learning)
组合爆炸;样本稀疏
基本思路:假定属性相互独立?
d 为属性数, xi 为 x 在第 i 个属性上的取值
对所有类别相同,于是
精选ppt
6
朴素贝叶斯分类器
估计 P(c):
估计 P(x|c):
• 对离散属性,令
表示 Dc 中在第 i 个属性上取值为
xi 的样本组成的集合,则
• 对连续属性,考虑概率密度函数,假定

《机器学习》(周志华)西瓜书读书笔记(完结)

《机器学习》(周志华)西瓜书读书笔记(完结)

《机器学习》(周志华)西⽠书读书笔记(完结)⼤部分基础概念知识已经在这篇博客中罗列,因此本⽂仅对感觉重要或不曾了解的知识点做摘记第1章绪论对于⼀个学习算法a,若它在某问题上⽐学习算法b好,则必然存在另⼀些问题,在那⾥b⽐a好.即"没有免费的午餐"定理(No FreeLunch Theorem,NFL).因此要谈论算法的相对优劣,必须要针对具体的学习问题第2章模型评估与选择m次n折交叉验证实际上进⾏了m*n次训练和测试可以⽤F1度量的⼀般形式Fβ来表达对查准率/查全率的偏好:偏差度量了学习算法的期望预测与真实结果的偏离程度,即学习算法本⾝的拟合能⼒,⽅差度量了同样⼤⼩的训练集的变动所导致的学习性能的变化,即数据扰动造成的影响.噪声表达了当前任务上任何学习算法所能达到的期望泛化误差的下界,即学习问题本⾝的难度.第3章线性模型线性判别分析(LDA)是⼀种经典的监督线性降维⽅法:设法将训练样例投影到⼀条直线上,使同类样例的投影点尽可能接近,异类样例的投影点尽可能远离.对新样本分类时根据投影点的位置来确定类别.多分类学习的分类器⼀般有以下三种策略:1. ⼀对⼀(OvO),N个类别产⽣N * (N - 1) / 2种分类器2. ⼀对多(OvR或称OvA),N个类别产⽣N - 1种分类器3. 多对多(MvM),如纠错输出码技术解决类别不平衡问题的三种⽅法:1. 过采样法,增加正例使正负例数⽬接近,如SMOTE:思想是合成新的少数类样本,合成的策略是对每个少数类样本a,从它的最近邻中随机选⼀个样本b,然后在a、b之间的连线上随机选⼀点作为新合成的少数类样本.2. ⽋采样法,减少负例使正负例数⽬接近,如EasyEnsemble:每次从⼤多数类中抽取和少数类数⽬差不多的重新组合,总共构成n个新的训练集,基于每个训练集训练出⼀个AdaBoost分类器(带阈值),最后结合之前训练分类器结果加权求和减去阈值确定最终分类类别.3. 再缩放法第4章决策树ID3决策树选择信息增益最⼤的属性来划分:1. 信息熵:2. 信息增益:C4.5决策树选择增益率⼤的属性来划分,因为信息增益准则对可取值数⽬较多的属性有所偏好.但增益率会偏好于可取值数⽬较少的属性,因此C4.5算法先找出信息增益⾼于平均⽔平的属性,再从中选择增益率最⾼的.另外,C4.5决策树采⽤⼆分法对连续值进⾏处理,使⽤时将划分阈值t作为参数,选择使信息增益最⼤的t划分属性.采⽤样本权值对缺失值进⾏处理,含有缺失值的样本同时划⼊所有结点中,但相应调整权重.1. 增益率:2. a的固有值:CART决策树则选择基尼指数最⼩的属性来划分,基尼系数反映了从数据集中随机抽取的两个样本类别不⼀致的概率,注意CART是⼆叉树,其余两种都为多叉树.1. 基尼值衡量的纯度:2. 基尼指数:剪枝是决策树对付过拟合的主要⼿段,分为预剪枝和后剪枝.1. 预剪枝对每个结点在划分前先进⾏估计,若该结点的划分不能带来决策树泛化性能提升,则停⽌划分.预剪枝基于"贪⼼"本质,所以有⽋拟合的风险.2. 后剪枝是先⽣成⼀棵完整的决策树,然后⾃底向上对⾮叶结点考察,若该结点替换为叶结点能带来决策树泛化性能提升,则将⼦树替换为叶结点.缺点是时间开销⼤.决策树所形成的分类边界是轴平⾏的,多变量决策树(斜决策树)的每⼀个⾮叶结点都是⼀个线性分类器,因此可以产⽣斜的划分边界.第5章神经⽹络误差逆传播算法(BP算法)是迄今为⽌最成功的神经⽹络学习算法.关键点在于通过计算误差不断逆向调整隐层神经元的连接权和阈值.标准BP算法每次仅针对⼀个训练样例更新,累积BP算法则根据训练集上的累积误差更新.缓解BP神经⽹络过拟合有两种常见策略:1. 早停:若训练集误差降低但验证集误差升⾼则停⽌训练.2. 正则化:在误差⽬标函数中增加⼀个描述⽹络复杂度的部分(较⼩的连接权和阈值将使神经⽹络较为平滑).跳出局部最⼩,寻找全局最⼩的常⽤⽅法:1. 以多组不同参数初始化多个神经⽹络,选择最接近全局最⼩的2. 模拟退⽕3. 随机梯度下降典型的深度学习模型就是很深层的神经⽹络.但是多隐层神经⽹络难以直接⽤经典算法进⾏训练,因为误差在多隐层内逆传播时往往会发散.⽆监督逐层训练(如深层信念⽹络,DBN)和权共享(如卷积神经⽹络,CNN)是常⽤的节省训练开销的策略.第6章⽀持向量机⽀持向量机中的原始样本空间不⼀定存在符合条件的超平⾯,但是如果原始空间是有限维,则总存在⼀个⾼维特征空间使样本线性可分.核函数就是⽤来简化计算⾼维特征空间中的内积的⼀种⽅法.核函数选择是⽀持向量机的最⼤变数.常⽤的核函数有线性核,多项式核,⾼斯核(RBF核),拉普拉斯核,Sigmoid核.对⽂本数据常⽤线性核,情况不明时可先尝试⾼斯核.软间隔是缓解⽀持向量机过拟合的主要⼿段,软间隔允许某些样本不满⾜约束.⽀持向量回归可以容忍预测输出f(x)和真实输出y之间存在ε的偏差,仅当偏差绝对值⼤于ε时才计算损失.⽀持向量机中许多规划问题都使⽤拉格朗⽇对偶算法求解,原因在于改变了算法复杂度.原问题的算法复杂度与样本维度有关,对偶问题的样本复杂度与样本数量有关.如果使⽤了升维的⽅法,则此时样本维度会远⼤于样本数量,在对偶问题下求解会更好.第7章贝叶斯分类基于贝叶斯公式来估计后验概率的困难在于类条件概率是所有属性上的联合概率,难以从有限的训练样本直接估计⽽得.因此朴素贝叶斯分类器采⽤了"属性条件独⽴性假设"来避开这个障碍.朴素贝叶斯分类器中为了避免其他属性携带的信息被训练集中未出现的属性值"抹去",在估计概率值时通常要进⾏"平滑",常⽤拉普拉斯修正.属性条件独⽴性假设在现实中往往很难成⽴,于是半朴素贝叶斯分类器采⽤"独依赖估计(ODE)",即假设每个属性在类别之外最多仅依赖于⼀个其他属性.在此基础上有SPODE,TAN,AODE等算法.贝叶斯⽹⼜称信念⽹,借助有向⽆环图来刻画属性之间的依赖关系,并⽤条件概率表来描述属性的联合概率分布.半朴素贝叶斯分类器是贝叶斯⽹的⼀种特例.EM(Expectation-Maximization)算法是常⽤的估计参数隐变量的⽅法.基本思想是:若参数θ已知,则可根据训练数据推断出最优隐变量Z的值(E);若Z的值已知,则可⽅便地对参数θ做极⼤似然估计(M).第8章集成学习集成学习先产⽣⼀组个体学习器,再⽤某种策略将它们结合起来.如果集成中只包含同种类型的个体学习器则叫同质集成,其中的个体学习器称为基学习器,相应的学习算法称为基学习算法.如果包含不同类型的个体学习器则叫异质集成,其中的学习器常称为组件学习器.要获得好的集成,个体学习器应"好⽽不同".即要有⼀定的准确性,并且要有多样性.⽬前的集成学习⽅法⼤致分为两⼤类:1. 序列化⽅法:个体学习器间存在强依赖关系,必须串⾏⽣成.2. 并⾏化⽅法:个体学习器间不存在强依赖关系,可同时⽣成.Boosting先从初始训练集训练出⼀个基学习器,再根据基学习器的表现对训练样本分布进⾏调整,使做错的训练样本在后续受到更多关注(给予更⼤的权重或重采样).然后基于调整后的样本分布来训练下⼀个基学习器;直到基学习器的数⽬达到指定值T之后,将这T个基学习器加权结合.Boosting主要关注降低偏差,因此能基于泛化性能相当弱的学习器构建出很强的集成.代表算法有AdaBoost.Bagging是并⾏式集成学习⽅法最著名的代表.它基于⾃助采样法,采样出T个含m个训练样本的采样集,基于每个采样集训练出⼀个基学习器,再将这些基学习器进⾏简单结合.在对预测输出进⾏结合时,常对分类任务使⽤投票法,对回归任务使⽤平均法.Bagging主要关注降低⽅差,因此在不剪枝决策树,神经⽹络等易受样本扰动的学习器上效⽤更明显.代表算法有随机森林.随机森林在以决策树为基学习器构建Bagging的基础上,进⼀步引⼊了随机属性选择.即先从属性集合(假定有d个属性)中随机选择⼀个包含k个属性的⼦集,再从这个⼦集中选择⼀个最优属性进⾏划分.当k=d时,基决策树与传统决策树相同.当k=1时,则随机选择⼀个属性⽤于划分.⼀般推荐k=log2d.学习器结合可能会从三个⽅⾯带来好处:1. 统计:可能有多个假设在训练集上达到同等性能,单学习器可能因误选⽽导致泛化性能不佳,结合多个学习器会减⼩这⼀风险.2. 计算:通过多次运⾏之后进⾏结合,降低陷⼊糟糕局部极⼩点的风险.3. 表⽰:结合多个学习器,相应的假设空间有所扩⼤,有可能学得更好的近似.结合策略:1. 平均法:对数值型输出,最常见的策略是平均法.⼀般⽽⾔,在个体学习器性能相差较⼤时使⽤加权平均法,性能相近时使⽤简单平均法.权重⼀般也是从训练数据中学习⽽得.2. 投票法:对分类任务来说,最常见的策略是投票法.⼜可细分为绝对多数投票法,相对多数投票法,加权投票法.绝对多数投票法允许"拒绝预测",若必须提供预测结果则退化为相对多数投票法.若基学习器的类型不同,则类概率值不能直接⽐较,需要将类概率输出转化为类标记输出后再投票.3. 学习法:当训练数据很多时,⼀种更强⼤的策略是通过另⼀个学习器来结合.Stacking是学习法的典型代表.我们把个体学习器称为初级学习器,⽤于结合的学习器称为次级学习器或元学习器.Stacking⽤初级学习器的输出作为样例输⼊特征,⽤初始样本的标记作为样例标记,然后⽤这个新数据集来训练次级学习器.⼀般⽤初级学习器的输出类概率作为次级学习器的输⼊属性,⽤多响应线性回归(Multi-response Linear Regression,MLR)作为次级学习算法效果较好.多样性增强常⽤的⽅法有:数据样本扰动,输⼊属性扰动,输出表⽰扰动,算法参数扰动.第9章聚类聚类既能作为⼀个找寻数据内在分布结构的单独过程,也可以作为其他学习任务的前驱过程.我们希望"物以类聚",也就是聚类结果的"簇内相似度"⾼且"簇间相似度"低.聚类性能度量⼤致有两类.⼀类是将聚类结果与参考模型进⾏⽐较,称为外部指标,常⽤的有JC,FMI,RI;另⼀类是直接考察聚类结果,称为内部指标,常⽤的有DBI,DI.有序属性距离计算最常⽤的是闵可夫斯基距离,当p=2时即欧⽒距离,当p=1时即曼哈顿距离.对⽆序属性可采⽤VDM(Value Difference Metric),将闵可夫斯基距离和VDM结合即可处理混合属性,当不同属性的重要性不同时可使⽤加权距离.我们基于某种形式的距离来定义相似度度量,但是⽤于相似度度量的距离未必⼀定要满⾜距离度量的基本性质,尤其是直递性.在现实任务中有必要通过距离度量学习来基于数据样本确定合适的距离计算式.原型聚类假设聚类结构能通过⼀组原型刻画.通常算法先对原型进⾏初始化,然后对原型进⾏迭代更新求解.常⽤的原型聚类算法有k均值算法,学习向量量化,⾼斯混合聚类.密度聚类假设聚类结构能通过样本分布的紧密程度确定.通常从样本密度的⾓度来考察样本之间的可连接性,并基于可连接样本不断扩展聚类簇.常⽤算法有DBSCAN层次聚类试图在不同层次对数据集进⾏划分,从⽽形成树形的聚类结构.代表算法有AGNES.第10章降维与度量学习懒惰学习在训练阶段只把样本保存起来,训练时间开销为零,待收到测试样本后再进⾏处理,如k近邻学习(kNN).急切学习则在训练阶段就对样本进⾏学习处理.若任意测试样本x附近任意⼩的δ距离范围内总能找到⼀个训练样本,即训练样本的采样密度⾜够⼤,或称为密采样,则最近邻分类器(1NN)的泛化错误率不超过贝叶斯最优分类器的错误率的两倍.在⾼维情形下出现的数据样本稀疏,距离计算困难等问题称为"维数灾难".处理⾼维数据的两⼤主流技术是降维和特征选择.降维亦称维数约简,即通过某种数学变换将原始⾼维属性空间转变为⼀个低维⼦空间.能进⾏降维的原因是与学习任务密切相关的或许仅仅是数据样本的某个低维分布,⽽不是原始⾼维空间的样本点.多维缩放是⼀种经典的降维⽅法.它使原始空间中样本之间的距离在低维空间中得以保持.主成分分析(PCA)是最常⽤的⼀种降维⽅法.如果要⽤⼀个超平⾯对所有样本进⾏恰当的表达,这个超平⾯应该具有最近重构性和最⼤可分性两种性质.基于这两种性质可以得到主成分分析的等价推导.PCA可以使样本的采样密度增⼤,同时在⼀定程度上起到去噪的效果.线性降维⽅法有可能丢失低维结构,因此要引⼊⾮线性降维.⼀种常⽤⽅法是基于核技巧对线性降维⽅法进⾏核化.如核主成分分析(KPCA).流形学习(manifold learning)是⼀类借鉴了拓扑流形概念的降维⽅法.流形在局部具有欧⽒空间性质.将低维流形嵌⼊到⾼维空间中,可以容易地在局部建⽴降维映射关系,再设法将局部映射关系推⼴到全局.常⽤的流形学习⽅法有等度量映射和局部线性嵌⼊等.对⾼维数据进⾏降维的主要⽬的是找到⼀个合适的低维空间.事实上,每个空间对应了在样本属性上定义的⼀个距离度量,度量学习直接尝试学习出⼀个合适的距离度量.常⽤⽅法有近邻成分分析(NCA).第11章特征选择与稀疏学习对当前学习任务有⽤的属性称为相关特征,没什么⽤的属性称为⽆关特征.从给定特征集合中选择出相关特征⼦集的过程称为特征选择.特征选择是⼀个重要的数据预处理过程.冗余特征是指包含的信息可以从其他特征中推演出来的特征.冗余特征在很多时候不起作⽤,但若某个冗余特征恰好对应了完成学习任务所需的中间概念,则该冗余特征反⽽是有益的.⼦集搜索:可以采⽤逐渐增加相关特征的前向搜索,每次在候选⼦集中加⼊⼀个特征,选取最优候选⼦集.也可以采⽤每次去掉⼀个⽆关特征的后向搜索.这些策略是贪⼼的,但是避免了穷举搜索产⽣的计算问题.⼦集评价:特征⼦集A确定了对数据集D的⼀个划分,样本标记信息Y对应着对D的真实划分,通过估算这两个划分的差异就能对A进⾏评价.可采⽤信息熵等⽅法.过滤式选择先对数据集进⾏特征选择,然后再训练学习器,特征选择过程与后续学习器⽆关.Relief(Relevant Features)是⼀种著名的过滤式选择⽅法.该⽅法设计了⼀个相关统计量来度量特征的重要性.包裹式选择直接把最终将要使⽤的学习器的性能作为特征⼦集的评价标准.因此产⽣的最终学习器的性能较好,但训练时的计算开销也更⼤.LVW(Las Vegas Wrapper)是⼀个典型的包裹式特征选择⽅法,它在拉斯维加斯⽅法框架下使⽤随机策略来进⾏⼦集搜索,并以最终分类器的误差为特征⼦集评价准则.嵌⼊式选择是将特征选择过程与学习器训练过程融为⼀体,两者在同⼀个优化过程中完成.例如正则化.L1正则化(Lasso)是指权值向量w中各个元素的绝对值之和.L1正则化趋向选择少量的特征,使其他特征尽可能为0,可以产⽣稀疏权值矩阵,即产⽣⼀个稀疏模型,可以⽤于特征选择.L1正则化是L0正则化的最优凸近似.L2正则化(Ridge)是指权值向量w中各个元素的平⽅和然后再求平⽅根.L2正则化趋向选择更多的特征,让这些特征尽可能接近0,可以防⽌模型过拟合(L1也可以).字典学习也叫稀疏编码,指的是为普通稠密表达的样本找到合适的字典,将样本转化为合适的稀疏表达形式,从⽽使学习任务得以简化,模型复杂度得以降低的过程.压缩感知关注的是利⽤信号本⾝的稀疏性,从部分观测样本中恢复原信号.分为感知测量和重构恢复两个阶段,其中重构恢复⽐较重要.可利⽤矩阵补全等⽅法来解决推荐系统之类的协同过滤(collaborative filtering)任务.由于第⼀次阅读,12章开始的内容仅作概念性了解.第12章计算学习理论计算学习理论研究的是关于通过计算来进⾏学习的理论,⽬的是分析学习任务的困难本质,为学习算法提供理论保证,并提供分析结果指导算法设计.计算学习理论中最基本的是概率近似正确(Probably Approximately Correct,PCA)学习理论.由此可以得到PAC辨识,PAC可学习,PAC学习算法,样本复杂度等概念.有限假设空间的可分情形都是PAC可学习的.对于不可分情形,可以得到不可知PAC可学习的概念,即在假设空间的所有假设中找到最好的⼀个.对⼆分类问题来说,假设空间中的假设对数据集中⽰例赋予标记的每种可能结果称为对数据集的⼀种对分.若假设空间能实现数据集上的所有对分,则称数据集能被假设空间打散.假设空间的VC维是能被假设空间打散的最⼤数据集的⼤⼩.算法的稳定性考察的是算法在输⼊发⽣变化时,输出是否会随之发⽣较⼤的变化.第13章半监督学习主动学习是指先⽤有标记样本训练⼀个模型,通过引⼊额外的专家知识,将部分未标记样本转变为有标记样本,每次都挑出对改善模型性能帮助⼤的样本,从⽽构建出⽐较强的模型.未标记样本虽未直接包含标记信息,但若它们与有标记样本是从同样的数据源独⽴同分布采样⽽来,则它们所包含的关于数据分布的信息对建模⼤有裨益.要利⽤未标记样本,需要有⼀些基本假设,如聚类假设,流形假设.半监督学习可进⼀步划分为纯半监督学习和直推学习.前者假定训练数据中的未标记样本并⾮待预测的数据,⽽后者则假定学习过程中所考虑的未标记样本恰是待预测数据.⽣成式⽅法是直接基于⽣成式模型的⽅法.此类⽅法假设所有数据都是由同⼀个潜在的模型⽣成的.这个假设使得我们能通过潜在模型的参数将未标记数据与学习⽬标联系起来.半监督⽀持向量机(S3VM)是⽀持向量机在半监督学习上的推⼴.S3VM试图找到能将两类有标记样本分开,且穿过数据低密度区域的划分超平⾯.除此之外,还有图半监督学习,基于分歧的⽅法(如协同训练),半监督聚类等学习⽅法.第14章概率图模型机器学习最重要的任务,是根据⼀些已观察到的证据来对感兴趣的未知变量进⾏估计和推测.⽣成式模型考虑联合分布P(Y,R,O),判别式模型考虑条件分布P(Y,R|O).概率图模型是⼀类⽤图来表达变量相关关系的概率模型.若变量间存在显式的因果关系,常使⽤贝叶斯⽹.若变量间存在相关性但难以获取显式的因果关系,常使⽤马尔可夫⽹.隐马尔可夫模型(Hidden Markov Model,HMM)是结构最简单的动态贝叶斯⽹.主要⽤于时序数据建模,在语⾳识别,⾃然语⾔处理等领域有⼴泛应⽤.隐马尔可夫模型中有状态变量(隐变量)和观测变量两组变量.马尔可夫链:系统下⼀时刻的状态仅有当前状态决定,不依赖于以往的任何状态.马尔可夫随机场(Markov Random Field,MRF)是典型的马尔可夫⽹.每⼀个结点表⽰⼀个或⼀组变量,结点之间的边表⽰两个变量之间的依赖关系.条件随机场是判别式模型,可看作给定观测值的马尔可夫随机场.概率图模型的推断⽅法⼤致分为两类.第⼀类是精确推断,代表性⽅法有变量消去和信念传播.第⼆类是近似推断,可⼤致分为采样(如MCMC采样)和使⽤确定性近似完成近似推断(如变分推断).第15章规则学习规则学习是指从训练数据中学习出⼀组能⽤于对未见⽰例进⾏判别的规则.规则学习具有较好的可解释性,能使⽤户直观地对判别过程有所了解.规则学习的⽬标是产⽣⼀个能覆盖尽可能多的样例的规则集,最直接的做法是序贯覆盖,即逐条归纳:每学到⼀条规则,就将该规则覆盖的训练样例去除.常采⽤⾃顶向下的⽣成-测试法.规则学习缓解过拟合的常见做法是剪枝,例如CN2,REP,IREP等算法.著名的规则学习算法RIPPER就是将剪枝与后处理优化相结合.命题规则难以处理对象之间的关系,因此要⽤⼀阶逻辑表⽰,并且要使⽤⼀阶规则学习.它能更容易地引⼊领域知识.著名算法有FOIL(First-Order Inductive Learner)等.第16章强化学习强化学习的⽬的是要找到能使长期累积奖赏最⼤化的策略.在某种意义上可看作具有"延迟标记信息"的监督学习问题.每个动作的奖赏值往往来⾃于⼀个概率分布,因此强化学习会⾯临"探索-利⽤窘境",因此要在探索和利⽤中达成较好的折中.ε-贪⼼法在每次尝试时以ε的概率进⾏探索,以均匀概率随机选取⼀个动作.以1-ε的概率进⾏利⽤,选择当前平均奖赏最⾼的动作.Softmax算法则以较⾼的概率选取平均奖赏较⾼的动作.强化学习任务对应的马尔可夫决策过程四元组已知的情形称为模型已知.在已知模型的环境中学习称为"有模型学习".反之称为"免模型学习".从⼈类专家的决策过程范例中学习的过程称为模仿学习.。

贝叶斯分类器ppt课件

贝叶斯分类器ppt课件
对不相关属性的鲁棒性
各类在不相关属性上具有类似分布
类条件独立假设可能不成立
使用其他技术,如贝叶斯信念网络( Bayesian Belief Networks,BBN)
贝叶斯误差率
13
贝叶斯分类器最小化分类误差的概率 贝叶斯分类使决策边界总是位于高斯分布下两类
1和2的交叉点上
类C2 类C1
计算P(X| No)P(No)和P(X| Yes)P(Yes)
P(X| No)P(No)=0.0024 0.7=0.00168 P(X| Yes)P(Yes)=0 0.3=0
因为P(X| No)P(No)>P(X| Yes)P(Yes), 所以X分类为No
贝叶斯分类器
10
问题
如果诸条件概率P(Xi=xi |Y=yj) 中的一个为0,则它 们的乘积(计算P(X |Y=yj)的表达式)为0
设C=0表示真实账号,C=1表示不真实账号。
15
1、确定特征属性及划分
区分真实账号与不真实账号的特征属性, 在实际应用中,特征属性的数量是很多的,划分也会比
较细致 为了简单起见,用少量的特征属性以及较粗的划分,并
对数据做了修改。
16
选择三个特征属性:
a1:日志数量/注册天数 a2:好友数量/注册天数 a3:是否使用真实头像。
P( y j | X) P( yi | X), 1 i k, i j
根据贝叶斯定理, 我们有
P(y j
|
X)
P(X
| y j )P( y j ) P(X)
由于P(X) 对于所有类为常数, 只需要最大化P(X|yj)P(yj)即可.
朴素贝叶斯分类(续)
4
估计P(yj) 类yj的先验概率可以用 P (yj)=nj/n 估计

贝叶斯分类器讲义 PPT

贝叶斯分类器讲义 PPT

特征选择
特征选择可以看作是一个(从最差的开始)不断删去无 用特征并组合有关联特征的过程,直至特征的数目减少至易 于驾驭的程度,同时分类器的性能仍然满足要求为止。例如, 从一个具有M个特征的特征集中挑选出较少的N个特征时, 要使采用这N个特征的分类器的性能最好。
特征方差 类间距离 降维
二、概率论基本知识
样本空间的划分 定义 设 为试验E的样本空间, B1, B2 ,L , Bn 为 E 的一组事件,若
1 0 Bi Bj , i, j 1, 2,L , n;
20 B1 U B2 UL U Bn , 则称 B1, B2 ,L , Bn 为样本空间 的一个划分.
全概率公式
定义 设为试验E的样本空间, A为E的事件, B1, B2 ,L , Bn为的一个划分,且P(Bi ) 0 (i 1, 2,L , n),则
基本方法:用一组已知的对象来训练分类器 目的的区分:1. 分类错误的总量最少
2. 对不同的错误分类采用适当的加权 使分类器的整个“风险”达到最低 偏差:分类错误
分类器的性能测试
已知类别的测试集;已知对象特征PDF的测试集 PDF的获取:画出参数的直方图,并计算均值和方差,
再规划到算法面积,需要的话再做一次平滑,就可将 这个直方图作为相应的PDF设计 独立每一类的测试集 使用循环的方法
概率论基本知识
确定事件:概念是确定的,发生也是确定的; 随机事件:概念是确定的,发生是不确定的; 模糊事件:概念本身就不确定。
联合概率和条件概率
联合概率:设A,B是两个随机事件,A和B同时发生 的概率称为联合概率,记为:P(AB);
条件概率:在B事件发生的条件下,A事件发生的概率 称为条件概率,记为:P(A|B), P(A|B) = P(AB) / P(B) ;

贝叶斯算法ppt课件

贝叶斯算法ppt课件

f ( x i 1 , x i 2 , x i 3 ,......, x in ) y i
Q3 分类的方法
对数据挖掘中心的可信技术分类算法的内 容及其研究现状进行综述。认为分类算法大体 可以分为传统分类算法和基于软件计算的分类 法两类,主要包括相似函数,关联规则分类算 法,K近邻分类算法,决策树分类算法,贝叶斯 分类算法和基于模糊逻辑,遗传算法,粗糙集 和神经网络的分类算法。 分类的算法有很多种,他们都有各自的优缺 点和应用范围,本次我就贝叶斯分类算法展开 我的演讲。
有腿

类别 哺乳动物 非哺乳动物 非哺乳动物 哺乳动物 非哺乳动物 非哺乳动物 哺乳动物 非哺乳动物 哺乳动物 非哺乳动物 非哺乳动物 非哺乳动物 哺乳动物 非哺乳动物 非哺乳动物 非哺乳动物 哺乳动物 非哺乳动物 哺乳动物 非哺乳动物
类别

Q2 分类问题
税号 1 2 3 4 5 6 7 8 9 10 去年退税 是 否 否 是 否 否 是 否 否 否 婚姻状况 单身 婚姻中 单身 婚姻中 离婚 婚姻中 离婚 单身 婚姻中 单身 可征税收入 125k 100k 70k 120k 95k 60k 220k 85k 75k 90k 逃税 否 否 否 否 是 否 否 是 否 是
动物A
动物B


0
2
2
2






• 根据现有的知识,我们得到了一些关于爬行动物和鸟类的信息, 我们能否对新发现的物种,比如动物A,动物B进行分类?
Q2 分类的流程
• 步骤一:将样本转化为等维的数据特征(特征提取)。
– 所有样本必须具有相同数量的特征 – 兼顾特征的全面性和独立性
动物种类 体型 翅膀数量 脚的只数 是否产蛋 是否有毛 类别

第3讲 统计分类(一)贝叶斯分类器精品PPT课件

第3讲 统计分类(一)贝叶斯分类器精品PPT课件
X1=X1(e), X2=X2(e),…, Xn=Xn(e)是定义在S上的 随机向量,由它们构成的一个n维向量(X1,X2,…,Xn) 叫 做n维随机向量或n维随机变量。
(2)对于任意n个实数x1,x2,…,xn,n元函数
F ( x 1 , x 2 ,x . n ) . P { . X 1 , x 1 , X 2 x 2 ,X .n .x n . } ,
k!
5
一、数理统计基础
4、随机变量的分布函数 (1)概念
设X是一个随机变量,x是任意实数,函数
F(x)P{Xx}
称为X的分布函数。 (2)性质
(a)F(x)是一个不减函数
0 F(x) 1,且 (b) F() lim F(x) 0
x
F() lim F(x) 1
x
6
一、数理统计基础
5、连续型随机变量的概率密度
e
X(e)
S
3
一、数理统计基础
3、离散型随机变量及其分布 (1)概念
如果随机变量的全部取值是有限个或可列无限多 个,则称为离散型随机变量
(2)离散型随机变量的概率分布 设离散型随机变量X所有可能取的值为xk(k=1,
2,…),X取各个可能值的概率,即事件{X=xk}的概 率,为 P{X=xk}=pk,k =1,2,…
模式识别
第三讲 统计模式识别(一) --贝叶斯分类方法
•数理统计基础 •贝叶斯分类的基本原理 •最小错误率贝叶斯分类 •最小风险贝叶斯分类 •最大似然比贝叶斯分类
一、数理统计基础
1、全概率公式和贝叶斯公式 (1)条件概率: 设A、B是两个事件,且P(B)>0,则称
P(A| B) P(AB) P(B)
x2 x1

周志华机器学习西瓜书全书16章pptChap05神经网络课件

周志华机器学习西瓜书全书16章pptChap05神经网络课件

冰 河期
1985左右 -1995左右 ~繁荣期 : Hopfield (1983), BP (1986), …
1995年左右:SVM 及 统计学习 兴起
沉 寂期
2010左右 -至今 ~繁荣期 :深度学习
交替模式 : 热十(年) 冷十五(年)
启示
科学的发展总是“螺旋式上升” 三十年河东、三十年河西 坚持才能有结果!
训练: • 网络接收输入样本后,将会确定输出层的“获胜”神经元(“胜者通吃”) • 获胜神经元的权向量将向当前输入样本移动
级联相关网络
CC: Cascade-Correlation (级联相关)
构造性神经网络: 将网络的结构也当做学习的目标之一, 希望 在训练过程中找到适合数据的网络结构
训练: • 开始时只有输入层和输出层 • 级联 - 新的隐层结点逐渐加入,从而创建起层级结构 • 相关 - 最大化新结点的输出与网络误差之间的相关性
SOM 神经网络
SOM: Self-Organizing feature Map (自组织特征映射 )
• 竞争型的无监督神经网络 • 将高维数据映射到低维空间(通常为 2
维) , 高维空间中相似的样本点映射到 网络输出层中邻近神经元 • 每个神经元拥有一个权向量 • 目标:为每个输出层神经元找到合适的 权向量以保持拓扑结构
• 每次针对单个训练样例更 新权值与阈值
• 参数更新频繁 , 不同样例 可能抵消 , 需要多次迭代
• 其优化目标是最小化整个 训练集上的累计误差
• 读取整个训练集一遍才对 参数进行更新 , 参数更新 频率较低
在很多任务中 , 累计误差下降到一定程度后 , 进一步下降会非常缓慢, 这时 标准 BP算法往往会获得较好的解, 尤其当训练集非常大时效果更明显.

周志华 机器学习 西瓜书 全书16章 ppt Chap08集成学习

周志华 机器学习 西瓜书 全书16章 ppt Chap08集成学习

(b) 5个基学习器
0
0.2 0.4 0.6 0.8
密度
(c) 11个基学习器
从偏差-方差的角度:降低方差,在不剪枝的决策树、神经网络等 易受样本影响的学习器上效果更好
Bagging与随机森林-随机森林
随机森林(Random Forest,简称RF)是bagging的一个扩展变种 采样的随机性 属性选择的随机性

Bagging泛化误差的包外估计为:
Bagging与随机森林- Bagging实验
0.6
含 糖 率 0.4
0.2
好瓜 坏瓜
0.6
含 糖 率 0.4
0.2
好瓜 坏瓜
0.6
含 糖 率 0.4
0.2
好瓜 坏瓜
0
0.2 0.4 0.6 0.8
密度
(a) 3个基学习器
0
0.2 0.4 0.6 0.8
密度
阅读材料
集成学习方面的主要推荐读物是[Zhou,2012],本章提及的所有 内容在该书中都有更深入的详细介绍。 [Kuncheva,2004;Rockach,2010b]可供参考,[Schapire and Freund,2012]则是专门关于Boosting的著作,集成学习方面有一 些专门性的会议MCS(International Workshop on Multiple Classifier System).
重赋权法 重采样法
重启动,避免训练过程过早停止
Boosting – AdaBoost实验
0.6
含 糖 率 0.4
0.2
好瓜 坏瓜
0.6
含 糖 率 0.4
0.2
好瓜 坏瓜
0.6

周志华 机器学习 西瓜书 全书16章 ch13半监督学习ppt课件

周志华 机器学习 西瓜书 全书16章  ch13半监督学习ppt课件
聚类假设(clustering assumption):
假设数据存在簇结构,同一簇的样本属于同一类别。
流形假设(manifold assumption):
假设数据分布在一个流形结构上,邻近的样本具有相似的输出值。
流形假设可看做聚类假设的推广
大纲
未标记样本 生成式方法 半监督SVM 图半监督学习 基于分歧的方法 半监督聚类
时, 最优解恰为迭代算法的收敛解 。
图半监督学习
图半监督学习
图半监督学习方法在概念上相当清晰, 且易于通过对所涉矩阵运算 的分析来探索算法性质。
但此类算法的缺陷也相当明显. 首先是在存储开销高。
另一方面, 由于构图过程仅能考虑训练样本集, 难以判知新样本在 图中的位置, 因此, 在接收到新样本时, 或是将其加入原数据集对图 进行重构并重新进行标记传播, 或是需引入额外的预测机制。
大纲
未标记样本 生成式方法 半监督SVM 图半监督学习 基于分歧的方法 半监督聚类
图半监督学习
给定一个数据集, 我们可将其映射为一个图, 数据集中每个样本对应于图 中一个结点, 若两个样本之间的相似度很高(或相关性很强), 则对应的结 点之间存在一条边, 边的“强度”(strength)正比于样本之间的相似度(或 相关性)。
率。
生成式方法
M步:基于 更新模型参数
Байду номын сангаас
生成式方法
将上述过程中的高斯混合模型换成混合专家模型,朴素贝叶斯模型等即 可推导出其他的生成式半监督学习算法。
此类方法简单、易于实现, 在有标记数据极少的情形下往往比其他方法性 能更好。
然而, 此类方法有一个关键: 模型假设必须准确, 即假设的生成式模型必 须与真实数据分布吻合; 否则利用未标记数据反而会显著降低泛化性能。

周志华 机器学习 西瓜书 全书16章 ppt Chap06支持向量机

周志华 机器学习 西瓜书 全书16章 ppt Chap06支持向量机

必有

支持向量机解的稀疏性: 训练完成后, 大部分的训 练样本都不需保留, 最终模型仅与支持向量有关.
重要性质:模型训练完后,大部分的训练样本都不需要
保留,最终模型仅仅与支持向量有关
对偶方法重新求解前面的问题
如图所示的训练数据集,其正实例点是x 1

3, 3
,
x 2

4, 3 ,
负实例x 3

b
52
1

0
b 1

0
121 152 b 1 0
141 182 b 1 0 41 52 b 1 0
1 0, 2 0, 3 0
当1=0,2 0时,

12=0123
18521
对偶问题
1 wT w
2
m
i
i1
wT
m
i yi xi
i1


m
i yi
i1
b
拉格朗日乘子法
第一步:引入拉格朗日乘子
得到拉格朗日函数
第二步:令

第三步:回代可得
和 的偏导为零可得

1 2
wT w
m i 1
i
解的稀疏性
最终模型: KKT条件:
总结
对于不等式约束的优化,需要满足三个条件,满足这三个条件的 解x*可能的极小值点。 这三个条件就是著名的KKT条件,它整合了上面两种情况的条件。
特别注意:
优化问题是凸优化的话,KKT条件就是极小 值点(而且是全局极小)存在的充要条件。 不是凸优化的话,KKT条件只是极小值点的 必要条件,不是充分条件,KKT点是驻点, 是可能的极值点。也就是说,就算求得的 满足KKT条件的点,也不一定是极小值点, 只是说极小值点一定满足KKT条件。

周志华 机器学习 西瓜书 全书16章 ppt Chap07贝叶斯分类器

周志华 机器学习 西瓜书 全书16章 ppt Chap07贝叶斯分类器

P X x1, x2, , xm | Y=ci P X1 x1 | Y=ci P X2 x2 | Y=ci PX3 x3 | Y=ci P Xm xm | Y=ci
朴素贝叶斯分类器
估计后验概率
主要困难:类条件概率
上的联合概率难以从有限的训练样本估计获得。
假设有 种可能的类别标记,即
, 是将
一个真实标记为 的样本误分类为 所产生的损失。基于后验概

可获得将样本 分类为 所产生的期望损失
(expected loss)或者称条件风险(conditional risk)
N
R Y ci | X x1, x2, , xm ij P Y c j | X x1, x2, , xm j 1
施决策的基本方法。
在分类问题情况下,在所有相关概率都已知的理想情形下,贝叶斯决 策考虑如何基于这些概率和误判损失来选择最优的类别标记。
贝叶斯决策论
贝叶斯决策论(Bayesian decision theory)是在概率框架下实
施决策的基本方法。
在分类问题情况下,在所有相关概率都已知的理想情形下,贝叶斯决 策考虑如何基于这些概率和误判损失来选择最优的类别标记。
计算任意两个属性之间的条件互信息 (CMI:conditional mutual information)
以属性为结点构建完全图,任意两个结点之间边的权重设为 构建此完全图的最大带权生成树
朴素贝叶斯分类器
朴素贝叶斯分类器
由于对所有类别来说 定准则有
相同,因此基于式 (7.6)的贝叶斯判
这就是朴素贝叶斯分类器的表达式
朴素贝叶斯分类器
朴素贝叶斯分类器的训练器的训练过程就是基于训练集 估计类

周志华 机器学习 西瓜书 全书16章 ch13半监督学习ppt课件

周志华 机器学习 西瓜书 全书16章  ch13半监督学习ppt课件

大纲
未标记样本 生成式方法 半监督SVM 图半监督学习 基于分歧的方法 半监督聚类
半监督聚类
聚类是一种典型的无监督学习任务, 然而在现实聚类任务中我们往 往能获得一些额外的监督信息, 于是可通过“半监督聚类”(semisupervised clustering)来利用监督信息以获得更好的聚类效果.
大纲
未标记样本 生成式方法 半监督SVM 图半监督学习 基于分歧的方法 半监督聚类
图半监督学习
给定一个数据集, 我们可将其映射为一个图, 数据集中每个样本对应于图 中一个结点, 若两个样本之间的相似度很高(或相关性很强), 则对应的结 点之间存在一条边, 边的“强度”(strength)正比于样本之间的相似度(或 相关性)。
无标记样本无标记样本有标记样本有标记样本svm伪标记svm训练训练标注svmsvmsvm无标记样本无标记样本搜索指派可能出错的样本指派可能出错的样本交换样本标记有标记样本有标记样本训练训练svmsvmsvm未标记样本的伪标记不准确svmsvm未标记样本进行标记指派及调整的过程中有可能出现类别不平衡问题即某类的样本远多于另一类
聚类任务中获得的监督信息大致有两种类型: 第一种类型是“ 必连”(must-link)与“勿连”(cannot-link)约
束,前者是指样本必属于同一个簇, 后者则是指样本必不属于同一 个簇; 第二种类型的监督信息则是少量的有标记样本.
半监督聚类
约束k均值(Constrained k-means)算法[Wagstaff et al., 2001]是利用第一类监督信息的代表。
第十三章:半监督学习
背景(半监督学习)
隔品壁瓜老师王

背景(半监督学习)
(纯)半监督学习

周志华 机器学习 西瓜书 全书16章 ppt Chap10降维和度量学习

周志华 机器学习 西瓜书 全书16章 ppt Chap10降维和度量学习
“懒惰学习”(lazy learning): 此类学习技术在训 练阶段仅仅是把样本保存起来,训练时间开销为零, 待收到测试样本后再进行处理。
“急切学习”(eager learning): 在训练阶段就对 样本进行学习处理的方法。
k近邻分类示意图
k近邻分类器中的k是一个重要参数,当k取不同值时,分类结果会 有显著不同。另一方面,若采用不同的距离计算方式,则找出的 “近邻”可能有显著差别,从而也会导致分类结果有显著不同。
分类问题使用“投票法”获得预测结果,对于回归问题使用“平均法” 获得预测结果。还可基于距离远近进行加权平均或加权投票,距离越 近的样本权重越大。
投票法:选择这k个样本中出现最多的类别标记作为预 测结果。
平均法:将这k个样本的实值输出标记的平均值作为预 测结果。
“懒惰学习”与“急切学习”
K近邻学习没有显式的训练过程,属于“懒惰学习”

表示贝叶斯最优分类器的结果,有
最近邻分类虽简单,但它的泛化错误率不超过贝叶斯最优分类器 错误率的两倍!
低维嵌入
维数灾难 (curse of dimensionality)
上述讨论基于一个重要的假设:任意测试样本 附近的任意小的
距离范围内总能找到一个训练样本,即训练样本的采样密度足够大,
或称为“密采样”。然而,这个假设在现实任务中通常很难满足:
度量学习
欲对距离度量进行学习,必须有一个便于学习的距离度量表达形 式。对两个 维样本 和 ,它们之间的平方欧氏距离可写为
若属性维数为1,当 =0.001,仅考虑单个属性,则仅需1000个样
本点平均分布在归一化后的属性取值范围内,即可使得任意测试样本
在其附近0.001距离范围内总能找到一个训练样本,此时最近邻分类

周志华 机器学习 西瓜书 全书16章 ppt Chap08集成学习

周志华 机器学习 西瓜书 全书16章 ppt Chap08集成学习
相关系数(Correlation Coefficient)
多样性 – 多样性度量
常见的多样性度量
Q-统计量(Q-Statistic)
K-统计量(Kappa-Statistic)
多样性 – 多样性度量
数据点云的位置越低,个体分类器越准确 数据点云的位置越靠左,个体分类器多样性越大
50颗C4.5决策树的结果
翻转法(Flipping Output):随机改变一部分训练样本的标记 输出调剂法(Output Smearing):将分类输出转化为回归输出等 ECOC法:利用纠错输出码将多个问题拆解为一系列的二分类任务
多样性 – 多样性增强 – 算法参数扰动
负相关法 不同的多样性增强机制同时使用

集成的泛化误差为:

表示个体学习器泛化误差的加权均值, 表示个体学习器的加权分歧值,有
多样性 – 误差-分歧分解
多样性 – 多样性度量
多样性度量(diversity measure)用于度量集成中个体学习器的多 样性
多样性 – 多样性度量
常见的多样性度量
不合度量(Disagreement Measure)
由于O(s)很小且T是一个不大的常数 因此训练一个bagging集成与直接使用基学习器的复杂度同阶
可使用包外估计(由于Bootstrap sampling 只使用2/3左右数据, 剩下的用作验证,称为“包外估计”—out of bag estimate)
Bagging与随机森林 - 包外估计
集成学习
个体与集成 Boosting
Adaboost
Bagging与随机森林 结合策略
平均法 投票法 学习法
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

是所有属性
P(Y=ci | X x1, x2,
,
xm
)

P Y=ci
P X x1, x2, P( X x1, x2,
, xm | Y=ci , xm )
max P i
Y=ci | X
x1, x2,
, xm
max P i
X x1, x2,
概率

然而,在现实中通常难以直接获得。机器学习所要实现的是基于有限
的训练样本尽可能准确地估计出后验概率

主要有两种策略:
判别式模型(discriminative models)
给定 ,通过直接建模
, 来预测
决策树,BP神经网络,支持向量机
生成式模型(generative models)
,
xm
)

P(X x1, x2, P(X x1,
, x2 ,
xm , Y=ci , xm )
)
7.7
基于贝叶斯定理,
可写成
P(Y=ci | X x1, x2,
,
xm
)

P Y=ci
P X x1, x2, P( X x1, x2,
, xm | Y=ci , xm )
章节目录
贝叶斯决策论 极大似然估计 朴素贝叶斯分类器 半朴素贝叶斯分类器 贝叶斯网 EM算法
章节目录
贝叶斯决策论 极大似然估计 朴素贝叶斯分类器 半朴素贝叶斯分类器 贝叶斯网 EM算法
朴素贝叶斯分类器
估计后验概率
主要困难:类条件概率
上的联合概率难以从有限的训练样本估计获得。
霍 轩
第七章:贝叶斯分类器
章节目录
贝叶斯决策论 极大似然估计 朴素贝叶斯分类器 半朴素贝叶斯分类器 贝叶斯网 EM算法
章节目录
贝叶斯决策论 极大似然估计 朴素贝叶斯分类器 半朴素贝叶斯分类器 贝叶斯网 EM算法
贝叶斯决策论
贝叶斯决策论(Bayesian decision theory)是在概率框架下实
P X x1, x2, , xm | Y=ci P X1 x1 | Y=ci P X2 x2 | X1 x1, Y=ci P X3 x3 | X2 x2, X1 x1, Y=ci
假设有 种可能的类别标记,即
, 是将
一个真实标记为 的样本误分类为 所产生的损失。基于后验概

可获得将样本 分类为 所产生的期望损失
(expected loss)或者称条件风险(conditional risk)
N
R Y ci | X x1, x2, , xm ij P Y c j | X x1, x2, , xm j 1
i
P(ci
|X

x) 后验概率
贝叶斯决策论
具体来说,若目标是最小化分类错误率,则误判损失 可写为
此时条件风险
于是,最小化分类错误率的贝叶斯最优分类器为
即对每个样本 ,选择能使后验概率
最大的类别标记。
贝叶斯决策论
不难看出,使用贝叶斯判定准则来最小化决策风险,首先要获得后验
先对联合概率分布
建模,再由此获得
生成式模型考虑
P(Y=ci | X x1, x2,
,
xm
)

P(X x1, x2, P(X x1,
, x2 ,
xm , Y=ci ) , xm )
7.7
贝叶斯决策论
生成式模型
贝叶斯决策论
生成式模型
P(Y=ci | X x1, x2,
, xm | Y=ci
7.7
PA1A2 =PA1 PA2 A1
PA1A2A3 =PA1 P A2 A1 P A3 A2A1
P A1A2A3 Am =P A1 P A2 A1 P A3 A2A1 P Am Am1 A2A1
7.7
贝叶斯决策论
生成式模型
基于贝叶斯定理,
可写成
先验概率 样本空间中各类样本所占的 比例,可通过各类样本出现 的频率估计(大数定理)
贝叶斯决策论
生成式模型
基于贝叶斯定理,
可写成
先验概率 样本空间中各类样本所占的 比例,可通过各类样本出现 的频率估计(大数定理)
“证据”(evidence) 因子,与类标记无关
体风险,只需在每个样本上选择那个能使条件风险
最小的类
别标记,即
此时,被称为贝叶斯最优分类器(Bayes optimal classifier),与之对应
的总体风险
称为贝叶斯风险 (Bayes risk)

反映了分类起所能达到的最好性能,即通过机器学习所能产
生的模型精度的理论上限。
贝叶斯决策论
具体来说,若目标是最小化分类错误率,则误判损失 可写为
7.1
我们的任务是寻找一个判定准则
以小化总体风险
贝叶斯决策论
显然,对每个样本 ,若 能最小化条件风险
体风险
也将被最小化。
,则总
贝叶斯决策论
显然,对每个样本 ,若 能最小化条件风险
体风险
也将被最小化。
,则总
这就产生了贝叶斯判定准则(Bayes decision rule): 为最小化总
贝叶斯决策论
具体来说,若目标是最小化分类错误率,则误判损失 可写为
此时条件风险
N
R(ci | X x) ij P(c j | X x) P(c j | X x)
j 1
ji
1 P(ci | X x)
7.5
min i
R(ci
|
X
x) max
贝叶斯决策论
生成式模型
基于贝叶斯定理,
可写成
类标记 相对于样本 的 “类条件概率” (classconditional probability), 或称“似然”。
先验概率 样本空间中各类样本所占的 比例,可通过各类样本出现 的频率估计(大数定理)
“证据”(evidence) 因子,与类标记无关
施决策的基本方法。
在分类问题情况下,在所有相关概率都已知的理想情形下,贝叶斯决 策考虑如何基于这些概率和误判损失来选择最优的类别标记。
贝叶斯决策论
贝叶斯决策论(Bayesian decision theory)是在概率框架下实
施决策的基本方法。
在分类问题情况下,在所有相关概率都已知的理想情形下,贝叶斯决 策考虑如何基于这些概率和误判损失来选择最优的类别标记。
相关文档
最新文档