模式识别报告

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
j 1
mi
五、基于 SEM 学习贝叶斯网络的四种改进算法
这四种算法是用在 completeData 阶段 (程序第 9 行和 13 行) 的。 PEM:E 是一个概率完成(probabilistic completion), 它表示将样 本 xi 分配给类标签 c,其概率为 Ejc,;PEM 算法就是利用前面的联合 概率公式以及所有的有效完成 e,建立一个概率有效完成 E, 用来填补 丢失数据。Complete Data 需要满足的条件就是 Ejc=Pic. NPEM:在初始化阶段, 样本与类标签配对是随机采用一个有效完成 e。 在数据完成阶段, 考虑所有的有效完成 e,然后选出联合概率最高的, 根据选择的这个有效完成 e,将样本与类标签配对。 MCEM 算法:在遇到样本量更大更复杂的情况下,前两种方法的计算 量就非常大,所以给出了 MCEM 算法。它是采用 Mark Chain Monte Carlo(MCMC)过程在数据完成阶段获得一个近似的概率完成。

0 parametricLearning ( D, Gi )
j0 repeat D completeData ( D, j , Gi )


i 1 parametricLearning ( D, Gi )
j j 1 until (diff ( j , j 1 ) )or ( j max P ) D completeData ( D, j , Gi ) Gi 1 findMaxNeighborStructure( D , Gi ) i i 1
PMEM:是一个综合的方法,当样本量较少时,采用 PEM 方法,当样本 量大时,采用 MCEM 方法。 六、本次收获 通过这次模式识别算法的学习, 让我们了解到了书上所没有的一 些算法, 对模式识别的算法有了更进一步的认识, 在完成课程设计的 过程中,我们遇到了很多困难,包括贝叶斯网络模型的学习,还有 SEM 算法的实现,我们都花费了很多时间去学习,然后我们的能力也 都得到了一定的提升,对 matlab 的使用也更加熟练,为以后的学习 和研究都有很大的帮助,同时感谢梁老师这个学期对我们的辅导,让 我们在学习上得到了提升, 我们以后会更加努力学习, 掌握专业技能, 争取在研究生阶段学到更多的知识,使自己得到最大的提升。


16. until (Gi Gi 1 )or (i max S ) 17. return{Gi 1, j } 18.end procedure
为了建立一个初始化模型, 该方法首先从一个完整数据集中学习 整个网络结构, 这些数据是在算法 1 第二行数据初始化一步中获得的。 这个模型第一次的结构是在算法 1 第三行中通过对各种分类器的学 习得到的。然后,最初的模型将通过算法 1 的第 13 行和 14 行被迭代 改进。初始化模型通过算法 1 的第 6 行参数学习来完成, 使用同样的 方法,对每一个在第 9 行得到的新的数据集合,在第十行这一步模型 参数被重新估计。 在 SEM 策略中, 有两步是易受影响的, 一个是初始化数据的过程, 这里最初的数据是根据满足标签比例的启发性的标准得到的(算法 1 的第二行) ,另一个是完成数据的过程(算法 1 的第 9 和 13 行) ,这 两个过程都是用来填补丢失的数据的。
c arg max p C c p X i xi X j x j , C c
c n
其中 Xj 是 Xi 的预测变量父类。 (3)KDB 模型
i 1


KDB 结构依据朴素贝叶斯分类器,但是除了类变量作为父类以外,仍 允许每个预测变量最多有 K 个预测变量作为父类。由此,可以得到 TAN 分类器可以被看做是 1DB 分类器,朴素贝叶斯分类器可以被看做 是 0DB。它可以用下式定义:
c arg max p C c p X i xi i i , C c
c n
其中 i 是 X i 的 K 个父类预测变量的一个集合。
i 1
四、SEM 算法原理
在经典有监督的学习中,所有的训练数据都有已知的类标签,所 有的模型参数都可以用极大似然估计来估计。 对于学习贝叶斯网络模 型的特殊情况, 如果网络结构事先是不知道的,那么我们需要增加一 步结构的学习,另外,数据的缺失也增加了学习的复杂度。 在本文中, 我们主要对类变量缺失数据的贝叶斯网络进行参数和 结构的学习。 SEM (Structural Expectation-Maximization)是在传统的 EM (Expectation-Maximization)算法上增加了结构的学习, 可以同时学习 模型的结构和参数。 (1)EM 算法 EM 算法在统计中被用于寻找,依赖不可观察的隐性变量的概率 模型中,参数的最大似然估计。它是一个迭代过程,可以在缺失部分 数据的情况下获得最大似然参数,也可以用来填补缺失的数据。 每一 次迭代包括两个步骤,y 被认为是观测变量,x 被看做完整数据,θ 被看做是模型参数的实际向量,是未知的。第 k+1 次迭代如下, E 步骤,利用参数的当前估计值获得对数似然函数的期望, θ θ 直到参数估计值收敛到一个稳定值。 θ (2)SEM 算法 它是在传统 EM 算法的参数学习循环外部加了一个结构学习的循 θ θ θ θ M 步骤, 最大化期望, 获得参数的下一次估计值, 如此反复迭代,
) 个预测变量,C 是类变量, c 是一个类标签。
i 1
对于这个模型,参数的学习仅仅包括概率 p(c)的学习和条件概率 p(xi∣c)的学习,朴素贝叶斯模型不需要进行结构学习,因为它有固 定的结构。 (2)TAN 模型 TAN 模型允许预测变量间有依赖关系,但是每个预测变量最多只 有两个父类,一个是类变量,另一个是预测变量。分类规则可以被定 义为下式:
当提供一个数据集时, 学习贝叶斯网络模型的方法通常需要实现 两步:网络结构的提取和模型参数的估计。在本文中,我们使用贝叶 斯网络模型作为概率分类器。 贝叶斯网络分类器主要分为三种, 朴素 贝叶斯 NB(naive Bayes) 、TAN(tree augmented naive Bayes)和 KDB (K-dependence Bayesian network )分类器。朴素贝叶斯分类器的网 络机构是最简单的,但是它在许多领域都有很好的应用。TAN 和 KDB 是考虑到网络结构复杂度和预测变量之间的条件依赖关系而进一步 得到的。这三种贝叶斯网络模型如下图所示:
环。该算法的伪代码如下:算法 1
1. procedureStructureEM ( D, max P, max S ) 2. D initializeData ( D ) 3. G0 structuralLearning ( D ) 4. i 0 5. repeat 6. 7. 8. 9. 10. 11. 12. 13. 14. 15.
在经典的有监督的分类中,目的是从标记的样本数据集中建立一 个预测的模型,然后给出一个新的未被标记的样本,模型将给其分配 一个已知的类标签。但是也有一些情况,获得标记的样本是困难的。 本文主要研究了利用标签比例学习的分类问题, 提供的数据集是由没 有标记的样本组成,并且这些样本被分成不相关的若干组。每组中属 于某一类的样本比例是已知的。 本文将采用依据 Structural EM 策略的 方法来学习贝叶斯网络分类器并且处理这个分类问题。
包 Bi 中的样本属于不同的类(
个样本的类标签是未知的,这种包叫做非全包(non-full bags ) , Non-full bag 的情况增加了分类时的不确定性,当标签是均匀分布 时,non-full bag B i 的不确定度更高, 之间的差异最小。
三、贝叶斯网络分类器
在出现数据丢失时,结构期望最大化策略(Structural EM )提 供了一个合适的框架来学习贝叶斯网络。 它包括网络结构和模型参数 的学习。 贝叶斯网络是一种概率网络,它是基于概率推理的图形化网络, 而贝叶斯公式则是这个概率网络的基础。 贝叶斯网络是基于概率推理 的数学模型,所谓概率推理就是通过一些变量的信息来获取其他的概 率信息的过程,基于概率推理的贝叶斯网络(Bayesian network)是为 了解决不定性和不完整性问题而提出的, 它对于解决复杂设备不确定 性和关联性引起的故障有很的优势,在多个领域中获得广泛应用。 贝叶斯网络的建造是一个复杂的任务, 需要知识工程师和领域专 家的参与。在实际中可能是反复交叉进行而不断完善的。 面向设备故 障诊断应用的贝叶斯网络的建造所需要的信息来自多种渠道, 如设备 手册,生产过程,测试过程,维修资料以及专家经验等。首先将设备 故障分为各个相互独立且完全包含的类别 (各故障类别至少应该具有 可以区分的界限) ,然后对各个故障类别分别建造贝叶斯网络模型, 需要注意的是诊断模型只在发生故障时启动, 因此无需对设备正常状 态建模。 通常设备故障由一个或几个原因造成的, 这些原因又可能由 一个或几个更低层次的原因造成。建立起网络的节点关系后,还需要 进行概率估计。 具体方法是假设在某故障原因出现的情况下,估计该 故障原因的各个节点的条件概率, 这种局部化概率估计的方法可以大 大提高效率。
标签比例信息最重要的应用:在 non-full bag 情况下,利用比例 信息,可以减少分配的种数。例如有 C 个标签,以及与其对应的有 个未被标记的样本,如果没有标签比例,那么可能分配的种类数有
C
mi
个, 分配后的标签比例也有很多种; 但是如果提前知道标签比例,
那么只有满足标签比例的分配情况才是有效的。如果用
NB (1)朴素贝叶斯模型
TANwenku.baidu.com
KDB
朴素贝叶斯模型是一个概率分类器, 它假定预测变量之间都是相 互独立的,每个预测变量都只有一个父类,即类变量 C。这个分类器 可以用下式定义:
c
c arg max p C c p X i xi C c
n
其中 Xi 是第 i (
。类似的,包的类信息可以用相关比例来表示,
在上面描述的 LLP 问题中, 对每一个样本和它的类标签进行配对 可以看做是标签比例不确定度的基本定义。 因此, 假设每个包都有它 自己的标签比例, 并且包含特有的不确定度。 如果包 Bi 中的样本都属
于相同的类(
),这种包叫做全包(full bag),如果 ),在这种情况下,一
模式识别报告
题 目: Learning Bayesian network classifiers from label proportions 组 员: *** ***
Learning Bayesian network classifiers from label proportions 利用标签比例学习贝叶斯网络分类器 一、内容简介
二、主要研究问题
在本文中,样本属于哪一类是不知道的,未被标记的样本被分成 若干组,只有每一组中样本的总体的类信息是已知的,即标签比例。 LLP(Learning from label proportions )问题描述:样本没有被标 记并且被分成若干个包,总体的样本的标签是知道的,但是,每个样 本和它所属标签之间的配对关系是未知的。 因此, 每一个包由大小相 同的两个组构成,一组是样本,另一组是标签,这两个组并未配对, 属于每一类标签的比例就是由这个标签组给出。 LLP 数据集合 D 是由 m 个未被标记的样本{X1, X2, …, Xm}组成。 在本文中,我们假设 D 是从潜在的概率分布中取样。这 m 个样本又 被分成 b 个包(D B1∪B2∪…∪Bb ,对任意 Bi 包含 mi 个样本, 即 量,即 ,且 , ,Bi ∩Bj ∅) 。每个包 表示 中属于标签 C 的样本的数 。
e (e1 , e2 ,...emi ) 表示一个联合分配(joint assignment) 情况,当 e 满足
给定的标签比例时称为有效完成(valid completion) ,其集合记为 Z。此时该有效完成的联合概率为:
1 mi
1e
j 1
mi
j
c
pic
p e | Bi p C e j | X 1 x j1 ,..., X n x jn
相关文档
最新文档