贝叶斯应用

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
什么是贝叶斯推断
贝叶斯推断(Bayesian inference)是一种统计学方法,用来估计统 计量的某种性质。它是贝叶斯定理(Bayes theorem)的应用。英国数学
家托马斯· 贝叶斯(Thomas Bayes)在1763年发表的一篇论文中,首先提
出了这个定理。 贝叶斯推断与其他统计学推断方法截然不同。它建立在主观判断的 基础上,也就是说,你可以不需要客观证据,先估计一个值,然后根据 实际结果不断修正。 要理解贝叶斯推断,必须先理解贝叶斯定理。后者实际上就是计算" 条件概率"的公式。
[1] 李太勇,王会军,吴 江,张智林,唐常杰.基于稀疏贝叶斯学习的个人信用评估[J].计
算机应用,2013,33( 11) : 3094 - 3096
11
基于稀疏贝叶斯学习的个人信用评估算法
输入 N个训练样本构成的训练集{D,y},其中:D=[D1,D2 ,„,DN]T∈RN×M 为训练样本属性构成的矩阵,y=[y1,y2,„,yN]T∈{-1,1}N×1 为训
16
判别函数的结果及检验
采用自身检验法及交叉验证法来检验判别函数模型的诊断能力,结果见表2
再将检验组42例(20%)患者共307枚淋巴结的数据代入诊断模型以验证 模型的诊断能力,结果见表3
17
判别函数的结果及检验
对上述检验模型进行验证,结果显示全部1217枚淋巴结,对 1003枚 非转移淋巴结共判对898枚,正确率为89.5%(即特异度);214枚转移淋 巴结中,判对169枚,正确率为79.0%(即敏感度),诊断模型的诊断符 合率为87.7%,共误判150枚,误判率为12.3%。交叉检验法与自身检验法 所得结果相近。 由于自身检验法及交叉验证法常常低估误判率,从而夸大判别效果, 因此我们采用验证样本对诊断模型作前瞻性误判概率的估计,这种方法所 得的误判概率比较客观。非转移淋巴结组共251枚淋巴结,判对223枚,正 确率为 88.8%(即特异度);转移淋巴结组共56枚,判对37枚,正确率为
观察指标的测量结果
本组208例食管癌患者中共有1524枚淋巴结,其中转移淋巴结270枚。 实验组中 共1217枚淋巴结,转移淋巴结214枚;检验组中307枚,转移淋巴结56枚,患者 的其它观察指标见表 1 。将其分为实验组即训练样本(166例,80%)及检验组 即验证样本(42例,20%),实验组用以建立诊断方程,检验组用以验证方程。
件之中,那么这封邮件是垃圾邮件的概率,就是联合概率。 如果假定所有事件都是独立事件(【注释】严格地说,这个假
定不成立,但是这里可以忽略),那么就可以计算P(E1)和P(E2)
10
贝叶斯应用:基于稀疏贝叶斯学习的个人信用评估
摘 要: 针对传统信用评估方法分类精度低、 特征可解释性差等问题, 提出了一种使用稀疏贝叶斯学习方法来进行个人信用评估的模型
其中, W1、W2和垃圾邮件的概率分别如下: Graham 就假定这个值等于 0.4。因为垃圾邮件用的往往都是某些固定的词语, 所以如果你从来没见过某个词,它多半是一个正常的词。) 事件 垃圾邮件 所谓联合概率,就是指在多个事件发生的情况下,另一个事件发生概率 有多大。比如,已知W1和W2是两个不同的词语,它们都出现在某封电子邮
练样本的类标签构成的向量;测试样本T的属性构成的向量
A=[a1,a2,„,aM]。 输出 测试样本的类标签。
步骤如下 1. 对训练样本属性矩阵D按列进行归一化; 2. 得到最优向量x; 3. 计算测试样本类标签。
12
实验环境及结果
采用加州大学欧文分校提供的机器学习公开数据集中的德国信用数据
集和澳大利亚信用数据集对本文方法进行验证。为了评估算法的性能,
பைடு நூலகம்
( SBLCredit) 。SBLCredit 充分利用稀疏贝叶斯学习的优势,在添加的特
征权重的先验知识的情况下进行求解,使得特征权重尽量稀疏,以此 实现个人信用评估和特征选择。在德国和澳大利亚真实信用数据集上, SBLCredit 方法的分类精度比传统的 K 近邻、 朴素贝叶斯、 决策树和 支持向量机平均提高了 4.52% ,6.40% ,6.26% 和2. 27% 。实验结果表 明,SBLCredit 分类精度高,选择的特征少,是一种有效的个人信用评 估方法[1]。
9
联合概率的计算
在已知W1和W2的情况下,无非就是两种结果:垃圾邮件(事件E1)或 做完上面一步,请问我们能否得出结论,这封新邮件就是垃圾邮件? 正常邮件(事件E2)。 回答是不能。因为一封邮件包含很多词语,一些词语(比如sex)说这是 事件 垃圾邮件 垃圾邮件,另一些说这不是。你怎么知道以哪个词为准? 出现 出现 是的 Paul Graham的做法是,选出这封信中P(S|W)最高的15个词,计算它们的 出现 出现 不是 联合概率。(【注释】如果有的词是第一次出现,无法计算P(S|W),Paul
6
建立历史资料库
• 贝叶斯过滤器是一种统计学过滤器,建立在已有的统计结果之上。所 以,我们必须预先提供两组已经识别好的邮件,一组是正常邮件,另 一组是垃圾邮件。 • 我们用这两组邮件,对过滤器进行"训练"。这两组邮件的规模越大, 训练效果就越好。Paul Graham使用的邮件规模,是正常邮件和垃圾邮 件各4000封。 • "训练"过程很简单。首先,解析所有邮件,提取每一个词。然后,计 算每个词语在正常邮件和垃圾邮件中的出现频率。比如,我们假定 "sex"这个词,在4000封垃圾邮件中,有200封包含这个词,那么它的 出现频率就是5%;而在4000封正常邮件中,只有2封包含这个词,那 么出现频率就是0.05%。(【注释】如果某个词只出现在垃圾邮件中, Paul Graham就假定,它在 正常邮件的出现频率是1%,反之亦然。这 样做是为了避免概率为0。随着邮件数量的增加,计算结果会自动调 整。) • 有了这个初步的统计结果,过滤器就可以投入使用了。
• 然后,对这封邮件进行解析,发现其中包含了sex这个词,请问这封邮 件属于垃圾邮件的概率有多高? • 我们用W表示"sex"这个词,那么问题就变成了如何计算P(S|W)的值,
即在某个词语(W)已经存在的条件下,垃圾邮件(S)的概率有多大。
根据条件概率公式,马上可以写出
8
贝叶斯过滤器的使用过程
公式中,P(W|S)和P(W|H)的含义是,这个词语在垃圾邮件和正常邮件中, 分别出现的概率。这两个值可以从历史资料库中得到,对sex这个词来说, 上文假定它们分别等于5%和0.05%。另外,P(S)和P(H)的值,前面说过都 等于50%。所以,马上可以计算P(S|W)的值:
15
筛选并建立判别函数
将以上各项数据进行逐步判别分析(分类变量赋值化:0为特征阴 性,1为特征阳性),筛选出淋巴结最大短径、最大长径、横纵比、最 大截面积、有无中央低密度、有无边缘模糊、是否成簇分布这 7 项变量 纳入方程,先验概率因未获得相关历史资料而取等概率。计算后获得诊 断方程的函数系数,并以此建立 Bayes判别函数: Y0 =-7.499X1 +7.957X2 +167.761X3 -0.87X4 + 0.459X5 -5.528X6 -0.711X7 - 66.080, Y1 =-6.697X1 +8.231X2 +181.686X3 -0.106X4 + 2.219X5- 3.331X6 - 0.124X7 -83.183 其中Y0为非转移组,Y1为转移组,X1为淋巴结最大短径,X2为淋巴结最 大长径,X3为横纵比,X4为最大截面积,X5为是否边缘模糊,X6为是否中 央低密度,X7为是否成簇分布.
与KNN、决策树、SVN进行比较,其中: KNN 算法中的K取10,决策树采 用径向基函数(RBF)核函数。 实验结果表明,在德国信用数据集上,相对于传统分类方法,该算法表
现出了更高的分类精度,比KNN、朴素贝叶斯、C4.5和SVM的分类精度分
别提高了5.52%,4.14%,6.68%和3.26%。且能有效的进行特征选择。 在澳大利亚信用数据集上,相对于传统分类方法,该算法仍然表现出 了更好的分类效果。较KNN、朴素贝叶斯、C4.5和SVM的分类精度分别 提高了1.51%,5.63%,2.90%和0.35%。特征选择效果没有在德国信用 数据集上那么明显。
2
3
4
贝叶斯推断的含义
5
贝叶斯推断及其互联网应用:过滤垃圾邮件
垃圾邮件是一种令人头痛的顽症,正确识别垃圾邮件的技术难度非 常大。传统的垃圾邮件过滤方法,主要有"关键词法"和"校验码法"等。 前者的过滤依据是特定的词语;后者则是计算邮件文本的校验码,再与 已知的垃圾邮件进行对比。它们的识别效果都不理想,而且很容易规避。 2002年,保罗· 格雷厄姆(Paul Graham)提出使用"贝叶斯推断"过滤 垃圾邮件。他说,这样做的效果,好得不可思议。1000封垃圾邮件可 以过滤掉995封,且没有一个误判。另外,这种过滤器还具有自我学习 的功能,会根据新收到的邮件,不断调整。收到的垃圾邮件越多,它的 准确率就越高。
66.1%(即敏感度);模型诊断符合率为84.7%, 共误判47枚,误判率为
15.3%,与上述两种检验法所得结果相近,且未超过20%,说明该诊断模 型具有临床应用价值。
18
检测僵尸网络的贝叶斯算法的MapReduce 并行化实现
【摘要】针对僵尸网络严重威胁着互联网的安全,以及目前主流的僵尸网络检测 方法准确性较低的问题,而贝叶斯算法具有较高的准确性,提出了基于 Hadoop 平台的 MapReduce 机制的贝叶斯算法。该方法利用网络流量进 行检测,并行化计算贝叶斯算法训练阶段的先验概率、条件概率和检测
19
检测僵尸网络的计算架构
被测网络环境、云环 境和代理服务器层三部分 构成,这三部分协同完成 僵尸网络的检测。每个被 测网络中有若干台机器和 一个核心交换机,连接一 个代理服务器,代理服务 器与核心交换机连接,主 要负责网络流量的采集、 解析、过滤并上传到云环 境中。云的hadoop 收集 并处理各个代理服务器上 传的网络流量,基于 MapReduce 的贝叶斯算法 实现僵尸网络的检测。
13
贝叶斯应用:探讨Bayes判别分析在食管癌淋巴结转移CT 诊断中的价值
目的:利用 Bayes 判别分析初步建立诊断食管癌淋巴结转移的各种CT 征象的联 合诊断模型。 方法:共搜集胸段食管癌208例,将其分为实验组即训练样本(166 例,80%)及 检验组即验证样本(42例,20%),实验组用以建立诊断方程,检验组 用 以验证方程。 结果:经计算获得的方程为: Y0 =-7.499X1 +7.957X2 +167.761X3 -0.87X4 +0.459X5 - 5.528X6 -0.711X7 - 66.080, Y1 =-6.697X1 +8.231X2 +181.686X3 -0.106X4 +2.219X5- 3.331X6 - 0.124X7 -83.183, 其中Y0为非转移组,Y1为转移组,X1为淋巴结最大短径,X2为淋巴结最大长径,X3为 横纵比,X4为最大截面积,X5为是否边缘模糊,X6为是否中央低密度,X7为是否成 簇分布.利用自身检验法所得诊断模型的符合率为 87.7%,误判率为 12.3%,交叉 检验法与自身检验法所得结果相近。当利用验证样本数据代入方程,所得模型诊 断符合率为84.7%,误判率为15.3%。结论:通过Bayes判别分析法所建立的不同 CT征象对食管癌淋巴结转移的联合诊断模型具有一定的诊断价值,但诊断模型还有 待进一步完善。 14
阶段的后验概率,以实现检测僵尸网络。通过实验表明,该方法检测僵
尸网络是有效的,检测正确率在 90%以上,并且该方法较单机检测僵尸 网络的贝叶斯算法效率有了很大的提高。
[1]邵秀丽 ,刘一伟 ,耿梅洁 ,韩健斌.检测僵尸网络的贝叶斯算法的MapReduce 并行化实
现[J].只能系统学报,2014,9( 1) : 1- 7
7
贝叶斯过滤器的使用过程
• 现在,我们收到了一封新邮件。在未经统计分析之前,我们假定它是垃 圾邮件的概率为50%。(【注释】有研究表明,用户收到的电子邮件中, 80%是垃圾邮件。但是,这里仍然假定垃圾邮件的"先验概率"为50%。) • 我们用S表示垃圾邮件(spam),H表示正常邮件(healthy)。因此, P(S)和P(H)的先验概率,都是50%。
相关文档
最新文档