基于贝叶斯概率模型的机器学习
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.68 0.63 1.25 28.72 28.78 28.93 28.67 28.95 28.98 31.46 32.21 28.93 28.78 29.01 28.07 28.06 17.37 28.64 29.54 1.6
0.38 0.06 0.42 6.25 6.36 6.18 6.61 5.83 6.23 4.25 2.54 0.15 1.22 0.52 0.22 0.07 0.66 0.09 0.72 4.96
– 视频跟踪 – 哼唱找歌 自然语言处理 – 机器翻译 – 信息检索(google, baidu) – 中文输入法 生物信息处理 – 基因挖掘 – 大分子功能预测 – 基因调控关系 网络安全 – 垃圾邮件过滤 – 敏感图片识别 – 病毒检测
二 基于朴素贝叶斯概率模型的水华预测及仿真
在对不同的水体状态和外界环境对近期会发生水华现象之 概率估计的影响因子不同的研究基础上,建立了基于 bayes 分类 器的概率预测模型。 以概率的形式提供给决策者和风险函数的引 入也是符合实际或必要的; 而且此模型克服了神经网络模型的不 可解释性以及决策树模型对缺失数据的敏感性和过度拟合问题, 充分利用先验信息和历史数据推理预测水华的爆发; 仿真结果也
验证了此模型具有稳定的预测效率。 所谓水华 (water blooms) ,就是淡水水体中藻类大量繁殖的 一种自然生态现象,是水体富营养化的一种特征,主要由于生活 及工农业生产中含有大量氮、磷的废污水进入水体后,蓝藻、绿 藻、硅藻等藻类成为水体中的优势种群,大量繁殖后使水体呈现 蓝色或绿色的一种现象; 也是叶绿素 a 急剧增长的过程。 淡水中 “ 水华 ” 造成的危害是:水中溶氧大量减少、鱼类等生物大量 死亡、饮用水源受到污染,藻毒素通过食物链影响人类的健 康;还会带来水污染甚至是空气污染;使与水产相关的经济链 遭受损失。 湖泊的富营养化是水华现象发生的主要因素,主要指标是水 中的总含氮量(N)和总含磷量(P)。当水中的氮、磷等有营养盐 浓度大量增加后,为藻类快速繁殖提供了有利的条件,加上适度 的水体温度(T)、外界光照强度(S) 、溶解氧浓度(DO)和水的 PH 值等外部条件,致使藻类爆发性生长,聚集漂浮到水面上, 从而形成水华。 国外的学者应用决策树和分段非线性统计回归方 法, 也有国内的学者采用神经网络或其改进方法成功预测了水中 的叶绿素 a 浓度的变化趋势,都取得了较大的成效。水华的爆发 概率不仅与外界环境因素和水体物质成分有关, 而且随地域和季 节的不同而发生变化, 这些不确定因素使得用常规方法建立准确 的预测模型变得相对困难; 而贝叶斯概率模型正是通过对样本学 习,在新的测试样本输入下,以概率的形式得到推理结果并提供
groupNum(i)=group(i); else groupNum(i)=groupNum(i-1)+group(i); end end group; %计算分类个数数组 groupNum; %各类的分界线 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %计算总平均值 % for j=1:n-1 % TotalMean(j)=0; % for i=1:m % TotalMean(j)=TotalMean(j)+yangben(i,j+1); % end % TotalMean(j)=TotalMean(j)/m; % end %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%%%%%%%%%%%%%% GroupMean=[] ; for i=1:g if i==1 low=1; up=groupNum(i); else low=groupNum(i-1)+1; up=groupNum(i); end matrix=yangben(low:up,:);%KNIFE 改过 (low:up,:) MatrixMean=mean(matrix); %各分类组平均值 GroupMean=[GroupMean;MatrixMean]; for u=low:up for v=2:n C(u,v-1)=yangben(u,v)-MatrixMean(v); end end end C GroupMean V=C'*C/(m-g); %协方差矩阵 V_inv=inv(V); %对矩阵V求逆 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%%%%%%%%%%%%%%%%%%%%%%%%%
到 y j 类。 朴素贝叶斯分类器默认 x1 , x2 … xn 之间相互独立 故: P( x1 wenku.baidu.com x2 ...xn | y j ) P( xi | y j )
i
YMAP arg max P( y j ) P( xi | y j )
y j Y i
(2)
arg max log P( y j ) log P( xi | y j )
测试样本
推理结果以概率的形式表示出来:
有上述数据可知,第一个测试样本(现场采集的数据)通过贝 叶斯推理属于第二类的概率是 0.7499, 而第二个样本属于第二类 的概率是 0.9560, 即系统根据两个样本预测不会发生水华的概率 分别是 0.7499 和 0.9560。同理会发生水华的概率分别是 0.2501 和 0.0440,即第一个样本发生水华的概率大些。决策者根据这些 辅助结果做出相应的应对措施。 总结和展望: 这是数据统计的分类方法,缺点是:当数据训练集越大时,
给决策者。决策者根据客观的推理结果做出相应的预防措施,如 增大水体流速、洒粘土和投放鱼类等。概率的大小或增减趋势也 反映了水华爆发的时间积累信息(这段时间对预测结果肯定或否 定的贡献值)。 朴素贝叶斯分类器(Naï ve Bayes Classifer ) 一般而言,贝叶斯求解的是最大后验概率,由果推因;反过来 说,在存在一定因果关系的基础上,由因推果(由存在的证据推 算某类结果的概率)的贝叶斯模型在理论上也成立。朴素贝叶斯 模型发源于古典数学理论,有着坚实的数学基础,此模型所需估 计的参数很少,算法的实现也比较简单。理论上,朴素贝叶斯模 型与其他分类方法相比具有最小的误差率。 贝叶斯公式:
条件先 y j 事件发生的概率,YMAP 是在向量 X=< x1 , x2 … x6 >的条件 下 y1 和 y2 之中发生概率较大的那个事件,也是此模型的输出, 辅助决策者做出决策(是否采取人工干预措施预防水华的爆发)。
P( y j ) 是 y j ( j 1, 2 )事件发生的先验概率,之所以称为"先验"是因
处理得越精确,但是数据训练集小的话,分类就不是很准确了。 优点是;理论比较简单,可操作性比较强,在大多数的情况下都 可行,分类准确性比较好。
附件.Matlab程序
clear;clc; yangben=[ 1 3.37 2.24 2.67 7.53 1 1.21 2.52 3.15 4.23 1 3.24 2.04 4.55 8.16 2 2.44 2.09 36.05 5.44 2 2.20 2.32 35.94 5.03 2 2.12 1.90 36.80 5.70 2 2.96 3.27 34.55 5.48 2 2.25 1.80 36.43 5.33 2 2.19 1.87 36.69 5.55 2 1.97 1.22 37.61 5.06 2 2.64 1.41 35.73 5.03 3 2.17 1.22 32.1 6.41 3 1.81 1.05 31.03 3.89 3 1.49 0.83 31.06 3.85 3 2.15 1 30.61 5.47 3 0.36 0.17 51.05 23.45 3 0.12 0.10 62.31 40.91 3 0.22 0.11 53.17 21.88 3 2.33 1.64 33.95 7.66 3 0.93 0.41 11.71 6.49 ]; g=3; [m,n]=size(yangben); %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% for i=1:g groupNum(i)=0; group(i)=0; for j=1:m if yangben(j,1)==i group(i)=group(i)+1; end end if i==1
多只能够证实已存在事实、定理,而不能发现新的定理、定律和 规则等。 随着人工智能的深入发展, 这些局限性表现得愈加突出。 正是在这种情形下,机器学习逐渐成为人工智能研究的核心之 一。他的应用已遍及人工智能的各个分支,如专家系统、自动推 理、自然语言理解、模式识别、 计算机视觉、智能机器人等领域。 其中尤其典型的是专家系统中的知识获取瓶颈问题, 人们一直在 努力试图采用机器学习的方法加以克服。 机器学习的研究是根据生理学、 认知科学等对人类学习机理 的了解,建立人类学习过程的计算模型或认识模型,发展各种学 习理论和学习方法,研究通用的学习算法并进行理论上的分析, 建立面向任务的具有特定应用的学习系统。 这些研究目标相互影 响相互促进。 分类 – 朴素贝叶斯(Native Bayes) – Fisher 线性判别 – 支持向量机(support vector machine, SVM) – K 近邻(k nearest neighbors, kNN) 聚类 – K 均值(K means) 机器学习的应用 多媒体处理 – 人脸识别、指纹识别
为它不考虑任何 X 方面的因素,它可以来自决策者的经验也可以 是从样本数据中学习过程。 P( xi | y j ) 是条件概率密度,代表 y j 发 生的条件下向量 X 中第 i 个属性发生的概率密度,是在样本学习 中估计的概率密度。 仿真样本的设计:水华爆发的条件水体温度(25-30)跟季节有 很大的关系,光强 4000-4500 lx,河水 PH8.2 最高达到 8.4 是水 华生长最快,氮磷比 7 :1 ,DO (水中的溶氧量)有升高的趋 势随后减小。此模型的泛化能力和适应性,只需根据当地的实际 条件的实际样本进行训练再结合统计先验概率或人的经验估计 训练样本的设计:
基于贝叶斯概率模型的机器学习
(应用于水华预测)
姓
名:白正彪
学
院:自动化学院
学
号: 2010203147
机器学习总结及朴素贝叶斯在水华预 警中的应用
一 机器学习总结 机器学习(Machine Learning)是研究计算机怎样模拟或实现 人类的学习行为,以获取新的知识或技能,重新组织已有的知识 结构使之不断改善自身的性能。他是人工智能的核心,是使计算 机具有智能的根本途径,其应用遍及人工智能的各个领域,他主 要使用归纳、综合而不是演译。学习能力是智能行为的一个非常 重要的特征,但至今对学习的机理尚不清晰。人们曾对机器学习 给出各种定义。 H.A.Simon 认为, 学习是系统所作的适应性变化, 使得系统在下一次完成同样或类似的 任务时更为有效。 R.s.Michalski 认为,学习是构造或修改对于所经历事物的表示。 从事专家系统研制的人们则认为学习是知识的获取。 这些观点各 有侧重,第一种观点强调学习的外部行为效果,第二种则强调学 习的内部过程,而第三种主要是从知识工程的实用性角度出发 的。 机器学习在人工智能的研究中具有十分重要的地位。 一个不 具有学习能力的智能系统难以称得上是个真正的智能系统, 不过 以往的智能系统都普遍缺少学习的能力。例如,他们遇见错误时 不能自我校正;不会通过经验改善自身的性能;不会自动获取和 发现所需要的知识。他们的推理仅限于演绎而缺少归纳,因此至
y j Y i
arg min log P( y j ) log P( xi | y j )
y j Y i
在本文中,X=< x1 , x2 … x6 > 是包含传感器测得的水质总含氮量 (N) 、总含磷量(P) 、水体温度(T)、外界光照强度(S) 、溶解 氧浓度(DO)和 PH 六种信息的向量,具体的元素值是传感器 的测得数据经过卡尔曼滤波或其他滤波器处理的输出值。 通常情 况下,水体的富营养化是由人类活动引起的,如低水平的制造业 产生的工业废水,现代化农业生产中大量流失的农药、化肥,未 经处理的城镇生活污水,高密度水产养殖遗留的剩余饵料,以及 在航运、旅游等水上活动产生的一些污染物等;外界条件也是可
p ( A | B)
p( B | A) P( A) p( B)
(1)
p( A | B) 表示在 B 事件发生的条件下,A 事件发生的概率;
P( A) , p( B) 分别表示 A、B 事件发生的概率;
假定目标函数 f : X Y; 向量 X=< x1 , x2 … xn > 根据公式(1)
YMAP arg max P( y j | x1 , x2 ...xn )
以认为是相互独立的,故可以认为 X 的属性是相互独立的,满 足朴素贝叶斯的假设条件。 另外,还把预测结果 Y 分为二类:
y1 代表近期会发生水华现象, y2 代表近期不会发生水华现象。
P( y j | x1 , x2 , x3 , x4 , x5 , x6 ) 表示在测得一组向量 X=< x1 , x2 … x6 >的
y j Y
YMAP arg max
y j Y y j Y
P( x1 , x2 ...xn | y j ) P( y j ) P( x1 , x2 ...xn )
arg max P( x1 , x2 ...xn | y j ) P( y j )
YMAP 表示 f(X)取得最大值时的 y j ,即按照贝叶斯原理推理得