(完整版)贝叶斯统计方法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
贝叶斯方法
贝叶斯分类器是一种比较有潜力的数据挖掘工具,它本质上是一种分类手段,但是它的优势不仅仅在于高分类准确率,更重要的是,它会通过训练集学习一个因果关系图(有向无环图)。如在医学领域,贝叶斯分类器可以辅助医生判断病情,并给出各症状影响关系,这样医生就可以有重点的分析病情给出更全面的诊断。进一步来说,在面对未知问题的情况下,可以从该因果关系图入手分析,而贝叶斯分类器此时充当的是一种辅助分析问题领域的工具。如果我们能够提出一种准确率很高的分类模型,那么无论是辅助诊疗还是辅助分析的作用都会非常大甚至起主导作用,可见贝叶斯分类器的研究是非常有意义的。
与五花八门的贝叶斯分类器构造方法相比,其工作原理就相对简单很多。我们甚至可以把它归结为一个如下所示的公式:
选取其中后验概率最大的c,即分类结果,可用如下公式表示
贝叶斯统计的应用范围很广,如计算机科学中的“统计模式识别”、勘探专家所采用的概率推理、计量经济中的贝叶斯推断、经济理论中的贝叶斯模型等。
上述公式本质上是由两部分构成的:贝叶斯分类模型和贝叶斯公式。下面介绍贝叶斯分类器工作流程:
1.学习训练集,存储计算条件概率所需的属性组合个数。
2.使用1中存储的数据,计算构造模型所需的互信息和条件互信息。
3.使用2种计算的互信息和条件互信息,按照定义的构造规则,逐步构建出贝叶斯分类模型。
4.传入测试实例
5.根据贝叶斯分类模型的结构和贝叶斯公式计算后验概率分布。6.选取其中后验概率最大的类c,即预测结果。
一、第一部分中给出了7个定义。
定义1 给定事件组,若其中一个事件发生,而其他事件不发生,则称这些事件互不相容。
定义 2 若两个事件不能同时发生,且每次试验必有一个发生,则称这些事件相互对立。
定义 3 若定某事件未发生,而其对立事件发生,则称该事件失败
定义4 若某事件发生或失败,则称该事件确定。
定义 5 任何事件的概率等于其发生的期望价值与其发生所得到
的价值之比。
定义6 机会与概率是同义词。
定义7 给定事件组,若当其中任何一个事件发生时,其余事件的概率不变,则称该事件组互相独立。
贝叶斯所给出的互不相容、相互独立、对立事件的定义与现在的定义差别无几,他首次明确了机会与概率的等价性。同时贝叶斯也给出了一系列命题。
二、贝叶斯统计的基本思想
拉普拉斯(Laplace,Pierre-Simon(1749~1827))发现了贝叶斯统计的核心——贝叶斯公式(又称为逆概公式),进行了更清晰的阐述,并用它来解决天体力学、医学统计以及法学问题。在介绍贝叶斯公式前,先简单介绍一下三种信息:总体信息、样本信息和先验信息。
1.1 总体信息:是人们对总体的了解,所带来的有关信息,总体信息包括总体分布或者总体分布族的有关信息。例如:“总体属于正态分布”、“它的密度函数是钟型曲线”等等。
1.2 样本信息:是通过样本而给我们提供的有关信息。这类“信息”是最具价值和与实际联系最紧密的信息。人们总是希望这类信息越多越好。样本信息越多一般对总体推断越准确。基于以上两种信息所作出的统计推断被称为经典统计。其特征主要是:把样本数据看成是来自具有一定概率分布的总体,所研究的对象是总体,而不是立足与数据本身。
1.3 先验信息,即在抽样之前有关统计问题的一些信息,一般说
来,先验信息主要来源于经验和历史资料。先验信息在日常生活中和工作中也经常可见,不少人在自觉或不自觉的使用它,但经典统计忽视了,对于统计推断是一个损失。
基于上述三种信息进行的推断被称为贝叶斯统计学。它与经典统计学的主要区别在于是否利用先验信息。在使用样本信息上也是有差异的。
2.贝叶斯统计的基本思想
国际数理统计主要有两大学派:贝叶斯学派和经典学派。他们之间既有共同点,又有不同点。贝叶斯统计与经典统计学的最主要差别在于是否利用先验信息,经典统计学是基于总体信息(即总体分布或总体所属分布族的信息)和样本信息(即从总体抽取的样本的信息)进行的统计推断,而贝叶斯统计是基于总体信息、样本信息和先验信息(即在抽样之前有关统计问题的一些信息,主要来源于经验或历史资料)进行的统计推断。贝叶斯统计是贝叶斯理论和方法的应用之一。
其基本思想是:假定对所研究的对象在抽样前己有一定的认识,常用先验(Prior)分布来描述这种认识,然后基于抽取的样本再对先验认识作修正,得到后验分布,而各种统计推断都基于后验分布进行。经典统计学的出发点是根据样本,在一定的统计模型下做出统计推断。在取得样本观测值X之前,往往对参数统计模型中的参数。有某些先验知识,关于的先验知识的数学描述就是先验分布。贝叶斯统计的主要特点是使用先验分布,经典统计学是基于总体信息(即总体分布或总体所属分布族的信息)和样本信息(即从总体抽取的样本的
信息)进行的统计推断,而贝叶斯统计是基于总体信息、样本信息和先验信息(即在抽样之前有关统计问题的一些信息,主要来源于经验或历史资料)进行的统计推断。贝叶斯统计是贝叶斯理论和方法的应用之一。
其基本思想是:假定对所研究的对象在抽样前己有一定的认识,常用先验(Prior)分布来描述这种认识,然后基于抽取的样本再对先验认识作修正,得到后验分布,而各种统计推断都基于后验分布进行。经典统计学的出发点是根据样本,在一定的统计模型下做出统计推断。在取得样本观测值X之前,往往对参数统计模型中的参数。有某些先验知识,关于的先验知识的数学描述就是先验分布。贝叶斯统计的主要特点是使用先验分布,经典统计学是基于总体信息(即总体分布或总体所属分布族的信息)和样本信息(即从总体抽取的样本的信息)进行的统计推断,而贝叶斯统计是基于总体信息、样本信息和先验信息(即在抽样之前有关统计问题的一些信息,主要来源于经验或历史资料)进行的统计推断。贝叶斯统计是贝叶斯理论和方法的应用之一。
其基本思想是:假定对所研究的对象在抽样前己有一定的认识,常用先验(Prior)分布来描述这种认识,然后基于抽取的样本再对先验认识作修正,得到后验分布,而各种统计推断都基于后验分布进行。经典统计学的出发点是根据样本,在一定的统计模型下做出统计推断。在取得样本观测值X之前,往往对参数统计模型中的参数
有某些先验知识,关