贝叶斯公式的简介

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

贝叶斯公式在人工智能中的应用

2013年4月7日

一、公式

贝叶斯定理 若A 1,A 2,…,A n 构成完备事件组,且P (A i )>0,(i =1,2,…,n ), 则对任一事件B (P (B )>0)有

上式称为贝叶斯公式.

概率推理 若有命题变量V 1,V 2,…,V n 的一个集合υ,并给定υ的子集ε中的变量的某些值ε=e (Ture or Flase )作为证据。我们希望计算概率()e V P i i ==ευ,即给定证据时变量V i,的值为的条件概率。我们把这个过程叫概率推理。

由于V i 有值True 或False ,故我们对两个条件概率感兴趣,它们是p (v i =True|ε=e )和p (v i =flase|ε=e )。当然,我们只要计算它们中的一个就行了,因为有

p (v i =True|ε=e )+p (v i =Flase|ε=e )=1.

不管ε为何值,用条件概率的定义,我们有

其中,p(vi=true,ε=e)通过使用从高阶联合概率密度计算低阶联合概率的方法获得:

()∑===),,(,k i V V p e True V p 1ε.

p(ε=e)的计算能用同样的方法进行。

二、发展历史

贝叶斯 Thomas Bayes ,英国数学家.1702年出生于伦敦,做过神甫。1742年成为英国皇家学会会员。1763年4月7日逝世。贝叶斯在数学方面主要研究概率论。他首先将归纳推理法用于概率论基础理论,并创立了贝叶斯统计理论,对于统计决策函数、统计推断、统计的估算等做出了贡献.1763年发表了这方面的论著,对于现代概率论和数理统计都有很重要的作用。贝叶斯的另一著作《机会的学说概论》发表于1758年。贝叶斯所采用的许多术语被沿用至今。

贝叶斯决策理论是主观贝叶斯派归纳理论的重要组成部分。贝叶斯决策就是在不完全情报下,对部分未知的状态用主观概率估计,然后用贝叶斯公式对发生概率进行修正,最后再利用期望值和修正概率做出最优决策。

贝叶斯决策理论方法是统计模型决策中的一个基本方法,其基本思想是:1、已知类条件概率密度参

数表达式和先验概率;2、利用贝叶斯公式转换成后验概率;3、根据后验概率大小进行决策分

()

n k A B P A P A B P A P B A P i n i i k k k ,,,)()()

()(211==∑

=())

()

,(e p e True V p e True V p i i ======εεε

类。

他对统计推理的主要贡献是使用了"逆概率"这个概念,并把它作为一种普遍的推理方法提出来。贝叶斯定理原本是概率论中的一个定理,这一定理可用一个数学公式来表达,这个公式就是著名的贝叶斯公式。贝叶斯公式是他在1763年提出来的:假定B 1,B 2,……是某个过程的若干可能的前提,则P(B i )是人们事先对各前提条件出现可能性大小的估计,称之为先验概率。如果这个过程得到了一个结果A ,那么贝叶斯公式提供了我们根据A 的出现而对前提条件做出新评价的方法。P(B i ∣A)既是对以A 为前提下B i 的出现概率的重新认识,称 P(B i ∣A)为后验概率。经过多年的发展与完善,贝叶斯公式以及由此发展起来的一整套理论与方法,已经成为概率统计中的一个冠以“贝叶斯”名字的学派,在自然科学及国民经济的许多领域中有着广泛应用。

三、应用

1 基于词的统计机器翻译

基于词的统计机器翻译,顾名思义,其主要思想是以词作为翻译的基本单位。训练时,它从语料库中统计目标语言单词翻译为源语言单词的概率。翻译时,首先查找每个源语言单词所对应的目标语言单词,然后插入、删除目标语言单词,并调整它们的顺序,最后组合成目标语言句子。这种方法的典型代表就是上世纪90年代初期IBM 公司的布朗等人提出的基于信源信道模型的方法,可以说,它为现代统计机器翻译研究的蓬勃发展奠定了坚实的基础。

信源信道模型将统计机器翻译看成一个信息传输的过程:信道的输入是目标语言,在经过信道编码以后,输出源语言ef ,机器翻译的任务就是将源语言f 还原(翻译)为目标语言e ,这一过程通常称之为解码。需要注意的是,这种模型与人们通常的认识有所区别。就模型而言,信道的输入是目标语言,而输出则是源语言,实际上在翻译(解码)时,还是将源语言作为输入,目标语言作为输出。

根据贝叶斯(Bayes )公式,布朗等人提出了统计机器翻译的基本方程式:

其中,Pr(e)是目标语言的语言模型,衡量生成的目标语言的合法程度;

Pr(f|e)是翻译模型,

()()

e f e e Pr Pr max arg ˆ=

衡量目标语言文本翻译为源语言文本的概率。解码的任务就是根据上式找到概率最大的译文。在此基础上,IBM公司的研究人员提出了5个复杂程度层层递进的翻译模型,使用EM算法1从句子对齐的语料库中自动学习单词的翻译概率,然后利用动态规划算法进行解码。

IBM引入的统计方法是通用的,功能也比较强大,在法—英翻译上达到了当时基于句法转换的系统的水平。IBM模型的成功,可以说给整个机器翻译界带来了极大的冲击。它不仅使机器翻译研究者重新思考以前的翻译方法,而且也激发了他们对统计方法用于机器翻译的浓厚兴趣。

IBM的工作一直延续到1995年,之后由于研究经费的原因而被迫中止。但是由于文献[3]中详细记载了IBM方法,后续的研究者在1999年约翰.霍普金斯大学(JHU)夏季研讨班上重新实现了IBM模型,并公开了源代码GIZA2。之后奥赫(Och)博士在此基础上发布了增强版GIZA++3。这些工作为后来统计机器翻译的发展奠定了坚实的基础。

IBM方法可以说是纯粹的单词到单词自动转录方法,除了计算复杂之外,另外一个很大的缺陷在于它只能学习到两种语言单词之间互为翻译的知识,而对单词的上下文语境却不敏感。这就导致了IBM方法在单词层面(word-level)上由于缺乏上下文语境而不能正确选择译文,尤其是不能正确翻译习惯表达、成语等多个单词结合紧密,却不能通过把逐个单词翻译然后拼凑在一起形成译文的源语言串。

2 基于短语的方法

这种方法的基本思想是以短语作为翻译的基本单位。在翻译过程中,不是孤立地翻译每个词,而是将连续的多个词一起翻译。由于扩大了翻译的粒度,基于短语的方法很容易处理局部上下文依赖问题,能够很好地翻译习语和常用词搭配。一般而言,在基于短语的方法中,短语可以是任意连续的字符串,不作语法上的限制。这样可以方便地从词语对齐的双语语料库中自动获取双语短语翻译。给定一个源语言句子,基于短语的模型翻译过程如下:

1) 对源语言句子进行短语划分;

2) 根据翻译模型翻译每个短语;

3) 对目标短语进行语序调整。 (图3是基于短语的翻译过程示例)

3 训练

训练的时候,最初输入的是一个双语语料库,即一对一对互为翻译的句子。如样例1所示。

相关文档
最新文档