贝叶斯统计与马航搜寻
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
贝叶斯统计与马航搜寻
摘要:马航客机MH370已经失联超过一个月,中国在内的全球多国在南海与印度洋连日海空搜寻未果,希望渐趋渺茫。马航客机的搜寻,牵动着家属的心,也牵动着世界各国人民的心。马航搜寻过程中,贝叶斯统计起到了重要作用。
关键词:马航;贝叶斯;反演;概率。
1.导言
失踪多日的马航MH370客机航向何方,如今位在何处,已经成为本世纪至今最大的谜团。对于钻研数字,分析变项与评估机率的统计学者看来,找到失踪客机的可能性将涉及大量信息与数字分析。将概率学与海洋模拟实验相结合的方法,可以帮助人们尽快找到失联客机。
1966年美国一架B-52轰炸机在西班牙的帕洛玛雷斯上空发生事故,与加油机碰撞,飞行员失去对飞机的控制,轰炸机上的四枚氢弹找到一枚基本完好无损的,和两枚在人员稀少的地区爆炸的,还有一枚失踪了。一位名为约翰·克雷文的数学家被美国当局调派到当地进行搜寻工作。克雷文博士采取贝叶斯方法,做出各种假设,想象出各种情景,然后在各种情境下猜测出氢弹在各个位置的概率,以及每种情境出现的可能性,他从专家那里得到结果后,综合到一起,画了一张氢弹位置的概率图:把整个可能的区域划分成了很多个小方格,每一个小方格有不同的概率值,有高有低,如同地图上表示山峰和山谷的等高线一样,完成了贝叶斯方法的第一步。在搜索的过程中同时对每个格子的概率进行更新,不过,概率最大的方格子指示的位置常常是陆地上险峻的峡谷和深海区,即使氢弹真的在那里,也未必找得到,所以需要绘制另一张概率图,表示“氢弹已经在那里,能找到的概率”而不是氢弹位置的概率。最后氢弹被找到,两张概率图和他的贝叶斯方法发挥了不小作用。两年后,克雷文又用同样的方法找到了失踪的潜艇“天蝎号”,下图为当时他在搜寻过程中绘制的20英里海域概率图:
几十年间,贝叶斯方法应用越来越广泛,从搜索引擎筛选词条到无人驾驶汽车综合判断自己的行驶位置,钻进了各个角落。
2.预备知识
英国学者T.贝叶斯1763年在《论有关机遇问题的求解》中提出一种归纳推理的理论,后被一些统计学者发展为一种系统的统计推断方法,称为贝叶斯方法。采用这种方法作统计推断所得的全部结果,构成贝叶斯统计的内容。认为贝叶斯方法是唯一合理的统计推断方法的统计学者,组成数理统计学中的贝叶斯学派,其形成可追溯到 20世纪 30 年代。到50~60年代,已发展为一个有影响的学派。时至今日,其影响日益扩大。它的技术原理分为先验分布与后验分布两种。
先验分布是总体分布参数θ的一个概率分布。贝叶斯学派的根本观点,是认为在关于θ的任何统计推断问题中,除了使用样本X所提供的信息外,还必须对θ规定一个先验分布,它是在进行推断时不可或缺的一个要素。贝叶斯学派把先验分布解释为在抽样前就有的关于θ的先验信息的概率表述,先验分布不必有客观的依据,它可以部分地或完全地基于主观信念。
例如,某甲怀疑自己患有一种疾病A,在就诊时医生对他测了诸如
θ;体温、血压等指标,其结果构成样本X。引进参数θ:有病时,1
=θ。X的分布取决于θ是0还是1,因而知道了X有助于推无病时,0
=
断θ是否为1。按传统(频率)学派的观点,医生诊断时,只使用X提供的信息;而按贝叶斯学派观点,则认为只有在规定了一个介于0与1之
θ的先验概率时,才能对甲是否有病(即θ是否间的数p作为事件}1
{=
为1)进行推断。p这个数刻画了本问题的先验分布,且可解释为疾病A
的发病率。先验分布的规定对推断结果有影响,如在此例中,若疾病A 的发病率很小,医生将倾向于只有在样本X 显示出很强的证据时,才诊断甲有病。在这里先验分布的使用看来是合理的,但贝叶斯学派并不是基于 “p 是发病率”这样一个解释而使用它的,事实上即使对本病的发病率毫无所知,也必须规定这样一个p ,否则问题就无法求解。
后验分布则是根据样本X 的分布)(θP 及θ的先验分布)(θπ,用概率论中求条件概率分布的方法,可算出在已知x X =的条件下,θ的条件分布 )|(x θπ。因为这个分布是在抽样以后才得到的,故称为后验分布。贝叶斯学派认为:这个分布综合了样本X 及先验分布)(θπ所提供的有关的信息。抽样的全部目的,就在于完成由先验分布到后验分布的转换。如上例,设001.0)(==θP p ,而86.0)|1(==x θπ,则贝叶斯学派解释为:在某甲的指标量出之前,他患病的可能性定为0.001,而在得到X 后,认识发生了变化:其患病的可能性提高为0.86,这一点的实现既与X 有关,也离不开先验分布。计算后验分布的公式本质上就是概率论中著名的贝叶斯公式。
贝叶斯推断方法的关键在于所作出的任何推断都必须也只须根据后验分布)|(x θπ,而不能再涉及X 的样本分布)(θP 。
3.具体应用
贝叶斯搜索理论利用贝叶斯统计理论搜索失踪物,曾被多次用于搜救失踪的船只。一般的流程如下:1.提出所有关于船只失踪事件的假设。
2.针对每一假设,构造船只位置的空间分布概率。
3.针对每一位置,假设已知船只位于此处,计算能找到失踪船只的概率分布。在海洋中,这一般取决于水深:在浅水处找到失踪物的机会比在深水处大。
4.结合上述两个概率分布,构造整体的搜索成功的概率分布。
5.构造搜索路径:始于高概率区,经过居中概率区,最后搜索低概率区。
6.在搜索过程中,持续更新上述概率分布。例如,如果在某处未能找到失踪物,那么船只位置分布于此的概率要被降低。这一更新过程需要用到贝叶斯定理。 贝叶斯搜索不仅可以综合多个信息来源,而且可以自动估计搜索成功的概率。即使在搜索前,我们可以估计“5天内找到失踪物的概率是65%。在搜索十天后,这个概率会升高到90%。15天后,升高到97%”。如此,在分配搜索资源前可以评估可行性。
假定失踪物位于某区域的概率是p,在此处能搜索成功的概率是q。如果搜索此处后未能找到失踪物,根据贝叶斯定理,失踪物位于此
果其原本失踪物在其处的概率是r,那么这一概率将被更新为
2009年的失联法航客机447的搜寻过程中,以贝叶斯统计方法为基础,经过三次失败的搜寻,终于在第四次找到了飞机。在正常的情况下,地面控制台每5分钟就会收到飞机发回的信息,其中包括飞机的位置、高度、航速和航向等。信号消失前飞机最后所在的位置乘以5分钟时间,就能确定出一个以飞机最后所在的位置为中心,以当时航速条件下5分钟能走的距离为半径的一个圆,这就是飞机落水的最大海域范围。也就是说,如果是由飞机故障问题或飞行员操作失误所造成的飞机失事,这架飞机一定在这个圆的范围内,而这个圆的半径大约为40海里(约1.7万平方公里)。可是要在这个圆内找到飞机也不是一件容易的事。通常的做法是用声呐仪在附近进行高密度地寻找。在大多数情况下,飞机应当离飞机最后所在的位置不远的位置。但由于法航客机最后所在的位置范围内的海区有4000米之深,且处于复杂海脊带,所以用高密度寻找方法未能找到。当人们在海面上发现了有遇难者的遗体后,反演至飞机失事时的位置,见下图: