概率统计补充案例解析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

补充案例:概率部分:

案例1、“三人行必有我师焉”

案例2、抓阄问题

案例3、贝叶斯方法运用案例介绍

案例4、化验呈阳性者是否患病

案例5、敏感性问题的调查

案例6、泊松分布在企业评先进中的应用

案例7、碰运气能否通过英语四级考试

案例8、检验方案的确定问题

案例9、风险型决策模型

案例10、一种很迷惑游客的赌博游戏

案例11、标准分及其应用

案例12、正态分布在人才招聘中的应用

案例13、预测录取分数线和考生考试名

统计部分:

案例14、随机变量函数的均值和标准差的近似计算方法案例15、如何表示考试成绩比较合理

案例16、如何估计湖中黑、白鱼的比例

案例17、预测水稻总产量

案例18、工程师的建议是否应采纳

案例19、母亲嗜酒是否影响下—代的健康

案例20、银行经理的方案是否有效

案例21、一元线性回归分析的Excel实现

案例22、方差分析的Excel实现

案例23、预测高考分数

案例24、两次地震间的间隔时间服从指数分布

案例1、“三人行必有我师焉”

我们可以运用概率知识解释孔子的名言“三人行必有我师焉”. 首先我们要明确一个问题,即只要在某一方面领先就可以为师(韩愈说“术业有专攻”). 俗语说“三百六十行,行行出状元”,我们不妨把一个人的才能分成360个方面。孔子是个大圣人,我们假设他在一个方面超过某个人的概率为99%,那么孔子在这方面超过与他“同行”的两个人的概率为99% ×99% =98.0l %,在360个方面孔子总比这两人强的概率为

(98.01%)360=0.07% ,即这两个人在某一方面可以做孔子老师的概率为99.93%.从数学角度分析,孔子的话是很有道理的. 案例2、抓阄问题

一项耐力比赛胜出的10人中有1 人可以获得一次旅游的机会,组织者决定以抓阄的方式分配这一名额. 采取一组10人抓阄,10张阄中只有一张写“有”. 每个人都想争取到这次机会,你希望自己是第几个抓阄者呢? 有人说要先抓,否则写有“有”的阄被别人抓到,自己就没有机会了;有人说不急于先抓,如果前面的人没有抓到写有“有”的阄,这时再抓抓到“有”的机会会大一些. 为了统一认识,用概率的方法构造一个摸球模型来说明问题.

摸球模型:袋中装有1 个红球和9 个黄球除颜色不同外球的大小、形状、质量都相同. 现在10 人依次摸球(不放回),求红球被第 k 个人摸到的概率( k = 1, 2, ⋯, 10).

解决问题 :设 k A = “ {第 k 个人摸到红球

}, k = 1, 2, ⋯

, 10. 显然,红球被

第一个人摸到的概率为

101

)(1=

A P . 因为 12A A ⊆,于是红球被第二个人摸到的概率为 101

91109)()()()(121212=

⨯===A A P A P A A P A P .

同样,由 213A A A ⊆知红球被第三个人摸到的概率为

1018198109)()()()()(2131213213=

⨯⨯=

==A A A P A A P A P A A A P A P .

如此继续,类似可得 )(4A P = =

=ΛΛ)(5A P 101

)(10

=A P .

由此可见,其结果与k无关,表明10 个人无论摸球顺序如何,每个人摸到红球的机会相等. 这也说明10 个人抓阄,只要每个人在抓之前不知道他前边那些已经抓完的结果,无论先后, 抓到的机会是均等的.

在现实生活中单位分房、学生分班、短缺物品的分配等,人们常常乐于用抓阄的办法来解决,其合理性保证当然得归功于“概率”. 通过上面的摸球模型,我们总结出分配中的“抓阄”问题,无论先抓后抓,结果是一样的.学完概率之后再遇到抓阄问题时不必争先恐后,我们要发扬风格让他人先抓.

案例3、贝叶斯方法运用案例介绍

什么是贝叶斯过滤器?

垃圾邮件是一种令人头痛的顽症,困扰着所有的互联网用户。

正确识别垃圾邮件的技术难度非常大。传统的垃圾邮件过滤方法,主要有"关键词法"和"校验码法"等。前者的过滤依据是特定的词语;后者则是计算邮件文本的校验码,再与已知的垃圾邮件进行对比。它们的识别效果都不理想,而且很容易规避。

2002年,Paul Graham提出使用"贝叶斯推断"过滤垃圾邮件。他说,这样做的效果,好得不可思议。1000封垃圾邮件可以过滤掉995封,且没有一个误判。

另外,这种过滤器还具有自我学习的功能,会根据新收到的邮件,不断调整。收到的垃圾邮件越多,它的准确率就越高。

建立历史资料库

贝叶斯过滤器是一种统计学过滤器,建立在已有的统计结果之上。所以,我们必须预先提供两组已经识别好的邮件,一组是正常邮件,另一组是垃圾邮件。

我们用这两组邮件,对过滤器进行"训练"。这两组邮件的规模越大,训练效果就越好。Paul Graham使用的邮件规模,是正常邮件和垃圾邮件各4000封。

"训练"过程很简单。首先,解析所有邮件,提取每一个词。然后,计算每个词语在正常邮件和垃圾邮件中的出现频率。比如,我们假定"sex"这个词,在4000封垃圾邮件中,有200封包含这个词,那么它的出现频率就是5%;而在4000封正常邮件中,只有2封包含这个词,那么出现频率就是0.05%。(【注释】如果某个词只出现在垃圾邮件中,Paul Graham 就假定,它在正常邮件的出现频率是1%,反之亦然。随着邮件数量的增加,计算结果会自动调整。)

有了这个初步的统计结果,过滤器就可以投入使用了。

贝叶斯过滤器的使用过程

现在,我们收到了一封新邮件。在未经统计分析之前,我们假定它是垃圾邮件的概率为50%。(【注释】有研究表明,用户收到的电子邮件中,80%是垃圾邮件。但是,这里仍然假定垃圾邮件的"先验概率"为50%。)

我们用S表示垃圾邮件(spam),H表示正常邮件(healthy)。因此,P(S)和P(H)的先验概率,都是50%。

然后,对这封邮件进行解析,发现其中包含了sex这个词,请问这封邮件属于垃圾邮件的概率有多高?

相关文档
最新文档