超几何分布和二项分布的联系和区别
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
超几何分布和二项分布的联系和区别
开滦一中 张智民
在最近的几次考试中,总有半数的的学生搞不清二项分布和超几何分布,二者到底该如何区分呢?什么时候利用二项分布的公式解决这道概率问题?什么时候用超几何分布的公式去解决呢?
好多学生查阅各种资料甚至于上网寻找答案,其实这个问题的回答就出现在教材上,人教版新课标选修2-3从两个方面给出了很好的解释.
诚可谓:众里寻他千百度,蓦然回首,那人却在灯火阑珊处! 一、两者的定义是不同的
教材中的定义: (一)超几何分布的定义
在含有M 件次品的N 件产品中,任取n 件,其中恰有X 件次品,则P(X=k)
=n
N
k
-n M -N k M C C C , ,2,1,0k =, m,其中m=min{M,n},且n ≤N,M ≤N,n,M,N ∈N,称随机变量X 服从超几何分布
(二)独立重复试验和二项分布的定义
1)独立重复试验:在相同条件下重复做的n 次试验,且各次试验试验的结果相互独立,称为n 次独立重复试验,其中A(i=1,2,…,n)是第ⅰ次试验结果,则
P(A1A2A3…An)=P(A 1)P(A2)P(A3)…P(An) 2)二项分布
在n 次独立重复试验中,用X 表示事件A 发生的次数,设每次试验中事件A 发生的概率
为P,则P(X=k)=k n k p p --)1(C k n
(k=0,1,2,…,n),此时称随机变量X 服从二项分布,记作X~B(n,p),并称P 为成功概率。
1.本质区别
(1)超几何分布描述的是不放回抽样问题,二项分布描述的是放回抽样问题;
(2)超几何分布中的概率计算实质上是古典概型问题;二项分布中的概率计算实质上是相互独立事件的概率问题
2.计算公式
超几何分布:在含有M 件次品的N 件产品中,任取n 件,其中恰有X 件次品,则P(X=k)
=n N
k
-n M -N k M C C C , ,2,1,0k =, m,
二项分布:在n 次独立重复试验中,用X 表示事件A 发生的次数,设每次试验中事件A 发
生的概率为P,则P(X=k)=k
n k p p --)1(C k n
(k=0,1,2,…,n), 温馨提示:当题目中出现“用样本数据估计XXX 的总体数据”时,均为二项分布问题。
比如
2017-2018高三上学期期末考试19题。
二、二者之间是有联系的
人教版新课标选修2-3第59页习题2.2B 组第3题:
例.某批n 件产品的次品率为2%,现从中任意地依次抽出3件进行检验,问:
(1)当n=500,5000,500000时,分别以放回和不放回的方式抽取,恰好抽到1件次品的概率各是多少?
(2)根据(1)你对超几何分布与二项分布的关系有何认识? 人教版配套的教学参考上给出了如下的答案与解释说明 【解】(1)在不放回的方式抽取中,每次抽取时都是从这n 件产品中抽取,从而抽到次品的概率都为0.02.次品数X~B(3,0.02),恰好抽到1件次品的概率为
P(X=1)=1
3C ×0.02×(1-0.02)2=3×0.02×0.982≈0.057624。
在不放回的方式抽取中,抽到的次品数X 是随机变量,X 服从超几何分布,X 的分布与产品的总数n 有关,所以需要分3种情况分别计算
①n=500时,产品的总数为500件,其中次品的件数为500×2%=10,合格品的件数为490.从500件产品中抽出3件,其中恰好抽到1件次品的概率为
057853.0498499500489
49030)1(3
500
2490110≈⨯⨯⨯⨯===C C C X P ②n=5000时,产品的总数为5000件,其中次品的件数为5000×2%=100,合格品的件数为
4900.从5000件产品中抽出3件,其中恰好抽到1件次品的概率为
0576747.04998499950004899
4900300)1(3
5000
249001100≈⨯⨯⨯⨯===C C C X P ③n=50000时,产品的总数为50000件,其中次品的件数为50000×2%=1000,合格品的件
数为49000.从50000件产品中抽出3件,其中恰好抽到1件次品的概
057626.049998499995000048999
490003000)1(3
50000
24900011000≈⨯⨯⨯⨯===C C C X P (2)根据(1)的计算结果可以看出,当产品的总数很大时,超几何分布近似为二项分布.这也
是可以理解的,当产品总数很大而抽出的产品较少时,每次抽出产品后,次品率近似不变,这样就可以近似看成每次抽样的结果是互相独立的,抽出产品中的次品件数近似服从二项分布
【说明】由于数字比较大,可以利用计算机或计算器进行数值计算.另外本题目也可以帮助学生了解超几何分布和二项分布之间的关系:
第一,n 次试验中,某一事件A 出现的次数X 可能服从超几何分布或二项分布.当这n 次试验是独立重复试验时,X 服从二项分布;当这n 次试验是不放回摸球问题,事件A 为摸到某种特性(如某种颜色)的球时,X 服从超几何分布。
第二,在不放回n 次摸球试验中,摸到某种颜色的次数X 服从超几何分布,但是当袋子中
的球的数目N 很大时,X 的分布列近似于二项分布,并且随着N 的增加,这种近似的精度也增加。
从以上分析可以看出两者之间的联系:
当调查研究的样本容量非常大时,在有放回地抽取与无放回地抽取条件下,计算得到的概率非常接近,可以近似把超几何分布认为是二项分布 下面看相关例题
例1.(2016·漯河模拟)寒假期间,我市某校学生会组织部分同学,用“10分制”随机调查“阳光花园”社区人们的幸福度.现从调查人群中随机抽取16名,如图所示的茎叶图记录了他们的幸福度分数(以小数点前的一位数字为茎,小数点后的一位数字为叶),若幸福度分数不低于8.5分,则称该人的幸福度为“幸福”
(1)求从这16人中随机选取3人,至少有2人为“幸福”的概率;
(2)以这16人的样本数据来估计整个社区的总体数据,若从该社区(人数很多)任选3人,记ξ表示抽到“幸福”的人数,求ξ的分布列及数学期望
先不要急于看答案,大家先自己解一下这道题再往下看,会有意想不到的收获哦
[错解](1)由茎叶图可知,抽取的16人中“幸福”的人数有12人,其他的有4人;记“从这16人中随机选取3人,至少有2人是“幸福”,”为事件A.由题意得
140121
709140111)(3
16
1122431634=--=⨯--=C C C C C A P (2)ξ的可能取值为0,1,2,3
则14015604)0(31601234====C C C P ξ;709
56072)1(3
161
1224====C C C P ξ; 7033560264)2(31621214====C C C P ξ;2811
560220)3(3
16
3
1204====C C C P ξ; 所以ξ的分布列为
[错解分析]第二问的选人问题是不放回抽样问题,按照定义先考虑超几何分布,但是题目中又明确给出:“以这16人的样本数据来估计整个社区的总体数据,从该社区(人数很多)任选3人”,说明不是从16人中任选3人,而是从该社区(人数很多)任选3人,所以可以近似看作是3次独立重复试验,应该按照二项分布去求解,而不能按照超几何分布去处理
【正解】(1) (1)由茎叶图可知,抽取的16人中“幸福”的人数有12人,其他的有4人;记“从这16人中随机选取3人,至少有2人是“幸福”,”为事件A.由题意得
140121
709140111)(3
16
1122431634=--=⨯--=C C C C C A P 2)由茎叶图知任选一人,该人幸福度为“幸福”的概率为
4
3
,ξ的可能取值为0,1,2,3,显然)4
3
,3(B ~ξ
则64141)0(3
=⎪⎭⎫ ⎝⎛==ξP ;6494143)1(2
13=⎪⎭⎫ ⎝⎛⋅⋅==C P ξ; 64274143)2(2
23=
⎪⎭⎫ ⎝⎛⋅⎪⎭⎫ ⎝⎛⋅==C P ξ;642743)3(3
=⎪⎭
⎫
⎝⎛==ξP ;
从以上解题过程中我们还发现,错解中的期望值与正解中的期望值相等,好多学生都觉得不可思议,怎么会出现相同的结果呢?其实这还是由于前面解释过的原因,超几何分布与二项分布是有联系的,看它们的期望公式:
(1)在含有M 件次品的N 件产品中,任取n 件,其中恰有X 件次品,随机变量Ⅹ服从超几
何分布,超几何分布的期望计算公式为EX=N
nM
(可以根据组合数公式以及期望的定义推导);
(2)随机变量X 服从二项分布,记作X~B(n,p), EX=np;
当超几何分布中的∞→N 时,p N
M
→,此时可以把超几何分布中的不放回抽样问题,近似看作是有放回抽样问题,再次说明∞→N 时,可以把超几何分布看作是二项分布。
总结:综上可知,当提问中涉及“用样本数据来估计总体数据”字样的为二项分布。
高考解题中,我们还是要分清超几何分布与二项分布的区别,以便能正确的解题,拿到满分。
相信各位同学们手中都应该有历年真题卷和2018的模拟试卷吧,快去找几道二项分布和超几何分布的概率大题试试吧,争取概率满分,加油!
再比如:
18.(本小题满分12分)(百所名校高考模拟金典卷五)
为了调查观众对某电视娱乐节目的喜爱程度,某人在甲、乙两地各随机抽取了8名观众做问卷调查(满分100分),现将结果统计如下图所示
(1)计算甲、乙两地被抽取的观众的问卷得分的平
均分以及方差,并根据统计知识简单说明丽甲、乙两地
观众对该电视娱乐节目的喜爱程度;
(2)以频率估计概率,若从甲地观众中再随机抽取
3人进行问卷调查,记问卷分数超过80分的人数为E,
求的分布列与数学期望
请看原题答案,居然是错解:
正解:(1)同上。
(2)因为题中说:以频率估计概率,即以该频率来估计甲地区的整体情况,“若从甲地观众中再随机抽取3人”即时强有力的证据,所以此题应为二项分布,而非超几何分布。
超过80分的频率为
34,即概率p=3
4
,ξ的可能取值为0,1,2,3, 3
31(0)1464P x ⎛⎫==-= ⎪⎝⎭,1
2
13319(1)4464
P x C ⎛⎫⎛⎫
=== ⎪
⎪
⎝⎭
⎝⎭, 2
233127(2)4464P x C ⎛⎫⎛⎫===
⎪ ⎪⎝⎭⎝⎭,3
327
(3)464P x ⎛⎫=== ⎪⎝⎭; 所以X 的分布列为
X 0 1 2
3 P
164 964
2764
2764
E (X )=np=9
4。
而下面这道题,就应该是超几何分布啦!
18.(本小题满分12分)(2018石家庄质检一)某学校为了解高三复习效果,从高三第一学期期中考试成绩中随机抽取50名考生的数学成绩,分成6组制成频率分布直方图如图所示:
(1)求m 的值;并且计算这50名同学数学成绩的样本平均数
(Ⅱ)该学校为制定下阶段的复习计划,从成绩在[130,150]的同学中选出3位作为代表进行座谈,记成绩在140,150]的同学人数为ξ,写出ξ的分布列,并求出期望。
18. 解(Ⅰ)由题()0.0040.0120.0240.040.012101
m +++++⨯=
解得 0.008m = ……… 3分
950.004101050.012101150.024101250.04101350.012101450.00810x =⨯⨯+⨯⨯+⨯⨯+⨯⨯+⨯⨯+⨯⨯
121.8= ……… 6分
(Ⅱ)成绩在[)130,140的同学人数为6,,在[]140,150的同学人数为4,从而ξ的可能取 值为0,1,2,3,
()0346310106C C P C ξ===, ()12463101
12
C C P C ξ=== ()21463103210C C P C ξ=== ()30463101
330
C C P C ξ===
所以ξ的分布列为
ξ
0 1 2 3
P
16 12 310 130
……… 10分
11316
0123.6210305
E ξ=⨯+⨯+⨯+⨯= ……… 12分
18.(本小题满分12分)(2018百所名校示范卷五) “共享单车”是城市慢行系统的一种模一A 城市 B 城市式创新,对于解决民众出行“最后一公1公里”的问题特别见效,由于停取方便、租用价格低廉,各种共享单车受到人们的 热捧.某机构为了调查人们对此种交通方式的满意度,从交通拥堵的A 城市和交通严重拥堵的B 城市分别随机调查了20个用户,得到了一个用户满意度评分的样本,若评分不低于80
分,则认为该用户对此种交通方式“认可”,否则认为该用户对此种交通方式“不认可”,并绘制出茎叶图如图。
(1)请根据此样本完成下面的2×2列联表,并据此样本分析是否能在犯错的概率不超过10%的情况下认为交通拥堵与认可共享单车有关;
(2)若以A 城抽取的这20个用户的样本数据来估计整个A 城的总体数据,现从A 城任选3名用户,记X 表示抽到用户为对此种交通方式“认可”的人数,求X 的分布列及数学期望 参考公式:
2
2
(),()()()()
n ad bc K a b c d a c b d -=++++
其中n=a+b+c+d. 参考数据:
P (K 2> k 0) 0.10 0.05 0.025
0.010 0.005 0.001 k 0 2.706 3.841 5.024 6.635 7.879 10.828 解:(1)K 2的观测值
k=
240(5101015)8
2.706,202015253
⨯-⨯=<⨯⨯⨯所以不能在犯错误的概率不超过10%的情况下认为城市拥堵与认可共享单车有关。
(2)X 的可能取值为0,1,2,3
3
327(0)464P x ⎛⎫=== ⎪⎝⎭,2
131327(1)4464P x C ⎛⎫=== ⎪
⎝⎭, 2
23139(2)4464P x C ⎛⎫⎛⎫===
⎪ ⎪⎝⎭⎝⎭,3
11(3)464P x ⎛⎫
=== ⎪⎝⎭; 所以X 的分布列为
X 0
1 2 3 P
2764 2764
964
164
E (X )=np=3
4。
A B 合计 认可 5 10 15 不认可 15 15 25 合计
20
20
40。