统计学-概率和分布
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
E(X ) np, 2 D(X ) npq
11
离散变量的概率分布——二项分布
【例5.2】某公司声称其生产的一批产品次品率为2%,若从中有放回地随机抽取 10个产品,试计算这10个产品中:(1)没有次品的概率是多少?(2)恰好有1 个次品的概率是多少?(3)有3个以下次品的概率是多少?
解:根据题意,每抽检一个产品相当于一次试验,由于感兴趣的是“次品”的个
p(k) k e , k 0,1,
k!
• 其中, 0。
• 可以进一步推导得到泊松分布的均值和方差均为 ,即
E(X ) , 2 D(X )
• 因此, 代表的就是单位时间或单位面积特定事件出现的平均次数。
15
离散变量的概率分布——泊松分布
【例5.4】假设位于某购物中心的星巴克咖啡店下午时段平均每小时有48个顾客 到店消费,试计算每10分钟内至少有3个顾客到店消费的概率是多少? 解:根据题意,由于感兴趣的是“每10分钟内”到店消费的顾客人数,因此将 “单位时间”定义为10分钟。平均每小时有48个顾客到店消费,那么单位时间 到店消费的平均人数为48÷60×10=8(个)。理论上可以假设,下午时段单位 时间到店消费的平均人数保持不变,并且不同时间段内到店消费的顾客人数相互 之间是独立的,因此,每10分钟内到店消费的顾客人数X服从泊松分布P(8)。 使用Excel中的【POISSON.DIST】函数可以计算得到:
统计学
Statistics
1
第 5 章 概率和分布
5.1 5.2 5.3 5.4 5.5
概率的几种确定方法 离散变量的概率分布 连续变量的概率分布 抽样分布 小结
2
第 5 章 概率和分布
5.1 概率的几种确定方法
3
概率的几种确定方法
• 等可能事件的概率 • 发生概率相等的事件就是通常所说的等可能事件(equally likely
因此,X的标准差 =24.9(元)
10
离散变量的概率分布——二项分布
• 如果某种试验只有两个可能结果,通常把感兴趣的一个结果定义为“成功”, 另一个结果定义为“失败”。当这种试验可以重复n次,并且满足:(1)各 次试验相互独立;(2)每次试验“成功”的概率保持不变,均为p,“失败” 的概率均为q=1-p,那么就称为n次伯努利(Bernoulli)试验。
• (3)正态随机变量X的取值可以向横坐标左右两个方向无限延伸,对 应的概率密度曲线尾部也无限接近横轴,但理论上永远不会与之相交。
• 而对于在一个区间内连续取值的连续变量来说,由于横坐标的取值不 再是离散的而是连续的,就需要绘制直方图。
• 可以想象,如果不断地细分连续变量取值的区间,直方图的矩形数目 就会不断地增加,最终直方图的轮廓就会越来越接近一条光滑的曲线。
• 由于纵坐标原本代表的是概率,所有矩形的高度和为1,通过调整量 纲,可以使得这条曲线下面的矩形面积总和为1。
E(X ) xi p(xi ) i
i 1,2,
• 离散型随机变量X的方差等于每一个可能取值与均值的差值平方,再
与相应的取值概率的乘积之和,通常用 2或D(X)表示,即
2 D(X ) (xi )2 p(xi ) i 1,2, i
9
离散变量的概率分布
【例5.1】某商场举办周年庆祝活动,所有消费者均可凭购物小票抽取现金礼券。
f (x)
1
e ,
1 2
2
(
x
)2
2
x
• 则称X服从参数为 , 2的正态分布,记作X ~ N(, 2 ) 。其中,是正
态随机变量X的均值,可以为任意实数; 2是X的方差, 0。
22
连续变量的概率分布——正态分布
23
连续变量的概率分布——正态分布
• 图5-2和5-3显示了不同参数取值对应的正态分布概率密度曲线,很容 易看出,正态分布具有如下一般性质:
• 在n次伯努利试验中,“成功”的次数是一个离散型随机变量X,其概率分布 服从二项分布(binomial distribution),记为X~B(n,p)。具体地,n次伯努 利试验中“成功”k次(即X=k)的概率可表示为:
p(k
)
Ck n
p
k
q
nk
,
k 0,1, , n
• 可以进一步推导得到二项分布的均值和方差分别为
100元 0.1
根据公式计算X的均值为
E( X ) xi p(xi )=20×0.6+50×0.3+100×0.1=37(元) i
根据公式计算X的方差为
2 D(X ) (xi )2 p(xi )=(20-37)2×0.6+(50-37)2×0.3+(100-37)2×0.1==6 i
取值
x1
x2
概率
p( x1 )
p(x2 )
• 显然,离散型随机变量的概率分布应满足
p(xi ) 1, p(xi ) 0, i 1,2,
i
8
离散变量的概率分布
• 离散型随机变量X的均值(也称期望值,expected value)等于其所
有可能取值与相应的取值概率的乘积之和,通常用 或E(X)表示,即
18
连续变量的概率分布
• 图5-1直观展示了上述过程。
图5-1 不断细分的直方图和逼近的曲线
• 上文描述的曲线即被称为连续变量的概率密度函数(probability density function,缩写为pdf),简称密度函数(density function)或 密度(density),通常记为f(x)。
使用Excel中的【HYPGEOM.DIST】函数可以分别计算得到:
(1)P(X=3)=p(3)=0.000877;
(2)P(X≥1)= p(1)+p(2)+ p(3)=1- p(0)=0.403509。
14
离散变量的概率分布——泊松分布
• 如果观察的事件在单位时间或单位面积出现的平均次数保持不变,并且不同 时段或空间区域内事件的发生是相互独立的,那么单位时间或单位面积该事 件出现的实际次数X服从泊松分布(Poisson distribution),记作 X ~ P()。具 体地,X=k的概率可表示为:
• 与离散型随机变量类似,连续型随机变量的概率密度函数应满足
- f (x)dx 1, f (x) 0
20
连续变量的概率分布
• 对于概率密度函数为f(x)的连续型随机变量X,其均值为
• 方差为
E( X ) xf (x)dx 2 D( X ) (x )2 f (x)dx
• 通常将满足P(X x ) 的数值 x 称为α下侧分位数(又称α分位数); 而将满足P( X x ) 的数值 x 称为α上侧分位数(又称α上分位数)。
19
连续变量的概率分布
• 从理论上很容易理解,连续变量在某个区间内取值的概率就是其密度 曲线在该区间上覆盖的面积,也就是概率密度函数在该区间上的积分。
• 显然,概率密度函数在某个点的积分为0。因此,连续变量恰好等于 某个特定数值的概率都是0,通常只有计算连续变量在某个(或多个) 区间内取值的概率才有实际意义。
• 显然,对于连续型概率分布,α上侧分位数等于(1-α)下侧分位数。
21
连续变量的概率分布——正态分布
• 正态分布(normal distribution,又称高斯分布,Gaussian distribution)是人们在日常生活中最常用也最熟悉的一类连续型概率 分布。
• 如果随机变量X的概率密度函数为:
event)。 • 一般地,如果某一试验的所有可能结果数是n,而每种结果发生的概
率是相等的,那么每种结果在一次试验中出现的概率就是1/n。如果 要考察某些组合结果发生的概率,只需要把组合结果中所包含的可能 结果的数目k除以n即可,也就是k/n。
4
概率的几种确定方法
• 用频率逼近概率
• 利用某一事件在多次重复试验中出现的次数占总试验次数的比例来估 计概率,这个比例称为相对频数(relative frequency)或频率。
6
第 5 章 概率和分布
5.2 离散变量的概率分布
7
离散变量的概率分布
• 用x1, x2 , 表示离散型随机变量X所有可能的取值,相应地,用 p(xi )表 示该变量取值为 xi的概率。因此,将X的所有可能取值和对应的取值
概率列在一张表格中,就是该离散型随机变量的概率分布,如表5-1
所示。
表5-1 离散型随机变量的概率分布
数,因此将“次品”定义为“成功”,次品率即为“成功”的概率p。有放回地 随机抽取使得每次试验都是相互独立的,并且次品率在每次试验中保持不变,这
就是n次伯努利试验。因此,在按照上述方式抽取的10个产品中的次品数X服从 二项分布B(10,0.02)。 使用Excel中的【BINOM.DIST】函数可以分别计算得到:
人都吃到硬币的概率是多少?(2)你们三个人至少有一个人吃到硬币的概率是
多少?
解:根据题意,每吃一个饺子相当于一次试验,由于感兴趣的是“有硬币的饺子”
的个数,因此将吃到“有硬币的饺子”定义为“成功”。饺子一共有20个(即总 体的元素个数),其中有3个饺子有硬币(即“成功”的元素个数),显然每吃 一个饺子都是无放回的随机试验,因此,你和父母三人所吃的3个饺子中“成功” 的次数X服从超几何分布H(3,20,3)。
是真实的概率。
5
概率的几种确定方法
• 主观概率 • 现实生活中还有很多事件既不是等概率的,也无法进行重复试验。 • 这些事件都不可能通过重复试验来估计其发生的概率,但人们可以结
合已经掌握的一些信息、相关因素或专业知识,基于自己的主观判断, 给出一个概率,这就是主观概率(subjective probability)。
的次数就不再服从二项分布,而是超几何分布(hypergeometric
• 一dis般tri地bu,tio用n)N代。表总体中元素的个数,M代表总体中“成功”的元素的个数,
n为试验次数,n次试验中“成功”的次数X服从超几何分布,记作X~H(n,N,
M)。具体地,n次试验中“成功”k次(即X=k)的概率可表示为:
• 其中,l=min(M,n)。
p(k)
C C k nk M NM
,
Cn N
k 0,1, ,l
• 可以进一步推导得到超几何分布的均值和方差分别为
E(X ) nM ,
2
D(X )
nM
nM
2
n(n 1)M (M
1)
N
N N
N(N 1)
13
离散变量的概率分布——超几何分布
【例5.3】假设除夕夜你和父母包了20个饺子,并在其中3个饺子里各放进了一枚 硬币。饺子都煮熟后,你和父母三人各随机夹了一个,试计算:(1)你们三个
商场负责人称,现金礼券的面额分别为20元、50元和100元,抽中的概率分别是
60%、30%和10%。试计算该商场现金礼券抽奖金额的均值和标准差。
解:根据题意,该商场现金礼券的抽奖金额X是一个离散型随机变量,其概率分
布如表5-2所示。
表5-ຫໍສະໝຸດ Baidu 某商场现金礼券抽奖金额的概率分布
取值 概率
20元 0.6
50元 0.3
• (1)正态分布的密度曲线是关于 x 对称的钟形曲线,即 x 左右 两边曲线下的面积相等,且最高点也在x 处。
• (2)正态分布密度曲线的具体形式由参数 , 2 唯一确定,均值决
定了曲线的中心位置,方差 2决定了曲线的“胖瘦”。2 越小,密度
曲线越陡峭,变量在均值 附近的取值越集中2 ; 越大,密度曲线则 越扁平,变量在均值 附近的取值越分散。
P(X≥3)=1- p(0)- p(1)-p(2)=0.986246
16
第 5 章 概率和分布
5.3 连续变量的概率分布
17
连续变量的概率分布
• 如果用横坐标表示离散变量的可能取值,纵坐标表示概率,那么任一 离散变量的概率分布都可以绘制成相应的条形图(变量的每一个可能 取值相当于一个“类别”)。
• 理论上认为,相同条件下重复的试验次数n趋于无穷时,特定事件A发
生的次数m就会趋于稳定,据此计算得到的频率就会逼近事件A发生 的真实概率,即有 P(A) m 。
n
• 基于上述理论可以得出,在不同试验次数n的情况下,特定事件出现
的频率m/n将围绕该事件发生的真实概率波动,并且随着试验次数n的
增加,其波动的幅度将逐渐减小,最终趋于稳定,这个稳定的频率就
(1)P(X=0)=p(0)=0.817073;
(2)P(X=1)=p(1)=0.16675;
(3)P(X<3)= p(0)+p(1)+ p(2)=0.999136。
12
离散变量的概率分布——超几何分布
• 如果某种试验只有“成功”和“失败”两个可能结果,在重复n次试验的过程
中,各次试验并不独立,每次试验“成功”的概率也不相等,此时“成功”