统计学 三大分布-经典案例全集
统计学三大分布的应用
统计学三大分布的应用
统计学三大分布是指正态分布、t分布和卡方分布。
这些分布在统计学中应用广泛,下面将分别介绍其应用。
正态分布是自然界中最常见的分布之一,常用于描述连续性变量。
例如,身高、体重、智商等连续性变量都可以用正态分布来描述。
在假设检验、置信区间估计和回归分析等统计学方法中,正态分布也是一个非常重要的理论基础。
t分布是由威廉·塞德威克·高斯特(W.S.Gosset)于1908年提
出的,用来解决小样本量的问题。
t分布的形状与正态分布非常接近,但是在样本量较小的情况下,t分布的尾部更宽一些,因此在小样本量的情况下,使用t分布进行假设检验和置信区间估计更为合适。
卡方分布是概率论中一个重要的分布,通常应用于描述计数数据。
例如,在卡方检验中,卡方分布常常用来处理分类数据,如调查中统计“喜欢”或“不喜欢”某种产品或服务的人数。
卡方分布也常用于多项式回归和逻辑回归等模型中。
综上所述,正态分布、t分布和卡方分布在统计学中应用非常广泛,是统计学的重要组成部分。
对于从事统计学研究或相关领域的人员来说,深入理解和熟练运用这些分布是非常重要的。
- 1 -。
三大抽样分布课件
差异。
04
CATALOGUE
卡方分布
卡方分布的定义
定义
卡方分布是一种连续概率分布,描述 了随机变量的取值与自由度的平方之 间的比例关系。
公式
若随机变量X符合卡方分布,则X的概 率密度函数为f(x)=x^(n/2-1)e^(x/2)/2^(n/2)Γ(n/2),其中n为自由度 ,Γ为伽玛函数。
正态分布
正态分布的定义
01
正态分布是一种连续概率分布, 其概率密度函数呈钟形,对称轴 为均值所在直线,形状由标准差 决定。
02
正态分布是自然界中最常见的分 布形态,许多随机变量都服从或 近似服从正态分布。
正态分布的性质
01
02
03
集中性
正态分布曲线以均值为中 心,两侧分布对称。
均匀性
正态分布曲线是关于标准 差对称的,形状由标准差 决定。
t分布
t分布的定义
定义
t分布(也称为学生t分布)是一种 连续概率分布,其形状由自由度 参数决定。
描述
当数据来自正态分布的总体,且样 本量较小(通常n<30)时,t分布 近似于正态分布。
公式
t分布的密度函数和分布函数可以用 一系列复杂的数学公式来描述。
t分布的性质
形状
峰度
随着自由度的增加,t分布的形状逐渐 接近正态分布。
t分布的峰度大于正态分布的峰度,且 随着自由度的增加而减小。
偏度
t分布通常是偏态的,其偏度随着自由 度的增加而减小。
t分布在统计学中的应用
假设检验
在样本量较小时,t分布在假设 检验中常用作正态分布的替代,
用于检验统计假设。
三大统计分布
, x0 x0
,
(6-17)
图6.4是四组不同参数下该密度函数的图像.
1.0
n1 20, n2 10 n1 5, n2 10 n1 5, n2 5 n1 1, n2 5
0.8
0.6
0.4
0.2
0.0 0 1 2 3 4 5
x
图 6.4
F 分布的概率密度函数
另外,由定义6.3,立即有以下结论: 1 若F ~ F (n1 , n2 ) ,则 F ~ F (n , n ) . 1 这个结论可用于计算分布 F ~ F (n2 , n1 )的 -上侧 分位数 F (n1 , n2 ) . 具体地说,我们有 1 F (n1 , n2 ) . (6-18) F1a (n2 , n1 ) 事实上,由 F ~ F (n1 , n2 )、 1 ~ F (n2 , n1 ) 以及上 F 侧分位数的定义可推出
2 - 分布也称为皮尔逊 2 -分布. 这是数理统计中
一个十分重要的概率分布. 根据独立随机变量和的密度公式(3-27)和数学 2 (n)-分布的概率密度函 归纳法,可以证明: 1 x e , x0 数为(详见[5]) f ( x ) 2 Γ( ) ,(6-9) 0 , x 0 其中Γ( x)是Γ -函数,定义见第四章附录2. 图 6.1是 2 -变量的概率密度函数(6-9)在几种不 同参数下的图像.
f n ( x)
N(0,1) n = 10 n=5 n=2 n=1
0.30.2Fra bibliotek0.10 -3
-2
-1
0
1
2
x
3
图 6.3
t-分布的概率密度函数
(2)(数字特征)若 Tn ~ t (n) , n 2 ,则
概率论与数理统计 7.2 数理统计中的三大分布
7.2 数理统计中的三大抽样分布
在数理统计中,以标准正态变量为基石而构 造的三个著名统计量有着广泛的应用,这是因为 这三个统计量不仅有明确背景,而且其抽样分布 的密度函数有明显的数学表达式,它们被称为统 计中的“ 三大抽样分布 ” 。
1. 2 分布
数理统计
2分布是由正态分布派生出来的一种分布.
t1 (n) t (n)
o t (n)
x
t分布的上分位点t (n)可查表
求得,例t0.025(15) 2.1315.
当n 45时,对于常用的的值,可用正态近似 t (n) z
例3:X ~ t(15)
(1)求 0.01的上侧分位数; (2) P( X ) 0.05,求 ; (3)P( X ) 0.95 ,求 .
记为 t ~ t(n). t分布概率密度函数为:
f (t)
[(n 1)
2]
(1
t
2
)
n1 2
,
t
(n 2) n n
t 分布的图像
y N (0,1) 数理统计
t(n)
t分布的性质: 1. 设t ~ t(n),则E(t) 0, D(t) n (n 2) (n 2)
2. t分布的密度函数关于t 0对称.当n充分大时, 其图形近似于标准正态分布概率密度的图形,
F分布的上分位点的性质:
F1 (n1, n2 )
1 F (n2 , n1 )
F分布的上分位点可查表求得.例,
F0.95 (12,9)
1 F0.05 (9,12)
1 2.80
0.357
例4. F ~ F (24,15),求 1,2 使 P(F 2 ) 0.025 P(F 1) 0.025
统计学 三种常用分布
以其中二只死亡的概率是多少为例,则3只 白鼠中2只死亡的概率为上述概率之和
引出
P=3×π2(1-π)= C32? 2 (1? ? )
?? ?? ?? P( X ? k) ? Cnk k (1 ?
)n?k
?
?n?
? ?
k
? ?
k (1 ?
)n?k ?
n!
k!(n ? k)!
k (1 ?
)n?k
Bernoulli试验的三个条件
?注意:单双侧
正态分布法
百分位数法
双侧
单侧
双侧
单侧
%
下限 上限
下限 上限
90 x ? 1.64 x ? 1.28s x ? 1.28 s P5~P95
P10
P90
95 x ? 196s x ? 1.64s x ? 1.64s P2.5~P9.75 P5
P95
99 x ? 2.58s x ? 2.33s x ? 2.33s P0.5~P99.5 P1
x 第一只白鼠 第二只白鼠 第三只白鼠 发生的概率
0 存活 1 死亡
存活
存活 存活 死亡
存活 存活 存活
P=(1-π)3 P=π(1-π)2 P=π(1-π)2
存活
存活
死亡
P=π(1-π)2
2 死亡 死亡 存活
3 死亡
死亡 存活 死亡 死亡
存活 死亡 死亡 死亡
P=π2(1-π) P=π2(1-π) P=π2(1-π) π3
? 每一次试验结果,只能是两个互斥的结果之一 (成功与失败)
? 每次试验成功的概率不变 ? 各次试验相互独立
如果服从以上三个条件,那么n次试验中, 成功次数X服从二项分布。记为X~B(n,? )
三大抽样分布及常用统计量的分布
随(1机) 样XX本132,试XX2问42 下; 列(2统) 计n量n各1XX服i21从; 什(么3)分(n3布?n1)Xi31i2
X
2 i
.
i2
i4
n
续解 (2) 因为X1~N(0,1),
X
2 i
~
2(n
1)
故
i2
n 1X1
n
n
X1
~t(n-1).
X
2 i
X
2 i
(n 1)
i2
i2
例1 设总体X~N(0,1), X1,X2,…,Xn为简单
项是独立的.所以(4.1)式的自由度是n-1.
定理3: 设(X1,X2,…,Xn)为来自正态总体
X~N( , 2)的样本,则
(1) 样本均值 X与样n本方差S 2相互独立;
(2)
(n 1)S 2
2
(Xi
i 1
2
X)2
~
2(n 1)
(4.1)
与以下补充性质的结论比较:
性质 设(X1,X2,…,Xn)为取自正态总体
f(x)
其中f(x)是 2-分布的概率密度. O
图5-5 2(n) x
显然,在自由度n取定以后,2(n)的值只与有关.
例如,当n=21,=0.05时,由附表3(P254)可查得,
02.05(21) 32.67 即 P 2(21) 32.67 0.05.
二、t分布
定义3 设随机变量X~N(0,1),Y~ 2(n) ,
(4.1)
(4.1)式的自n 由度为什么是n-1?
从表面上看, (Xi X)2是n个正态随机变量 Xi X 的平方和,
但实际上它们不i是1 独立的,它们之间有一种线性约束关系:
统计学 三大分布-经典案例全集
结论:当n<<N(n<=0.05N)超几何分布→二项分布
0.6
0.5
0.4
0.3
0.2
0.1
0
1
2
3
4
0.5
0.45
0.4
0.35
0.3
超几何分布 0.25 二项分布 0.2
0.15
0.1
0.05
0
1
2
3
4
超几何分布 二项分布
10=3次+7正,任取3件, 有放回 无放回
100=30次+70正,任取3件, 有放回 无放回
例220 某商店根据过去的销售记录知道某种商品每月的 销售量可以用参数为10的泊松分布来描述 为了以95%以 上的概率保证不脱销 问商店在月底应存多少件该种商品(设 只在月底进货)?大卖场的顾客数n很大,买商品概率P很少/多
解 设该商店每月销售该 商品的件数为X 月底存货为a 则当Xa时就不会脱销 据题 意 要求a使得
泊松分布
0.06
二项正态
0.04
二项泊松分离
0.02
二项正态重合
0
1 4 7 10 13 16 19 22 25 28 31
二项分布→泊松分布/正态分布 n=100,p=0.2,np=20
0.12
0.1
N=2000产品
次品NA=400
0.08 二项分布
0.06
泊松分布
二项正态 0.04
二项泊松分离
理论基础
数据:N=总体个数,N1=总体中A的个数, n=样本个数,k=样本中A的个数;
逼近关系:
N件产品,其中N1件次品 n<=0.05NN件产品,次品率N1/N
概率论中三个重要分布 ppt课件
χ2分布 t分布 F分布
PPT课件
1
χ2分布
PPT课件
2
χ2分布的定义
设X为正态分布总体的随机变量,其平均数及
方差分别为μ和σ2,即X~N(μ,σ2), 为X来自该
总体的n个样本值x1, x2, …, xn的样本平均数,则 样本统计量
n
(xi X )2
i 1
PPT课件
15
t分布的α分为点
对于给定的α(0<α<1),称满足条件
P{t t (n)}
的点tα(n)为t分布上的α分为点 由t分布概率密度函数的对称性有
t1 (n) t (n)
PPT课件
16
t分布α分为点的求法
t分布α分为点的求法:
对于n≤45的α分为点可查表求得; 当n充分大(n>45)时,近似地有
χ2分布的期望为:E(χ2(n))=n,方差为: D(χ2(n))=2n
χV2~分χ2布(n具2),有则可U加+性V~。χ若2(nU1~+χn22()n1),
PPT课件
6
χ2分布的α分为点
对于给定的α(0<α<1) ,称满足条件
P( 2 (n) 2 (n))
的点2 (n)为χ2(n)分布的α分为点
知时,以样本方差s2替代,则
X
s
t
~
t(n
1)
n
是自由度为n-1的t分配,记为t(n-1)
PPT课件
11
t分布的概率密度
t(n-1)的概率密度函数为
f (t)
Γ(n) 2
(1
t2
统计三大分布
根据独立随机变量商的密度公式(3-32),
可以证明(过程从略):(6-13)中的
Tn
概率密度函数为
根据独立随机变量商的密度公式(3-32),可
以证明(过程从略):(6-13)中 Tn 的概率
密度函数为
, x . fn(x)
Γ(
n1 2
)
n
Γ(
n 2
)
1
x2 n
n1 2
(6-14)
另外,t -分布具有以下性质:
变量不小于该数的概率为 . 比如,若记 2-
变量
2 n
的
-上侧分位数为,则满足(见图
6.2).
fn (x)
2 (n)
x
图 6.2
对不太大的n,如
n
60,可用附表3查
2
(n)
的
值,而对较大的n,则可用(6-11)近似计
算
2 (n) n 2n U , (6-12)
其中U 是标准正态分布N(0,1)的 -上侧分位
数,可通过附表2查出.
二、t -分布
定则 自义称由6.2度T为设n nX的Y~XtN/ -n(0分,1)布,Y,(6~记-123作()n)所,Tn 服X~ t与从(n)Y的.独t分-立分布,布是
也称为学生分布,是英国统计学家戈塞特 (Goset,1876-1937)在1908年“Student”
的笔名首次发表的,这个分布在数理统计 中也占有重要的地位.
,则
顺便指出,自由度为1的t -分布也称为柯西
(Cauchy)分布,它以其数学期望和方差
均不存在而闻名(见例4.3).
记t -分布t(n) 的 -上侧分位数为t (n),附表4
给出了不同n和 所对应的t (n) 数值. 另外,
统计学案例集
统计学精品课程建设小组二○○六年十一月【案例一】全国电视观众抽样调查抽样方案一、调查目的、范围和对象1.1 调查目的准确获取全国电视观众群体规模、构成以及分布情况;获取这些观众的收视习惯,对电视频道和栏目的选择倾向、收视人数、收视率与喜爱程度,为改进电视频道和栏目、开展电视观众行为研究提供新的依据。
1.2 调查范围全国31个省、自治区、直辖市(港澳台除外)中所有电视信号覆盖区域。
1.3 调查对象全国城乡家庭户中的13岁以上可视居民以及4-12岁的儿童。
包括有户籍的正式住户也包括所有临时的或其他的住户,只要已在本居(村)委会内居住满6个月或预计居住6个月以上,都包括在内。
不包括住在军营内的现役军人、集体户及无固定住所的人口。
二、抽样方案设计的原则与特点2.1 设计原则抽样设计按照科学、效率、便利的原则。
首先,作为一项全国性抽样调查,整体方案必须是严格的概率抽样,要求样本对全国及某些指定的城市或地区有代表性。
其次,抽样方案必须保证有较高的效率,即在相同样本量的条件下,方案设计应使调查精度尽可能高,也即目标量估计的抽样误差尽可能小。
第三,方案必须有较强的可操作性,不仅便于具体抽样的实施,也要求便于后期的数据处理。
2.2 需要考虑的具体问题、特殊要求及相应的处理方法2.2.1 城乡区分城市与农村的电视观众的收视习惯与爱好有很大的区别。
理所当然地应分别研究,以便于对比。
最方便的处理是将他们作为两个研究域进行独立抽样,但代价是,这样做的样本点数量较大,调查的地域较为分散,相应的费用也就较高。
另一种处理方式是在第一阶抽样中不考虑区分城乡,统一抽取抽样单元(例如区、县),在其后的抽样中再区分城、乡。
这样做的优点是样本点相对集中,但数据处理较为复杂。
综合考虑各种因素,本方案采用第二种处理方式。
在样本区、县中,以居委会的数据代表城市;以村委会的数据代表农村。
2.2.2 抽样方案的类型与抽样单元的确定全国性抽样必须采用多阶抽样,而多阶抽样中设计的关键是各阶抽样单元的选择,其中尤以第一阶抽样单元最为重要。
三大分布概率论与数理统计
1,
X
2 2
~
2
1,
X
2 1
X
2 2
~
2
2.
下图分别是当 n 1,4,10,20 时的概率密度函数图形.
例1 设 X1, X 2 , , X6 是取自总体 N 0,32 的简单随
机样本, 求非零常数 a,b, c , 使得
Q aX12 b X2 X3 2 c X4 X5 X6 2
② 2 分布的可加性: 设 X ~ 2 m,Y ~ 2 n , 且 X
与Y 相互独立, 则
X Y ~ 2 m n.
证①: E Y n, DY 2n
由卡方分布定义知
E
Y
E
n
X
2 i
n
E
X
2 i
i1 i1
X
2 5
3
所以, 取 d 3 6 即可, 且自由度为3. 22
⑵分位数
设 X ~ t n , 记它的 p 分位数为 tp n , 即tp n满足
P X tp n p.
根据 t 分布密度函数的对称性, 有性质 tp n t1 p n.
该性质类似于正态分布的分位数性质. 分位数值查表可得.
则有
X
2 1
~
2
1,
X
2 2
X
2 3
~
2
2
且
X
2与
1
X
2 2
X
2 3
相互独立,
故
X
2 1
/1
(
X
2 2
五个数据分布类型及实例 -回复
五个数据分布类型及实例-回复标题:五个数据分布类型及实例详解在统计学中,数据分布是描述一组数据如何分散或集中的方式。
理解不同的数据分布类型对于数据分析、预测和决策制定至关重要。
以下将详细介绍五种常见的数据分布类型,并提供实例进行说明。
1. 正态分布(Normal Distribution)正态分布,也称为高斯分布,是最常见和最重要的数据分布类型之一。
其特征是呈现出对称的钟形曲线,其中大部分数据集中在均值附近,而极端值较少。
正态分布有两个重要参数:均值(μ)和标准差(σ),它们决定了曲线的形状和位置。
实例:人的身高是一个典型的正态分布的例子。
在全球范围内,成年男性的平均身高约为175厘米,标准差约为7厘米。
这意味着大多数男性的身高集中在175厘米左右,而极高或极矮的身高则相对较少。
2. 均匀分布(Uniform Distribution)均匀分布是指所有可能的结果具有相等的概率。
这种分布的数据在一定区间内是均匀分布的,没有特定的集中趋势。
实例:抛硬币的结果就是一个均匀分布的例子。
硬币的两面分别是正面和反面,每次抛硬币正面朝上和反面朝上的概率都是0.5,没有任何一面更可能出现。
3. 二项分布(Binomial Distribution)二项分布用于描述在n次独立的是/非试验中成功的次数。
每个试验的成功概率为p,失败的概率为q=1-p。
二项分布有两个参数:n和p。
实例:在一项医学研究中,研究人员想要了解某种新药治疗某种疾病的疗效。
他们对100名患者进行了试验,该药物的有效率为80。
那么,在这100名患者中,成功治愈的患者数量就符合二项分布。
4. 泊松分布(Poisson Distribution)泊松分布用于描述在固定时间或空间间隔内随机事件发生的次数。
它只有一个参数λ,表示单位时间(或单位面积、单位体积等)内事件发生的平均次数。
实例:在某个呼叫中心,平均每小时接到的电话数量为10个。
那么,在任意一个小时内,实际接到的电话数量就符合泊松分布。
§5.4常用的三大统计量分布ppt
2
DX2 EX4 (EX2 )2 3 12 2
D
2
=D
n
X2
n
DX2 2n
2.
12 ,
2 2
独立,
i=1 i=1
且 12 : 2 (n),
2 2
:
2 (m)
则 12 22 : 2 (n m) 证明:12 的特征函数 1(t) (1
22 的特征函数 2 (t
it
)
n 2
7、独立的卡方随机变量具有可加性。
8、 Tn : t(n) L N(0,1)
9、
2 n
:
2(n)
2 n
n
2n
L N(0,1)
五、推出一些重要结果
设(X1
,
X2
,
.......Xm
)来自总体N(
1,
2 1
),(Y1,
Y2
,
......Yn
)来自N(
2
,
2 2
)。
Xi 1 : N(0,1) 1
1
2 1
1 n
2 2 j1
(Yi Y)2 :
2 (n-1)
设
S12
1 m
m i1
(Xi
X)2
S22
1 n
n
(Yi
i1
Y)2
1 m
2 1 i1
(Xi X)2 : 2 (m-1)
mS12
12
:
2 (m-1)
作比值等于F
1 n
2 2 j1
(Yi Y)2 : 2 (n-1)
nS22
2 2
) (1
it
)m
2
12
统计学-三种常用分布
频数分布图:直方图(频数-频率)
.25 .2 .15 .1 .05
F ra ctio n
164.1
185.4 x
频率图(纵坐标为频率)
正态分布的定义及其函数表达式
若某变量的频率曲线对应于数学上的正态曲 线,则称该变量服从正态分布
正态曲线的函数表达式
f (x) 1 e(x22)2
P99
例:估计某地110名健康成年男子第一秒肺通气量
的95%参考值范围,已知 x =4.2L,s=0.7L
二项分布
概述 例1 观察一种致毒物对白鼠的致毒作用。取三 只实验白鼠,服用相同剂量的致毒物,假设他 们死亡的概率均为π。定义实验后3只白鼠中 死亡的例数为X,求X=0,1,2,3的概率。
x 第一只白鼠 第二只白鼠 第三只白鼠 发生的概率
前面各观察单位上x的取值无关 普通性:观察单位可以小到只有1个事件
发生,发生概率不变
Poisson分布的性质
Poisson分布的图形
单参数离散型分布
形状只取决于μ,μ很小时分布很偏,当μ增加时, 逐渐趋于对称,μ≥20时,分布接近正态分布。
在
和
处达到峰值,且有
x x 1
二项分布的均数与方差
服从二项分布的变量X的均数和标准差
μx=nπ σx2= nπ(1-π)
样本率p的总体均数和方差
μp=π,称为率的标准误
对应的样本标准误为 Sp
p(1 p) n
例3 根据以往经验,新生儿染色体异常率为 0.01,某研究者随机抽查当地400名新生儿, 问出现1名新生儿染色体异常的概率是多少? 计算X的均数和方差,样本率的均数和标准差
计算x的均数和方差样本率的均数和标准差poisson分布描述某罕见事件发生次数的概率分布罕见事件每个格子的大小恰好容纳一个细菌1l水细分格子数有限格子中有细菌服从poisson分布的罕见事件举例均匀液体或空气中的细菌分布放射性物质单位时间内的放射次数粉尘在单位容积内计数的分布非传染性罕见疾病在人群中的分布如遗传缺陷癌症等24小时内发生早博的次数poisson分布的概率可记为poisson分布的条件与二项分布相似平稳性随机分布性
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
* √四、二项分布
* √七、泊松(Poisson)分布 一、退化分布 二、两点分布 三、离散均匀分布
注解:凡是带有×可以不讲,√都是重点,*都是难点
离散分布之一:超几何分布 二项分布 离散分布之一:超几何分布vs二项分布
1,超几何分布:基本意义/期望方差 与二项 ,超几何分布:基本意义 期望方差 期望方差/与二项 分布的关系 2,二项分布:基本意义 期望方差 与超几何 期望方差/与超几何 ,二项分布:基本意义/期望方差 分布的关系 有放回抽样模型=重复抽样模型 重复抽样模型=二项分布 有放回抽样模型 重复抽样模型 二项分布 B(n,P),EXCEL:BINOMDIST(k,n,P,逻辑值 逻辑值) 逻辑值 不放回抽样模型=不重复抽样 不重复抽样=超几何分布 不放回抽样模型 不重复抽样 超几何分布 H(n,N1,N), EXCEL:HYPGEOMDIST(k,n,N1,N)
k N1
n 0 C N 1C N 2 n CN
Cn0P0qn , Cn1P1qn-1, Cn2P2qn-2 … CnkPkqn-k… CnnPnq0
λ λ λ λ λ λ0e−λ/0!, λ1e −λ /1!,λ2e −λ /2 … λke−λ/k! … λne−λ/n! ,
超几何分布→二项分布→泊松分布/ 超几何分布→二项分布→泊松分布/正态分布
伦敦上空的鹰究竟是有目的的轰炸行为还是随机的行为? 伦敦上空的鹰究竟是有目的的轰炸行为还是随机的行为? 二次世界大战期间, 二次世界大战期间,德军飞机对英伦三岛进行了无数次的轰炸 空袭行动,为了了解英军情报是否泄密,英国密码是否被破译, 空袭行动,为了了解英军情报是否泄密,英国密码是否被破译, 英国情报机构对英国各被轰炸地区进行一项统计调查, 英国情报机构对英国各被轰炸地区进行一项统计调查,他们对 伦敦划分成586区,统计每个地区实际被轰炸次数如下: 每个地区实际被轰炸次数如下: 伦敦划分成 区 统计每个地区实际被轰炸次数如下 X= 0 1 2 3 4 5 6 7… 7 1 0 0… 频数 229 221 93 35 EX=0.93次=λ=nP但是德军空袭次数n未知,理论被炸区数 但是德军空袭次数n 次 λ=nP但是德军空袭次数 未知, P(λ P(λ)=231.2 215 100 31 7.2 1.34 0.2 0.02 结论:德军的空袭对任何地区发生的概率均等, 结论:德军的空袭对任何地区发生的概率均等,且每次空袭袭 击任何地区的概率都是P 试验属于n 击任何地区的概率都是P,试验属于n重独立试验 类似案例:公司销售数据概率分布的获得, 类似案例:公司销售数据概率分布的获得,如eg2.20 2,….,10, 12,…, k,…mean=EX= mean=EX=λ X= 0, 1, 2, .,10, 11, 12, , k, mean=EX=λ 频率f=f Pk…实际概率 实际概率f 频率f=f0 f1 f2 … f10 f11 f12… Pk 实际概率f P(X)= P0 P1 P2 … P10 P11 P12… Pk…理论概率P Pk 理论概率P 理论概率 |fi-Pi|<a(阈值 then概率分布为P(X),否则, 阈值) 概率分布为P(X) If Σ|fi-Pi|<a(阈值) then概率分布为P(X),否则,非P(X)
销售数据
实际销售数据概率
销售累计概率=不脱销率 销售累计概率= 4.53999E4.53999E-05 0.000453999 0.002269996 0.007566655 0.018916637 0.037833275 0.063055458 0.090079226 0.112599032 0.125110036 0.125110036 0.113736396 0.09478033 0.072907946 0.052077104 0.03471807 0.021698794 0.012763996 4.53999E4.53999E-05 0.000499399 0.002769396 0.010336051 0.029252688 0.067085963 0.130141421 0.220220647 0.332819679 0.457929714 0.58303975 0.696776146 0.791556476 0.864464423 0.916541527 0.951259597 0.97295839 0.985722386
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
图示:实际销售数据概率/不脱销率的变化规律
销售数据概率 0.14 0.12 0.1 0.08 0.06 0.04 0.02 0 1 3 5 7 9 11 13 15 17 19 21 销售数据概率
销售累计概率=不脱销率 1.2 1 0.8 0.6 0.4 0.2 0 1 3 5 7 9 11 13 15 17 19 21 销售累计概率=不 脱销率
0.2 0.15 0.1 0.05
5
10
15
20
一、超几何分布→二项分布:案例分析 案例: 产品 产品, 任取3 案例:10产品,3-7+;100件,30-70+,任取 ; 件 任取 无放回: 1 2 3 无放回:X= 0 P(X=)=C73/C103 C31C72/C103 C32C71/C103 C33/C103 0.2917 0.525 0.175 0.0083 C703/C1003,C301C702/C1003,C302C701/C1003,C303/C1003 0.339 0.448 0.188 0.025 有放回=C 有放回 300.73 C310.310.72 C320.320.71 C330.33 0.343 0.441 0.189 0.027 显然: 显然:当N→+∞,H(n,N1,N2,N)→b(n,P) →+∞,H(n,N1,N2,N)→b(n,P) 图形分析: 产品总量N越大,n/N越小 则越接近! 越小, 图形分析:1,产品总量N越大,n/N越小,则越接近! 得到正态模型! 2,两者图形向两边延伸 ,得到正态模型!
结论: 超几何分布→ 结论:当n<<N(n<=0.05N)超几何分布→二项分布 超几何分布
0.6 0.5 0.4 0.3 0.2 0.1 0 1 2 3 4
0.5 0.45 0.4 0.35 0.3 超几何分布 0.25 二项分布 0.2 0.15 0.1 0.05 0 1 2 3 4
超几何分布 二项分布
案例: 案例:二项分布适用范围
1.所有卖场销售数据:每天进场人数n不详,每天购买概率 所有卖场销售数据:每天进场人数 不详 不详, 所有卖场销售数据 P未知,但是每天销售数据 已知,如何求解销售数据的 未知, 已知, 未知 但是每天销售数据nP已知 概率分布? 概率分布? 好又多家乐福沃尔马/苏宁国美 苏宁国美/DELL/本田 万科 本田/万科 好又多家乐福沃尔马 苏宁国美 本田 2.电子商务销售数据:已知点击人数 购买率 ,购买人数 电子商务销售数据: 购买率P, 电子商务销售数据 已知点击人数n,购买率 np,求解分布 阿里巴巴 当当购物 阿里巴巴/当当购物 ,求解分布-阿里巴巴 3.网络邮箱 网络硬盘使用率:点击使用藤讯人数n,邮箱或 网络邮箱/网络硬盘使用率:点击使用藤讯人数 邮箱或 网络邮箱 网络硬盘使用率 硬盘使用率P,使用人数nP, 硬盘使用率 ,使用人数 , 藤讯QQ/网易 网易/163/Hotmail/MSN/yahoo…. 藤讯 网易 4.饭店 酒店食物定购:真功夫 麦当劳 肯德基 饭店/酒店食物定购 麦当劳/肯德基 饭店 酒店食物定购:真功夫/麦当劳 5.自己开店:花店 电脑城 自己开店: 电脑城/……如何进货销售曲线 自己开店 花店/电脑城 如何进货销售曲线 注解:案例1+5属于 属于n,p未知,案例 未知, 属于n,p已知 注解:案例 属于 未知 案例2+3+4属于 属于 已知
10=3次+7正,任取3件, 有放回 无放回
100=30次+70正,任取3件, 有放回 无放回
理论基础 数据: 总体个数, 总体中A的个数 数据:N=总体个数,N1=总体中 的个数, 总体个数 总体中 的个数, n=样本个数,k=样本中 的个数; 样本中A的个数 =样本个数, 样本中 的个数; 逼近关系: 逼近关系:
*√本节重点难点:超几何分布的极限分布是二项分布,二 项分布的极限分布是 Poisson 分布
课件分布规律与上课指南: 课件分布规律与上课指南: 1.离散分布之一:超几何与二项 离散分布之一: 离散分布之一 2.离散分布之二:二项与泊松 离散分布之二: 离散分布之二 小结:超几何转二项, 小结:超几何转二项,二项转泊松正态 3.离散分布之三:四大分布数字特征 离散分布之三: 离散分布之三 4.附录 附录 注意1:附录三有各种分布的EXCEL求解公式 注意 :附录三有各种分布的 求解公式 注意2:上课可以先将几个不重要的分布, 注意 :上课可以先将几个不重要的分布,在附录 1-退化 两点 退化/两点 均匀分布先简介30分钟 退化 两点/0-1/均匀分布先简介 分钟,再 均匀分布先简介 分钟, 用90分钟讲解四大分布及其关系 分钟讲解四大分布及其关系
N件产品,其中N1件次品 不放回抽n,其中次品k件 超几何分布 n<=0.05N N件产品,次品率N1/N n<<N 放回抽n,其中次品k件
二项分布
Ex.案例:已知一麻袋种子,(共有 万颗,其中 万颗 案例:已知一麻袋种子, 共有 万颗,其中90万颗 共有100万颗 万颗) 案例 发育正常90%,今从其中任取 粒,求播种后 恰有 粒 恰有8粒 发育正常 ,今从其中任取10粒 求播种后(1)恰有 (2)至少有 粒发芽的概率?(3)取1万颗,>8000发芽概率 至少有8粒发芽的概率? 取 万颗, 发芽概率 至少有 粒发芽的概率 万颗