统计学-概率

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

这里
为二项式系数,或记为
C
k n
九个二项分布B(5,p) (p=0.1到0.9)的概率分布图
0.60
p=0 .1
p=0 .2
p=0 .3
0.40
概 率
0.20
0.00 0.60
p=0 .4
p=0 .5
p=0 .6
0.40
概 率
0.20
0.00 0.60
p=0 .7
p=0 .8
p=0 .9
0.40
概 率
【例】
• 某厂生产的某种节能灯管的使用寿命服从正态 分布,对某批产品测试的结果,平均使用寿命 为1050小时,标准差为200小时。试求: • (a)使用寿命在500小时以下的灯管占多大比 例? • (b)使用寿命在850~1450小时的灯管占多大 比例? • (c)以均值为中心,95%的灯管的使用寿命 在什么范围内?
4.5.1均匀分布
• 下图展示了在区间(0,1)上的均匀分布的 密度函数。
1.5 0.0
-0.5
0.5
1.0
0.0
0.5 X
1.0
1.5
4.5.2 正态分布
• 近似地服从正态分布(normal distribution,又叫高斯分布, Gaussian distribution)。的变量很常见 ,象测量误差、商品的重量或尺寸、 某年龄人群的身高和体重等等。 • 在一定条件下,许多不是正态分布的 样本均值在样本量很大时,也可用正 态分布来近似。
逐渐增加矩形条数目的直方图和一个 形状类似的密度曲线。
(1) (2)
(3)
0.4
(4)
0.0
0.1
0.2
0.3
-2
0
2
4.5 连续变量的分布
• 连续变量落入某个区间的概率就是概率密 度函数的曲线在这个区间上所覆盖的面积 ;因此,理论上,这个概率就是密度函数 在这个区间上的积分。 • 对于连续变量,取某个特定值的概率都是 零,而只有变量取值于某个(或若干个) 区间的概率才可能大于0。 • 连续变量密度函数曲线(这里用f表示)下 面覆盖的总面积为1,即
1.57

f ( x)dx 0.24682
0.51
标准正态变量在区间(0.51, 1.57)中的概率
Probability Between Limits is 0.24682 0.4 0.35 0.3 0.25
Density
0.2 0.15 0.1 0.05 0 -4
-3
-2
-1
0 Critical Value
P( X xa ) a
这里的a也称为上(右)侧尾概率 (upper/right tail probability)。
4.5.2 正态分布
通常用za 表示标准正态分布的 a上侧分位数,即对于标准正 态分布变量Z,有P(Z>za)=a。 下 图 表 示 了 0.05 上 侧 分 位 数 za=z0.05 及 相 应 的 尾 概 率 ( a0.05)。有些书用符号z1-a 而不是za ;因此在看参考文献 时要注意符号的定义。
1
2
3
wk.baidu.com
4
4.5.2 正态分布
• 对于连续型随机变量X,a下侧分位 数(又称为a分位数,a-quantile)定 义为数xa,它满足关系
P( X xa ) a
这里的a又称为下(左)侧尾概率 (lower/left tail probability)
4.5.2 正态分布
• 而a上侧分位数(又称a上分位数 ,a-upper quantile)定义为数xa ,它满足关系
4.4.1二项分布
• 这种有两个可能结果的试验有两个特 点: • 一是各次试验互相独立, • 二是每次试验得到一种结果的概率不 变(这里是得到正面的概率总是p)。 • 类似于抛硬币的仅有两种结果的重复 独立试验被称为贝努里试验( Bernoulli trials)。
4.4.1二项分布
• 下面试验可看成为贝努里试验: • 每一个进入某商场的顾客是否购买某商 品 • 每个被调查者是否认可某种产品 • 每一个新出婴儿的性别。 • 根据这种简单试验的分布,可以得到基 于这个试验的更加复杂事件的概率。 • 为了方便,人们通常称贝努里试验的两 种结果为“成功”和“失败”。
4.4.2 Poisson分布
• 在不同条件下,同样事件在单位时间 中出现同等数目的概率不尽相同。 • 比如中午和晚上某商店在10分钟内出 现5个顾客的概率就不一定相同。 • 因此,Poisson分布也是一个分布族 。族中不同成员的区别在于事件出现 数目的均值l不一样。
4.4.2 Poisson分布
0.20
0.00
0
1
2
3
4
5
0
1
2
3
4
5
0
1
2
3
4
5



4.4.2 Poisson分布
• 另一个常用离散分布是Poisson分 布(“泊松分布”)。 • 它可以认为是衡量某种事件在一定 期间出现的数目的概率。 • 比如说在一定时间内顾客的人数、 打入电话总机电话的个数、页面上 出现印刷错误的个数、纺织品上出 现疵点的个数。
N(0,1)分布右侧尾概率P(z>za)=a的示意 图
Tail Probability for N(0,1) 0.4 0.35 0.3
Density of N(0,1)
0.25 0.2 0.15 0.1 0.05 0 -3 P(z<z 0.05)=1-a =0.95 P(z>z 0.05)= a =0.05 z 0.05=1.645 -2 -1 0 z value 1 2 3
4.4.1二项分布
• 和贝努里试验相关的最常见的问题是:如 果进行n次贝努里试验,每次成功的概率为 p,那么成功k次的概率是多少? • 这个概率的分布就是所谓的二项分布 (binomial distribution)。 • 这个分布有两个参数,一个是试验次数n, 另一个是每次试验成功的概率p。 • 基于此,二项分布用符号B(n,p)或Bin(n,p) 表示。 • 由于n和p可以根据实际情况取各种不同的 值,因此二项分布是一族分布,族内的分 布以这两个参数来区分。
4.5.2 正态分布
• 标准差为1的正态分布N(0, 1)称为标准 正态分布(standard normal distribution) • 标准正态分布的密度函数用f(x)表示。 • 任何具有正态分布N(m,s2)的随机变量X 都可以用简单的变换(减去其均值m, 再除以标准差s):Z=(X-m)/s,而成为 标准正态随机变量。这种变换和标准 得分的意义类似。
4.5 连续变量的分布
• 想象连续变量观测值的直方图;如果其纵 坐标为相对频数,那么所有这些矩形条的 高度和为1;完全可以重新设置量纲,使得 这些矩形条的面积和为1。 • 不断增加观测值及直方图的矩形条的数目 ,直方图就会越来越像一条光滑曲线,其 下面的面积和为1。 • 该曲线即所谓概率密度函数(probability density function,pdf),简称密度函数或 密度。下图为这样形成的密度曲线。
4.5 连续变量的分布
• 取连续值的变量,如高度、长度、重 量、时间、距离等等;它们被称为连 续变量(continuous variable)。 • 换言之,一个随机变量如果能够在一 区间(无论这个区间多么小)内取任 何值,则该变量称为在此区间内是连 续的,其分布称为连续型概率分布。 • 它们的概率分布很难准确地用离散变 量概率的条形图表示。
两条正态分布的密度曲线。左边是N(-2,0.52)分布, 右边是N(0, 1)分布
0.8 0.6
N(-2,0.5)
0.4
N(0,1)
0.0
0.2
-4
-2
0
2
4
4.5.2 正态分布
• 当然,和所有连续变量一样,正态变量落在某个 区间的概率就等于在这个区间上,密度曲线下面 的面积。 • 比如,标准正态分布变量落在区间(0.51,1.57)中的 概率,就是在标准正态密度曲线下面在0.51和 1.57之间的面积。 • 很容易得到这个面积等于0.24682;也就是说,标 准正态变量在区间(0.51,1.57)中的概率等于 0.24682。如果密度函数为f(x),那么这个面积为 积分
• •
p( x ) 1,
i i
p( xi ) 0
4.4.1二项分布
• 最简单的离散分布应该是基于可重复 的有两结果(比如成功和失败)的相 同独立试验(每次试验成功概率相同 )的分布,例如抛硬币。 • 比如用p代表得到硬币正面的概率,那 么1-p则是得到反面的概率。 • 如果知道p,这个抛硬币的试验的概率 分布也就都知道了。
4.5.2 正态分布 哈佛大学心理学家Richard J. Herrrnstein和美国 企业研究所(American Enterprise Institute) 著名 学者Charles Murray的名著《钟曲线:美国生 活中的智商与阶级结构》 智商是天生的,和家庭背景、阶层、甚至教育 程度都没有关系。 高智商和低智商在人口中的分布,长期以来基 本是固定的。 高智商的人反正都会成功,于是就集中资源对 低智商的人进行倾斜性的教育投资,这违反了 基本的市场逻辑。 智商和阶层没有关系,有钱的人未必智商高。



f ( x)dx 1
4.5.1均匀分布
• 均匀分布(uniform distribution)是最 简单的连续型分布。它的取值范围是一 个区间,比如(a, b)。 • 均匀分布随机变量X取值在该区间的一个 子区间的概率等于该子区间宽度与区间 (a, b)宽度b-a之比,例如,假设区间(a, b)为(0,1)区间,那么X落入(0.2, 0.5 )的概率为(0.5-0.2)/(1-0)=0.3。
• 参数为l的Poisson分布变量的概 率分布为(p(k)表示Poisson变量 等于k的概率)
P(k ) e
l
l
k
k!
, k 0,1, 2,...
参数为3、6、10的Poisson分布(只 标出了20之内的部分)
这里点间的连线没有意义,仅仅为容易识别 而画,因为Poisson变量仅取非负整数值
.2 .3
.1
Poisson 分 布
P(10)
概率
0.0 0 5 10 15 20
P(6) P(3)
k
4.4.3 超几何分布
• 假定有一批500个产品,而其中有5个 次品。假定该产品的质量检查采取随 机抽取20个产品进行检查。如果抽到 的20个产品中含有2个或更多不合格产 品,则整个500个产品将会被退回。 • 这时,人们想知道,该批产品被退回 的概率是多少? • 这种概率就满足超几何分布( hypergeometric distribution)。
4.4.1二项分布
• 一 般 公 式 。 下 面 p(k) 代 表 在 n 次 Bernoulli试验中成功的次数的概率 ,p为每次试验成功的概率。有
n k nk p(k ) p (1 p) , k 0,1,..., n k
n n! k k !(n k )!
4.4 离散随机变量的分布
• 离散变量只取离散的值,比如骰子的点数 、网站点击数、顾客人数等等。每一种取 值都有某种概率。各种取值点的概率总和 应该是1。 当然离散变量不不仅仅限于取非负整数值 。 一般来说,某离散随机变量的每一个可能 取值xi都相应于取该值的概率p(xi),这些概 率应该满足关系
分布
• • • • • 随机变量取一切可能值或范围的概率或概率的规 律称为概率分布(probability distribution, 简称分布)。 概率分布可以用各种图或表来表示;一些可以用 公式来表示。 概率分布是关于总体的概念。有了概率分布就等 于知道了总体。 前面介绍过的样本均值、样本标准差和样本方差 等样本特征的概念是相应的总体特征的反映。 我们也有描述变量“位置”的总体均值、总体中 位数、总体百分位数以及描述变量分散(集中) 程度的总体标准差和总体方差等概念。
4.5.2 正态分布
• 正态分布的密度曲线是一个对称的钟 型曲线(最高点在均值处)。正态分 布也是一族分布,各种正态分布根据 它们的均值和标准差不同而有区别。
• 一个正态分布用N(m,s2) 表示;其 中m为均值,而s2为方差(标准差 的平方) 。也常用N(m,s)来表示 ,这里s为标准差。

• • • •
第4章 随机变量的概率分布
4.4 离散随机变量的分布 4.5 连续随机变量的分布 4.6 使用概率来检验假设
学习目标
• 离散随机变量及相应的分布 • 连续随机变量及相应的分布; • 利用概率进行决策分析。
离散型随机变量与连续型随机变量
试验 抽查100个产品 一家餐馆营业一天 抽查一批电子原件 新建一座住宅楼 随机变量 取到次品的个数 顾客数 使用寿命 半年完成工程的百 分比 可能的取值 0,1,2,…,100 0,1,2,… X0 0X 100
相关文档
最新文档