概率统计基础知识
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
xipi E (X) = xp(x)dx
若X是离散分布
若X是连续分布
17
方差用来表示分布的散步大小,用Var(X)表示,方差大意味着分布的散步程度较大,也即分 布较分散;方差小意味着分布的散步程度小,也即分布较集中。方差的计算公式为:
[xi -E(X)] pi Var (X) =
a
2
若X是离散分布
(5,1) (5,2) (5,3) (5,4 (5,5) (5,6)
(6,1) (6,2) (6,3) (6,4)( 6,5)(6,6)
设X表示“掷两颗骰子,6点出现的次数”,它的分布为:
X
P
0
25/36
1
10/36
2
1/36
12
(二)连续随机变量的分布
连续性随机变量X的分布可用概率密度函数p(x)表示,也可记作f(x)。下面以产品质量特性x (如机械加工轴的直径)为例来说明p(x)的由来。 假定我们一个接一个地测量产品的某个质量特性值X,把测量得到的x值一个接一个地放在 数轴上。当累计到很多x值时,就形成一定的图形,为了使这个图形稳定,把纵轴改为单位长 度上的频率,由于频率的稳定性,随着被测量质量特性值x的数量愈多,这个图形就愈稳定, 其外形显现出一条光滑曲线。这条曲线就是概率密度曲线,相应的函数表达式f(x)称为概率
还是大大低于0.5?
解:从图上的50分处引一条垂线,则及格概率是: P(X ≥50)= 从50到100之间的面积。 地区(a)的及格概率大大超过0.5。 地区(b)的及格概率大大低于0.5。 地区(c)的及格概率约为0.5.
16
(三)随机变量分布的均值、方差与标准差
随机变量的分布有几个重要的特征数,用来表示分布的集中位置(中心位置)和散步大小。 均值用来表示分布的中心位置,用E(X)表示。对于绝大多数的随机变量,在均值附近出现的 机会较多。计算公式为:
18
[例]某厂生产的三极管,每100支装一盒,记X为一盒中不合格品数,厂方经过多次抽查,根据 近千次抽查记录,用统计方法整理出如下的分布:
X 0
1
2
3
4
5
6
7
8
0.002
P 0.142 0.278 0.260 0.180 0.090 0.036 0.010 0.002
请计算不合格品数X的均值、方差和标准差。
24
(1)标准正态分布表,它可以用来计算形如“U≤u”的随机事件发生得概率。根据u的值可在
标准正态分布表上查得,例如事件“U≤1.52” 的概率可从附表中查得 P(U ≤ 1.52)= Φ(1.52)= 0.9357 它表示标准正态随机变量U取值不超过1.52的概率,在数量上恰好为1.52左侧的一块阴影面积。
一个铸件上的缺陷数 一平方米玻璃上气泡的个数 一件产品因擦伤留下的痕迹个数 一页数上的错字个数 从这些例子可以看出,泊松分布总与计点过程相关联,并且计点是在一定时间内、或一定区 域内、或一特定单位内的前提下进行的,若用λ表示某特定单位内的平均点数( λ>0),又令 X表示某特定单位内出现的点数,则X取x值的概率为:
6
[例] 1 历史上抛硬币试验中正面出现频率
试验者 德●摩根 蒲丰 皮尔逊 皮儿孙 微尼
抛的次数n 2048 4040 12000 24000 30000
出现正面次数k 1061 2048 6019 12012 14994
正面出现频率k/n 0.5180 0.5069 0.5016 0.5005 0.4998
变量X的取值来表示事件,如“X=0”表示事件“铸件上无瑕疵”。
2 一台电视机的寿命X是在0到正无穷大区间内取值的连续随机变量,“X=0”表示事件“一台 电视机在开箱时就发生故障”,“X>40000”表示“电视机寿命超过40000小时”。
10
2)随机变量的分布
随机变量的取值是随机的,但内在还是有规律的,这个规律可以用分布来描述。分布包括 如下两方面内容: (1)X可能取哪些值,或在哪个区间内取值。 (2)X取这些值的概率各是多少,或X在任一区间上取值的概率是多少? (一)离散型随机变量
为概率密度曲线,一定位于x轴的上方 (即p(x)≥0),并且与x轴所夹面积恰好为1。而X在
区间(a,b)上取值的概率P(a<X<b)为概率密度曲线以下,区间(a,b)上的面积。
15
[例]考试得分是一个随机变量,下面是三个不同地区同一课程考试得分的概率密度函数。得分可 以取0到100分中的任意值,及格是50分,对每一地区,及格率大约是0.5呢?还是大大超过0.5?
23
2. 标准正态分布
μ=0且σ=1的正态分布称为标准正态分布,记为N(0,1)。它是特殊的正态分布,服从标准正态
分布的随机变量记为U,它的概率密度函数记为Φ(u),它的图形如图:
实际上很少有一个质量特性(随机变量)的均值恰好为0,方差与标准差恰好为1。但一些质量 特性的不合格品率要通过标准正态分布才能算得。
E(X) = 0 × 0.142 + 1 × 0.278 + 2 × 0.260 + 3 × 0.180 + 4 × 0.090 + 5 × 0.036 + 6 × 0.010 + 7× 0.002 + 8 × 0.002 = 1.968 Var(X) = (0 – 1.968) × 0.142 + (1-1.968) ×0.278 + …. + (8 - 1.968) × 0.002
(三)概率
定义:一个随机事件A发生可能性的大小称为这个事件的概率,用P(A)表示。 概率是一个介于0到1之间的数。概率越大,事件发生的可能性就越大;概率越小,事件发生 的可能性也就越小。特别,不可能事件的概率为0,必然事件的概率为1。P(φ)= 0, P(Ω)=1。
5
二、 概率的统计定义 (1)与事件A有关的随机现象是可以大量重复事件的;
U
M P Y W
0.028
0.026 0.022 0.015 0.015
X
J Q Z
0.003
0.001 0.001 0.001
8
3 一批产品共100件,其中5件不合格,现从中随机抽出10件,其中最多有2件不合格品的概率是 多少? 解:设Ai表示事件“抽出10件中恰好有i件不合格品”,于是所求事件A=“最多有2件不合格品” 可表示为: A = A0 ∪ A1 ∪A2 P(A)= P(A0) + P(A1)+ P(A2)
P(X) =
n p (1-p) x
1-x
记作b (n, p)
均值:E(X) = np 方差:Var(X) = np(1-p) 标准差:σ(X) = *np(1-p)]
1/2 20
(二)泊松分布 泊松分布可用来描述以下随机变量: 在一定时间内,电话总站接错电话的次数
在一定时间内,其操作系统发生的故障数
(2)若在n次重复试验中,事件A发生kn次,则事件A发生的频率为:
fn(A)= kn/n=事件A发生的次数/重复试验的次数
频率fn(A)能反应事件A发生的可能性大小。
(3)频率fn(A)将会随着试验次数不断增加而趋于稳定,这个频率的稳定值就是事件A的概率。
在实际中人们无法把一个试验无限次重复下去,只能用重复试验次数n较大时的频率去 近似概率。
密度函数,它就是一种表示质量特性X随机取值内在统计规律性的函数。
13
概率密度函数p(x)有多种形式,有的位置不同,有的散布不同,有的形状不同。这些不同 的分布形式反应了质量特性总体上的差别,这种差别正是管理者应特别关注之处。
14
这里应强调的是:图上的纵轴原是“单位长度上的频率”,由于频率的稳定性,可用概率 代替频率,从而纵轴就成为“单位长度的概率”,这是概率密度的概念,故最后形成的曲线称
95!
P(A0)= = ×
10!×95!
=0.5837
10!×85!
P(A1)= 0.3394
100!
P(A2)= 0.0702
P(A)= 0.9933
9
第二节 随机变量及其分布
一、随机变量
定义:表示随机现象的结果的变量称为随机变量。
常用大写字母X,Y,Z等表示随机变量,他们的取值用相应的小写字母x,y,z表示。 假如一个随机变量仅取数轴上有限个点或可列个点,则称此随机变量为离散型随机变量。 假如一个随机变量的所有可能取值充满数轴上的一个区间(a,b),则称此变量为连续型 随机变量。 [例] 1 设X是一只铸件上的瑕疵数,则X是一个离散随机变量,它可以取0,1,2,….等值。可用随机
∫b
σ = σ(X) = [Var(X)]
[x- E(X)] p(x)dx
2
若X是连续分布
方差的量纲是X的量纲的平方,为使表示分布散步大小的量纲与X的量纲相同,常对方差开平方, 记它的平方根为σ,并称它为X的标准差:
1/2
由于σ与X的量纲相同,在实际使用中更常使用标准差σ来表示分布散步大小,但它的计算通常 是要通过现计算方差,然后开方获得。
P(X = x) =
λx
x!
e x-λ 0,1,2, , =
… 记作P( λ)
1/2
21
E(X) = λ , Var(X) = λ, σ(X) = λ
(三)正态分布
正态分布是在质量管理中最重要也是最常使用的分布,它能描述很多质量特性X随机取值的统 计规律性。 1、正态分布的概率密度函数:
它的图形是对称的钟形曲线,称为正态曲线。
正态分布含有两个参数μ与σ,常记作N( μ, σ )。其中μ为正态分布的均值,它是正态分布的 中心,质量特性X在μ附近取值的机会最大。 σ 2 是正态分布的方差, σ>0是正态分布的标准差, σ越大,分布越分散; σ越小,分布越集中。
2
22
固定标准差σ时,不同的均值,如μ1< μ2,对应的正态分布曲线完全相同,仅位置不同。 固定均值μ时,不同的标准差,如σ 1< σ 2,对应的正态曲线的位置相同,但形状(高低与胖 瘦)不同。
7
2 英语字母出现的频率 字母 E T O A 频率 0.130 0.090 0.081 0.078 字母 D L C F 频率 0.044 0.036 0.029 0.028 字母 G B V K 频率 0.014 0.013 0.010 0.004
N
I R S H
0.073
0.068 0.067 0.065 0.058
(4)一顾客在超市排队等候付款的时间
(5)一台电视机从开始使用道发生第一次故障的时间
3
认识一个随机现象首要的罗列出它的一切发生的基本结果。这里的基本结果称为样本点, 随机现象一切可能样本点的全体称为这个随机现象的样本空间,常记为Ω。 “抛一枚硬币”的样本空间 Ω={正面,反面} ; “掷一颗骰子”的样本空间 Ω={1,2,3,4,5,6}; “一天内进入某超市的顾客数”的样本空间 Ω={n:n ≥0}
“一顾客在超市排队等候付款的时间” 的样本空间 Ω={t:t≥0}
“一台电视机从开始使用道发生第一次故障的时间”的样本空间 Ω={t:t≥0}
4
(二)随机事件 定义:随机现象的某些样本点组成的集合称为随机事件,简称时间,常用大写字母A、B、C等
表示。
[例子]掷一个骰子时,“出现奇数点”是一个事件,它由1点、3点和5点共三个样本点组成,若 记这个事件为A,则有A= { 1,3,5}。
X P
x1 p1
x2 p2
… …
xn pn
11
[例]掷两颗骰子,其样本空间为:
(1,1) (1,2) (1,3)
(1,4) (1,5)
(1,6)
(2,1) (2,2) (2,3)
Ω=
(2,4) (2,5)
wenku.baidu.com
(2,6)
(3,1) (3,2) (3,3) (3,4 (3,5) (3,6) (4,1) (4,2) (4,3) (4,4 (4,5) (4,6)
概率统计基础知识
目录
第一节 概率基础知识 第二节 随机变量及其分布 第三节 统计基础知识 第四节 参数估计
第五节 假设检验
第六节 抽样样本量
2
第一节 概率基础知识
一、事件与概率
(一)随机现象
在一定条件下,并不总是出现相同结果的现象称为随机现象。 特点:随机现象的结果至少有两个; 至于那一个出现,事先并不知道。 [例子]:(1)抛硬币 (2)掷骰子 (3)一天内进入某超市的顾客数
2 2 2
= 1.91
σ(X) = 1.91
1/2
= 1.41
19
四 常用分布
(一)常用的离散分布
1、二项分布 二项分布可用来描述由n次随机试验组成的随机现象,它满足如下条件: 重复进行n次随机试验 n次试验相互独立,即一次试验结果不对其它试验结果产生影响
每次试验结果仅有两个可能结果
每次试验成功的概率为p,失败的概率为1-p 概率函数为: