第四章 概率、概率分布与抽样分布
理论分布和抽样分布的概念
抽样分布与理论分布一、抽样分布总体分布:总体中所有个体关于某个变量的取值所形成的分布。
样本分布:样本中所有个体关于某个变量大的取值所形成的分布。
抽样分布:样品统计量的概率分布,由样本统计量的所有可能取值和相应的概率组成。
即从容量为N 的总体中抽取容量为n 的样本最多可抽取m 个样本,m 个样本统计值形成的频率分布,即为抽样分布。
样本平均数的抽样分布:设变量X 是一个研究总体,具有平均数μ和方差σ2。
那么可以从中抽取样本而得到样本平均数x ,样本平均数是一个随机变量,其概率分布叫做样本平均数的抽样分布。
由样本平均数x 所构成的总体称为样本平均数的抽样总体。
它具有参数μx 和σ2x ,其中μx 为样本平均数抽样总体的平均数,σ2x 为样本平均数抽样总体的方差,σx 为样本平均数的标准差,简称标准误。
统计学上可以证明x 总体的两个参数 μx 和σ2x 与X 总体的两个参数μ和σ2有如下关系:μx = μ σ2x = σ2 /n由中心极限定理可以证明,无论总体是什么分布,如果总体的平均值μ和σ2都存在,当样本足够大时(n>30),样本平均值x 分布总是趋近于N (μ,n2)分布。
但在实际工作中,总体标准差σ往往是未知的,此时可用样本标准差S 估计σ。
于是,以nS估计σx ,记为X S ,称为样本标准误或均数标准误。
样本平均数差数的抽样分布:二、正态分布2.1 正态分布的定义:若连续型随机变量X 的概率密度函数是⎪⎭⎫ ⎝⎛--=σμπσx ex f 22121)( (-∞<x <+∞)则称随机变量X 服从平均数为μ、方差为σ2的正态分布,记作X~N (μ,σ2)。
相应的随机变量X 概率分布函数为 F (x )=⎰∞-x dx x f )(它反映了随机变量X 取值落在区间(-∞,x )的概率。
2.2 标准正态分布当正态分布的参数μ=0,σ2=1时,称随机变量X 服从标准正态分布,记作X~N (0,1)。
第四章抽样分布
10 42 7 60 7 6 e 7 P X 6 0.149 6!
4.2 随机变量的概率分布
4.2.3 连续型概率分布
连续型随机变量的概率分布
1. 连续型随机变量可以取某一区间或整个实 数轴上的任意一个值 2. 它取任何一个特定的值的概率都等于0 3. 不能列出每一个值及其相应的概率 4. 通常研究它取某一区间值的概率 5. 用概率密度函数的形式和分布函数的形式 来描述
二项分布
(Binomial distribution)
1. 重复进行 n 次试验,出现“成功”的次数 的概率分布称为二项分布,记为X~B(n, p) 2. 设X为 n 次重复试验中出现成功的次数,X 取 x 的概率为 x x n x
P X x Cn p q
n!
( x 0,1,2,, n)
(4) P(X2)=0.35+0.30=0.65
二项试验
(Bernoulli试验) 1. 二项分布建立在Bernoulli试验基础上
2. 贝努里试验满足下列条件
一次试验只有两个可能结果,即“成功”和“ 失败”
“成功”是指我们感兴趣的某种特征
一次试验“成功”的概率为p ,失败的概率为q =1- p,且概率p对每次试验都是相同的 试验是相互独立的,并可以重复进行n次 在n次试验中,“成功”的次数对应一个离散型 随机变量X
x 式中: Cn
x! ( n x )!
二项分布
(例题分析)
【例】已知一批产品的次品率为4%,从中任意有放回地抽
取5个。求5个产品中
(1) 没有次品的概率是多少? (2) 恰好有1个次品的概率是多少?
第四章 (概率论基础与抽样分布)
4 - 25
第四章 概率论与抽样分布
第二节 概率分布
分布函数与密度函数的图示
1. 密度函数曲线下的面积等于1 2. 分布函数是曲线下小于 x0 的面积
f(x)
4 - 26
F ( x0 )
x0
x
第四章 概率论与抽样分布
第二节 概率分布
连续型随机变量的期望和方差
1. 连续型随机变量的数学期望为
E(X ) xf (x)dx
4 - 41
第四章 概率论与抽样分布
第二节 概率分布
4 - 42
第四章 概率论与抽样分布
第二节 概率分布
【例】已知x~N(12.86,1.332),若 P(x<l1)=0.03,P(x≥l2)=0.03,求l1,l2
概率的性质
1. 非负性 对任意事件A,有 0 P 1
2. 规范性 必然事件的概率为1;不可能事件的概率为0。即
P ( ) = 1; P ( ) = 0
3. 可加性 若A与B互斥,则P ( A∪B ) = P ( A ) + P ( B ) 推广到多个两两互斥事件A1,A2,…,An,有 P ( A1∪A2 ∪… ∪An) = P ( A1 ) + P (A2 ) + …+ P (An )
标准正态分布
=1
0.1664
2.9 5 7.1 X
.0832 .0832
-.21 0 .21 Z
4 - 37
第四章 概率论与抽样分布
第二节 概率分布
【例】已知x~N(30.26,5.12), 求P(|x-30.26|<5.1); P(20.06≤x<40.46)
P(| X 30.26 | 5.1) P 5.1 X 30.26 5.1
第四章 抽样和抽样分布
p
例子:
例:要估计某地区10000名适龄儿童的入学 率,用不重置抽样方法从这个地区抽取400 名儿童,检查有320名儿童入学,求样本入 学率的平均误差。 已知条件:
样本日工资平均数
单位:元
样本变量 34 34
38 42 46 50
38 36
38 40 42 44
42 38
40 42 44 46
46 40
42 44 46 48
50 42
44 46 48 50
34
36 38 40 42
抽样分布为:
Ex
x f
i 1 9
9
i i
样本日平均工资分布
样本日平均工资
三、抽样分布定理
样本平均数的抽样分布定理
(1)正态分布再生定理
X ~ N ( X , 2 ) ,则从这个总体中抽取样本容 总体变量
量为n的样本平均数 x 也服从正态分布,其平均数E ( x ) 仍为 X ,其标准差 ( x ) 。即样本平均数 x 服从正态分布 x ~ N ( X , 2 ) 。
不论总体是何种分布,只要样本的单位数量增 多,则样本平均数就趋于正态分布。
一般认为样本单位数不少于30的是大样本,样 本平均数的抽样分布就接近于正态分布。
总体未 知参数
1. 是一种理论概率分布
2. 样本统计量是随机变量
– 样本均值, 样本比例,样本方差等
3. 结果来自容量相同的所有可能样本
4. 提供了样本统计量长远我们稳定的信息, 是进行推断的理论基础,也是抽样推断科 学性的重要依据
(04)第4章+抽样与抽样分布
4-6
统计学
STATISTICS
例题分析
♦ 假定我们刚刚已取了飞机制造所用的铆钉的25个 假定我们刚刚已取了飞机制造所用的铆钉的25个
一组的样本。检测铆钉的抗剪强度,破坏每个铆 钉所需的力是响应变量。对这组样本,可以求得 各种描述性的测量(均值、方差等)。 ♦ 然而,我们的感兴趣的是总体,并不是样本自身。 被测试的铆钉在测试时已被破坏,不能再用在飞 机的制造上,所以我们肯定不能测试所有的铆钉。 我们必须从这组样本或几组这样的样本来决定总 体的某些特性。 ♦ 因此,我们必须设法推断信息,也即基于样本的 观测结果作出总体的推断
(例题分析) 例题分析)
计算出各样本的均值,如下表。 计算出各样本的均值,如下表。并给出样本均 值的抽样分布
4 - 32
样本均值的抽样分布
统计学
STATISTICS
(例题分析) 例题分析)
【例】设一个总体,含有4个元素(个体) ,即总体单位 设一个总体,含有4个元素(个体) 数N=4。4 个个体分别为x1=1,x2=2,x3=3,x4=4 。总 个个体分别为x 体的均值、 体的均值、方差及分布如下 总体分布
4 - 17
统计学
STATISTICS
分层抽样
分层抽样
统计学
STATISTICS
(stratified sampling) sampling)
♦ 分层抽样:在抽样之前先将总体的单位按 分层抽样:
某种特征或某种规则划分为若干层(类), 然后从不同的层中独立、随机地抽取一定 数量的单位组成一个样本,也称分类抽样 数量的单位组成一个样本,也称分类抽样 sampling) (stratified sampling) ♦ 在分层或分类时,应使层内各单位的差异 尽可能小,而使层与层之间的差异尽可能 大
第四章 抽样分布
从两个正态总体中抽取的样本统计量的分布 二、标准差σ i未知但相等时两个平均数的和与差的 分布
t2 n 2
( y1 y2 ) ( 1 2 ) s s n
2 1 2 2
从两个正态总体中抽取的样本统计量的分布 三、两个样本方差比的分布——F分布
Fdf1 ,df2
t0.05(0.01)=? -t0.05(0.01)=? t0.05/2(0.01/2)=?
二、样本方差的分布
2 df
dfs 2
2
(n 1) s 2
2
2
2
2 K ( ) 2 e f df ( ) 2 0 , 0
df 1 2
,
2
0 K
y , y n
即 y 服从正态分布 N(μ,σ 2/n)。
标准差未知时平均数的分布——t分布
y t 具n-1自由度 s n 样本标准误
t分布的特征数:
t 0
(df>1) (df>2)
1:t 0
(df>3)
df t df 2
2:t
6 (df>4) df 4Biblioteka t分布曲线下总的面积等于1。
f=∞
f=5 f=1
图3-6 t分布曲线
t分布的累积分布函数为:
Ft ( df ) P(t t1 )
t1
f (t )dt
P(t ta ) P(t ta ) a
P( t t a ) a
2
- t (n)
t (n)
u
( y1 y2 ) ( 1 2 )
统计学概论04
(二)概率 1. 概率的定义 概率就是指随机事件发生的可能性,或称为机率, 概率就是指随机事件发生的可能性,或称为机率, 是对随机事件发生可能性的度量. 进行n次重复试 是对随机事件发生可能性的度量. 进行 次重复试 随机事件A发生的次数是 发生的次数是m次 验,随机事件 发生的次数是 次,发生的频率是 m/n,当试验的次数 很大时,如果频率在某一数值 很大时, ,当试验的次数n很大时 p附近摆动,而且随着试验次数 的不断增加,频率 附近摆动, 的不断增加, 附近摆动 而且随着试验次数n的不断增加 的摆动幅度越来越小,则称p为事件 发生的概率, 为事件A发生的概率 的摆动幅度越来越小,则称 为事件 发生的概率, 记为: 记为:P(A)=p.在古典概型场合 即基本事件发生的 .在古典概型场合, 概率都一样的场合: 概率都一样的场合 m A包含的样本点个数 A的有利场合数 = P( A) = = 样本点总数 n 样本点总数
4-8
只黑球和1只白球 例:袋中装有4只黑球和 只白球,每次从袋中随机 袋中装有 只黑球和 只白球, 地摸出1只球 并换入1只黑球 连续进行, 只球, 只黑球. 地摸出 只球,并换入 只黑球.连续进行,问第三 次摸到黑球的概率是多少? 次摸到黑球的概率是多少? 解: 记A为"第三次摸到黑球",则 为"第三次 为 第三次摸到黑球" A A 摸到白球" 先计算P( ). 摸到白球".先计算 . 由于袋中只有1只白球 如果某一次摸到了白球, 只白球, 由于袋中只有 只白球,如果某一次摸到了白球,换 入了黑球,则袋中只有黑球了.所以相当于第一, 入了黑球,则袋中只有黑球了.所以相当于第一, 第二次都是摸到黑球,第三次摸到白球. 第二次都是摸到黑球,第三次摸到白球.注意这是 一种有放回的摸球,样本点总数为53, 一种有放回的摸球,样本点总数为 ,有利场合数 是42×1.故: 2 × . 4 1 16 P( A )= 5 3 = 125 , 所以 42 1 109
(抽样检验)理论分布和抽样分布
第四章理论分布和抽样分布在上章样本分布及其特征的基础上本章将讨论总体的分布及其特征。
首先介绍间断性变数总体的理论分布,包括二项分布和泊松分布;其次介绍连续性变数总体的理论分布,即正态分布;最后介绍从这两类理论分布中抽出的样本统计数的分布,即抽样分布。
为了说明这些理论分布,必须首先了解概率的基本概念和计算法则。
第一节事件、概率和随机变量一、事件和事件发生的概率在自然界中一种事物,常存在几种可能出现的情况,每一种可能出现的情况称为事件,而每一个事件出现的可能性称为该事件的概率(probability)。
例如种子可能发芽,也可能不发芽,这就是两种事件,而发芽的可能性和不发芽的可能性就是对应于两种事件的概率。
若某特定事件只是可能发生的几种事件中的一种,这种事件称为随机事件(random event),例如抽取一粒种子,它可能发芽也可能不发芽,这决定于发芽与不发芽的机会(概率),发芽与不发芽这两种可能性均存在,出现的是这两种可能性中的一种。
事件发生的可能性(概率)是在大量的实验中观察得到的,例如棉田发生盲蝽象为害的情况,并不是所有的棉株都受害,随着观察的次数增多,我们对棉株受害可能性程度大小的把握越准确、越稳定。
这里将一个调查结果列于表4.1。
调查5株时,有2株受害,受害株的频率为40%,调查25株时受害频率为48%,调查100株时受害频率为33%。
可以看出三次调查结果有差异,说明受害频率有波动、不稳定。
而当进一步扩大调查的单株数时,发现频率比较稳定了,调查500株到2000株的结果是受害棉株稳定在35%左右。
表4.1 在相同条件下盲蝽象在某棉田危害程度的调查结果调查株数(n) 5 25 50 100 200 500 1000 1500 2000 受害株数(a) 2 12 15 33 72 177 351 525 704 棉株受害频率(a/n)0.40 0.48 0.30 0.33 0.36 0.354 0.351 0.350 0.352现以n代表调查株数,以a代表受害株数,那么可以计算出受害频率p=a/n。
概率分布与抽样分布
x 2.5
2 x
0.625
样本均值的抽样分布
一般的当总体服从 Nμσ二 时来自该总体的容量为n的 样本的均值X也服从正态分布X 的期望为μ方差为σ
二/n即X~Nμσ二/n
=10
= 50 X
总体分布
n= 4
x 5
n =16
x 2.5
x 50
X
抽样分布
中心极限定理
中心极限定理:从均值为方差为 二的一个任意
§四.二.二 正态分布和有关概率计算
若随机变量 X 的概率密度为
f(x) 1 e2 12x2 , x
2
其中 和 都是常数,任意,>0, 则称X服从参数为 和 的正态分布.
记作 X~N(,2)
fx所确定的曲线叫作正态曲线
正态曲线图形的特点
正态分布的密度曲线是一条关于 对称的钟
形曲线
决定了图形的中心位置;
0
不同自由度的t分布
tZ
§四.三.二 样本比例的抽样分布
设总体比例等于p则总体方差等于p一-p 重复抽样时样本比例 pˆ服从二项分布 中心极限定理:n很大时二项分布趋向于正态
分布 一般认为np≥五、n一-p≥五时可以用正态分布
来进行近似计算:
pˆ ~N(p, p(1p)) n
样本比例的抽样分布不重复抽样
Z=0.三一
对于已知的概率求X值
.六二 一七
.六二 一七
10
0
Z=0.三
5 X=
一
Xz5 0 .3* 1 0 5 .31
在Excel和 SPSS 中计算概率
在实际应用中现在可以直接使用Excel或统计软件 中的有关函数进行有关概率计算具体方法参见配 套教材
四章样本及抽样分布
E(X )
1 n
n i 1
E( X i )
D(X )
1 n2
n
2
D(Xi )
i 1
n
X ~ N(, 2 )
n
X ~ N (0, 1) / n
iid
2.若X1,,X n ~ N (, 2 ), 则 (1) X与S 2相互独立; (2) 2
(n 1)S 2
2
~
2 (n 1);
(3)T X ~ t(n 1).
第四 章 样本及抽样分布
引言 run 随机样本 抽样分布
4.1 随机样本 一、总体与样本
1. 总体:研究对象旳全体。 一般指研究对象旳某项数量指标。 构成总体旳元素称为个体。
从本质上讲,总体就是所研究旳随机变量或 随机变量旳分布。
2. 样本:来自总体旳部分个体X1, … ,Xn 假如满足: (1)同分布性: Xi, i=1,…,n与总体同分布. (2)独立性: X1,… ,Xn 相互独立; 则称为容量为n 旳简朴随
P{ 1
1
P{ 1 F
F (n2 , n1)}
} 1
F F1 (n1, n2 )
P{ 1
1 }
得证!
F F1 (n1, n2 )
4.3 正态总体旳抽样分布定理
iid
1.若X1 ,,Xn ~ N(, 2 ), 则U
X / n
~
N(0, 1)
证明:
X
1 n
n i 1
Xi
是n 个独立旳正态随 机变量旳线性组合,故 服从正态分布
i 1
称为自由度为n的 2 分布.
2.2—分布旳密度函数f(y)曲线
f
(y)
概率、概率分布与抽样分布
– 一个试验中所有结果的集合,用 表示
– 例如:在掷一颗骰子的试验中,样本空间表
示为:{1,2,3,4,5,6} – 在投掷硬币的试验中,{正面,反面}
2)样本点 – 样本空间中每一个特定的试验结果
– 用符号 表示
3-15
3.1.2 事件的概率
3-16
1. 定义: 概率是对随机事件发生可能性大小的度量 .
P(A|B)
=
P(AB) P(B)
事件A 事件B
一旦事件B发生
事件 AB及其 概率P (AB)
事件B及其 概率P (B)
3-35
【例】一家超市所作的一项调查表明,有80%的顾客到超市是 来购买食品,60%的人是来购买其他商品,35%的人既购买食 品也购买其他商品。求:
(1)已知某顾客购买食品的条件下,也购买其他商品的概率 (2)已知某顾客购买其他的条件下,也购买食品的概率
(mutually exclusive events)
在试验中,两个事件有一个发生时,另 一个就不能发生,则称事件A与事件B是互斥
事件,(没有公共样本点)
A B
互斥事件的文氏图(Venn diagram)
3-21
【例】在一所城市中随机抽取600个家庭,用以确定拥 有个人电脑的家庭所占的比例。定义如下事件:
2. 事件A的概率是一个介于0和1之间的一个值,用 以度量试验完成时事件A发生的可能性大小, 记为P(A)
3. 概率的计算:
1)古典概率
特征:(1)试验的基本事件总数是有限的;
(2)每个基本事件出现的可能性都相同 。
计算方法:
3-17
2)统计概率 当试验的次数很多时,概率P(A)可以由所观察
第四章 概率与概率分布
第三节 随机变量及其分布
一、 随机变量 (一) 随机变量的定义
表示随机现象观测结果的变量称为随机变量。随 机变量可用X、Y、Z……表示。 (二)随机变量的类型 1、离散型随机变量
只能取有限个或可列个孤立值的随机变量称为离 散型随机变量。 2、连续型随机变量
取值连续充满某一区间的随机变量称为连续型随 机变量。
二 、随机变量的概率分布
(一)离散型随机变量的概率分布 掌握一个离散型随机变量的概率分布规
律,必须掌握两点: 1、随机变量X所取的可能值是什么? 2、随机变量X取每一个可能值的概为多少?
p( X x1) p1, p( X x2 ) p2 , p( X xn ) pn
离散型随机变量的分布规律可用分布列 的形式来表示。
Y yi
P(Y yi ) Pi
0 0.14
1 0.22
2 0.64
离散型随机变量的概率分布具有下面两 个重要性质:
1、随机变量取任何值时,其概率都是非负 的。即 P1≥0, ≥P02 ,…… ≥0P。n 2、随机变量取遍所有可能值时,相应的概 率之和等于1,即
n
pi 1
i 1
P(-0.52<u<1.34) = P(–∞<u<1.34)- P(–∞<u<-0.52) =0.9099 - 0.3015 =0.6084
2、已知u的取值落入某一区间的概率 , 求u值。 [例13]已知P(u<x)=0.0869,求x P(u<x)=0.0869 查标准正态分布表(1) P(–∞<u<-1.36)=0.0869 即P(u<-1.36)=0.0869 X=-1.36
第二节 随机事件的概率
概率论与数理统计 第四章
50 1 1 1 ( ) 49 2 100 2
数理统计
28
②
骣n 1 2 2 E (S ) = E 琪 X i - nX 琪 å 琪 n - 1 桫= 1 i
= 1 n- 1 n n 1
2
1 n 2 2 EX i nEX n 1 i 1
2
(n E X
若总体X是连续型随机变量,其概率密度为
f ( x ),
则样本的联合概率密度为
f ( x1 , x 2 , , x n ) f ( x1 ) f ( x 2 ) f ( x n )
对于离散型总体,有相似的结论。
数理统计 17
例 设 ( X 1 , X 2 , , X n ) 是取自正态总体 N ( , 2 ) 的 样本,求样本的概率分布。 解 总体X的密度函数为
数理统计
30
X EX 1 P DX
X 1 P 1 10
0 .0 2 E X DX
E(X ) 0 D(X ) 1 100
显然
X ( 1 ) m in X i ,
1 i n
X (n) m ax X i ,
1 i n
两者也分别称为最小次序统计量和最大次序统计量. 称
R X ( n ) X ( 1 ) 为样本极差
X n1 ( 2 ) Md 1 (X n X n ( ) (1 ) 2 2 2 n 为奇数 (4 - 15) n 为偶数
总体 样本
随机变量 X 随机向量
( X 1 , X 2 , , X n )
数理统计
15
在一次试验中,样本的具体观测值 称为样本值。记为 ( x 1 , x 2 , , x n ) . 有时候样本与样本值使用同一符号, 但含义不同。 简单随机样本 若 X 1 , X 2 , X n 是相互独立的并与总体
抽样分布
x
/ n
x s/ n
N (0,1)
t=
N ( , )
2
t分布
总体方差未知或样本容量n小于30时,标准离差的分布呈t分布。
四、 t 分布
对于不同的自由度,t分布有不同的曲线。
四、 t 分布
( 1 ) t分布曲线左右对称,围绕平均数μt =0 向两侧递降。 (2)t分布受自由度df=n-1制约,每个df都有一条t分布曲线。 (3)df小,t值离散程度大。 (4)和正态分布相比,t分布的顶端偏低,尾部偏高,自由度
2 s1 F 2 s2
此F值具有s12的自由度df1=n1-1和s22的自由度 df2=n2-1。
六、 F 分布
df1 df1 df2 1 ( ) df1 df 2 2 F 2 2 2 f (F ) df1 df2 df1 df 2 df1 df2 ( ) ( ) (df1 F df2 ) 2 2 2
F分布是随自由度df1和df2进行变化的一组曲线。
F分布的概率累积函数
f (F )
F
0
f ( F )dF
六、F 分布
1
F分布的平均数μF=1 ,F的取值区间为[0,+∝ )
F分布曲线的形状仅决定于df1和df2。在df1=1或2时, 2 F分布曲线呈严重倾斜的反向J型,当df1≧ 3时,转
为左偏曲线。
第四章:统计数的分布——抽样分布
从总体中抽取的样本提供的信息仅是总体的一部分,它不能 提供完全准确的信息,必然存在着一定的误差。 对于样本容量相同的多次随机抽样样本,其统计量是变异的, 且其取值有一定的概率,即样本统计量也是一个随机变量,此 分布规律称为抽样分布(sampling distribution)。
应用统计学(第四章 概率与概率分布)
服从正态分布N(μ,σ2)的随机变量,x的取值落在区间 [x1,x2) 的概率P(x1≤x<x2),等于服从标准正态分布的随机变 量u在[(x1-μ)/σ, (x2-μ)/σ)内取值的概率。
u x
P(a u b) Φ(b) Φ(a) P( u a) 2Φ(a) P( u <a) 1 2Φ(a) P(0 u<a) Φ(a) 0.50 P(u a) 1 Φ(a) Φ(a)
1)正态分布的特征
a. x=μ 时 f(x) 值最大,密度曲线以μ为中心分布
b. x-μ绝对值相等时f(x) 相等,密度曲线以μ为中心两侧 对称
c. f(x)是非负函数,以x轴为渐近线
d.正态分布曲线由参数μ,σ 决定, μ 确定正态分 布曲线在x轴上的中心位置,σ 确定正态分布的变异度
e.正态分布曲线在x =μ±σ 处各有一个拐点,曲线通
是根据随机事件本身的特性直接计算其概率 随机事件若满足
试验的所有可能结果只有有限个,即样本空间中的基本 事件只有有限个
各个试验的可能结果出现的可能性相等,即所有基本事 件的发生是等可能的
试验的所有可能结果两两互不相容
则若样本空间由n个等可能的基本事件所构成,其中事件A 包含有m个基本事件,则事件A的概率为m/n,即 P(A)=m/n
x-
x+
b.连续型变量的概率分布
连续型随机变量的概
率分布因取值数不可数而 样本容量 n 足够大时,频率分
不能用分布律来表示
布趋于稳定,近似地看成总
体概率分布
n 无限大时
频率转化为概率 频率密度转化为概率密度 频率分布转化为概率分布 曲线为总体概率密度曲线 函数f(x)称为概率密度函数
田间试验与统计方法第四章理论分布和抽样分布
•
•表4.2 调查单位为5株的概率分布表(p=0.35,q=0.65)
•
•
受害株数(y)
•图4.1 棉株受危害的概率分布图 •(p=0.35,n=5)
•
•(•三) 小概率事件实际不可能性原理
•小概率事件----随机事件的概率表示随机事件在试验中出现的 可能性大小。随机事件的概率很小如,小于0.05或0.01或0.001
•小概率原理----统计学上,把小概率事件在一次试验中看成是 实际不可能发生的事件,称为小概率事件实际不可能性原理, 简称小概率原理。
估计的概率称为实验概率或统计概率,以
表示。
•此处P代表概率,P(A)代表事件A的概率,P(A)变化的范围为 0~1,即0≤P(A)≤1。
•
பைடு நூலகம்
(二) 概率的古典定义
概率的统计定义是在大量的试验中以频率的稳定性为基础上提出来的。
不需要做试验,根据随机事件本身的特性就可以确定事件出 现的概率,称为古典概率。
这就要求有一个能够刻划事件发生可能性大小的数量指标, 这指标应该是事件本身所固有的,且不随人的主观意志而改变 ,人们称之为概率(probability)。
事件A的概率记为P(A)。
•
•二、概率 (一)概率的统计定义
思考:投掷一枚硬币,出现正面的概
率是多大?(0表示反面,1表示正 面)反复做它,那么所有出现正面 的结果平均值是多少?
•
结果事前不可预言,呈偶然性、不确定性
•
例,种子发芽,抛硬币
•
随机现象或不确定性现象,有如下特点: (1)在一定的条件实现时,有多种可能的结果发生,事前人们不 能预言将出现哪种结果;对一次或少数几次观察或试验而言, 其结果呈现偶然性、不确定性; (2) 但在相同条件下进行大量重复试验时,其试验结果却呈现出 某种固有的特定的规律性——频率的稳定性,通常称之为随机 现象的统计规律性。
第四篇抽样和分布1(药学)PPT课件
24
4、整群抽样 先将总体分成若干互不重叠部分(称为群),再 从各群中随机抽取某群或几群作为样本。 例:调查某年级学生上网情况
可把每班作为一群,从中随机抽取一班或几班作 为样本。
该法适用于大规模调查,易于组织,节省人 力物力,但误差较大,适于群体差异较小的调 查对象。
8
实例 研究某地区12岁儿童生长发育情 况,总体和个体应为什么? 显然,总体为该地区的全体儿童
个体为每一个儿童。
当然,衡量儿童生长发育情况要通过诸如身高、 体重等数量指标进行,所以对总体的研究实际上 是对该地区的全体儿童的这些指标值概率分布进 行研究。
9
根据研究指标的多少,总体分为 一维总体-研究一项描述指标,常用随机变量X表示; 多维总体-研究多项描述指标,常用随机向量表示,
14
一般地,对有限总体,应采用有放回抽样,对 无限总体(或数量较多),可采用无放回抽样 (近似看作有放回),否则违背独立性。
简单随机抽样具体实施的方法: 抽签法
随机数法
15
三、统计量(Statistic )
样本是对总体的代表和反映,抽样的目的是利用样本值对 总体进行统计推断。
而对总体进行统计推断,常根据需要的不同,利用样本构 造一些包含所需要的多种信息的量,就是关于样本 X1 ,X2 ,…,Xn的一些函数,这些函数统称为统计量。
3
例如,在几何学中要证明“等腰三角形底角相等”, 只须从“等腰”这个前提出发,运用几何公理,一步一 步推出这个结论.这是演绎推理。
而一个习惯于统计思想的人,可能这样推理: 做很多大小形状不一的等腰三角形,实地测量 其底角,看差距如何,根据所得资料看看可否作 出“底角相等”的结论. 这样做就是归纳式的方法.
第四章--样本及抽样分布课件
如果g(X1,X2,…,Xn)中不含有未知参数,称g(X1,X2,…,Xn) 为统计量。
(不含未知参数的样本的函数)
PPT学习交流
18
如 X~N(,2) , 2 未知,
(X1,X2,…,Xn)为X的一个样本
X
1 n
n i1
Xi
n
X
2 i
i1
均为统计量
X
1
2
X
2 i
不是统计量
若μ已知,σ2未知, (X1,X2,…,X5)为X的一个样本
PPT学习交流
20
2. 经验分布函数
设 X1,X2,,Xn是总 F的 体 一个s样 (x) x本 ,用 表x示 1,x2,,xn中不x的 大随 于机变 . 量的个数
定义经验分布函数为
Fn(x)n1s(x) x 例设总体F具有一个样本1,1值 ,2,则经验分布函数
F3(x)的观察值为
0, 若x1
F3(x)
具体方法 ①随机数字法 ② 抽签法
PPT学习交流
6
2、优缺点
①对所有观察单位编号,当数量大时,有难 度
② 抽样误差的计算较方便
PPT学习交流
7
3、抽样误差的估计 有限总体与无限总体
总体类型 无限总体
有限总体
均数标准误
s n
s 1 n nN
率的标准误
p1 p
n 1
p1p 1 n
n1 N
PPT学习交流
体的情况——总体分布。样本是联系两者的桥梁。总
体分布决定了样本取值的概率规律,也就是样本取到
样本观察值的规律,因而可以用样本观察值去推断总
体。
PPT学习交流
4
4.2 随机抽样方法
概率分布与抽样
3、概率分布可以用各种图表来表示,一些也可
以用公式来表示。意义:描述随机变量变化的 统计规律;方便地计算某一事件发生的概率。
2020/4/4
11
(二) 离散型随机变量的概率分布
离散型随机变量概率分布的两种表现形式 1.分布列(律)
2.概率函数
2020/4/4
12
概率函数p(xi)的数学性质
. . .
3489962435 9866332890 8036522364 7065436387 1327690879 9535443208 2148990085 7065432549 0656433223 2437909854 2376987667 2137860769 8800523267 4379734343 3874856049
在随机数表中随意选取二个数字,假如得到4行,43
列。则选取的号码从这个被选中的数开始,由于500是
个三位数,则小于500的连续三位数即为中选号码,见
表中所示。
2020/4/4
8
4.1.3 简单随机抽样
9745238942 1276465909 9874763642 2659305984 1676587006 0377797684 9877808423 2778006869 2133768790 8262130892 3286548900 8084634212 4332657790 7963645324 9087434329
. . .
2020/4/4
9424252386 4879903443 2177609554 2148797544 7537697997 1254876987 6743219845 3248906034 0765433245 8707867698 7694432767 9094232155 0232337932 0362212379 3478794235