第二章 理论分布与抽样分布
数理统计第二章抽样分布2.6节指数族
C ( )exp{Q1 ( )T1 ( x ) Q2 ( )T2 ( x )}h( x )
7
2 其中C ( )= exp 2 , Q1 ( )= 2 , 2 2 1
Q2 ( )=
1 2
2 , T ( x )= x , T ( x ) x , h( x ) 1 1 2 2
f ( x, ) C ( )exp{Q1 ( )T1 ( x ) Q2 ( )T2 ( x )}h( x )
2 n n/ 2 n 其中C ( )=(2 ) exp 2 , Q1 ( )= 2 , 2 n n 1 Q2 ( )= 2 ,T1 ( x )= xi,T2 ( x ) xi2 , h( x ) 1 2 i 1 i 1
1 e exp{ x log } x! p( x, ) C ( )exp{Q1 ( )T1 ( x )}h( x )
其中C ( )=e , Q1 ( )= log,
T1 ( x ) x , h( x ) 1/ x !
因此根据定义Poisson分布族是指数族.
15
双参数指数族的密度函数为 1 x p( x; , ) exp{ }I[ x ] , , 0 其中和 是两个参数,它的支撑集为
{ x : p( x; , ) 0} =( , ) 与未知参数有关,因此双参数指数分布不是指数族.
n
n
1
n exp xi I[ xi 0,i 1,2, i 1
,n]
,n ]
n n n exp xi ( 1) log xi I[ xi 0,i 1,2, n (( )) i 1 i 1
理论分布和抽样分布
所构成,其中事件A包含有m个基本事件,
则事件A的概率为m/n,即
P(A)=m/n
这样定义的概率称为古典概率。
13
2.1 概率的统计学意义
例如,在有两个孩子的家庭中,孩子性别
的组成有四种类型。即:男男、男女、女
男、女女。它们是四个基本事件,而且是
互不相容且等可能的,那么两个男孩的事
件A1为四个基本事件(n)中的一个(m) , A1的概率
27
第二章 理论分布和抽样分布
将Y的一切可能y1值 y2 , ,…,以及取得这些 值的概率p( y1) 、p( y2 ) …,排列起来, 就构成了 离散型随机变量的概率分布(probabiit distribution)。
表2-2 离散型随机变量的概率分布表。
Y
y1
y2
…
P(yi) p( y1 ) p( y2 )
本章在介绍概率论中最基本的两个概念——事件、概 率的基础上,重点介绍生物科学研究中常用的几种随 机变量的概率分布:间断性变数总体的理论分布:二 项分布、泊松分布;连续性变数总体的理论分布,即 正态分布; 从这两类理论分布中抽出的样本统计数的
分布,即抽样分布和t分布。
2
2.1 概率的统计学意义
一、事 件 1. 必然现象与随机现象 在自然界与生产实践和科学试验中,人们会观察到各种
这里的0.05或0.01称为小概率标准,生物 试验研究中通常使用这两个小概率标准。
21
2.3 理论分布
事件的概率表示了一次试验某一个结果发 生的可能性大小。若要全面了解试验,则 必须知道试验的全部可能结果及各种可能 结果发生的概率,即必须知道随机试验的 概率分布(probability distribution)。为 了深入研究随机试验 ,我们先引入随机变 量(random variable)的概念。
3-理论分布与抽样分布
68-95-99.7规则
➢ 正态分布有其特定的数据分布规则: ▪ 平均值为, 标准差为σ的正态分布 ▪ 68%的观察资料落在的1σ之内 ▪ 95%的观察资料落在的2σ之内 ▪ 99.7%的观察资料落在的3σ之内
19
20
三、68-95-99.7规则
68.26% 的资料 95.45% 的资料 99.73% 的资料 -3 -2 -1 0 1 2 3 -3s -2s -s +s +2s +3s
体称为样本平均数的抽样总体。其平均数和标准差分
别记为 和 。x
s x
是样s x本平均数抽样总体的标准差,简称标准误 (standard error),它表示平均数抽样误差的大小。统 计学上已证明x总体的两个参数与x 总体的两个参数有 如下关系:
u=(x-μ)/σ
x~N(0,1)
上一张 下一张 主 页 退12出
3.3.3 正态分布的概率计算 1. 标准正态分布的概率计算
设u服从标准正态分布,则u在[u1,u2 )内取 值的概率为:
=Φ(u2)-Φ(u1)
(3-16)
Φ(u1)与Φ(u2)可由附表1查得。
上一张 下一张 主 页 退13出
例如,u=1.75时,由附表1可以查出 Φ(1.75)=0.95994
图3-6 μ相同而σ不同的3个正态分布比较大 8
(6)分布密度曲线与横轴所围成的区间面积为1, 即:
(7) 正态分布的次数多数集中在平均数μ的附 近,离均数越远,其相应次数越少,在3σ以外的 极少,这就是食品工业控制中的3σ 原理的基础。
上一张 下一张 主 页 退 9出
3.3.2 标准正态分布
上一张 下一张 主 页 退16出
(1) P(u<-1.64)=0.05050 (2) P (u≥2.58)=Φ(-2.58)=0.024940 (3) P (|u|≥2.56)
统计数据的收集与整理
第一章 统计数据的收集与整理1. 什么是总体、样本、变数、观察值?2. 有一群数值:9、6、10、8、12、11、8、8、9 计算算术平均数、中位数、众数、极差和方差。
3. 对下列次数分布求算术平均数及标准差。
1,2,3,8,4,2:12,10,8,6,4,2:f y4. 10个小区的苜蓿试验田的产量分别为每公顷2.0,3.2,3.7,4.2,4.2, 4.4,4.9,4.9,4.9,5.4公斤。
有多少个离差是正的,多少个是负的?它们之和等于零?标准差为多少?5. 玉米郑单958杂交种60株株高数据如下:211 184 211 216 206 210 233 230 164 224 185 204 233 175 197 211 231 144 209 253 231 200 174 202 261 212 163 178 222 253 198 193 209 200 184 214 193 234 186 244 192 200 244 246 189 254 232 141 220 264 240 245 224 203 197 242 266 242 248 222(1)试将上述数据进行分组,编制次数分布表及绘出柱形图和多边形图。
(2)对已分组的数据计算:算术平均数、中位数、众数、标准差、变异系数。
第二章 理论分布与抽样分布1. 在一个10,4.0,6.0===n q p 的二项分布中,p 代表某一属性出现的频率,n xp =,q 为其对立事件出现的频率,试计算:)62(≤≤x p ,)6(≥x p ,)3(≤x p2. 为回答农学文凭对所从事的工作有多大用处这个问题,农学院团委组织学生对全省政府、事业及乡镇等涉农单位进行了调查。
结果表明仅有34%的人认为他们能较好地利用所学的技能。
在一个由50名农艺师和农业管理人员组成的随机样本中,能很好利用在大学所学专业的人数为x ,求以下事件的概率近似值:10≤x , 25≥x , 3020≥≤x3. 根据正态曲线概率表求出下列概率:)96.1(≥u p ,)32.10(≤≤u p , )58.21.1(≤≤-u p , )34.205.1(≤≤u p ,)48.045.2(-≤≤-u p , 求出单侧5%累积概率的u 值,双侧20%累积概率的u值。
统计学 抽样分布和理论分布
抽样分布与理论分布一、抽样分布总体分布:总体中所有个体关于某个变量的取值所形成的分布。
样本分布:样本中所有个体关于某个变量大的取值所形成的分布。
抽样分布:样品统计量的概率分布,由样本统计量的所有可能取值和相应的概率组成。
即从容量为N 的总体中抽取容量为n 的样本最多可抽取m 个样本,m 个样本统计值形成的频率分布,即为抽样分布。
样本平均数的抽样分布:设变量X 是一个研究总体,具有平均数μ和方差σ2。
那么可以从中抽取样本而得到样本平均数x ,样本平均数是一个随机变量,其概率分布叫做样本平均数的抽样分布。
由样本平均数x 所构成的总体称为样本平均数的抽样总体。
它具有参数μx 和σ2x ,其中μx 为样本平均数抽样总体的平均数,σ2x 为样本平均数抽样总体的方差,σx 为样本平均数的标准差,简称标准误。
统计学上可以证明x 总体的两个参数 μx 和σ2x 与X 总体的两个参数μ和σ2有如下关系:μx = μσ2x = σ2 /n 由中心极限定理可以证明,无论总体是什么分布,如果总体的平均值μ和σ2都存在,当样本足够大时(n>30),样本平均值x 分布总是趋近于N (μ,n2σ)分布。
但在实际工作中,总体标准差σ往往是未知的,此时可用样本标准差S 估计σ。
于是,以nS估计σx ,记为X S ,称为样本标准误或均数标准误。
样本平均数差数的抽样分布:二、正态分布2.1 正态分布的定义:若连续型随机变量X 的概率密度函数是⎪⎭⎫ ⎝⎛--=σμπσx e x f 22121)( (-∞<x <+∞)则称随机变量X 服从平均数为μ、方差为σ2的正态分布,记作X~N (μ,σ2)。
相应的随机变量X 概率分布函数为 F (x )=⎰∞-x dx x f )(它反映了随机变量X 取值落在区间(-∞,x )的概率。
2.2 标准正态分布当正态分布的参数μ=0,σ2=1时,称随机变量X 服从标准正态分布,记作X~N (0,1)。
理论分布和抽样分布优秀课件
n为样本含量,即事件发抽样分布优秀课件
二项分布是说明结果只有两种 情况的n次独立实验中发生某种 结果为x次的概率分布。
理论分布和抽样分布优秀课件
因为(p+q)=1,所以
n
P(x)(pq)n 1
x0
理论分布和抽样分布优秀课件
二项分布的累积函数: • 二项分布中某结果最多发生k次的概率 为发生0次、1次、...、直至k次的概率之和:
以“事件”一词代表随机事件,并 以字母A, B, C...... 等表示,以U表示 必然事件,以V代表不可能事件。
1.事件A与事件B至少有一件发生 而构成的新事件称为事件A与事件B 的和事件。
记作:A+B 读作“或A发生,或B 发生”
理论分布和抽样分布优秀课件
和事件可以推广到N个事件: A+B+C+......+N表示N个事件至少有一 个发生。
•依此类推,独立地对n粒种子进行实 验,一种结果出现x次的概率是:
P { Xx }C n xp xq n x
•称为二项分布律或二项概率函数, 是(p+q)n展开后含有p(x)的一 项.这一分布律也称为贝努里分 布.
理论分布和抽样分布优秀课件
其中,x=0,1,2,……,n, 为某 事件出现次数。
各为P(A)和P(B),那么“A+B ”事件 的概率为 P(A+B)=P(A)+P(B)
理论分布和抽样分布优秀课件
法则三:独立事件概率的乘法: 若确定事件A的概率时不受到事件
B的影响,反之亦然,那么,这两个 事件是互相独立,称独立事件。对 于这类事件,同时出现这一新事件 的概率必为每个事件概率的积。
理论分布和抽样分布优秀课件
生物统计理论分布和抽样分布
第四章理论分布和抽样分布一、基本概念1.必然事件:在同一组条件的实现下必然要发生的一类事件。
如人总是要死的,水在标准大气压下加热到100℃必然化为蒸汽。
P(A)=1。
2.不可能事件:在同一组条件的实现下必然不发生的一类事件。
如水在标准大气压下温度低于0℃不可能呈气态。
P(A)=0。
3.随机事件(偶然事件):在同一组条件的实现下可能发生,也可能不发生的一类事件。
如种子可能发芽,也可能不发芽;硬币抛上落下可能正面朝上,也可能反面朝上。
P(A)∈[0,1]。
4.频率a:假定在相似条件下重复进行同一类试验调查,事件A发生的次数a与总试验次数n的比称之。
如抛硬币,10次有7次朝上,a=7/10。
5.概率P:当试验总次数n逐渐增大时,事件A的频率愈来愈稳定地接近定值P,则事件A地概率为P。
6.小概率的实际不可能性原理:凡概率很小的事件(农业上一般指P<0.05的事件),在二、计算事件概率的法则1.和事件:C=A+B A:身高在1.65以下;B:身高在1.65~1.75之间;C:身高在1.75以下。
2.积事件:C=A×B A:身高在1.65以下;B:男同学;C:身高在1.65以下的男同学。
3. 互斥事件:A·B=V (V表示空集) A:小麦种子发芽;B:小麦种子不发芽。
4.对立事件:如果A+B是必然事件,即A+B=U(U为全集);而A·B=V,即A与B 是互斥事件,则称B为A的对立事件,B=A(补集),如上例发芽与不发芽。
5.完全事件:如A·B=V且A+B=U,则称A与B为完全事件系,如小麦发芽与不发芽就构成完全事件系。
6.对立事件的概率:A()1(A)=-P P7.互斥事件的概率加法:()(A)()P=+=+如身高小于1.60m的概率为(A)P A B P P B0.15;身高小于1.70m且大于等于1.60m的概率为()P B=0.62;则身高小于1.70m的概率()(A)()+=+=0.77P A B P P B8.独立事件的概率乘法:()(A)()P A B P P B=。
第二章 理论分布与抽样分布(二)
照正态分布计算的相应理论分布分位数的差(称为分位数的残差)作为纵坐标,把样本表现为直角坐
标系的散点,所描绘的图形。如果资料服从正态分布,残差散点基本在Y=0上下均匀分布。(分位数
的残差图)。
Detrended Normal P-P Plot of 血清总胆固醇
.08
Detrended Normal Q-Q Plot of 血清总胆固醇
34
4. 探索分析
➢结果分析
35
4. 探索分析
➢结果分析
M估计值
36
4. 探索分析
➢结果分析
分别利用Kolmogorov-Smimov检验和Shapiro-Wilk检验两种方法来确 定变量是否服从正态分布。其中,Statistic表示检验统计量的值,df 代表自由度,Sig.表示显著性水平。一般来说,Sig.>0.05则代表接受 零假设,即接受变量服从正态分布的假设。本例中,两个变量的两 种方法的Sig.值均大于0.05,因此两个变量均服从正态分布。
7
2 频数分析
频数分析过程的操作界面
(4)Statistics按钮 单击该按钮会弹出新的对话框,该对话框主要用于确定将要在输出结果 中出现的统计量,选中统计量前的复选框表示输出该统计量。 (5)Charts按钮 用于确定将输出的图形类型和图形取值。 (6)Format按钮 定义输出频数表的格式
8
2 频数分析
4
1.基本描述性统计量的定义及计算
描述离散趋势的统计量 ✓ 样本方差(Variance) ✓ 样本标准差(Std. deviation) ✓ 极差(Range) ✓ 均值标准误差(Standard Error of Mean) 描述总体分布形态的统计量 ✓ 偏度(Skewness) ✓ 峰度(Kurtosis)
理论分布与抽样分布
统计学证明,服从二项分布B(n,p)旳随
机变量之平均数μ、原则差σ与参数n、p有
如下关系:(即次数平均数、原则差)
当试验成果以事件A发生次数k表达时
μ=np
σ2= npq
(3-7)
σ= npq
当试验成果以事件A发生旳频率k/n或
百分数表达时(即样本平均数、原则差)
p p ( pq) / n
xpx qnx
n
x0
c c c
0 6
0.850
0.156
1 6
0.851
0.155
2 6
0.852
0.154
c c
3 6
0.853
0.153
4 6
0.854
0.152
0.22350
二项分布旳应用条件有3点:
(1) 一对互斥事件 (2) (p+q=1),P是稳定值。 (3) n次成果相互独立
1.1.4二项分布旳平均数与原则差
由图2-6做100听罐头净重资料旳频率分 布直方图 ,能够设想 ,假如样本取得越来 越大(n→+∞),组分得越来越细(i→0),某一 范围内旳频率将趋近于一种稳定值 ── 概率。 这时 , 频率分布直方图各个直方上端中点 旳联线 ── 频率分布折线将逐渐趋向于正态 分布曲线。
上一张 下一张 主 页 退 出
(1)随机单位时间和单位空间旳稀有事件; (2)在n→∞,p→0, 且 n p =λ(较小常数)情 况下 ,二项分布 趋于泊松分布; (3)每次试验成果相互独立。 对于在单位时 间、单位面积或单位容积内,所观察旳事物 因为某些原因分布不随机时,不是泊松分布。 (Such as contagion, Bacteria Group in milk)
第二章 抽样技术的基本概念
2、中心极限定理;
3、t分布定理;
对于样本比例,在重复抽样时服从二项分布,在 不重复抽样时服从超几何分布,它们的极限形式都是 正态分布。
正态分布是最重要、最常用的抽样分布。 我们可 以根据正态分布理论,在一定的概率保证下,以所抽 样本所给出的估计值为依据对总体指标作出区间估计。
4、在实践中,我们还经常要对总体中某 特定的组或类进行调查研究,这样的组或类就 称为研究域或子总体。
5
二、调查单位与抽样单位
总体是由单位构成的,单位有调查单位与 抽样单位之分。
调查单位就是调查项目的承担者,即我们 想通过调查取得其观测值的单位,它通常是构 成总体的最基本单位。但有时调查单位与基本 单位并不相同。
标θ ,也就是要在一定的概率保证下,想办 法找出两个数值θ1和θ2(θ1≤θ2),使θ处
于这两个数值之间,即:
Pr(θ1 ≤ θ ≤ θ2 )=1- α
27
区间(θ1,θ2)就被称为抽样的置信区 间或估计区间,θ1被称为置信区间的下限, θ2被称为置信区间的上限 。
在正态分布下,估计量关于总体指标对称
23
二、抽样误差的表现形式
抽样误差的表现形式一般有三种:抽样实 际误差、抽样标准误和抽样极限误差。
抽样实际误差是指抽样估计值与总体指标 值之间的离差。
特点: 1、若估计量无偏,所有可能的实际误差 的总和为0; 2、每一次抽样的实际误差是不可知的; 3、抽样实际误差是随机变量。
24
抽样标准误是衡量抽样误差大小的核心指标,是对总 体指标作出区间估计的一个重要因素,狭义上所指的抽样 误差就是抽样标准误。它就是抽样分布或抽样估计量的标 准差,是抽样分布方差或抽样估计量方差(均方误差)的 平方根。
理论分布与抽样分布
在回归分析中的应用
建立回归模型
根据自变量和因变量的关系,建立合 适的回归模型,如线性回归、非线性 回归等。
估计模型参数
利用样本数据对回归模型的参数进行 估计,得到回归方程的系数和截距。
检验模型显著性
通过计算F值或t值等统计量,对回归 模型的显著性进行检验,判断自变量 对因变量是否有显著影响。
预测和控制
理论分布与抽样分布
目 录
• 引言 • 理论分布概述 • 抽样分布概述 • 理论分布与抽样分布的关系 • 理论分布与抽样分布在实践中的应用 • 总结与展望
01
引言
目的和背景
阐述理论分布与抽样分布的概念及其关系 分析在统计学中理论分布与抽样分布的重要性 探讨如何利用理论分布与抽样分布进行统计推断
汇报范围
在方差分析中的应用
方差齐性检验
在进行方差分析前,需要对各组的方差 进行齐性检验,以确定是否满足方差分
析的前提条件。
计算统计量
利用样本数据计算各组均值、总均值、 组间方差和组内方差等统计量。
建立模型
根据研究问题和数据特点,建立方差 分析模型,包括因素、水平、交互作 用等。
进行F检验
根据方差分析模型,计算F值,并利 用F分布进行假设检验,判断因素对 结果是否有显著影响。
抽样分布的形状和特性与总体分布密切相 关。
依赖于样本量
统计量的分布
随着样本量的增加,抽样分布的形状逐渐 趋近于正态分布。
抽样分布描述的是统计量(而非单个样本 值)的分布情况。
抽样分布的形成原理
中心极限定理
当从均值为μ、方差为σ^2的总体中随机抽取容量为n的样本时,随着n的增大,样本均值的抽样分布逐渐趋近于 均值为μ、方差为σ^2/n的正态分布。
理论分布和抽样分布
THANKS FOR WATCHING
感谢您的观看
确定拒绝域
根据显著性水平和检验统计量 的分布,确定拒绝原假设的区 域。
作出决策
将计算得到的检验统计量值与 拒绝域进行比较,决定是否拒 绝原假设。
抽样分布在假设检验中的意义和作用
提供理论基础
确定拒绝域
通过抽样分布可以确定检验统计量的分布和拒绝域 ,从而进行假设检验的决策。
抽样分布理论为假设检验提供了理论基础, 使得我们能够从样本数据中推断总体参数。
05 抽样分布在参数估计中的 应用
点估计方法介绍
矩估计法
利用样本矩来估计总体矩,从而得到参数的估计 值。
最大似然估计法
根据样本数据,选择使得似然函数达到最大值的 参数值作为估计值。
最小二乘法
通过最小化误差的平方和来得到参数的估计值。
区间估计方法介绍
置信区间法
利用样本数据构造一个置信区间,该区 间以一定的概率包含总体参数的真值。
进行假设检验
在参数假设检验中,需要利用抽样分布来确定检验统计量的分布及其临界值。
06 抽样分布在假设检验中的 应用
假设检验的基本思想和步骤
选择检验统计量
根据假设选择合适的检验统计 量,如$t$统计量、$F$统计量 等。
计算检验统计量的值
根据样本数据计算检验统计量 的值。
建立假设
根据研究问题提出原假设 ($H_0$)和备择假设 ($H_1$)。
报告范围
01 理论分布的定义、性质及其常见的类型。
02 抽样分布的概念、性质及其与样本量的关系 。
03
理论分布和抽样分布在假设检验、置信区间 估计等统计推断方法中的应用。
04
通过实例和案例分析,展示理论分布和抽样 分布在实践中的具体应用。
第二章理论分布与抽样分布
P(A) lnim an
式中P代表概率,P(A)代表事件A的概率。 P(A)的取集范围为:0≤ P(A) ≤1。
随机事件的概率表现了事件的客观统计规律性,它反映了事件在一次试 验中发生可能性的大小,概率大表示事件发生的可能性大,概率小表示事 件发生的可能性小。
立。 例如,事件A为“花的颜色为黄色”,事件B为“产量高”,如果花的颜色
与产量无关,则事件A和B相互独立。
第二章理论分布与抽样分布 12
2.1 事件、概率和随机变量-概率的计算法则
互斥事件的加法
假定两互斥事件A和B的概率分别为P(A)和P(B),则 P(A+B)=P(A)+P(B)
例如:某一批水样中,Cd的含量≤0.03mg/L的概率
第二章理论分布与抽样分布 8
2.1 事件、概率和随机变量-事件间的关系
互斥事件 如果事件A和B不能同时发生,即A和B是不可能事件,则
称事件A和B互斥。例如饮用水中Cd污染<0.003mg/L和 =0.003mg不可能同时发生,为互斥事件。
第二章理论分布与抽样分布 9
2.1 事件、概率和随机变量-事件间的关系
第二章 理论分布与抽样分布
第二章理论分布与抽样分布 1
2.1 事件、概率和随机变量
(1)事件和事件发生的概率 (2)事件间的关系 (3) 计算事件概率的法则 (4)随机变量
第二章理论分布与抽样分布 2
2.1 事件、概率和随机变量
事件(event):在自然界中一种事物,常存在几种 可能出现的情况,每一种可能出现的情况称为 事件。
对立事件
事件A和B不可能同时发生,但必发生其一,即A+B为必然事件
概率论和数理统计数理统计的基本知识
3/11/2021
〖定义〗 设总体X的 n个独立观测值为x1,x2,…,xn, 将它们从小到大
排序后为x1*,x2 *,…,xn *, 令
0,
Fn
(
x)
k n
,
1,
x x1*
x
* k
x
x* k 1
xn* x
称Fn(x)为总体X 的经验分布函数. (也称为样本分布函数)
① 0 Fn( x) 1 ② 单调不减; ③ 处处右连续.
n
P( X xi )
i 1
8
3/11/2021
例1 已知总体X ~()分布,写出样本 (X1, X2,…, Xn)的分布律。
析:
X的分布律 P{ X k} k e ,
k!
可以写成 P{ X x} x e ,
x!
k 0,1,2, x 0,1,2,
样本 (X1, X2,…, Xn)的分布律
5
3/11/2021
❖3、样本
➢从总体X中随机抽取n个个体X1,X2,Xn所组成的一个个体 组(X1,X2,,Xn),称为总体X的一个样本,个体的数目n
称为样本容量。
➢ 通过试验对样本(X1,X2,,Xn)进行观测,得到的n个确定的 实验数据(x1,x2,,xn),称为样本(X1,X2,,Xn)的一个观察值,
(X1 ,X2,…Xn1), (Y1 ,Y2,…Yn2)分别为取自总体X,Y的样本,则
3/11/2021
1> 当12= 22时
(X Y ) ( 1 2)
S
11 n1 n2
~
t(n1 n2 2)
其中S 2
(n1
1)S12 (n2 1)S22 n1 n2 2
统计学中的抽样分布理论
统计学中的抽样分布理论统计学是一门深奥而又广泛应用的学科,其中抽样分布理论是其中一个重要支柱。
本文将从抽样、样本统计量和抽样分布三个方面进行论述,以便更好的理解其理论和应用。
一、抽样与样本统计量统计学的基本任务之一是推断总体特征。
但由于总体数据规模庞大,难以全面观察和分析,因此我们通常采用小样本的方式来代表总体。
这就是抽样的概念。
抽样是指从总体中随机抽取一部分数据,用这一部分数据代表总体,以此估计总体的特征。
常用的抽样包括简单随机抽样、分层抽样、整群抽样等。
在抽样中,一个样本统计量的重要性凸显出来,因为它可以帮助我们更好的估计总体的特征。
比如,一个数据集的均值和标准差就是两个重要的样本统计量。
二、抽样分布抽样分布是指在所有可能的样本中,某个样本统计量的分布情况。
这里需要区分参数(population)和统计量(sample statistic)之间的关系。
参数是总体参数,是我们想要研究的总体特征,比如总体均值、总体方差等。
统计量是在样本中计算出来的数值,比如样本均值、样本方差等。
样本统计量是对总体参数的估计,不同的样本统计量可能对总体参数的估计存在一定的差异。
抽样分布不同于总体分布。
总体分布是指总体中所有变量的分布,而抽样分布是指在所有可能的样本中,某个样本统计量的分布。
抽样分布是一个特殊的概率分布,其形状和参数取决于总体分布和样本大小。
这是因为在计算样本统计量时,会受到样本数量和样本变异的影响。
在实际使用中,我们通过抽样分布来推断总体参数。
具体方法是:首先,通过采样方法得到一个样本,计算该样本统计量的值。
然后,通过数学公式推算样本统计量的抽样分布,从而得到一个概率区间。
若该样本统计量恰好位于这个区间内,则认为该样本统计量的估计值与总体参数的差异可以用统计学上的概率来表示。
这个概率就是所谓的显著性水平(signicance level)。
三、中心极限定理中心极限定理是抽样分布理论中最为重要的定理之一。
3 理论分布与抽样分布
1.3.3 正态分布的概率计算
标准正态分布的计算: 已知X ~N(0,1),求X在实数区间(a,b)上 的概率P(a<x<b)?
Ф(b)-Φ(a)
这个积分比一般正态分布要简单,在实际工作中应 用广泛。为了使用方便,前人编制了标准正态分布 函数的数值表。见附表。
(1)附表1可解决:已知a和b,求P(a<x<b)?
从波松分布的实例中,分布参数λ往往是未知的,
只能从所观察的随机样本中计算出相应的样本平均
数作为 λ 的 估计值,将其代替计算公式中的λ,计
算出 k = 0,1,2,… 时的各项概率。
上一张 下一张 主 页
退 出
例,为监测饮用水的污染情况, 现检验某社区每 毫升饮用水中细菌数 , 共得400个记录如下:
量x ,其可能取值为某范围内的任何数值 ,且x 在其取值范围内的任一区间中取值时,其概率是 确定的,则称x为 连续 型 随 机 变 量 ( continuous random variable)。
不能列出试验结果和取此结果的概率, 只能给出一定范围和在此范围内取值 上一张 的概率。
下一张 主 页
退 出
1.2.1 泊松分布的定义
当随机变量x(x=k)所有可能取值是非负整数,且 其概率分布为:
λ e P( x k ) k!
k λ
其中,λ是一个大于0的常数;k=1,2,…,n,…; e是自然对数的底数;则称随机变量x为服从参数为λ 的泊松分布。
记为: x~P(λ)。
1.2.2 泊松分布的重要特征
上一张 下一张 主 页 退 出
离 散 型 随 机 ห้องสมุดไป่ตู้ 量:如果表示试验结果的
变量x,其可能取值为可列个 ,且 以各种确定 的概率取这些不同的值 , 则 称 x 为 离 散 型 随 机 变 量 ( discrete random variable);
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
解:
1 9 U X i ~ N (0,1), 9 i 1
9 2
Yi ~ N (0,1) 3
Yi 1 9 2 故 V Yi ~ 2 (9) U与V独立, 9 i 1 i 1 3
9U U ~ t (9) 所以 Z 9V V /9
§4 次序统计量及其分布
① )
课堂练习(3)
设 X ~ N( , 2), 则随 的增大, 概率 P{| X | < } (③ )
① 单调增大 ③ 保持不变
② 单调减少 ④ 增减不定
正态分布的 3 原则
设 X ~ N(, 2), 则 P( | X | < ) = 0.6828. P( | X | < 2 ) = 0.9545. P( | X | < 3 ) = 0.9973.
3 ).
课堂练习(2)
设 X ~ N(, 42), Y ~ N(, 52), 记
p1 = P{X≤ 4},p2 = P{Y≥ +5}, 则( ① ② ③ ④ 对任意的 ,都有 p1 = p2 对任意的 ,都有 p1 < p2 只个别的 ,才有 p1 = p2 对任意的 ,都有 p1 > p2
若 X ~ N(, 2),
则
a P(X<a) =
a P(X>a) = 1
例
设 X ~ N(10, 4), 求 P(10<X<13), P(|X10|<2).
解: P(10<X<13) = (1.5)(0) = 0.9332 0.5 = 0.4332 P(|X10|<2) = P(8<X<12) = 2(1)1 = 0.6826
n n 2 i i i 1 i 1
尽管统计量不依赖于未知参数,但是它的分 布一般是依赖于未知参数的。
课 堂 练 习 (1)
设X1, X2, …, Xn 是来自总体 N(, 2)的一个样本,
其中 已知,2 未知, 以下哪些是统计量
1 n (1) Xi n i 1
n
1 n (2) ( X i )2 n i 1
§2 经验分布函数
设 x1,x2,…,xn 是取自总体分布函数为F(x)的样本, 若将样本观测值由小到大进行排列,为x(1), x(2), …, x(n),则称 x(1), x(2), …, x(n) 为有序样本, 用有序样本定义如下函数
0 当 x x(1)
Fn(x) = k / n
1
当 x(k) x x(k+1) , k=1,2,…,n-1
2
1 n (3) ( X i X )2 n i 1
2
1 Xi (4) n i 1
(5) X 1 X 2
2 2
(6) 2 X 1 X 2 ...X n
几个常用的统计量:
3. 样本 k 阶矩
原点矩
中心矩
数理统计中常用到如下三个分布:
2 — 分布、 t — 分布、 F — 分布
称为自由度为 n1, n2的F — 分布, 其概率密度为
该密度函 数的图象 也是一取 非负值的 偏态分布
2. F — 分布的分位点
对于 0<<1,若存在 F(n1, n2)>0 满足 P{FF(n1, n2)} = ,
则称 F(n1, n2)为
F(n1, n2)的下侧 分位点
3. F — 分布性质:
Yi ~ N ( 0 ,1 ) 3
~ 9 Yi 2 1 9 2 Y ( ) Yi ~ 2 (9),且 故 9 i 1 i 1 3 X 所以 U ~ ~ t (9) Y /9
~ 独立, X 与Y
三、F — 分布 1. 构造 若X ~ 2(n1), Y ~ 2(n2),X与Y独立,则
课 堂 练 习 (5)
设随机变量 X 和 Y 相互独立,且都服从正态分布 N(0, 9). 而X1, X2, …, X9和Y1, Y2, …, Y9分别是来自总 体 X 和 Y 的样本,则统计量
Z
服从 (
X1 X 9
Y Y .... Y
2 1 2 2
2 9
t
) 分布,参数为 ( 9 ).
3. t(n) 的性质: (1) p(t) 关于 t=0 (纵轴) 对称。 (2) p(t) 的极限为 N(0,1) 的密度函数.
4. 分位点 设T~t(n),若对0<<1, 存在 t(n)>0, 满足 P{Tt(n)} = 则称 t(n)为 t(n) 的下侧 分位点.
t1 (n)
设X1, X2, …, Xn 是来自总体 N(, 2)的一个样本,
Y1 ( X 1 X 6 ) / 6, Y2 ( X 7 X 8 X 9 ) / 3, S ( X i Y2 ) / 2, Z 2(Y1 Y2 ) / S
2 2 i 7 9
证明: Z ~ t (2)
一般总体的结论
设 X 为总体, 且 E(X) = , Var(X) = 2,
为样本, 则
正态总体的结论
为样本, 则 (1) (2) (3) (4) 独立.
设总体
课 堂 练 习 (2)
设X1, X2, …, Xn 是来自总体 N(, 2)的一个样本,
则
Xi i 1
(1.66) = 0.9515,
故 b = 1.66
(1.65) = 0.9505,
故 a = 1.65
一般正态分布的标准化
定理 设 X ~ N(, 则 Y ~ N(0, 1). 推论: 若 X ~ N(,
2), 2),
Y
X
,
x 则 F ( x)
例
设 X ~ N(, 2), P(X 5) = 0.045, P(X 3) = 0.618, 求 及 .
解:
5 1.69 3 0.3
= 1.76
=4
课堂练习(1)
已知 X ~ N(3, 22), 且 P{X>k} = P{X≤k}, 则 k = (
当 x x(n)
则Fn(x)是一非减右连续函数,且满足
Fn() = 0 和 Fn() = 1 由此可见,Fn(x)是一个分布函数,并称 Fn(x)为经验分布函数。
§3 统计量与抽样分布
当人们需要从样本获得对总体各种参数的认识 时,最好的方法是构造样本的函数,不同的函 数反映总体的不同特征。
( x )
x 0 x
1 ( x )
x
1 (1) (0) , 2 (2) ( x) (x) 1, ( x ) 1 (x )
(x) 的计算
(1) x 0 时, 查标准正态分布分布函数表. (2) x < 0时, 用 (x ) 1 ( x ).
注:
例4.1.4 设随机变量X 和Y 相互独立且都服从正态 分布 N (0,9) ,而 X1 ,, X 9 和 Y1 ,, Y9 分别是来自总体 X和Y的 s.r.s,则
U X X 1 9 ~ t (9) Y 2 Y 2 1 9
1 9 证明: X X i ~ N ( 0 ,1 ), 9 i 1
, b= 时,则 X ~ 2 (2).
当 a=
解:由题意得
a ( X 1 2 X 2 ) ~ N ( 0 ,1 ) b ( 3 X 3 4 X 4 ) ~ N ( 0 ,1 ) D [ a ( X 1 2 X 2 )] 1 D [ b ( 3 X 3 4 X 4 )] 1
样本: X1, … ,Xn 次序统计量: X(1) … X(n) 总体分布: F(x), p(x)
4.3.3 4.3.4
样本极差 样本中位数
R= X(n) X(1)
样本p分位数
若 X ~ N(0, 1), 则 (1) P(X a) = (a); (2) P(X>a) =1(a); (3) P(a<X<b) = (b)(a); (4) 若a 0, 则 P(|X|<a) = P(a<X<a) = (a)(a) = (a) [1 (a)] = 2(a)1
例 设 X ~ N(0, 1), P(X>1.96) ,
求 P(|X|<1.96)
解: P(X>1.96) = 1 (1.96)
= 1(1 (1.96)) = (1.96)
= 0.975 (查表得) P(|X|<1.96) = 2 (1.96)1 = 2 0.9751 = 0.95
a =0.05 b=0.01
二、t — 分布
1. 构造 若 X ~N(0, 1), Y~2(n), X 与 Y 独立,则
t(n) 称为自由度为 n 的 t — 分布。
2. t(n) 的概率密度为:
t分布的密度函 数的图象是一关 于纵轴对称的分 布,与标准正态 分布的密度函数 形状类似,只是 峰比标准正态分 布低一些尾部的 概率比标准正态 分布的大一些。
例
设 X ~ N(0, 1), P(X b) = 0.9515,
P(X a) = 0.04947, 求 a, b.
解: (b) = 0.9515 >1/2,
而 (a) = 0.0495 < 1/2,
所以 b > 0,
反查表得:
所以 a < 0,
(a) = 0.9505, 反查表得:
第四章 理论分布与抽样分布
§1 正态分布
( x )2 1 exp p( x ) , 2 2 2