第五章 参数估计基础.
第5章多普勒参数估计
第5章多普勒参数估计多普勒参数估计是指通过接收到的多普勒频移信息,估计目标物体的速度、角度和距离等参数的过程。
在雷达、超声波测速仪等领域都应用了多普勒参数估计技术。
多普勒频移是由运动物体引起的频率变化,实际上表征了物体相对于接收器运动的信息。
在雷达系统中,通过接收到的回波信号的频率,可以推断出目标物体的运动情况。
为了实现多普勒参数估计,需要进行时间和频率域的信号分析。
时间域信号分析是指通过分析接收到的回波信号的时域波形,来推测目标物体的运动情况。
通过观察回波信号的波形,可以估计出物体的运动速度,并计算出速度的大小和方向。
然而,时间域方法只能很粗略地估计运动速度,对于更精确的参数估计,需要进行频域分析。
频域信号分析是指通过分析接收到的回波信号的频谱信息,来推测目标物体的运动情况。
通过对回波信号进行傅里叶变换,可以得到信号的频谱。
目标物体的速度会引起信号频率的变化,而频率的变化幅度与速度成正比。
因此,通过观察频谱的峰值位置和幅度,可以推断出目标物体的速度。
多普勒参数估计的另一个重要应用是测量目标物体的距离。
在雷达系统中,可以通过利用回波信号的时延信息,结合多普勒频移信息,来估计目标物体的距离。
通过计算回波信号的时延,可以得到目标物体到接收器的距离。
而多普勒频移则提供了目标物体的相对速度信息。
因此,通过综合利用时延和多普勒频移信息,可以准确测量目标物体的距离。
另外,多普勒参数估计还可以应用于估计目标物体的角度。
在雷达系统中,可以通过接收到的来自不同方向的回波信号的多普勒频移信息,来估计目标物体的角度。
通过分析各个方向上的回波信号的频谱,可以确定目标物体相对于雷达的方向。
因此,通过综合利用不同方向上的多普勒频移信息,可以准确估计目标物体的角度。
总之,多普勒参数估计是通过分析目标物体引起的多普勒频移信息,来测量物体的运动速度、角度和距离等参数。
通过时间和频率域的信号分析,可以实现对多普勒频移信息的提取和估计。
5.1 样本均数的抽样分布与抽样误差
第五章 参数估计基础一、样本均数的抽样分布与抽样误差内 容1. 抽样误差和抽样分布2. 样本均数抽样分布和抽样误差1. 抽样误差和抽样分布n误差泛指实测值和真实值之差。
按其产生原因与性质分两 大类:系统误差和随机误差。
抽样误差是一种随机误差。
n抽样误差由于生物固有的个体变异,从某一总体中随机抽取一个样 本,所得样本统计量与相应总体参数往往是有差异的,这种 差异称为抽样误差(sampling error)。
n误差产生的原因n系统误差:由受试对象、研究者、仪器设备、研究方法等确定性 原因造成,有倾向性,可避免。
n随机误差:由多种无法控制的偶然因素引起的,无倾向性,不可 避免。
n抽样误差:产生的根本原因是个体变异、产生的直接原因是抽样。
n抽样分布n由于抽样误差存在,从同一总体中随机抽取若干份样本, 所得样本统计量是不一致的,差异无法避免但其存在一定的分布规律。
n 正态分布总体样本均数抽样分布的电脑试验n假定某年某地所有13岁女生的身高服从总体均数为155.4 cm ,总 体标准差为5.3cm 的正态分布 。
用计算机从该总体中 随机抽样,每次抽取30例组成一份样本,重复抽样100次,计算 每份样本的平均身高。
() 2 155.4,5.3 N 2. 样本均数抽样分布和抽样误差n电脑试验表明,正态分布总体样本均数抽样分布具有以 下特点:n样本均数恰好等于总体均数极其罕见;n样本均数之间存在差异;n样本均数围绕总体均数,中间多、两边少,左右基本对称,呈 近似正态分布;n样本均数间的变异小于原始变量值间的变异。
PERCENT30x MIDPOINT0 . 0 0 . 1 0 . 2 0 . 3 0 . 4 0 . 5 0 . 6 0 . 7 0 . 8 0 . 9 1 . 0 1 . 1 1 . 2 1 . 3 1 . 4 1 . 5 1 . 6 1 . 7 1 . 8 1 . 9 2 . 0 2 . 1 2 . 2 2 . 3 2 . 4 2 . 5 2 . 6 2 . 7 2 . 8 2 . 9 3 . 0 3 . 1 3 . 2 3 . 3 3 . 4 3 . 5 3 . 6 3 . 7 3 . 8 3 . 9 4 . 0 4 . 1 4 . 2 4 . 3 4 . 4 4 . 5 4 . 6 4 . 7 4 . 8 4 . 9 5 . 0n 非正态分布总体样本均数抽样分布的电脑实验n图 (a ) 是正偏峰分布原始数据对应的直方图,用计算机随机抽取 样本量分别为5, 10, 30和50的样本各1000份,计算样本均数并绘 制4个直方图。
第五章 参数估计
1
X 2 t n1 n2 2
2
2 Sp
n1
n2
X
1
X 2 z
2
2 S12 S 2 n1 n2
2 Sp
2 2 n1 1S1 n2 1S 2
n1 n2 2
20
例题:
分别在城市1和城市2中随机抽取n1=400, n2=500的职工进行调查,经计算两城市职工的 平均月收入及标准差分别为X1=1650元,
22
思考题:
一个研究机构做了一项调查,以确定稳定的吸 烟者每周在香烟上的消费额。他们抽取49位固 定的吸烟者,发现均值为20元,标准差5元。
1.总体均值的点估计是多少?
2.总体均值μ的95%置信区间是什么?
23
思考题解答:
1.总体均值的点估计是20元。
2.总体均值μ的95%置信区间: 随机变量X表示每周香烟消费额,由题意可知,X=20, S=5,1-α=0.95,α=0.05;n=49 属于大样本,σ 未知以S估计。总体均值μ的95%置信区间为
P z Z z 1 2 2
P L U 1
X P z z 1 2 2 n
Step3:将上面等式进行等价变换即可。
P L U 1
第五章 参数估计
第五章 参数估计
利用样本数据对总体特征进行推断,通常在以下 两种情况下进行:
当总体分布类型已知(如:正态),根据样本数据对 总体分布的未知参数进行估计或检验。参数估 计或参数检验。(如:μ或σ为何?) 当总体分布类型未知或知道很少,根据样本数据 对总体的未知分布的形状或特征进行推断。非参 数检验。(如:是否正态分布?是否随机?)
卫生统计学七版 第五章参数估计基础电子教案
P0.05
第三节 总体均数及总体概率的估计
一、参数估计的基础理论
参数估计区 点间 估估 计计
对总体参数估计 称的 为范 置围 信区C间( I , co用 nfidenicneterv)al
表示,其置信1度 )为,(一般取置95信 %,度即为取 为0.05,此区
间的较小值称为 限置 ,信 较下 大值称为 限置 。信 一上 般进行双 区侧 间的估计。
卫生统计学七版 第五ຫໍສະໝຸດ 参数估 计基础第一节 抽样分布与抽样误差
一、样本均数的抽样分布与抽样误差
……
x15 .55 1 sx0.9617
样本均数的标准差越,大抽样误差就越大
样本均数的标准差称标为准误
x
n
sx
s n
sx称为标准误估计值,简也称标准误
标准误与标准差成正比 ,与样本含量成反比
标准误越大,抽样误差越大。
2、正态近似法
当已知时X: u
n
当未知但n足够大时X:u0.05
s n
X1.96 s n
或:X1.96s X
例5-3(P95) 某医生于2000年在某市随机抽取90名 19岁的健康男大学生,测量了他们的身高,得样本均数 为172.2cm,标准差为4.5cm,试估计该市2000年19岁健 康男性大学生平均身高的95%置信区间 。
对任意分布,在样本含量足够大时,其样本均数的分布都 近似正态分布,且样本均数的均数等于原分布的均数。
二、样本频率的抽样分布与抽样误差
总体率的标准误:
p
(1 )
n
率的标准误的估计值:
sp
p(1 p) n
标准误大抽样误差就大。
第二节 t分布
一、t分布的概念
应用统计-第05章-参数估计
χ 1-α / 2
χα / 2
2
χ2
第 五 章
27
5.2.3 总体方差的区间估计 总体方差σ2在(1-α)置信水平下的置信区间为:
(n − 1) s 2
2 χα / 2
≤σ 2 ≤
(n − 1) s 2
χ12−α / 2
例5.5
应 用 统 计 第 五 章
28
根据例5.1的数据,以95%的置信水平建立该种食品 重量方差的置信区间。 解:根据样本数据计算的样本标准差为:
(单位:周岁)
36 31 47 44 48 45 44 33 24 40 50 32
试确立投保人年龄90%的置信区间。
应 用 统 计 第 五 章
16
解:已知,n=36,1-α =90%,zα/2=1.645。由 于总体方差未知,但为大样本,可用样本方 差来求总体方差。 根据样本数据计算的样本均值和标准差如下:
10
5.1.3 评价估计量的标准 无偏性(unbiasedness) 无偏性是指估计量抽样分布的数学期望等 于被估计的总体参数。 有效性(effciency) 一个无偏的估计量并不意味着它非常接近 被估计的参数,它还必须与总体参数的离 散程度比较小。对同一总体参数的两个无 偏点估计量,标准差越小的估计量越有效。 相合性(consistency) 相合性是指随着样本容量的增大,点估计 量的值越来越接近被估总体的参数。
o μ – 2.58σx μ – 1.96σx μ – 1.65σx μ
μ + 1.65σx μ + 1.96σx μ + 2.58σx
x
90%的样本 95%的样本 99%的样本
应 用 统 计 第 五 章
8
统计学贾俊平-第五章-参数估计-练习题答案
0.058375,s0.005846, F ?2.464484, F1
0.405764
所以,方差比的置信区间为
4.051926,24.61011
5.10已知置信水平
95%,Z
/2
E1.96,120,E
20
所以,n
z
~Er
138.3,取n=139。
5.11已知
n1n2
n, E 5,112,
215,置信水平1
95%,Z
/2
1.96
所以,n
Z
2 2
1 2
256.7,取
E
n=57。
5.12已知置信水平1
95%,n1
n2n,E=0.05,取1
20.5
Z111212
所以
768.32,取n=769
12的置信区间为八01门2
(2)置信水平195%,
P1P2
0.1 1.96, 0.00096一0.00084
0.0168,0.1832
c
D
S
SI
0- 241609
S1A2
0. 058375
1S2
F0.076457
0- 005846
N
2. 464424
0-405764
1
2置信区间
5.9
Excel得,$0.241609, S20.076457, s;
统计学(第四版)贾俊平 第五章 参数估计 练习题答案
5.1(答案精确到小数点后两位)
(1)已知:n=49,15,
样本均值的标准误差X二=15荷2.14
(2)
已知:置信水平:1
95%,Z2
1.96,
(3)
统计学课件05第5章抽样与参数估计
反映样本数据的集中趋势和平均水平。
样本方差
定义
样本方差是每个样本数据与样本均值差的平方和的平均值,即 $s^2 = frac{1}{n} sum_{i=1}^{n} (x_i - overline{x})^2$。
计算方法
先计算每个样本数据与样本均值的差,然后将差平方,最后求和平 均。
作用
反映样本数据的离散程度和波动情况。
样本量的确定
根据调查目的和精度要求确定样 本量:精度要求越高,需要的样
本量越大。
根据总体规模和抽样方法确定样 本量:总体规模越大,需要的样 本量越大;分层或整群抽样较简 单随机抽样需要的样本量更大。
根据调查资源确定样本量:资源 有限时,需要在满足调查目的和 精度要求的前提下,合理确定样
本量。
02 参数估计
大数定律的数学表达
设随机变量X1,X2,...,Xn是相互独立的,且具有相同的分布函数F(x),则对于任意正实数ε,有 lim(n->∞)P(|X1+X2+...+Xn/n-E(X))/ε)=0,其中E(X)是随机变量X的期望值。
大数定律的实例
在抛硬币实验中,随着实验次数的增加,正面朝上的频率将趋近于0.5。
中心极限定理
中心极限定理定义
中心极限定理是指在大量独立同分布的随机变量中,不论 这些随机变量的分布是什么,它们的平均值的分布总是趋 近于正态分布。
中心极限定理的数学表达
设随机变量X1,X2,...,Xn是相互独立的,且具有相同的分布 函数F(x),则对于任意实数x,有lim(n->∞)P(∑Xi≤x)=∫(∞->x)F(t)dt。
样本分布的性质
无偏性
如果样本统计量的数学期 望等于总体参数,则该统 计量是无偏的。
第5章抽样调查及参数估计(练习题)
第五章抽样调查及参数估计5.1 抽样与抽样分布5.2 参数估计的基本方法5.3 总体均值的区间估计5.4 总体比例的区间估计5.5 样本容量的确定一、简答题1.什么是抽样推断?用样本指标估计总体指标应该满足哪三个标准才能被认为是优良的估计?2.什么是抽样误差,影响抽样误差的主要因素有哪些?3.简述概率抽样的五种方式二、填空题1.抽样推断是在随机抽样的基础上,利用样本资料计算样本指标,并据以推算总体数量特征的一种统计分析方法。
2.从全部总体单位中随机抽选样本单位的方法有两种,即重复抽样和不重复抽样。
3.常用的抽样组织形式有简单随机抽样、类型抽样、等距抽样、整群抽样等四种。
4.影响抽样误差大小的因素有总体各单位标志值的差异程度、抽样单位数的多少、抽样方法和抽样调查的组织形式。
5.总体参数区间估计必须具备估计值、概率保证程度或概率度、抽样极限误差等三个要素。
6.从总体单位数为N的总体中抽取容量为n的样本,在重复抽样和不重复抽样条件下,可能的样本个数分别是______________和_____________。
7.简单随机_抽样是最基本的抽样组织方式,也是其他复杂抽样设计的基础。
8.影响样本容量的主要因素包括总体各单位标志变异程度_、__允许的极限误差Δ的大小、_抽样方法_、抽样方式、抽样推断的可靠程度F(t)的大小等。
三、选择题1.抽样调查需要遵守的基本原则是( B )。
A.准确性原则 B.随机性原则 C.代表性原则 D.可靠性原则2.抽样调查的主要目的是( A )。
A.用样本指标推断总体指标 B.用总体指标推断样本指标C.弥补普查资料的不足 D.节约经费开支3.抽样平均误差反映了样本指标与总体指标之间的( B )。
A.实际误差 B.实际误差的平均数C.可能的误差范围 D.实际的误差范围4.对某种连续生产的产品进行质量检验,要求每隔一小时抽出10分钟的产品进行检验,这种抽查方式是( D )。
A.简单随机抽样 B.类型抽样 C.等距抽样 D.整群抽样5.在其他情况一定的情况下,样本单位数与抽样误差之间的关系是( B )。
第五章参数估计与非参数估计
N
k
∴ 条件密度的估计:P(x) N
V
(V足够小)
讨论:① 当V固定的时候N增加, k也增加,当 N 时 k
P
k
1
P(x)
k N
1
只反映了P(x)的空间平均估计
N
VV
而反映不出空间的变化
② N固定,体积变小
k
当 V 0时,k=0时 P(x) N 0
V
k
k 0 时 P(x) N
i=1,2,…M
所以后验概率
P(
|
X
i)
P( X i | ).P() P(X i | )P()d(贝叶斯公式)
因为N个样本是独立抽取的,所以上式可以写成
N
P( | X i) a P(X k | ).P()
k 1
其中 a
1
P( X i | )P()d 为比例因子,只与x有关,与μ无关
∵ P(Xk| μ)=N(μ,σ2),P(u)=N(μ0,σ02)
P( X i | i) 服从正态分布
待估参数为 i 1
N
k1
logP(X k | ) 0
所以在正态分布时
P(
X
k
|
)
1 2
log[
2
n
|
|]
1 2
X
k
T
1 X k
代入上式得
N
1 X k 0
k 1
N
1 X k 0 k 1
N
所以 1( X k N) 0 k 1
出使它最大时的θi值。
∵学习样本独立从总体样本集中抽取的
N
∴ P( X i | i. i) P( X i | i) P( X k | i)
第5章 参数估计
猎物射击,结果该猎物身中一弹,你认为谁打中的可能
性最大? 根据经验而断:老猎人打中猎物的可能性最大. 极大似然估计法的思想就是对固定的样本值,选
择待估参数的估计值使“样本取样本值”[离散型]或 “样
本取值落在样本值附近”[连续型] 的概率最大。
(2、极大似然估计的求法
单参数情形
根据总体分 布律写出似 然函数:换x 为xi
来得到待估参数θ 的极大似然估计值(驻点);
③ 、必要时,参照极大似然估计值写出极大似然
估计量.
【例6】求服从二项分布B(m,p)的总体X未知参数 p的极大似然估计量。 〖解〗单参数,离散型。 因为总体 X
~ B(m, p),
x m x
其分布律为
m x
f ( x; p) C p (1 p)
下面分离散型与连续型总体来讨论. 设离散型总体X的分布律
P{X x} p( x; )
( )
形式已知,θ 为待估参数. X 1 , X 2 ,..., X n 为来自总体X的
样本, x1 , x2 ,..., xn 为其样本值,则 X 1 , X 2 ,..., X n 的联合分
布律为:
用其观察值
ˆ( X , X ,..., X ), 1 2 n
——θ 的估计量
ˆ( x , x ,..., x ) 1 2 n
——θ 的估计值
来估计未知参数θ .
今后,不再区分估计量和估计值而统称为θ 的估计,
ˆ . 均记为
二、构造估计量的两种方法
1、矩估计法 理论根据:样本矩(的连续函数)依概率收敛于总
因为X~N(μ ,σ 2),所以X总体的概率密度为
2 1 (x ) 2 f ( x; , ) exp ( R, 0) 2 2 2
第五章参数估计和假设检验PPT课件
抽样
X ~ N(, 2)
n,S2
则 (n 1)S 2 / 2 ~ 2 (n 1)
当 n 30, 2分布趋近于正态分布
若X ~ x2 (n 1) 则 Z 2 2 2(n 1)
两个样本方差之比的抽样分布
从两个正态总体中分别独立抽样所得到的两个样本方 差之比的抽样分布。
抽样
X1
~
N
(
1
,
2 1
极大似然估计是根据样本的似然函数对总体参数进行 估计的一种方法 。
其实质就是根据样本观测值发生的可能性达到最大这 一原则来选取未知参数的估计量θ,其理论依据就是 概率最大的事件最可能出现。
区间估计
估计未知参数所在的可能的区间。 P(ˆL<<ˆU ) 1
评价准则
一般形式
置信度 精确度
(ˆ △)<<(ˆ △) 或 ˆ △
2
2
2
n
Z
2
2
Pq
△
2 pˆ
Z
2
PqN
n
2
N
△
2 pˆ
Z
2
Pq
2
假设检验
基本思想 检验规则 检验步骤 常见的假设检验 方差分析
基本思想
•小概率原理:如果对总体的某种假设是真实的,那么不利于 或不能支持这一假设的事件A(小概率事件) 在一次试验中几乎不可能发生的;要是在一次 试验中A竟然发生了,就有理由怀疑该假设的 真实性,拒绝这一假设。
参数的区间估计
待估计参数
已知条件
置信区间 ˆ △
总体均值 (μ)
正态总体,σ2已知 正态总体,σ2未知
非正态总体,n≥30
X Z / n
2
第五章 参数估计
二、填空题
1.参数估计主要有_____________________和区间估计两种方法。
答案:点估计
2.好的估计量应符合_____________________和有效性这两个标准。
答案:无偏性
3.抽取一个容量为25的随机样本,其均值为 =36,标准差S=5,总体均均值μ的99%的置信区间为_____________________。(保留两位有效数字)
A.对T1,T2的观测值t1,t2,必有θ∈(T1,T2) B.θ以α的概率落入区间(T1,T2) C.区间(T1,T2)以1-α的概率包含θ
D.θ的数学期望E(θ)必属于(T1,T2)E.无正确选项
答案:C
33.设X与Y服从正态分布,X~N(μ,42),Y~N(μ,52);记p1=P{X≤μ-4},p2=P{Y≥μ+5},则()
答案:A
18.通过矩估计法求出的参数估计量()
A.是唯一的B.是无偏差估计量C.不一定唯一D.不唯一但是无偏差估计量
E.无正确选项
答案:C
19.置信水平1-α表达了置信区间的()
A.准确性B.精确性C.显著性D.可靠性E.无正确选项
答案:D
20.当样本量一定时,置信区间的长度()
A.随着α的提高而变长B.随着置信水平1-α的降低而变长C.与置信水平1-α无关
E.无正确选项
答案:B
30.设X1,X2,…,Xn是取自正态总体X的一个样本,不是无偏估计量的是( )
A. B. C. D. E.无正确选项
答案:B
31.设X1,X2是取自总体X~N(μ,σ2)的一个样本,μ的无偏估计量中最有效的是( )
A. B. C. D.
E.无正确选项
卫生统计学七版 第五章参数估计基础
二、总体均数及总体概率的区间估计
(一)总体均数的置信区间
1、t 分布法
当 未知且 n 较小时,估计双侧置信 区间:
(X
-t
,
s X
,
X
t ,
s X
)
可简写为:
X
t ,
s X
或X t,
s n
总体均数的95%双侧置信区间为:X
t0.05,
s X
例5-2(P95) 已知某地27名健康成年男子血红蛋白 含量的均数为125g/L,标准差为15g/L,试估计该地健康 成年男子血红蛋白平均含量的95%和99%置信区间 。
二项分布 n 31 X 25 n X 6 查附表6,得7 37 改错
该药物治疗脑血管梗塞有效概率的95%置信区间为 63%~93%。
2、正态近似法 适用范围:np>5,且n(1-p)> 5
例5-6(P96) 用某种仪器检查已确诊的乳腺癌患者 120名,检出乳腺癌患者94例,检出率为78.3%,试估计该 仪器乳腺癌总体检出率的95%置信区间。 np 1200.783 93.96 n(1 p) 1200.217 26.04
第三节 总体均数及总体概率的估计
一、参数估计的基础理论
参数估计区 点间 估估 计计
对总体参数估计的范围称为置信区间,用CI(confidence interval)
表示,其置信度为(1 ),一般取置信度为95%,即取为0.05,此区
间的较小值称为置信下限,较大值称为置信上限。一般进行双侧置信区 间的估计。
第五章 参数估计基础
公共卫生学院 邹焰
定量资料
统计描述等级资料(有序分类资 料)
参数估计和假设检验
第五章参数估计和假设检验本章重点1、抽样误差的概率表述2、区间估计的基本原理;3、小样本下的总体参数估计方法;4、样本容量的确定方法;本章难点1、一般正态分布3标准正态分布;2、t分布;3、区间估计的原理;4、分层抽样、整群抽样中总方差的分解。
统计推断:利用样本统计量对总体某些性质或数量特征进行推断。
两类问题:参数估计和假设检验基本特点:(1)以随机样本为基础;(2)以分布理论为依据;(3)推断的只是一种可能的结果;(4)是归纳推理和演绎推理的结合。
本章主要内容阐述常用的几种参数估计方法。
第一节参数估计、参数估计的基本原理两种估计方法点估计区间估计1.点估计:以样本指标直接估计总体参数。
e点估计优良性评价准则(1)无偏性。
估计量0的数学期望等于总体参数,即E0=0,该估计量称为无偏估计。
(2)有效性。
当0为0的无偏估计时,0方差E(0-0)2越小,无偏估计越有效。
(3)—致性。
对于无限总体,如果对任意£>0,有LimPQ0-01>8)=0,则称0是0的一致估计。
n n(4)充分性。
一个估计量如能完全地包含未知参数信息,即为充分估计量。
2.点估计的缺点:不能反映估计的误差和精确程度区间估计:利用样本统计量和抽样分布估计总体参数的可能区间【例1】CJW公司是一家专营体育设备和附件的公司,为了监控公司的服务质量,CJW公司每月都要随即的抽取一个顾客样本进行调查以了解顾客的满意分数。
根据以往的调查,满意分数的标准差稳定在20分左右。
最近一次对100名顾客的抽样显示,满意分数的样本均值为82分,试建立总体满意分数的区间。
抽样误差抽样误差:一个无偏估计与其对应的总体参数之差的绝对值。
抽样误差=(实际未知)要进行区间估计,关键是将抽样误差E求解。
若E已知,则区间可表示为:g-E,x+E]区间估计:估计未知参数所在的可能的区间。
P(0<0<0)=1-aLU区间估计优良性评价要求或:总体参数估计值△:一定倍数的抽样误差。
第五章 参数估计
例如:从A、B、C、D四个单位中,抽出两个单位构成 一个样本,问可能组成的样本数目是多少?
AA AB AC AD
重复抽样
Nn = 42 =16 (个样本)
BA
CA DA
BB
CB DB
BC
CC DC
BD
CD DD
不重复抽样
N(N-1)(N-2)……. 4×3 = 12(个样本)
抽样推断的理论基础 大数 定律 如果独立随机变量总体存在有限的平均数和方差,则 大数定律揭示样本容量同推断结果之间的内在联系。随着 对于充分大的样本可以近乎100%的概率,期望样本平均数 样本容量n的增加,抽样平均数有接近于总体平均数的趋势。 与总体平均数的绝对离差为任意小。计和假设检验两 方面。 • 1.参数估计:参数估计是依据所获得的样本 观察资料,对所研究现象总体数量特征进 行估计。 • 2.假设检验:(第六章)
• 统计方法
描述统计
推断统计
参数估计
假设检验
抽样推断的应用
1、对无限总体全面情况的了解,必须采用抽样推断。 2、对破坏性或消耗性检查,必须采用抽样调查。 3、对某些可以但事实上不必或不可能进行全面调查的 现象总体,可以采用抽样推断获取相关资料。 4、抽样调查可以对全面调查得来的资料进行验证,并 据以进行补充和修改。
指样本单位的抽取不受主观因素及
其他系统性因素的影响,每个总体
单位都有均等的被抽中机会
随机抽样的目的
随机抽样的目的是使样本与总体同分布。
抽样推断的特点
(1)抽样推断是由部分推断总体的一种认识 方法。 (2)抽样推断是建立在随机取样的基础上的。 (3)抽样推断运用概率估计的方法。 (4)抽样推断的误差可以事先计算并加以控 制。
第五章 参数估计
第五章参数估计一、单项选择题1、在计算必要的样本容量时,若比率方差未知,则可选择()进行计算。
(分数:5分;难度:易)A、p=0.23∙B、p=0.5∙C、p=1∙D、p为任意值答错了参考答案:B你的解答:2、在简单随机重复抽样情况下,若允许误差为原来的,则样本容量()。
(分数:5分;难度:易)A、扩大为原来的3倍∙B、扩大为原来的倍∙C、扩大为原来的倍∙D、扩大为原来的2.25倍答错了参考答案:D你的解答:3、随着样本容量的增大,点估计的值越来越接近被估总体的参数。
这是()的体现。
(分数:5分;难度:易)A、有效性∙∙B、相合性∙C、无偏性∙D、相关性答错了参考答案:B你的解答:4、总体均值的置信区间由两部分组成:()(分数:5分;难度:易)A、点估计值和允许误差∙B、点估计值和误差∙C、点估计值和概率∙D、点估计值和方差答错了参考答案:A你的解答:二、判断题1、参数估计就是用样本统计量估计总体参数。
(分数:5分;难度:易)正确不正确答错了参考答案:正确你的解答:2、在参数估计中样本统计量是未知的。
(分数:5分;难度:易)正确不正确答错了参考答案:不正确你的解答:3、在参数估计中总体参数是随机变量。
(分数:5分;难度:易)正确不正确答错了参考答案:不正确你的解答:4、点估计就是用样本估计量的值直接作为总体参数的估计值。
(分数:5分;难度:易)正确不正确答错了参考答案:正确你的解答:5、置信水平愈高,置信区间就愈扩大。
(分数:5分;难度:易)正确不正确答错了参考答案:正确你的解答:6、样本容量和总体方差的大小成反比。
(分数:5分;难度:易)正确不正确答错了参考答案:不正确你的解答:7、我们可以改变总体方差的大小来确定样本容量。
(分数:5分;难度:易)正确不正确答错了参考答案:不正确你的解答:8、参数估计可以分为点估计和区间估计。
(分数:5分;难度:易)正确不正确答错了参考答案:正确你的解答:三、计算题1、某服装厂对当月生产的20 000件衬衫进行质量检查,结果在抽查的200件衬衫中有10件是不合格品,要求:(1)以95.45%置信水平推算该产品合格率范围。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
mm MIDPOINT
1)从正态总体N(µ ,σ2)中,随机抽取例数为n的 多个样本,样本均数 也近似正态分布。 2)从均数为µ ,标准差为σ的正态或偏态总体中抽 取例数为n的样本,样本均数的标准差即标准误为 。 服从正态分布;即使是从 偏态总体中随机抽样,当n足够大时(如n>50),
(标准误的理论值) 标准误的大小与σ的大小成正比,与n成反比,而 σ为定值,说明可以通过增加样本例数来减少标准误, 以降低抽样误差。 σ未知,用样本标准差S来估计总体标准差σ。
会减小 tа,ν 和
X 1.96S X , X 1.96S X X 1.96S X , X 1.96S X
(双侧)
例5-4 某市2000年随机测量了90名19岁健康男大学生
的身高,其均数为172.2cm,标准差为4.5cm,,试估计
该地19岁健康男大学生的身高的95%置信区间。
该市19岁健康男大学生的身高的95%置信区间 (171.3,173.1)cm
二、置信区间的计算方法
(一)总体均数置信区间的计算 (1)σ已知,按标准正态分布原理计算
由z分布,标准正态曲线下有95%的z值在±1.96之间。
95%的双侧置信区间: X 1.96 X , X 1.96 X
99%的双侧置信区间: X 2.58 , X 2.58 X X
通式: (双侧)
Zа/2为标准正态变量,Zа/2相当于按ν=∞时及P取α,由附表2 查的的t界值。
(2)σ未知但样本例数n足够大(n>50)时
由t分布可知,自由度越大,t分布越逼近标准正态分 布,此时t曲线下有95%的t值约在±1.96之间,即
95%的双侧置信区间: 99%的双侧置信区间: 通式:
t分布
更一般的表示方法如图5-4(a)和(b)中阴影部分所示为:
单侧:P(t t, )= 和 P(t t , )= 双侧:P(t t/2, )+P(t t /2, )=
t分布
从t界值表中或表的右上角图列亦可看出: ①在相同自由度时,│t│值越大,概率P越小; ②而在相同t值时,双侧概率P为单侧概率P的 两倍,即t0.10/2,16 = t0.05,16 =1.746。
(3)σ未知且样本例数n较小时,按t分布原理,此时
某自由度的t曲线下有95%的t值约在±t0.05(ν)之间,
95%的双侧置信区间:
99%的双侧置信区间:
通式:
X t X t
0.05 / 2 S X , X t 0.05 / 2 S X
0.05 / 2 S X , X t 0.05 / 2 S X
第三节
总体均数及总体概率的估计
一、参数估计的方法
参数估计
点估计(point estimation)
区间估计(interval estimation)
1.点估计: 用样本统计量直接作为总体参数的估计值。
例如 于2000年测得某地27例健康成年男性血红蛋白量
的样本均数为125g/L,试估计其总体均数。
间多,两边少,左右基本对称,也服从正态分布
4 样本均数的变异较之原变量大大缩小
• 抽样实验二:非正态总体样本均数的抽 样实验(实验5-2) 图5-1(a)是一个正偏峰的分布, 用电脑从中随机抽取样本含量分别为5, 10,30和50的样本各1000次,计算样本 均数并绘制4个直方图
PERCENT 30
tа
/2,ν
是按自由度ν =n-1,由附表2查得的t值。
例5-3 已知某地27例健康成年男性血红蛋白量的均数 为 ,标准差S=15g/L ,试问该地健康成年男性
血红蛋白量的95%和99%置信区间。 本例n=27,S=15
95%CI:
99%CI:
置信区间的两个要素: 1. 准确度:反映置信度1-α的大小,即区间包 含总体均数的概率大小。 2. 精度:反映区间的长度。 在置信区间确定的情况下,增加样本例数,
SX S / n
用
(标准误的估计值)
来表示均数抽样误差的大小。
例5-1
2000年某研究所随机调查某地健康
成年男子27人,得到血红蛋白的均数为125g/L,
标准差为15g/L 。试估计该样本均数的抽样误差。
二 、样本频率的抽样分布与抽样误差
表示频率的抽样误差大小的指标叫频率的标准误。
据数理统计的原理,率的标准误用
则
越大,t 值越分散,曲线的峰部越矮,尾部翘的
3) 当 n→∞时,则S逼近σ,t分布逼近标准 正态分布。 t分布不是一条曲线,而是一簇曲线。
越高。
υ=∞(标准正态分布)
f(t)
υ=5
0.3
υ=1
0.2
0.1
-5
-4
-3
-2
-1
0
1
2
3
4
5
图5-3 不同自由度下的t分布图
t分布
统计学家将t分布曲线下的尾部面积(即概率 P)与横轴t值间的关系编制了不同自由度 下的t 界值表(附表2)。 t界值表:横标目为自由度 ,纵标目为概率P。 t临界值:表中数字表示当 和P 确定时,对应的 值。 单侧概率 (one-tailed probability):用t,υ表示 双侧概率 (two-tailed probability):用t/2,υ表示
2. 区间估计:按预先给定的概率(1-α)估计总体参数的
可能范围,该范围就称为总体参数的1-α置信区间
(confidence interval, CI)。
预先给定的概率(1-α)称为置信度,常取95%或99%。如无 特别说明,一般取双侧95%。
可信区间由两个数值即置信限构成,其中最小值 称为下限,最大值称为上限。严格讲,可信区间不包 括上下限两个端点值。
0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 x MIDPOINT
讲课提纲
• 抽样分布和抽样误差 • t分布 • 总体均数和概率的估计
第一节 抽样分布与抽样误差
用样本信息来推断相应总体的特征,这一过程称为 统计推断。 统计推断包括两方面的内容:参数估计和假设检验 抽样误差:由个体变异产生的、由于抽样而造成的
样本统计量与样本统计量及样本统计量与总体参数之
间的差异称为抽样误差。无倾向性,不可避免。
t 分布
一、t分布的概念
在统计应用中,可以把任何一个均数为µ ,标准差为
σ的正态分布N(µ,σ2)转变为µ =0,σ=1的标准正态分布,
即将正态变量值X用
Z X 来代替。
也服从正态分布, 服从标准正态分布N(0,1) 服从ν=n-1的t分布
二、t 分布的图形和t分布表
t分布曲线特点: 1) t分布曲线是单峰分布,它以0为中心,左 右对称。 2)t分布的形状与样本例数n有关。自由度越小,
n=5 PERCENT 30 PERCENT 30源自n=10N=5N=10
0
0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 4 4 4 4 0 4 0 4 0 4 04 04 0 4 05 0 0 0 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. .. . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 0 4 1 5 2 6 37 48 5 9 60 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 mm MIDPOINT mm MIDPOINT
P 1
n
表示
π :总体率,n:样本例数。
当π未知时,
公式为:
P1 P SP n :率的标准误的估计值,p:样本率。
例5-2 某市随机调查了50岁以上的中老年 妇女776人,其中患有骨质疏松症者322人,患病率 为41.5%,试计算该样本频率的抽样误差。
第二节
n=30 PERCENT 30
n=50 PERCENT 30
N=30
N=50
0
0
0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 0 4 0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 0 6 1 mm MIDPOINT 40 .. 72 40 .. 83 40 50 0 0 0 0 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 5 .. .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 05 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0