第5章参数估计基础
第二讲-第五章 t检验-2011

二、配对设计两样本平均数的差异显著性检验
非配对设计要求试验单位尽可能一致。如 果试验单位变异较大,如试验动物的年龄、体 重相差较大,若采用上述方法就有可能使处理 效应受到系统误差的影响而降低试验的准确性 与精确性。 为了消除试验单位不一致对试验结 果的影响,正确地估计处理效应,减少系统误 差,降低试验误差,提高试验的准确性与精确 性,可以利用局部控制的原则,采用配对设计。
表 非配对设计资料的一般形式
非配对设计两样本平均数差异显著性检 验的基本步骤如下:
(一)提出无效假设与备择假设
H0:1 2 ,H A:1 2
(二)计算t值 计算公式为:
t x1 x2 S x1x2
df (n1 1) (n2 1)
其中:
S x1x2
受 H A:1 2 ,表明长白后备种猪与蓝塘后
备种猪90kg背膘厚度差异极显著,这里表现 为长白后备种猪的背膘厚度极显著地低于蓝 塘后备种猪的背膘厚度。
【例5.4】 某家禽研究所对粤黄鸡进行饲 养对比试验,试验时间为60天,增重结果如 表5-4,问两种饲料对粤黄鸡的增重效果有无 显著差异?
一是非配对设计或成组设计两样本平均数差 异显著性检; 二是配对设计两样本平均数差异显著性检。
一、非配对设计两样本平均数的差异显著性检验 非配对设计或成组设计是指当进行只有两个处
理的试验时,将试验单位完全随机地分成两个组, 然后对两组随机施加一个处理。在这种设计中两组 的试验单位相互独立,所得的二个样本相互独立, 其含量不一定相等。非配对设计资料的一般形式见 下表。
两尾概率为0.01的临界t值:t0.01(18) =2.878,即:
P(|t|>2.101)= P(t>2.101) + P(t <-2.101)=0.05
第五章 参数估计

1
X 2 t n1 n2 2
2
2 Sp
n1
n2
X
1
X 2 z
2
2 S12 S 2 n1 n2
2 Sp
2 2 n1 1S1 n2 1S 2
n1 n2 2
20
例题:
分别在城市1和城市2中随机抽取n1=400, n2=500的职工进行调查,经计算两城市职工的 平均月收入及标准差分别为X1=1650元,
22
思考题:
一个研究机构做了一项调查,以确定稳定的吸 烟者每周在香烟上的消费额。他们抽取49位固 定的吸烟者,发现均值为20元,标准差5元。
1.总体均值的点估计是多少?
2.总体均值μ的95%置信区间是什么?
23
思考题解答:
1.总体均值的点估计是20元。
2.总体均值μ的95%置信区间: 随机变量X表示每周香烟消费额,由题意可知,X=20, S=5,1-α=0.95,α=0.05;n=49 属于大样本,σ 未知以S估计。总体均值μ的95%置信区间为
P z Z z 1 2 2
P L U 1
X P z z 1 2 2 n
Step3:将上面等式进行等价变换即可。
P L U 1
第五章 参数估计
第五章 参数估计
利用样本数据对总体特征进行推断,通常在以下 两种情况下进行:
当总体分布类型已知(如:正态),根据样本数据对 总体分布的未知参数进行估计或检验。参数估 计或参数检验。(如:μ或σ为何?) 当总体分布类型未知或知道很少,根据样本数据 对总体的未知分布的形状或特征进行推断。非参 数检验。(如:是否正态分布?是否随机?)
应用统计学 第五章 参数估计

二、点估计与区间估计
参
数 估
(一)
点估计
计
点估计是指用样本估计量的某个取值直接作为总体参数的估计值。例如,用样本均
值直接作为总体均值的估计,用两个样本均值之差直接作为总体均值之差的估计等。虽
然在重复抽样的情况下,点估计均值的期望等于总体真值,但由于样本是随机的,抽出
一个具体的样本得到的估计值很可能不同于总体真值。一个点估计量的可靠性是用抽样
两个:FDIST用于计算给定F值和自由度时F分布的概率;FINV用于计算给定概率
和自由度时的相应F值。
16
第一节 参数估计的基本原理
第 五 章 参 数 估 计
17
CONTENTS PAGE
参数估计的 基本原理
一个总体参 数的区间估
计
两个总体参 数的区间估
计
样本量的确 定
第一节
第二节
第三节
第四节
目
出的,后来由海尔墨特(Hermert)和卡•皮尔逊(Karl Pearson)分别于1875
年和1900年推导出来。在总体方差的估计和非参数检验中,会用到 2 分布。图
5-2是不同容量样本的 2 分布,从图中可以看出, 2 分布的变量值始终为正,
分布的形状取决于其自由度n的大小,通常为不对称的正偏分布,但随着自由度
n
(5-6)
22
第二节 一个总体参数的区间估计
第 五 章
三、总体方差的区间估计
参
数
估 计
若总体服从正态分布,根据样本方差的抽样分布可知,样本方差服从自由度为 n 1
的 2 分布,因此可用 2 分布构造总体方差的置信区间。若给定一个显著性水平 ,用
2 分布构造的总体方差 2 的置信区间可用图5-5表示。总体方差 2 在1 置信水平
管理统计学第5参数估计

现在我们来阐明极大似然法的基本原理。
25
f (x, ) 设总体X的概率密度为 ,它只含一个未知参数 (若X是离散型 ,表示概 率 ),X1,X2,X3,……,Xn是取自X的样本,x1, x2, x3, ……,xn为样本 观察值。X1,X2,X3,……,Xn的联合密度等于 f ( x,,显然) ,对于样本的
X
11
【例3.1】试用矩估计法对总体 X~N( )的参数μ,σ2作出估计。
, 2
12
13
解: 因E(X)=μ,D(X)=σ2 设X1,X2,……,Xn为X的一个样本,其 样本均值为,样本方差为S2。 令E(X)= ,D(X)=S2,即得的估计量为 , 。
X ˆ X ˆ 2 S 2
14
【例5.2】设X1,X2,……,Xn是取自总 体X的样本,已知X的概率密度为:
)2
n
0
40
解此方程组,即得 及 的极大似然估计值为:
1 n
n i 1
xi
x
ˆ
1 n
n
( xi
i1
x)2
S
41
【例3.8】设总体X服从均匀分布 ,求参数 与 的极大似然估计量
1 2
U[1,2 ]
42
解 设X1,X2,…,Xn是X的样本,则
∴
L(1,2 )
(
2
1
1 ) n
,1
xi
2,i
48
显然,如果说一个估计量是无偏的,并不是保证用于单独一次估计中没有随机性 误差,只是没有系统性的偏差而已。若以代表被估计的总体参数,代表的无 偏估计量,则用数学式表示为:
E (ˆ)
49
我们知道,总体参数中最重要的一个参数是总体平均数 ,样本平均数 是它的 一个无偏估计量,即 。另外,样本方差也是总体方差的无偏估计量。
统计学课件05第5章抽样与参数估计

反映样本数据的集中趋势和平均水平。
样本方差
定义
样本方差是每个样本数据与样本均值差的平方和的平均值,即 $s^2 = frac{1}{n} sum_{i=1}^{n} (x_i - overline{x})^2$。
计算方法
先计算每个样本数据与样本均值的差,然后将差平方,最后求和平 均。
作用
反映样本数据的离散程度和波动情况。
样本量的确定
根据调查目的和精度要求确定样 本量:精度要求越高,需要的样
本量越大。
根据总体规模和抽样方法确定样 本量:总体规模越大,需要的样 本量越大;分层或整群抽样较简 单随机抽样需要的样本量更大。
根据调查资源确定样本量:资源 有限时,需要在满足调查目的和 精度要求的前提下,合理确定样
本量。
02 参数估计
大数定律的数学表达
设随机变量X1,X2,...,Xn是相互独立的,且具有相同的分布函数F(x),则对于任意正实数ε,有 lim(n->∞)P(|X1+X2+...+Xn/n-E(X))/ε)=0,其中E(X)是随机变量X的期望值。
大数定律的实例
在抛硬币实验中,随着实验次数的增加,正面朝上的频率将趋近于0.5。
中心极限定理
中心极限定理定义
中心极限定理是指在大量独立同分布的随机变量中,不论 这些随机变量的分布是什么,它们的平均值的分布总是趋 近于正态分布。
中心极限定理的数学表达
设随机变量X1,X2,...,Xn是相互独立的,且具有相同的分布 函数F(x),则对于任意实数x,有lim(n->∞)P(∑Xi≤x)=∫(∞->x)F(t)dt。
样本分布的性质
无偏性
如果样本统计量的数学期 望等于总体参数,则该统 计量是无偏的。
第5章抽样调查及参数估计(练习题)

第五章抽样调查及参数估计5.1 抽样与抽样分布5.2 参数估计的基本方法5.3 总体均值的区间估计5.4 总体比例的区间估计5.5 样本容量的确定一、简答题1.什么是抽样推断?用样本指标估计总体指标应该满足哪三个标准才能被认为是优良的估计?2.什么是抽样误差,影响抽样误差的主要因素有哪些?3.简述概率抽样的五种方式二、填空题1.抽样推断是在随机抽样的基础上,利用样本资料计算样本指标,并据以推算总体数量特征的一种统计分析方法。
2.从全部总体单位中随机抽选样本单位的方法有两种,即重复抽样和不重复抽样。
3.常用的抽样组织形式有简单随机抽样、类型抽样、等距抽样、整群抽样等四种。
4.影响抽样误差大小的因素有总体各单位标志值的差异程度、抽样单位数的多少、抽样方法和抽样调查的组织形式。
5.总体参数区间估计必须具备估计值、概率保证程度或概率度、抽样极限误差等三个要素。
6.从总体单位数为N的总体中抽取容量为n的样本,在重复抽样和不重复抽样条件下,可能的样本个数分别是______________和_____________。
7.简单随机_抽样是最基本的抽样组织方式,也是其他复杂抽样设计的基础。
8.影响样本容量的主要因素包括总体各单位标志变异程度_、__允许的极限误差Δ的大小、_抽样方法_、抽样方式、抽样推断的可靠程度F(t)的大小等。
三、选择题1.抽样调查需要遵守的基本原则是( B )。
A.准确性原则 B.随机性原则 C.代表性原则 D.可靠性原则2.抽样调查的主要目的是( A )。
A.用样本指标推断总体指标 B.用总体指标推断样本指标C.弥补普查资料的不足 D.节约经费开支3.抽样平均误差反映了样本指标与总体指标之间的( B )。
A.实际误差 B.实际误差的平均数C.可能的误差范围 D.实际的误差范围4.对某种连续生产的产品进行质量检验,要求每隔一小时抽出10分钟的产品进行检验,这种抽查方式是( D )。
A.简单随机抽样 B.类型抽样 C.等距抽样 D.整群抽样5.在其他情况一定的情况下,样本单位数与抽样误差之间的关系是( B )。
第5章 参数估计

猎物射击,结果该猎物身中一弹,你认为谁打中的可能
性最大? 根据经验而断:老猎人打中猎物的可能性最大. 极大似然估计法的思想就是对固定的样本值,选
择待估参数的估计值使“样本取样本值”[离散型]或 “样
本取值落在样本值附近”[连续型] 的概率最大。
(2、极大似然估计的求法
单参数情形
根据总体分 布律写出似 然函数:换x 为xi
来得到待估参数θ 的极大似然估计值(驻点);
③ 、必要时,参照极大似然估计值写出极大似然
估计量.
【例6】求服从二项分布B(m,p)的总体X未知参数 p的极大似然估计量。 〖解〗单参数,离散型。 因为总体 X
~ B(m, p),
x m x
其分布律为
m x
f ( x; p) C p (1 p)
下面分离散型与连续型总体来讨论. 设离散型总体X的分布律
P{X x} p( x; )
( )
形式已知,θ 为待估参数. X 1 , X 2 ,..., X n 为来自总体X的
样本, x1 , x2 ,..., xn 为其样本值,则 X 1 , X 2 ,..., X n 的联合分
布律为:
用其观察值
ˆ( X , X ,..., X ), 1 2 n
——θ 的估计量
ˆ( x , x ,..., x ) 1 2 n
——θ 的估计值
来估计未知参数θ .
今后,不再区分估计量和估计值而统称为θ 的估计,
ˆ . 均记为
二、构造估计量的两种方法
1、矩估计法 理论根据:样本矩(的连续函数)依概率收敛于总
因为X~N(μ ,σ 2),所以X总体的概率密度为
2 1 (x ) 2 f ( x; , ) exp ( R, 0) 2 2 2
第5章 参数估计及点估计

第5章参数估计及点估计5.1考点归纳一、点估计1.矩估计法(1)定义设X为连续型随机变量,其概率密度为,或X为离散型随机变量,其分布律为,其中为待估参数,,,,是来自X的样本,假设总体X的前k阶矩或(X离散型)存在,其中,=1,2,…,k.一般来说,它们是的函数,基于样本矩依概率收敛于相应的总体矩(=1,2,,k),样本矩的连续函数依概率收敛于相应的总体矩的连续函数,我们就用样本矩作为相应的总体矩的估计量,而以样本矩的连续函数作为相应的总体矩的连续函数的估计量,这种估计方法称为矩估计法.(2)矩估计法的具体做法设这是一个包含k个未知参数的联立方程组,一般来说,可以从中解出,得到以分别代替上式中的,i=1,2,…,k,就以,i=1,2,…,k,分别作为,=1,2,…,k的估计量,这种估计量称为矩估计量,矩估计量的观察值称为矩估计值.2.克拉默-拉奥(Cramer-Rao)不等式(1)克拉默一拉奥不等式克拉默一拉奥不等式设ξ1,ξ2,…,ξn为取自具有概率函数f(x;0),θ∈Θ={θ:a<0<b}的母体ξ的一个子样,a,b为已知常数,a可以取-∞,b可以取+∞。
又η=u(ξ1,ξ2,…,ξn)是g(θ)的一个无偏估计,且满足正则条件:①集合{x:f(x;0)>0}与0无关;②与存在,且对一切θ∈Θ,;③令称为信息量,则等式成立的充要条件为存在一个不依赖于但可能依赖于θ的K,使得等式依概率1成立。
特别当g(θ)=θ时,上式可化为:称它为克拉默—拉奥不等式。
也称为信息不等式。
(2)重要性质及定义①性质:若则②定义a.若θ的一个无偏估计使克拉默一拉奥不等式中等式:成立,则称的有效估计。
b.若的一个无偏估计,且克拉默一拉奥不等式下界存在,则称下界与的比为估计的有效率,这里。
c.若当时,一个估计的有效率则称为参数的渐近有效估计。
3.拉奥-勃拉克维尔(Rao-Blackwell)定理(1)拉奥-勃拉克维尔定理设ξ与η是两个随机变量,且Eη=μ,Dη>0.设ξ=x条件下叼的条件期望,则(2)相关定理设ξ1,ξ2,…,ξn是取自一个母体ξ的子样,ξ有概率函数,且是θ的一个充分统计量,不仅是η的函数,且Eη2=θ,则是θ的充分统计量的函数,其均值=0,方差。
第五章点估计和最大似然估计

点估计问题: 点估计问题:
构造一个适当的统计量 ( X 1 ,⋯, X n ),用它的观察值 θ θˆ( x1 ,⋯, xn )来估计未知参数θ。 ⌢ ˆ 我们称θ ( X 1 , ⋯ , X n )为θ的估计量;称θ ( x1 , ⋯ , xn )
为θ 估计值。
估计量的标准
1. 无偏性:若 θˆ = θˆ( X 1 , ⋯ , X n )的数学期望存在, 且 E θˆ = θ .
则称θˆ是θ的无偏估计量。 2. 有效性:若 θˆ1 = θˆ1 ( X 1 , ⋯ , X n ), θˆ2 = θˆ2 ( X 1 , ⋯ , X n )
都是 θ 的无偏估计量;若 D(θˆ1 ) < D(θˆ2 ).
则随机变量t服从n-1个自由度的t分布。
对于给定的1 − α,查t分布表,得临界值 λ1与λ2,使得:
X −µ < λ2 } = 1 − α , P{λ1 < S/ n
我们仍然取成对称区间(−λ , λ ), 使得: x−µ P{−λ < < λ } = 1 − α,
由 t分布表的构造,比较 P{| t |> λ } = α与 P{| t |≤ λ } = 1 − α,可知:
1 ˆ 解得:µ = ∑ xi = x n i =1 1 2 ˆ σ = ∑ ( xi − x ) n i =1
2 n
7-30
例3 设 X ~ U (a,b), x1, x2,…, xn 是 X 的一个 样本值, 求 a , b 的极大似然估计值与极大 似然估计量. 解 X 的密度函数为 1 , a < x <b f (x; a,b) = b − a 0, 其它 似然函数为 a < xi < b, 1 , n L(x1, x2 ,⋯, xn ; a,b) = (b − a) i =1,2,⋯, n 0, 其它
第五章参数估计

参数估计基础
抽样研究的目的就是要用样本信息来推断相应总 抽样研究的目的就是要用样本信息来推断相应总 体的特征,这一过程称为统计推断。 体的特征,
统计推断包括: 统计推断包括:参数估计和假设检验
在用样本信息来推断相应总体特征 的过程中总是存在误差 误差--的过程中总是存在误差 抽样误差。
抽样误差: 抽样误差: 由个体变异产生的、由于抽样而造成的样 个体变异产生的、由于抽样 抽样而造成的样 产生的 本统计量与样本统计量及样本统计量与总体参 数之间的差异称为抽样误差。 数之间的差异称为抽样误差。
3、置信区间的计算
X ± zα / 2σ X
X± X± Zα / 2SX
X ± tα / 2,ν sX
3、置信区间的计算
(1)σ已知,按标准正态分布原理计算 已知,
通式: 通式: X
± zα / 2σ X
(双侧) 双侧)
为标准正态变量, 相当于按ν=∞时及P ν=∞时及 Zа/2为标准正态变量,Zа/2相当于按ν=∞时及P取α,由附 查的的t界值。 表2查的的t界值。 95%的双侧置信区间: 的双侧置信区间: 的双侧置信区间 99%的双侧置信区间: 的双侧置信区间: 的双侧置信区间
(二)频率的抽样分布
从总体中随机抽取若干样本, 从总体中随机抽取若干样本,计算出样 本频率, 本频率,这些频率的分布即为频率的抽样分 布。也是抽样分布的一种。 也是抽样分布的一种。 频率的抽样分布也有一定的规律。 频率的抽样分布也有一定的规律。 p72:表5-3 :
频率的抽样分布: 频率的抽样分布: 1.样本频率服从正态分布: 样本频率服从正态分布: 样本频率服从正态分布 Nπ,n(1-π)≥5时 ( ) 时
(X −1.96σX, X + 1.96σX ) (X − 2.58σX, X + 2.58σX )
卫生统计学七版 第五章参数估计基础

二、总体均数及总体概率的区间估计
(一)总体均数的置信区间
1、t 分布法
当 未知且 n 较小时,估计双侧置信 区间:
(X
-t
,
s X
,
X
t ,
s X
)
可简写为:
X
t ,
s X
或X t,
s n
总体均数的95%双侧置信区间为:X
t0.05,
s X
例5-2(P95) 已知某地27名健康成年男子血红蛋白 含量的均数为125g/L,标准差为15g/L,试估计该地健康 成年男子血红蛋白平均含量的95%和99%置信区间 。
二项分布 n 31 X 25 n X 6 查附表6,得7 37 改错
该药物治疗脑血管梗塞有效概率的95%置信区间为 63%~93%。
2、正态近似法 适用范围:np>5,且n(1-p)> 5
例5-6(P96) 用某种仪器检查已确诊的乳腺癌患者 120名,检出乳腺癌患者94例,检出率为78.3%,试估计该 仪器乳腺癌总体检出率的95%置信区间。 np 1200.783 93.96 n(1 p) 1200.217 26.04
第三节 总体均数及总体概率的估计
一、参数估计的基础理论
参数估计区 点间 估估 计计
对总体参数估计的范围称为置信区间,用CI(confidence interval)
表示,其置信度为(1 ),一般取置信度为95%,即取为0.05,此区
间的较小值称为置信下限,较大值称为置信上限。一般进行双侧置信区 间的估计。
第五章 参数估计基础
公共卫生学院 邹焰
定量资料
统计描述等级资料(有序分类资 料)
参数估计与非参数估计

i=1,2,…M
所后来验概率
P(
|
X
i)
P( X i | ).P() P( X i | )P()d(贝叶斯公式)
因为N个样本是独立抽取旳,所以上式能够写成
N
P( | X i) a P(X k | ).P()
k 1
其中 a
1 P( X i | )P()d 为百分比因子,只与x有关,与μ无关
1 (X
2
k
1)
0
N
k 1
2
log P(X k
| i)
N
[
k 1
1 2 2
( X k 1)2 ]
2
2 2
0
1
1
1 N
N k 1
Xk
即学习样本旳算术平均
2
2 1
1 N
N k 1
Xk
2
样本方差
• 讨论: 1.正态总体均值旳最大似然估计即为学习样本旳算术平均 2.正态总体方差旳最大似然估计与样本旳方差不同,当N较 大旳时候,两者旳差别不大。
若PN(x)收敛于P(x)应满足三个条件:
①
lim
N
V
N
0
,当N↑时,VN↓,N→∞,VN→0
这时虽然样本数多,但因为VN↓,落入VN内旳样本KN
也减小,所以空间变化才反应出来
②
lim K N
N
,N ↑ ,kN ↑ ,N与KN同相变化
③
lim
N
KN N
0
,KN旳变化远不大于N旳变化。
所以尽管
∴
1 N 2
N 2
1
2 0
N
N 2
1
2
参 数 估 计

二、参 数 估 计
【例5-5】 设X~B(1,p),(X1,X2,…,Xn)是取自总体X的一个子样, 试求参数p的极大似然估计量。
解:设(x1,x2,…,xn)是子样(X1,X2,…,Xn)的一组相应的取值。总体X 的分布律为
则似然函数为 取对数后,有 令
二、参 数 估 计
从而得p的极大似然估计值为 p的极大似然估计量为
项目
参数估计
二、参 数 估 计
一、 参数估计的基本原理
参数估计是指由样本指标值(统计量)估计总体指标值 (参数),即当总体的分布性质已知,但其所含参数真值未 知时,根据一组样本的观察值X1,X2,…,Xn来估计总体中未 知参数θ或θ的某函数。首先从样本(X1,X2,…,Xn)中提取有 关总体X的信息,即构造样本的函数——统计量 g(X1X2,…,Xn);然后用样本值代入,求出统计量 g(x1,x2,…,xn)的值,用该值来作为相应待估参数的值。
二、参 数 估 计
二 、 评价估计量的标准
在参数估计中,用样本估计量 作为总体参数θ的估 计量,实际上,对于同一参数,用不同的估计方法求出的估 计量可能不相同,用相同的方法也可能得到不同的估计量。 也就是说,同一参数可能具有多种估计量,而且,从原则上 讲,任何统计量都可以作为未知参数的估计量,那么采用哪 一个估计量好呢?这就涉及估计量的评价问题,而判断估计 量好坏的标准是:有无系统偏差,波动性的大小,伴随样本 容量的增大是否越来越精确,这就是估计的无偏性、有效性 和一致性。
区间的概念,并给出在一定可信程度的前提下求置信区间的
方法,使区间的平均长度最短。
二、参 数 估 计
用给定的置信度1-α说明区间估计的可靠程度
,通常α取值很小,如取0.05、0.01,有时取0.1。
第五章参数的最小二乘法估计

第二节 线性参数的最小二乘法
a1 j a2 j aj a nj
y1 y2 y y n
第二节 线性参数的最小二乘法
[al ak ] 和 [a j y ]分别为如下两列向量的内积:
如为精密测定1号、2号和3号电容器的电容量
x1 x2 x3
待求量 测得值
为了获得更可靠 的结果,测量次 数总要多于未知 参数的数目
y1
y3 y2
0.3 ( y1 )
y4
待解的数学模型
x1 x2 x1
0.4 ( y2 )
x3 0.5 ( y3 ) x2 x3 0.3 ( y4 )
• (1)最小绝对残差和法: • (2)最小最大残差法: • (3)最小广义极差法:
v
i
Min
max vi Min
maxvi minvi Min
主要内容
• 最小二乘法原理 • 线性测量方程组中参数的最小 二乘法 • 非线性测量方程组中参数的最 小二乘法 • 组合测量
第二节 线性参数的最小二乘法
v1 v2 V vn
l1 l2 L= ln
和n×t阶矩阵
第二节 线性参数的最小二乘法
a11a12 a1t A a21a22 a2t a a a nt n1 n 2
第二节 线性参数的最小二乘法
测量方程组系数与正规方程组系数
y1 a11 x1 a12 x2 a1t xt y2 a21 x1 a22 x2 a2t xt yn an1 x1 an 2 x2 ant xt
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
fX2fX2/f
sX
f 1
X / n (标准误的理论值)
标准误的大小与σ的大小成正比,与n成反比,而 σ为定值,说明可以通过增加样本例数来减少标准误, 以降低抽样误差。
σ未知,用样本标准差S来估计总体标准差σ。
SX S/ n (标准误的估计值)
用 S X 来表示均数抽样误差的大小。
例5-1 2000年某研究所随机调查某地健康成 年男子27人,得到血红蛋白的均数为125g/L,标 准差为15g/L 。试估计该样本均数的抽样误差。
X
/
n
100个样本均数的频数表与标准误的计算表
身高组段 频数 组中值 fX
fX2
152.6~
1
153.2~
4
153.8~
4
154.4~
22
155.0~
25
155.6~
21
156.2~
17
156.8 ~
3
157.4 ~
2
158.0 ~
1
合计
100
152.9 153.5 154.1 154.7 155.3 155.9 156.5 157.1 157.7 158.3
S X S / n 1/5 2 7 2 .8g 9 /l
二 、样本频率的抽样分布与抽样误差
从同一总体中随机抽出观察单位相等的多个样本, 样本率与总体率及各样本率之间都存在差异,这种差 异是由于抽样引起的,称为频率的抽样误差。
表示频率的抽样误差大小的指标叫频率的标准误。
据数理统计的原理,率的标准误用 P 表示
案例(case)
在本学期末一次批改试卷的过程中,负责选择 题的老师在试卷的标准答案中把一道正确答案 为A的选择题,错误的做成了C;负责批改最后 一道论述题的老师,在给两份答案完全相同的 试卷打分时,给上午批改的一份试卷打了8分, 下午该老师上班迟到,被主任批评,相同的答 案打了7分;最后,在进行试卷评价时,全班同 学平均成绩为87.5分,及格率为95%,某老师随 机抽取了5份试卷,发现平均成绩为84.3分,及 格率为100%,再次随机抽取5份试卷,平均成绩 为71.7分,及格率为80%。
由于t分布是以0为中心的对称分布,表中只列出了正 值,故查表时,不管t值正负只用绝对值表示。
第三节 总体均数及总体概率的估计
一、参数估计的概念 统计推断包括参数估计和假设检验。参数估计就是 用样本指标(统计量)来估计总体指标(参数)。
P
1
n
π :总体率,n:样本例数。
当π未知时,p π(为样本含量足够大,且
p和1-p不太小)
公式为:
SP
P1P
n
S P :率的标准误的估计值,p:样本率。
例5-2 某市随机调查了50岁以上的中老年妇女 776人,其中患有骨质疏松症者322人,患病率为 41.5%,试计算该样本频率的抽样误差。
S P P 1 n P 0 .47 1 1 0 7 .5 46 1 0 .0 51 1 .7 7 % 7 7
卫生统计学
第五章 参数估计基础
抽样研究的目的就是要用样本信息来推断相应总体的 特征,这一过程称为统计推断。 统计推断包括两方面的内容:参数估计和假设检验
误差:泛指测得值与真值之差,样本指标与总体指 标之差。误差按其产生的原因与性质分为两大类: 系统误差和随机误差。
1.系统误差:由于受试对象、研究者、仪器设备、 研究方法、非实验因素影响等确定性原因造成,有 一定倾向性或规律性的误差。可以避免。 2.随机测量误差:由于多种无法控制的偶然因素引 起,对同一样品多次测量数据的不一致。无倾向性, 不可避免。只可控制在一定的范围内。 3.抽样误差:由个体变异产生的、由于抽样而造成 的样本统计量与样本统计量及样本统计量与总体参 数之间的差异称为抽样误差。无倾向性,不可避免。
第二节 t 分布
一、t 分布
在统计应用中,可以把任何一个均数为µ,标准差为
σ的正态分布N(µ,σ2)转变为 µ=0,σ=1的标准正态分布,
即将正态变量值 Xi 用
Z x来i 代 替。
xi
Xi
x
i
X
=Z
服从??
标准正态分布N(0,1)
SX
X
X =t
SX
服从??
ν=n-1的 t分布
二、t 分布的图形和 t 分布表
t分布曲线特点
1) t分布不是一条曲线,而是一簇曲线。 2)t分布曲线是单峰分布,它以0为中心,左右对称。 3) t分布的形状与样本例数n有关。自由度越小,则
S越X 大,t 值越分散,曲线的峰部越矮,尾部翘的越 高。 4)当 n→∞时,则S逼近σ,t分布逼近标准正态分布。
与单侧概率相对应的 t 值用 t , 表示,与双侧概率相 对应的 t 值用 t / 2, 表示。
x100=155.2
100个样本 均数的均数 =87.6 ≈μ
100个样本 均数的标准 差=3.20 ≈ 30
❖样本均数的分布特点:
1.各样本均数未必等于总体均数; 2. 样本均数之间存在差异; 3. 样本均数的分布也服从正态分布:样本 均数的均数约等于原来总体均数,样本均数的 标准差约等于原来总体标准差除以根号下抽样 例数n(并非抽样次数)。
数与样本均数及样本均数与总体均数之间的差异称 为均数的抽样误差。用于表示均数抽样误差的指标 叫样本均数的标准差,也称样本均数的标准误。
某地536名13岁女生身高服从N(155.4,5.32) 重复抽样试验:
N=30
N=536 μ=155.4
σ=5.3
x1=155.3 x2=155.7 x3=155.5
上例总体为正态分布,若从一偏态分布总体中进 行随机抽样试验。。。。。?
数理统计推理和中心极限定理表明:
1)从正态总体N( µ,σ2 ) 中,随机抽取例数为n的
多个样本,样本均数 X 服从正态分布;即使是从偏 态总体中随机抽样,当n足够大时(如n>50),样本 均数 X 也近似服从正态分布。
2)从均数为µ,标准差为σ的正态或偏态总体中抽 取例数为n的样本,样本均数的标准差即标准误为 X
试卷评价时,两次抽样的结果(样本均 值与样本及格率)与全班同学的总平均 成绩及总及格率之间均有所不同,该误 差பைடு நூலகம்抽样误差。
抽样误差产生的原因:
个体之间存在变异; 抽样时只能抽取总体中的一部分作为样本;
第一节 抽样分布与抽样误差
一、样本均数的抽样分布与抽样误差 均数的抽样误差: 由个体变异产生的、由于抽样而造成的样本均