第5章参数估计基础
误差理论第五章最小二乘法
y1 f1 ( x1 , x2 ,
, xt ) y2 f 2 ( x1 , x2 , , xt ) yn f n ( x1 , x2 , , xt )
此时测量数据为l1 , l2 , v1 l1 y1 , v2 l2 y2 , v1 l1 f1 ( x1 , x2 ,
要使
2 2 2 v v v i 1 2 i 1 n
vn 2 最小
n 2 ( vi ) i 1 0 x1 n ( vi 2 ) i 1 0 x n
13
将极值方程整理得:
ai1li ai1ai1 x1 ai1ai 2 x2 ai1ait xt i 1 i 1 i 1 i 1 n n n n a l a a x a a x a a x i2 i i 2 i1 1 i2 i2 2 i 2 it t i 1 i 1 i 1 i 1 n n n n ait li ait ai1 x1 ait ai 2 x2 ait ait xt i 1 i 1 i 1 i 1
每日一贴
怀揣梦想,笃定前行,相信你就是那勤 奋又阳光最特别的一个,你一定会成功!
1
第五章 线性参数的最小二乘法处理
• §5-1 最小二乘法原理
• §5-2 正规方程
统计第五章练习题
统计第五章练习题
部门: xxx
时间: xxx
整理范文,仅供参考,可下载自行编辑
第五章参数估计
1.在抽样推断中,必须遵循( >抽取样本。
①随意原则②随机原则③可比原则④对等原则
2.抽样调查的主要目的在于( >。
①计算和控制抽样误差②了解全及总体单位的情况③用样本来推断总体④对调查单位作深入的研究b5E2RGbCAP
3.抽样误差是指< )。
①计算过程中产生的误差②调查中产生的登记性误差③调查中产生的系统性误差④随机性的代表性误差
4.在抽样调查中( >。
①既有登记误差,也有代表性误差②既无登记误差,也无代表性误差
③只有登记误差,没有代表性误差④没有登记误差,只有代表性误差
5.在抽样调查中,无法避免的误差是( >。
①登记误差②系统性误差③计算误差④抽样误差
6.能够事先加以计算和控制的误差是( >。
①抽样误差②登记误差③系统性误差④测量误差
7.抽样平均误差反映了样本指标与总体指标之间的( >。
①可能误差范围②平均误差程度③实际误差④实际误差的绝对值
8.抽样平均误差的实质是( >。
①总体标准差②全部样本指标的平均差③全部样本指标的标准差④全部样本指标的标志变异系数p1EanqFDPw
9.在同等条件下,重复抽样与不重复抽样相比较,其抽样平均误差( >。
①前者小于后者②前者大于后者③两者相等④无法确定哪一个大
10.在其他条件保持不变的情况下,抽样平均误差( >。
①随着抽样数目的增加而加大②随着抽样数目的增加而减小③随着抽样数目的减少而减小④不会随抽样数目的改变而变动DXDiTa9E3d
11.允许误差反映了样本指标与总体指标之间的( >。
第五章 参数估计
第五章 参数估计
利用样本数据对总体特征进行推断,通常在以下 两种情况下进行:
当总体分布类型已知(如:正态),根据样本数据对 总体分布的未知参数进行估计或检验。参数估 计或参数检验。(如:μ或σ为何?) 当总体分布类型未知或知道很少,根据样本数据 对总体的未知分布的形状或特征进行推断。非参 数检验。(如:是否正态分布?是否随机?)
( X z 0.0455
2
) n
12 , 26 2 , 23.6,28.4 100
有95.45%的可靠程度,估计该学院学生平均每 天体育锻炼时间在23.6到28.4分钟之间。
17
例题:
从某公司生产的一批罐装产品中,随机抽取
10罐产品的重量分别为(单位:g)
约有100(1–α)%个的区间包含总体参数θ真
实值。
也可以说,对于计算得到的一个具体区间, “这个区间包含总体真实值”这一结论有100 (1–α)%的可能是正确的(可靠性)。
11
(一)置信区间的定义
当听到“95%的置信区间估计”、“置信度为95%”, 可得出推论:如果选取所有可能的具有相同样本 容量n的样本进行区间估计 ,则其中95%的区间包 含了总体参数的真值,5%没有。 在进行区间估计时,必须同时考虑置信度与置信区 间两个方面:
当n一定时,置信度越高,置信区间的范围越大, 则估计的参数的精确性越低。
参数估计基础
第一节 均数的抽样误差与标准误
样本均数的抽样分布具有以下特点:
1. 各样本均数未必等于总体均数; 2. 样本均数之间存在差异; 3. 样本均数的分布很有规律,围绕着总体均数
(155.4cm),中间多、两边少,左右基本对 称,也服从正态分布。 4.样本均数的变异较之原变量的变异大大缩小
第二节 t分布
f(t) 0.3 0.2
υ=∞(标准正态分布) υ=5
υ=1
二、t分布的图形和t界值表 t 分布的特征:
0.1
-5 -4 -3 -2 -1 0 1 2 3 4 5
图5-3 不同自由度下的t分布图
①单峰分布,以0为中心,左右对称,类似于标准正态 分布。
②自由度 越小,t值越分散,曲线的峰部越矮,尾部越
= n 1 的t分布,即
t X X
sX
s/ n
t分布, = n 1 (5-7)
又称Student t分布。实际上,t分布十分有用, 它是总体均数的区间估计和假设检验的理论基础。
第二节 t分布
二、t分布的图形和t界值表
从前述实验4.1的13岁女学生身高这个正态总 体中分别作样本量为 3和50的随机抽样,各抽 取1000份样本,并分别得到1000个样本均数
SX
S 4.98 0.911 n 30
应用统计学 第五章 参数估计
二、总体比例的区间估计
参
数
估 计
若总体比例 服从二项分布,当样本量足够大时,比例p的抽样分布可用正态分布来
近似,故这里只讨论大样本情况下总体比例的区间估计问题。与总体均值的区间估计类
似,在样本比例p的基础上加减估计误差,即得到总体比例 在1 置信水平下的置信
区间为:
p z 2
(1 )
知,样本均值经过标准化后的随机变量服从自由度为 n 1 的t分布,即
t x ~t (n 1)
s/ n
(5-4)
根据t分布建立的总体均值μ 在 置信水平下的置信区间为:
s x t /2 n
(5-5)
20
第二节 一个总体参数的区间估计
第 五 章 参 数 估 计
21
第二节 一个总体参数的区间估计
百度文库
等都可以是一个估计量。
估计值是指根据一个具体的样本计算出来的估
计量的数值。例如,要估计某城市300万名职工的
月平均工资,从中随机抽取300名职工进行调查,
根据样本计算出月平均工资为3 000元,该城市职
工总体平均工资不知道,于是用样本均值3 000元
估计总体均值,这个3 000元就是估计值。
6
第一节 参数估计的基本原理
计 区间的最小值称为置信下限,最大值称为置信上限。总体参数的真值是固定的、未知的,
医学统计学习题
《医学统计学》习题集
第一章绪论
1.下面的变量中,属于分类变量的是( B )。
A.脉搏
B.血型
C.肺活量
D.红细胞计数
E.血压
2.某人记录了50名病人体重的测定结果:小于50kg的13人,介于50kg和70kg间的20人,大于70kg的17人,此种资料本属于( A )。
A.定量资料
B.分类资料
C.有序资料
D.二分类资料
E.名义
变量资料
第二章定量资料的统计描述
1.欲比较身高(cm)和体重(kg)哪个指标变异程度大,应采用(D )。
A.标准差
B.极差
C.四分位数间距
D.变异系数
2.已知某疾病患者10人的潜伏期(天)分别为:6,13,5,9,12,10,8,11,8,>20,其潜伏期的平均水平约为( B )天。
3.调查测定某地107名正常人尿铅含量(mg/L)如下:
0~ 4~ 8~ 12~ 16~ 20~ 24~ 28~ 合计尿铅
含量
例数14 22 29 18 15 6 1 2 107 (1)描述该资料的集中趋势,宜用(B )。
A.均数
B.中位数
C.几何均数
D.极差
(2)描述该资料的离散趋势,宜用(C )。
A.极差
B.变异系数
C.四分位间距
D.标准差
第三章定性资料的统计描述
1.某医院某年住院病人中胃癌患者占5%,则( B )。
%是强度指标 B. 5%是频率指标
C. 5%是相对比指标
D. 5%是绝对数
2.某病患者120人,其中男性114人,女性6人,分别占95%与5%,则结论
为( D )。
A.该病男性易得
B.该病女性易得
C.该病男性、女性易患
程度相等
D.尚不能得出结论
3.一项新的治疗方法可延长病人的生命,但不能治愈该病,则最有可能
统计学(张德存主编)-第5章 参数估计最新多彩版_思维导图
参数估计
EX , DX E ( X EX )2 2
再用样本k阶矩代替相应的总体k阶矩,得µ与 σ2的 矩估计量为:
ˆ X,
__
2
n 1 2 M S n
' 2
例2:设总体X的概率密度函数为:
6 x( x ) f ( x) ,0 x 3 0 , 其它
n
解得p的极大似然估计量为:
1 n ˆ p Xi n i 1
说明:p的极大似然估计值为:
1 n ˆ p x i n i 1
小 结 1、 矩估计法的求解步骤 (1)先建立待估参数与总体矩的关系
(2)再用样本k阶矩代替相应的总体k阶矩
2、极大似然估计法
n p( x i ; );已知P ( X x ) p( x; ) i 1 L( ) n f ( x i ; );已知f ( X x ) f ( x; ) i 1
你的这一想法中就已经包含了极大似然
估计法的基本思想 . 为了进一步体会极大似然估计法的思想 , 我们再看一个例子.
例如:有一事件A,我们知道它发生的概率 p
只可能是:
p=0.1,0. 3 或 0.6
若在一次观测中,事件A竟然发生了, 试让你推想一下 p 应取何值? 你自然会认为事件A发生的概率是0.6,而 非其他数值。 极大似然原理: 概率大的事件在一次观测中更容易发生。
第05章 估计问题基础
N
N
由极值原理,置 J 关于各参数的偏导数为零,即
∂J ∂J ∂J ∂J ∂J = 0, = 0, = 0, = 0, =0 ∂g ∂c ∂d ∂e ∂f
从而可以解出 ( g , c, d , e, f ) ,进而由有关公式 可立刻求出标准型椭圆参数 (a, b, xc , yc ,θ ) 。
−1
ˆ θ N +1 = PN +1ΦT +1YN +1 N
(5.2.3)
• 式(5.2.3)可化为:
PN +1 = ( P + ϕ N +1ϕ
−1 N T −1 N +1 T PN ϕ N +1ϕ N +1 PN ) = PN − T 1 + ϕ N +1 PN ϕ N +1
(5. 4) 2.
将式(5.2.1)、 (5.2.2) 、(5.2.4)代入(5.2.3)
椭圆和其他二次曲线方程的一般形式为 x 2 + gxy + cy 2 + dx + ey + f = 0 (5.2.1) 通常检测椭圆上的点的坐标是带有测量误差的,为此 利用椭圆曲线上更多的点的坐标的检测得到较精确的 椭圆参数估计。 将已知椭圆上 N 个点的坐标的检测值 ( xi , yi )(含有 检测误差)i = 1, 2,L , N ,代入5.2.1,则有方程误 差ε i ,即
第五参数估计
0.95,Z/2=1.96
从该批产品中随机
总体均值的置信区间为
抽取9件,测得其 平 均 长 度 为 21.4 mm。已知总体标准
差 =0.15mm,试
建立该种零件平均 长度的置信区间,
x Z 2 n , x Z 2 n
21.4
1.96
0.15 9
第五章 参数估计
• 一、参数估计的基本原理 • 二、总体不同参数的估计方法 • 三、样本容量的计算方法
第一节 参数估计的基本原理
Parameter estimation指研究如何用样本统计量 推断出总体参数值。
一、参数估计的定义
• Parameter estimation:研究从样本获 得一组数据后,如何通过这组信息,对总 体特征进行估计,也就是如何从局部结果 推论总体的情况。
(P142, 5.10)
(二)应用
• 1、总体标准差与方差的区间估计: • 当样本容量大于30时,样本标准差的分布渐进正态分布,标准
差的平均数为:σ ,标准差分布的标准差为:σ /
2n
例:有一个随机样本n=31,s=5,试在0.95的置信度下,估计总体 标准差的置信区间?
S±Zα/2× S 2n
**P142 例 5.5 方差估计
α:称为显著性水平(或小概率),一般取 0.05和0.01两个水平。
统计学(第三版课后习题答案
Hah 和网速是无形的
|
1:各章练习题答案
2.1(1)属于顺序数据。
(2)频数分布表如下:
服务质量等级评价的频数分布
服务质量等级家庭数(频率)
*
频率%
A1414
B2121
C3232
;
D1818
E1515
合计100100(3)条形图(略)
2.2)
2.3(1)频数分布表如下:
(2)某管理局下属40个企分组表
按销售收入分组(万元)企业数(个)频率(%)
\
先进企业良好企业一般企业落后企业11
11
9
9
^
合计40
2.4频数分布表如下:
某百货公司日商品销售额分组表
按销售额分组(万元)频数(天)频率(%)
…25~30 30~35 35~40 40~45 45~504
6
15
9
6
~
合计40
直方图(略)。
2.5(1)排序略。
(
(2)频数分布表如下:
100只灯泡使用寿命非频数分布
按使用寿命分组(小时)灯泡个数(只)频率(%)650~66022
660~6705》
5
670~68066
680~6901414
690~7002626
《
700~710
1818
710~7201313
720~7301010
730~740《
3
3
740~750 3 3 合计
100
100
直方图(略)。
2.6 % 2.7 (1)属于数值型数据。
(2)分组结果如下:
分组 天数(天)
-25~-20 6 -20~-15 8 -15~-10 10 ~
-10~-5 13 -5~0 12 0~5 4 5~10
7 合计
60
@
(3)直方图(略)。 2.8 (1)直方图(略)。
(2)自学考试人员年龄的分布为右偏。 2.9 (1
(2)A 班考试成绩的分布比较集中,且平均分数较高;B 班考试成绩的分布比A 班分散,
第5章 参数估计
下面分离散型与连续型总体来讨论. 设离散型总体X的分布律
P{X x} p( x; )
( )
形式已知,θ 为待估参数. X 1 , X 2 ,..., X n 为来自总体X的
样本, x1 , x2 ,..., xn 为其样本值,则 X 1 , X 2 ,..., X n 的联合分
布律为:
猎物射击,结果该猎物身中一弹,你认为谁打中的可能
性最大? 根据经验而断:老猎人打中猎物的可能性最大. 极大似然估计法的思想就是对固定的样本值,选
择待估参数的估计值使“样本取样本值”[离散型]或 “样
本取值落在样本值附近”[连续型] 的概率最大。
(2、极大似然估计的求法
单参数情形
根据总体分 布律写出似 然函数:换x 为xi
用其观察值
ˆ( X , X ,..., X ), 1 2 n
——θ 的估计量
ˆ( x , x ,..., x ) 1 2 n
——θ 的估计值
来估计未知参数θ .
今后,不再区分估计量和估计值而统称为θ 的估计,
ˆ . 均记为
二、构造估计量的两种方法
1、矩估计法 理论根据:样本矩(的连续函数)依概率收敛于总
来得到待估参数θ 的极大似然估计值(驻点);
③ 、必要时,参照极大似然估计值写出极大似然
估计量.
【例6】求服从二项分布B(m,p)的总体X未知参数 p的极大似然估计量。 〖解〗单参数,离散型。 因为总体 X
第5章 参数估计及点估计
第5章参数估计及点估计
5.1考点归纳
一、点估计
1.矩估计法
(1)定义
设X为连续型随机变量,其概率密度为,或X为离
散型随机变量,其分布律为,其中为待估参数,,,,是来自X的样本,假设总体X的前k阶矩
或(X离散型)存在,其中,=1,2,…,k.一般来说,它们是的函数,
基于样本矩依概率收敛于相应的总体矩(=1,2,,k),样本矩的连续函数依概率收敛于相应的总体矩的连续函数,我们就用样本矩作为相应的总体矩的估计量,而以样本矩的连续函数作为相应的总体矩的连续函数的估计量,这种估计方法称为矩估计法.(2)矩估计法的具体做法
设
这是一个包含k个未知参数的联立方程组,一般来说,可以从中解出,得到
以分别代替上式中的,i=1,2,…,k,就以,i=1,2,…,k,分别作为,=1,2,…,k的估计量,这种估计量称为矩估计量,矩估计量的观察值称为矩估计值.
2.克拉默-拉奥(Cramer-Rao)不等式
(1)克拉默一拉奥不等式
克拉默一拉奥不等式设ξ1,ξ2,…,ξn为取自具有概率函数f(x;0),θ∈Θ={θ:a<0
①集合{x:f(x;0)>0}与0无关;
②与存在,且对一切θ∈Θ,
;
③令
称为信息量,则
等式成立的充要条件为存在一个不依赖于但可能依赖于θ的K,使得等式
依概率1成立。
特别当g(θ)=θ时,上式可化为:
称它为克拉默—拉奥不等式。也称为信息不等式。
(2)重要性质及定义
①性质:若
则
②定义
a.若θ的一个无偏估计使克拉默一拉奥不等式中等式:
成立,则称的有效估计。
b.若的一个无偏估计,且克拉默一拉奥不等式下界存在,则称下界与的比
计量经济学5-9
样本回归模型Y ˆ0 ˆ1X1 ˆ1X 2 uˆ 样本回归函数Yˆ ˆ0 ˆ1X1 ˆ1X 2
n
2
TSS yi y 总的样本变异
i 1
n
2
ESS yˆi y 已解释的变异
i 1
n
RSS uˆi2 i 1
未解释的变异
TSS=ESS+RSS
R2 ESS 1 RSS TSS TSS
❖ 但现实情况却经常出现有些其他因素(如z)与x相关 的情况,因此,简单回归模型就不适用了。因为此时 利用简单模型将无法准确得到“在其他条件不变情况下x 对y的影响”,即β1不再是在其他条件不变情况下x对y 的准确影响。
❖ 要想得到“在其他条件不变情况下x对y的影响”,必需使
用:
多元回归模型 y 0 1x 2 z u
❖ β1度量了y对x的弹性,即x的百分比变化引起的y的百 分比变化。
线性-对数模型—测度增长率P166
经济理论表明的数理模型:Yt Y0 1 rt 计量模型设定:lnYt 0 1 t u 1 ln1 r
y* 0 1x* u
其中y* ln Y , x* t
▪ β1度量了Y对t的半弹性,即t的绝对值变化1引起的Y的 百分比变化或者增长率β1*100% 。
例子P200—P203
❖ 0、考虑儿童死亡率的降低问题
❖ 1、理论描述:人均gnp与妇女识字率对儿童死亡率有
参数估计习题
参数估计习题(总5页)
--本页仅作为文档封面,使用时请直接删除即可--
--内页可以根据需求调整合适字体及大小--
第5章参数估计练习题
一.选择题
1.估计量的含义是指()
A.用来估计总体参数的统计量的名称
B.用来估计总体参数的统计量的具体数值
C.总体参数的名称
D.总体参数的具体取值
2.一个95%的置信区间是指()
A.总体参数有95%的概率落在这一区间内
B.总体参数有5%的概率未落在这一区间内
C. 在用同样方法构造的总体参数的多个区间中,有95%的区间包含该总体参数。
D.在用同样方法构造的总体参数的多个区间中,有95%的区间不包含该总体参数。
%的置信水平是指()
A.总体参数落在一个特定的样本所构造的区间内的概率是95%
B.在用同样方法构造的总体参数的多个区间中,包含总体参数的区间比例为95%
C.总体参数落在一个特定的样本所构造的区间内的概率是5%
D.在用同样方法构造的总体参数的多个区间中,包含总体参数的区间比例为5%
4.根据一个具体的样本求出的总体均值的95%的置信区间()
A.以95%的概率包含总体均值
B.有5%的可能性包含总体均值
C.一定包含总体均值
D.要么包含总体均值,要么不包含总体均值
5. 当样本量一定时,置信区间的宽度()
A.随着置信水平的增大而减小
B. .随着置信水平的增大而增大
C.与置信水平的大小无关 D。与置信水平的平方成反比
6.当置信水平一定时,置信区间的宽度()
A.随着样本量的增大而减小
B. 随着样本量的增大而增大
C.与样本量的大小无关 D.与样本量的平方根成正比
7.在参数估计中,要求通过样本的统计量来估计总体参数,评价统计量的标准之一是使它与总体参数的离差越小越好。这种评价标准称为()
参数估计基础
例如 于2000年测得某地27例健康成年男性血红蛋白量的样本 均数为125g/L,试估计其总体均数。
X ,即认为2000年该地所有健康成年男性血红蛋白量 的总体均数为125g/L 。
2. 区间估计:按预先给定的概率(1-α)估计总体均数的可能范
围,该范围就称为总体均数的1-α置信区间(confidence interval CI)。
111.90698,613.093024
4、 置信区间的意义
从总体中进行随机抽样,由样本均数计算置信 区间,有1-α的可能得到包含总体均数的置信区间。
所有样本计算的 所有置信区间
包含总体均数
的置信区间
1-α
不包含总体均数的置信区间
α
5、 置信区间的两个要素
(1)准确度:反映置信度1-α的大小,即区间包含
预先给定的概率(1-α)称为置信度,常取95%或99%。如 无特别说明,一般取双侧95%。
置信区间由两个数值即置信限构成,其中最小值称为下
限,最大值称为上限。严格讲,置信区间不包括上下限两个端 点值。
3、置信区间的计算
(1)σ已知,按标准正态分布原理计算
通式: Xz/2
(双侧)
X
Zа /2为标准正态变量,Zа /2相当于按ν =∞时及P取α ,由附 表2查的的t界值。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第三节 总体均数及总体概率的估计
一、参数估计的概念 统计推断包括参数估计和假设检验。参数估计就是 用样本指标(统计量)来估计总体指标(参数)。
试卷评价时,两次抽样的结果(样本均 值与样本及格率)与全班同学的总平均 成绩及总及格率之间均有所不同,该误 差是抽样误差。
抽样误差产生的原因:
个体之间存在变异; 抽样时只能抽取总体中的一部分作为样本;
第一节 抽样分布与抽样误差
一、样本均数的抽样分布与抽样误差 均数的抽样误差: 由个体变异产生的、由于抽样而造成的样本均
上例总体为正态分布,若从一偏态分布总体中进 行随机抽样试验。。。。。?
数理统计推理和中心极限定理表明:
1)从正态总体N( µ,σ2 ) 中,随机抽取例数为n的
多个样本,样本均数 X 服从正态分布;即使是从偏 态总体中随机抽样,当n足够大时(如n>50),样本 均数 X 也近似服从正态分布。
2)从均数为µ,标准差为σ的正态或偏态总体中抽 取例数为n的样本,样本均数的标准差即标准误为 X
卫生统计学
第五章 参数估计基础
抽样研究的目的就是要用样本信息来推断相应总体的 特征,这一过程称为统计推断。 统计推断包括两方面的内容:参数估计和假设检验
误差:泛指测得值与真值之差,样本指标与总体指 标之差。误差按其产生的原因与性质分为两大类: 系统误差和随机误差。
1.系统误差:由于受试对象、研究者、仪器设备、 研究方法、非实验因素影响等确定性原因造成,有 一定倾向性或规律性的误差。可以避免。 2.随机测量误差:由于多种无法控制的偶然因素引 起,对同一样品多次测量数据的不一致。无倾向性, 不可避免。只可控制在一定的范围内。 3.抽样误差:由个体变异产生的、由于抽样而造成 的样本统计量与样本统计量及样本统计量与总体参 数之间的差异称为抽样误差。无倾向性,不可避免。
S X S / n 1/5 2 7 2 .8g 9 /l
ຫໍສະໝຸດ Baidu
二 、样本频率的抽样分布与抽样误差
从同一总体中随机抽出观察单位相等的多个样本, 样本率与总体率及各样本率之间都存在差异,这种差 异是由于抽样引起的,称为频率的抽样误差。
表示频率的抽样误差大小的指标叫频率的标准误。
据数理统计的原理,率的标准误用 P 表示
X
/
n
100个样本均数的频数表与标准误的计算表
身高组段 频数 组中值 fX
fX2
152.6~
1
153.2~
4
153.8~
4
154.4~
22
155.0~
25
155.6~
21
156.2~
17
156.8 ~
3
157.4 ~
2
158.0 ~
1
合计
100
152.9 153.5 154.1 154.7 155.3 155.9 156.5 157.1 157.7 158.3
fX2fX2/f
sX
f 1
X / n (标准误的理论值)
标准误的大小与σ的大小成正比,与n成反比,而 σ为定值,说明可以通过增加样本例数来减少标准误, 以降低抽样误差。
σ未知,用样本标准差S来估计总体标准差σ。
SX S/ n (标准误的估计值)
用 S X 来表示均数抽样误差的大小。
例5-1 2000年某研究所随机调查某地健康成 年男子27人,得到血红蛋白的均数为125g/L,标 准差为15g/L 。试估计该样本均数的抽样误差。
P
1
n
π :总体率,n:样本例数。
当π未知时,p π(为样本含量足够大,且
p和1-p不太小)
公式为:
SP
P1P
n
S P :率的标准误的估计值,p:样本率。
例5-2 某市随机调查了50岁以上的中老年妇女 776人,其中患有骨质疏松症者322人,患病率为 41.5%,试计算该样本频率的抽样误差。
S P P 1 n P 0 .47 1 1 0 7 .5 46 1 0 .0 51 1 .7 7 % 7 7
x100=155.2
100个样本 均数的均数 =87.6 ≈μ
100个样本 均数的标准 差=3.20 ≈ 30
❖样本均数的分布特点:
1.各样本均数未必等于总体均数; 2. 样本均数之间存在差异; 3. 样本均数的分布也服从正态分布:样本 均数的均数约等于原来总体均数,样本均数的 标准差约等于原来总体标准差除以根号下抽样 例数n(并非抽样次数)。
第二节 t 分布
一、t 分布
在统计应用中,可以把任何一个均数为µ,标准差为
σ的正态分布N(µ,σ2)转变为 µ=0,σ=1的标准正态分布,
即将正态变量值 Xi 用
Z x来i 代 替。
xi
Xi
x
i
X
=Z
服从??
标准正态分布N(0,1)
SX
X
X =t
SX
服从??
ν=n-1的 t分布
二、t 分布的图形和 t 分布表
案例(case)
在本学期末一次批改试卷的过程中,负责选择 题的老师在试卷的标准答案中把一道正确答案 为A的选择题,错误的做成了C;负责批改最后 一道论述题的老师,在给两份答案完全相同的 试卷打分时,给上午批改的一份试卷打了8分, 下午该老师上班迟到,被主任批评,相同的答 案打了7分;最后,在进行试卷评价时,全班同 学平均成绩为87.5分,及格率为95%,某老师随 机抽取了5份试卷,发现平均成绩为84.3分,及 格率为100%,再次随机抽取5份试卷,平均成绩 为71.7分,及格率为80%。
数与样本均数及样本均数与总体均数之间的差异称 为均数的抽样误差。用于表示均数抽样误差的指标 叫样本均数的标准差,也称样本均数的标准误。
某地536名13岁女生身高服从N(155.4,5.32) 重复抽样试验:
N=30
N=536 μ=155.4
σ=5.3
x1=155.3 x2=155.7 x3=155.5
t分布曲线特点
1) t分布不是一条曲线,而是一簇曲线。 2)t分布曲线是单峰分布,它以0为中心,左右对称。 3) t分布的形状与样本例数n有关。自由度越小,则
S越X 大,t 值越分散,曲线的峰部越矮,尾部翘的越 高。 4)当 n→∞时,则S逼近σ,t分布逼近标准正态分布。
与单侧概率相对应的 t 值用 t , 表示,与双侧概率相 对应的 t 值用 t / 2, 表示。