第四章 统计推断
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(三)抽样平均误差的两种形式
(1)在重置抽样条件下: 样本平均数误差 x x 样本成数误差 P P
x
n P(1 P) n
x:样本标准差 n:样本个数 P:样本成数
在有限总体中,一般都是重置抽样
(2)在非重置抽样条件下: 样本平均数误差 1 n N n 样本成数误差
x p
n p(1-p) n
第四节 区间估计
学生姓名 小张 小刘 小李 小王 小赵 小黄 小谭 小杜 小蔡 小唐 小高 小许 小卢 小吴
月支出(元) 1120 1980 1500 1320 1870 1390 1700 1380 1600 1740 1760 1850 1780 1670
4. 置信区间: X:x 即:
t, x t x n n
在某工地抽查144名工人,测得每人平均挖土4.95m 3,
2 2.25,试以95.45%的概率推断全部工人的平均挖土量。
解:由题意得, x 4.95, 1.5,n 144 1.5 0.125 n 144 由置信度为95.45%得t 2, t 0.125 2 0.25 置信区间可写为:(x x ) 5.2) 即(4.95-0.25 4.95+0.25 )=(4.7
解: 13 (1)n=100 p= =0.13 100 P:p- p, p p 即 6.2% P 19.8 %
2 ( 2) p =p(1-p)=0.13 0.87=0.1131
0.1131 = = = 0.034 = 3.4% 100 n p 6.8% =2 p= t t= = 3.4% F (2)=0.9545
二、抽样误差的度量
抽样实际误差 抽样平均误差 抽样实际误差是指在某一次抽样中,由随机 因素引起的样本指标与总体指标之间的数量 差异,常用R表示。 平均数的实际误差 Rx X x
成数的实际误差
Rp P p
三、抽样平均误差
(一)抽样推断理论基础:中心极限定理
当总体X服从正态分布时:X N(X, 2 ),
则来自于该总体的所有样本容量为n的样本均值 x 也服从正态分布, x 的期望值为X,方差为
2
n
。
即: x N (X, ) n
2
(二)抽样平均误差概念
●抽样平均误差是根据随机原则抽样时,所有可能 出现的样本平均数的标准差。
●它反映样本平均数(样本成数)与总体平均数(总体 成数)的平均误差程度,常用μ表示。
例题
设要检验10000件某产品的质量,现随机抽 取100件,发现其中有25件废品,求抽样平 均误差。
解: 25 p= =0.25 100 2 p=p(1 p)=0.25 0.75=0.1875 0.1875 p= n 100 =4.3%
p
四、抽样的实际误差
抽样实际误差是指样本指标和总体 指标之间抽样误差的可能范围。
作业
从1000名学生中按理论抽样法抽取100人进行分析, 资料如下: 2 成绩 样本数目 (x x) f
60分以下 60—70 70—80 80—90 90分以上
合计
10 20 40 20 10
100
4000 2000 0 2000 4000
12000
求:(1)样本成绩的平均抽样误差。 ( 2 )以 F ( 1.96 ) =95% 的置信度估计全部学生 的平均成绩。 (3)以F(2 ) =95.45%的置信度估计全部学生中 80分以上学生所占的比重。
解:先求出各组组中值,再开展以下步骤 xf x 76.6分 f ( x x) f = 11.38 f
i i i 2 i i i
11.38 1.14 n 100 由于置信度为95.45%,故临界值t 2 t 1.14 2 2.28 置信区间为(x x )=(76.6-2.28 76.6+2.28) 即(74.32 78.88) 在95.45%的概率保证下,该校学生英语测验的平均成绩 在74.32分至78.88分之间。
n 100 0.208 P 0.392
第五节 总方差、组内方差与组间方差
2005年南京市企业主要岗位高级别工资指导价位(万元)
财务经理 企业经理(厂长) 生产或经营经理 行政经理 17.2074 24.6347 15.0087 10.9362 计算机应用工程技术人员 电气工程技术人员 通信工程技术人员 建筑工程技术人员 13.6300 10.9897 15.6587 6.7116
总体均值区间估计 总体成数区间估计
●总体均值区间估计
计算步骤 设 x1 , x 2 , , xn是一组样本观察值。
x xf x 或 n f
1. 计算 样本均值
2. 对给定的置信度,查表求t值。 置信度为95%, 则t=1.96 置信度为95.45%,则t=2
3. 计算实际误差: t
当t (n 1) 2时,查表得:1- 95.45%
X
常用概率度与概率保证度表
分位数t 1.00 1.64 ★1.96 ★ 2.00 2.58 3.00 概率1-a 68.27 90.00 95.00 95.45 99.00 99.73 (%)
抽样实际误差表达式:
x X x xt p P p pt
X
x t / n
2
f (t)
x X t / n
1-
t (n 1)
2
0
t (n 1)
2
t
当t (n 1) 1.96时,查表得:1- 95%
x 1.96 / n x 2 / n
2
2
X
x 1.96 / n x 2 / n
修正因子
P
P (1 P ) n (1 ) n N
其中,N:总体单位数;
:样本标准差;
n:样本单位数 p: 样本成数
例某公司出口一种名茶,规定每包规格重量不
低于150g,现用简单随机抽样方法抽取其中1% 进行检验,结果如下:
每包重量g 包数
148—149 149—150 150—151 151—152
◆全班中抽取10名学生,算出平均月支出额为 1530元,据此认为估计认为全班80名学生的 月均支出为1530元
(二)区间估计
区间估计就是根据样本估计量以一定可靠程 度推断总体参数所在的区间范围。 如:在一定置信度下 X在区间( x-x x+x)
◆在95%的置信度下,估计认为全班80名学生的月 均支出为 (1530元-30元 1530元+30元)
●总体成数区间估计
()样本成数 1 f' p f
(2)抽样平均误差
p
p
n
p(1 p) n
(3) 实际误差 p pt
(4)区间估计 P: p p
例题
对某批产品的质量进行 检验,现随机抽取10 0件, 发现其中有13件废品 ,在极限误差不超过6 .8%的条件 下,试求该批产品的不 合格率的范围及相应的 概率。
●由于总体参数未知,无法计算其实际抽样 误差。只能从样本的角度,根据样本估计量 的抽样分布来计算其抽样的平均误差程
度。
●在计算抽样误差时常常假设不存在登记性 误差和系统误差。
(二)抽样误差大小的影响因素
(1)总体各单位标志值的变异程度。在其他条件 不变的情况下,总体各单位标志值的变异程度愈 大,抽样误差也愈大,反之则愈小。 (2)样本单位数的多少。在其他条件不变的情况 下,样本单位数愈多,抽样误差就愈小,反之则 愈大。 (3)抽样方法。抽样方法不同,抽样误差也不同。 (4)抽样的组织形式。选择不同的抽样组织形式, 也会有不同的抽样误差。
人事经理
销售和营销经理 广告和公关经理 采购经理 研究和开发经理 石油工程技术人员 化工工程技术人员 电子仪器与测量技术人员
13.1960
15.2436 15.2718 12.0846 19.0520 10.6693 9.3447 3.3389
40 8 已知n=100,p= 0.48, 1 p 0.52 100 p(1 p) 0.48 0.52 p 0.05 n 100 p t 0.05 2 0.1 置信区间为(p- p+)=(0.48-0.1 0.48+0.1) 即(0.38 0.58) 在95.45%的概率保证下,1000名学生成绩 在80分以上的比重在38%至58%之间。
在1530元上下浮动的一个区间内。
点估计和区间估计
(一)点估计 当总体参数不清楚时,用一个特定值(一
般用样本统计量)对其进行估计,称为点估 计。如:用样本均值代替总体均值,用样本 2 离差 ( )代替总体方差 ( ) 2 S 点估计从总体抽取一个样本,根据该样本的 观察值对总体指标作出一个数值点的估计 。
置信区间越大
( 0分
100分)
置信度越高
100%
抽样推断的精确度就越低
精确度为0
第二节
抽样误差
一、误差的构成
抽 样 中 的 误 差 登记性 误差
系统性 误差 抽样 误差
实际误差 抽样平均误差
代表性 误差
(一)抽样误差
抽样误差是由于抽样的随机性而产生的样本 指标(如样本平均数)与总体指标(如总体 平均数)之间的代表性误差。 如:样本平均数-总体平均数
80名
小郑
1720
求全班学生的平均月支出
测算每一名学生的月支出 ?
根据部分学生月支出推断 全体学生平均月支出
在相同条件下,对80名学生进行5次 重复的、独立的抽样(或观测), 结果见下表
姓名
月支出(元)
小张
小王 小赵 小蔡 小唐
1120
1320 1870 1600 1740
x 1530
估计认为全班80名学生的月均支出 为1530元。
xf 解:( 1 )x 75, f n (2) t 2.15 (3) p 0.3,
( x x) f
2
f
10.95
1.095
X : x 72.85 X 77.15 p (1 p ) 0.21
0.21 0.046, t 0.092
f ( x)
X
x
x
N(X
2
n
)
f (t)
x X t / n
1-
t (n 1)
2
0
t (n 1)
2
tபைடு நூலகம்
P(-t <t<t )=1-
2 2
即在1- 置信度下,有: -t <t<t
2 2
x X 推导 即: -t < <t x t / n / n 2 2 2
p
某学校进行了一次全校性英语测试,为了了解考 试情况,从参加测试的1000名学生中,随机重复 抽选了10%进行调查,所得的分配数列如下:
测试成绩 学生数 60以下 10 60-70 20 70-80 22 80-90 40 90以上 8
试以95.45%的置信度估计: (1)该校1000名学生英语平均成绩的估计区间 (2)成绩在80分以上学生所占比重的估计区间
第四章 统计推断
第一节 置信度与置信区间
一、置信度也称为置信水平,它是指总体 参数真值落在样本估计值某一区间内的 概率(把握性程度)。它反映的是抽样 推断的可靠性程度。 如:以100%的概率保证统计学考试成绩在 (0分 100分) 以5%的概率保证英语六级考试成绩在 (480分 490分)
二、置信区间指的是样本估计值的波动范围, 置信区间反映的是抽样的精确性程度。
合 计
10 20 50 20
100
试求抽样平均误差?
每包重量g 148—149 149—150 150—151 151—152 合 计
组中值 148.5 149.5 150.5 151.5
包数 10 20 50 20 100
Σxf x 150.3g Σf
2
Σ(x x ) f σ 0.87g Σf σ 0.87 重置 :μx 0.087g n 100 σ n 非重置 :μx 1 0.087g N n