抽样第十二章

合集下载

抽样技术课后习题答案

1700
12
160
1700
3
170
2000
13
180
2000
4
150
1500
14
130
1400
5
160
1700
15
150
1600
6
130
1400
16
100
1200
7
140
1500
17
180
1900
8
100
1200
18
100
1100
9
110
1200
19
170
1800
10
140
1500
20
120
1300
20
试估计平均每户家庭订报份数及总的订报份数，以及估计量的方差。
解：由题意得到，，，
故（份）
（份）
（份）
于是由以上的计算结果得到平均每户的订报份数为1.875，估计量方差为0.00391875。该辖区总的订阅份数为7500，估计量方差为62700。
4.2
某工业系统准备实行一项改革措施。该系统共有87个单位，现采用整群抽样，用简单随机抽样抽取15个单位做样本，征求入选单位中每个工人对政策改革措施的意见，结果如下：
1
42
6.2
11
60
6.3
2
51
5.8
12
52
6.7
3
49
6.7
13
61
5.9
4
55
4.9
14
49
6.1
5
47
5.2
15
57
6.0

《抽样技术》第四版习题答案

第2章2.1 解：()1 这种抽样方法是等概率的。

在每次抽取样本单元时，尚未被抽中的编号为1～64的这些单元中每一个单元被抽到的概率都是1100。

()2这种抽样方法不是等概率的。

利用这种方法，在每次抽取样本单元时，尚未被抽中的编号为1～35以及编号为64的这36个单元中每个单元的入样概率都是2100，而尚未被抽中的编号为36～63的每个单元的入样概率都是1100。

()3这种抽样方法是等概率的。

在每次抽取样本单元时，尚未被抽中的编号为20 000～21 000中的每个单元的入样概率都是11000，所以这种抽样是等概率的。

2.3 解：首先估计该市居民日用电量的95%的置信区间。

根据中心极限定理可知，在大_y E y y -=近似服从标准正态分布， _Y 的195%α-=的置信区间为y z y z y y αα⎡⎡-+=-+⎣⎣。

而()21f V y S n-=中总体的方差2S 是未知的，用样本方差2s 来代替，置信区间为,y y ⎡⎤-+⎢⎥⎣⎦。

由题意知道，_29.5,206y s ==，而且样本量为300,50000n N ==，代入可以求得 _21130050000()2060.6825300f v y s n --==⨯=。

将它们代入上面的式子可得该市居民日用电量的95%置信区间为7.8808,11.1192⎡⎤⎣⎦。

下一步计算样本量。

绝对误差限d 和相对误差限r 的关系为_d rY =。

根据置信区间的求解方法可知____11P y Y r Y P αα⎫⎪⎧⎫-≤≥-⇒≤≥-⎨⎬⎩⎭根据正态分布的分位数可以知道1P Z αα⎫⎪⎪≤≥-⎬⎪⎪⎭，所以()2_2rY V y z α⎛⎫⎪= ⎪⎝⎭。

也就是2_2_222/221111r Y r Y S n N z S n N z αα⎡⎤⎛⎫⎢⎥⎛⎫⎪⎛⎫⎝⎭⎪⎢⎥-=⇒=+ ⎪ ⎪⎢⎥⎝⎭⎝⎭⎢⎥⎣⎦。

把_29.5,206,10%,50000y s r N ====代入上式可得，861.75862n =≈。

第十二章审计抽样

本章的重点为：（1）审计抽样，包括抽样风险与⾮抽样风险、样本设计、样本选取、对样本实施审计程序、样本结果评价；（2）控制测试中抽样技术的运⽤，主要是三种抽样⽅法的具体运⽤；（3）实质性程序中抽样技术的运⽤，主要是两种抽样⽅法的具体运⽤。

&&本章难点&抽样结果的评价、五种抽样⽅法的具体运⽤。

&本章重点内容总结&§1 审计抽样概述在设计审计程序时，CPA应当确定选取测试项⽬的适当⽅法。

选取测试项⽬旨在帮助CPA确定实施审计程序的范围。

审计程序的范围是指实施审计程序的数量，包括抽取的样本量，对某项控制活动的观察次数等。

CPA可以使⽤的⽅法有三种：（1）选取全部项⽬；（2）选取特定项⽬；（3）审计抽样。

§2审计抽样⼀、抽样风险和⾮抽样风险（⼀）抽样风险1．抽样风险是指CPA根据样本得出的结论，与对总体全部项⽬实施与样本同样的审计程序得出的结论存在差异的可能性。

也就是说，样本中包含的⾦额错报或对设定控制的偏差，可能不能代表某类交易或账户余额总体中存在的错报或控制偏差。

2．抽样风险的类型。

抽样风险分为下列两种类型：（1）在实施控制测试时，CPA推断的控制有效性⾼于其实际有效性的风险，或在实施细节测试时，CPA推断某⼀重⼤错报不存在⽽实际上存在的风险。

此类风险影响审计的效果，并可能导致CPA发表不恰当的审计意见。

（2）在实施控制测试时，CPA推断的控制有效性低于其实际有效性的风险，或在实施细节测试时，CPA推断某⼀重⼤错报存在⽽实际上不存在的风险。

此类风险影响审计的效率。

也就是说，⽆论在控制测试中还是在细节测试中，抽样风险都可以分为两种类型：⼀类是影响审计效果的抽样风险，另⼀类是影响审计效率的抽样风险。

但在控制测试和细节测试中，这两类抽样风险的表现形式有所不同。

在实施控制测试时，CPA要关注的两类抽样风险是信赖过度风险和信赖不⾜风险。

信赖过度风险是指推断的控制有效性⾼于其实际有效性的风险。

现代管理学第十二章练习及答案

现代管理学第十二章社会调查方法与技术一、单选题1.在社会调查中，两个变量相关系数在0.5～0.7之间，说明变间的相关程度（）A.较低B.一般C.显著D.极高答案：C解析：表示变量之间相关关系密切程度的指标，称为关系数或相关指数。

一般情况下，两个变量之间的相关系数的取值在0与1之间。

如果相关系数在0.3以下，表明变量间相关程度低；如果相关系数在0.3～0.5之间，表明变量间相关程度一般；如果相关系数在0.5～0.7之间，表明变量间相关程度显著；如果相关系数在0.7～0.9之间，表明变量间相关程度高；如果相关系数在0.9以上，表明变量间相关程度极高。

2.一项社会调查在问卷中了解不同年龄的居民对网络购物的看法和态度，其中的“看法和态度”属于（）A.因变量B.自变量C.中间变量D.中间变量答案：A解析：自变量是不受外部因素影响而自身产生变化的变量，如年龄、身高等；因变量是指受外界因素的影响而产生变化的变量，如人们对某事物的看法和态度，它往往受职业、文化程度以及所处的工作、生活环境的影响；中间变量是指介于自变量、因变量之间的变量。

3.若确认社会调查资料基本可靠，则要求信度系数达到（）A.0.3以上B.0.5以上C.0.8以上D.0.9以上答案：C解析：信度与效度是调查研究的重要概念之一。

信度即资料的可靠性与真实性，它一般用信度系数来表示。

信度系数在0.8以上，一般认为调查资料是基本可靠的。

4.某牙膏生产企业在近期的一项调查中重点了解城市中成年居民每天刷牙的次数，这指标属于（）A.评价性指标B.问题性指标C.主观性指标D.描述性指标答案：D解析：描述性指标是反映社会现象实际情况的指标，如居民拥有电视机台数、生活消费支出等。

某牙膏生产企业在近期的一项调查中重点了解城市中成年居民每天刷牙的次数就属于描述性指标。

5.抽样调查中，抽取样本的所有抽样单位的名单是（）A.总体B.抽样框C.概率抽样D.非概率抽样答案：B解析：抽样框也称抽样范畴，是从中抽取样本的所有抽样单位的名单。

抽样PPT优选课件

答:一般而言,在一个城市调查某电视节目的收视率, 不可能对每一个看电视的人都进行调查;一所中学的学生不具有代表性,其调查结果不能作为该节目的收视率;对不同地区、不同年龄、不同文化背景的人所作的调查结果不一样.
2020/10/18
12
谢谢您的聆听与观看
THANK YOU FOR YOUR GUIDANCE.
生病的次数 1-2次 3-6次
7次以上
人数 4 5 1
(1)你同意他们的做法吗?说说你的理由.
(2)为了了解我市老年人的健康状况,你认为应当怎样收集数
据?与同伴交流.
2020/10/18
6
(3)小华利用派出所的户籍网随机调查了该地区10% 的老年人,发现他们一年平均生病3次左右你认为他的调查方式如何?
3.下列叙述正确的是( B )
A. 大样本一定能保证调查结论正确 B. 抽样调查时,既要关注样本的大小,又要关注样本的代表性 C. 大样本调查一定比小样本调查准确 D. 所有调查都应该采用普查,而不应该采用抽样调查
2020/10/18
9
4.为了估计湖里有多少条鱼,我们从湖里捕上100条做上标记, 然后放回湖里,经过一段时间待带标记的鱼完全混合于鱼群中后,第二次捕得200条,发现其中带标记的鱼25条,通过这种
象小华这种随机调查的方式是收集数据常用的方法
议一议: 抽样调查时应注意什么?
答:抽样调查时要注意样本的代表性和广泛性.即被调查的对象不得太少，被调查对象应是随意抽取的，调查数据应是真实的。
抽样调查的可行性：
1.抽样调查只考查总体的一部分，因此它的优点是调查范围小，节省时间、人力、物力和财力；
2.但其调查结果往往不如普查得到的结果准确.

审计第十二章习题及答案

第十二章风险应对一、单项选择题1、分析程序是注册会计师执行财务报表审计业务时运用的一种重要的审计程序。

这种程序通常适合于审计（）。

A.连续三年中各年营业成本占营业收入的比例B.连续三年中各年预付账款与当年年末应收账款的比例C.被审计期间实际发生的坏账损失占当年年末应收票据的比例D.相邻两个会计期间营业外支出中包含的无形资产的损失情况2、注册会计师应当设计控制测试，以获取控制在整个拟信赖的期间有效运行的充分、适当的审计证据。

下列关于控制测试范围的叙述不正确的是（）。

A.控制执行的频率越高，控制测试的范围越小B.控制的预期偏差率越高，对拟信赖控制实施控制测试的范围越大C.如果控制的预期偏差率过高，注册会计师应当考虑控制可能不足以将认定层次的重大错报风险降至可接受的低水平，从而针对某一认定实施的控制测试可能是无效的D.信息技术处理具有内在一贯性，除非系统发生变动，注册会计师通常不需要增加自动化控制的测试范围3、下列关于实质性程序的结果对控制测试结果的影响表述不正确的是（）。

A.如果通过实施实质性程序发现某项认定存在错报，注册会计师可以得出控制运行有效的结论B.如果通过实施实质性程序未发现某项认定存在错报，这本身并不能说明与该认定有关的控制是有效运行的C.如果通过实施实质性程序发现某项认定存在错报，注册会计师应当在评价相关控制的运行有效性时予以考虑D.如果实施实质性程序发现被审计单位没有识别的重大错报，通常表明内部控制存在重大缺陷，注册会计师应当就这些缺陷与管理层和治理层进行沟通4、注册会计师在了解及评价被审计单位内部控制后，实施控制测试的范围是（）。

A.有重大缺陷的内部控制B.拟信赖的内部控制C.对财务报表有重大影响的内部控制D.并未有效运行的内部控制5、下列关于控制测试的说法不正确的是（）。

A.控制测试与了解内部控制的目的不同，但二者有时可以采用相同的审计程序类型B.控制测试与细节测试的目的不同，但注册会计师可以考虑针对同一交易同时实施控制测试和细节测试，以实现双重目的C.如果确定评估的认定层次重大错报风险是特别风险，并拟信赖旨在减轻特别风险的控制，注册会计师可以信赖以前审计获取的证据而不再测试D.注册会计师可以考虑在评价控制设计和获取其得到执行的审计证据的同时测试控制运行有效性，以提高审计效率6、审计甲有限责任公司2018年度财务报表时，注册会计师A在风险评估阶段发现甲有限责任公司在2018年12月份发生了多笔重大的销售业务，并且还有若干笔大额销售业务在2018年底尚未完成。

高中总复习第一轮数学第十二章概率与统计(理)12.1 离散型随机变量的分布列

第十二章概率与统计(理)网络体系总览考点目标定位1.离散型随机变量的分布列.离散型随机变量的期望和方差.2.抽样方法、总体分布的估计、正态分布、线性回归.复习方略指南在复习中,要注意理解变量的多样性,深化函数的思想方法在实际问题中的应用,充分注意一些概念的实际意义,理解概率中处理问题的基本思想方法,掌握所学概率知识的实际应用.1.把握基本题型应用本章知识要解决的题型主要分两大类:一类是应用随机变量的概念,特别是离散型随机变量分布列以及期望与方差的基础知识,讨论随机变量的取值范围,取相应值的概率及期望、方差的求解计算;另一类主要是如何抽取样本及如何用样本去估计总体.作为本章知识的一个综合应用,教材以实习作业作为一节给出,应给予足够的重视.2.强化双基训练主要是培养扎实的基础知识,迅捷准确的运算能力,严谨的判断推理能力.3.强化方法选择特别在教学中要掌握思维过程,引导学生发现解决问题的方法,达到举一反三的目的,还要进行题后反思,使学生在大脑记忆中构建良好的数学认知结构,形成条理化、有序化、网络化的有机体系.4.培养应用意识要挖掘知识之间的内在联系,从形式结构、数字特征、图形图表的位置特点等方面进行联想和试验,找到知识的“结点”.再有就是将实际问题转化为纯数学问题进行训练,以培养利用所学知识解决实际问题的能力.12.1 离散型随机变量的分布列巩固·夯实基础一、自主梳理1.随机变量的概念如果随机试验的结果可以用一个变量表示,那么这样的变量叫做随机变量,它常用希腊字母ξ、η等表示.(1)离散型随机变量.如果对于随机变量可能取的值,可以按一定次序一一列出,那么这样的随机变量叫做离散型随机变量.(2)若ξ是随机变量,η=aξ+b,其中a、b是常数,则η也是随机变量.2.离散型随机变量的分布列(1)概率分布(分布列).设离散型随机变量ξ可能取的值为x1,x2,…,x i,…,ξ取每一个值x i(i=1,2,…)的概率P(ξ=x i)=p i,则称表为随机变量ξ的概率分布,简称ξ的分布列.(2)二项分布.如果在一次试验中某事件发生的概率是p,那么在n 次独立重复试验中这个事件恰好发生k 次的概率是P(ξ=k)=C k n p k q n-k .C k n p k q n-k =b(k;n,p). 二、点击双基1.抛掷两颗骰子，所得点数之和为ξ，那么ξ=4表示的随机试验结果是（） A.一颗是3点，一颗是1点 B.两颗都是2点C.两颗都是4点D.一颗是3点，一颗是1点或两颗都是2点解析:对A 、B 中表示的随机试验的结果，随机变量均取值4，而D 是 ξ=4代表的所有试验结果.掌握随机变量的取值与它刻画的随机试验的结果的对应关系是理解随机变量概念的关键. 答案:DA.1B.1±22 C.1+22 D.1-22解析：∵0.5+1-2q+q 2=1,∴q=1±22. 当q=1+22时,1-2q<0,与分布列的性质矛盾, ∴q=1-22. 答案：D3.已知随机变量ξ的分布列为P(ξ=k)=k21,k=1,2,…,则P(2<ξ≤4)等于( ) A.163 B.41 C.161 D.51 解析:P(2<ξ≤4)=P(ξ=3)+P(ξ=4)=321+421=163.答案:A4.某批数量较大的商品的次品率为10%,从中任意地连续取出5件,其中次品数ξ的分布列为 __________________________.解析:本题中商品数量较大,故从中任意抽取5件(不放回)可以看作是独立重复试验n=5,因而次品数ξ服从二项分布, 即ξ—B(5,0.1).5.某射手有5发子弹,射击一次命中目标的概率为0.9,如果命中就停止射击,否则一直到子弹用尽,则耗用子弹数ξ的分布列为___________________________. 解析：ξ可以取1,2,3,4,5,P(ξ=1)=0.9,P(ξ=2)=0.1×0.9=0.09,P(ξ=3)=0.12×0.9=0.009,P(ξ=4)=0.13×0.9=0.000 9,P(ξ=5)=0.14=0.000 1. 诱思·实例点拨【例1】一袋中装有5只球，编号为1，2，3，4，5，在袋中同时取3只，以ξ表示取出的三只球中的最小号码，写出随机变量ξ的分布列.剖析:因为在编号为1,2,3,4,5的球中,同时取3只,所以小号码可能是1或2或3,即ξ可以取1,2,3.解:随机变量ξ的可能取值为1，2，3.当ξ=1时，即取出的三只球中最小号码为1，则其他两只球只能在编号为2，3，4，5的四只球中任取两只，故有P （ξ=1）=3524C C =106=53;当ξ=2时，即取出的三只球中最小号码为2，则其他两只球只能在编号为3，4，5的三只球中任取两只，故有P （ξ=2）=3523C C =103;当ξ=3时，即取出的三只球中最小号码为3，则其他两只球只能在编号为4，5的两只球中任取两只，故有P （ξ=3）=3522C C =101.讲评:求随机变量的分布列,重要的基础是概率的计算,如古典概率、互斥事件的概率、相互独立事件同时发生的概率、n 次独立重复试验有k 次发生的概率等.本题中基本事件总数,即n=C 35,取每一个球的概率都属古典概率(等可能性事件的概率).【例2】(2005北京高考,理)甲、乙两人各进行3次射击,甲每次击中目标的概率为21,乙每次击中目标的概率为32. (1)记甲击中目标的次数为ξ,求ξ的概率分布及数学期望E ξ;(2)求乙至多击中目标2次的概率;(3)求甲恰好比乙多击中目标2次的概率.剖析:(1)甲射击有击中目标与击不中目标两个结果,且3次射击是3次独立重复试验.∴ξ—B(3,21).(2)“乙至多击中目标2次”的对立事件是“乙击中目标3次”.(3)“甲恰好比乙多击中目标2次”即“甲击中2次乙没击中目标或甲击中目标3次乙击中1次”.解:(1)P(ξ=0)=C 03(21)3=81; P(ξ=1)=C 13(21)3=83;P(ξ=2)=C 23(21)3=83;P(ξ=3)=C 33(21)3=81.∵ξ—B(3,2), ∴E ξ=3×21=1.5.(2)乙至多击中目标2次的概率为1-C 33(32)3=2719. (3)设甲恰好比乙多击中目标2次为事件A,甲恰好击中目标2次且乙恰好击中目标0次为事件B 1,甲恰好击中目标3次且乙恰好击中目标1次为事件B 2,则A=B 1+B 2,B 1、B 2为互斥事件,∴P(A)=P(B 1)+P(B 2)=83×271+81×92=241. ∴甲恰好比乙多击中目标2次的概率为241.讲评:求离散型随机变量的概率分布的步骤为:(1)找出随机变量ξ的所有可能的值x i (i=1,2,…);(2)求出各值的概率P(ξ=x i )=p i ;(3)列成表格.【例3】(2005广东高考)箱中装有大小相同的黄、白两种颜色的乒乓球,黄、白乒乓球的数量比为s ∶t.现从箱中每次任意取出一个球,若取出的是黄球则结束,若取出的是白球,则将其放回箱中,并继续从箱中任意取出一个球,但取球的次数最多不超过n 次.以ξ表示取球结束时已取到白球的次数. (1)求ξ的分布列; (2)求ξ的数学期望.解:(1)ξ的可能取值为0,1,2,…,n.(2)ξ的数学期望为E ξ=0×t s s ++1×2)(t s st++2×32)(t s st ++…+(n-1)×n n t s st )(1+-+n ×n n t s t )(+. ① t s t +E ξ=3)(t s st ++42)(2t s st ++…+n n t s st n )()2(1+--+1)()1(++-n n t s st n +11)(+++n n t s nt . ②①-②,得E ξ=s t +1)()1(-+-n n t s s t n -n n t s t n )()1(+--nn t s s nt )(1++. 讲评:本题是几何分布问题,其中用到数列的错位相减法求和,注意运算的严谨性.。

复习资料第十二章研究资料的审核、整理与统计分析[宝典]

第十二章研究资料的审核、整理与统计分析第一节资料的审核与整理研究资料的审核与整理是分析资料的基础，它同研究阶段后期的第一项工作，是保证调查资料客观性、准确性、条理性、完整性不可缺少的重要环节。

一、资料审核的概念与原则资料审核是指在着手整理调查资料之前，对原始资料进行审查与核实的工作过程，目的是保证资料的客观性、准确性和完整性，为资料的整理打下坚实的基础。

资料审核和资料收集工作同步进行，叫做实地审核或收集审核。

在收集资料后集中时间进行审核叫做系统审核。

对重要资料进行反复的各种形式审核，叫做多次审核。

资料审核的原则（1）真实性原则。

（看其是否真实可靠地反映了调查对象的客观情况）（2）标准性原则。

（在较大规模的调查中，对于需要相互比较的材料，要审核其所涉及的事实是不是具有可比性。

指标的定义是否一致，计量单位是否相同等）（3）准确性原则。

（对资料进逻辑检查，有无不合理和相互矛盾的地方，如某人的年龄栏内填写的是23岁，而工龄栏内填写的是18年，显然不合逻辑。

）（4）完整性原则。

（是否收集齐全）二、资料的整理1.资料整理的概念和原则资料的整理是根据研究目的将经过审核的资料进行分类汇总，使资料更加条理化和系统化，为进一步深入分析提供条件。

资料整理应遵循三条原则：（1）条理化。

（是指对资料进行分类从而为进一步分析创造条件。

分类反映着研究者对研究对象的认识）（2）系统化。

（条理化是从分类着手，系统化是从整体综合的角度考虑问题）（3）统计汇总。

（是指将调查得到的各种数据进行初步的统计整理，以把握其总体上的数量特征。

）2.分类和分组从严格的意义讲，分类和分组都是一种定性分类方法，即根据研究对象的某些特征将其区分为不同种类。

分类适用于全部调查资料，分组只限于数量化的统计资料。

调查资料的分类有两种，即前分类和后分类。

（标准是按资料收集前后）文献调查的资料、非结构观察、座谈会的记录、问卷调查中开放性回答是属于后分类。

分类的方法有两种，即现象分类方法和本质分类方法。

高中数学经典错因正解汇总：第十二章统计

第十二章统计12．1抽样方法一、知识导学 1．抽签法：（1）将总体中的所有个体编号（号码可以从1到N ）；（2）将1到N 这N 个号码写在形状、大小相同的号签上（号签可以用小球、卡片、纸条等制作）；（3）将号签放在同一箱中，并搅拌均匀；（4）从箱中每次抽出1个号签，并记录其编号，连续抽取k 次；（5）从总体中将与抽到的签的编号相一致的个体取出. 2．随机数表法：（1）对总体中的个体进行编号（每个号码位数一致）；（2）在随机数表中任选一个数作为开始；（3）从选定的数开始按一定的方向读下去，得到的数码若不在编号中，则跳过；若在编号中，则取出；如果得到的号码前面已经取出，也跳过；如此继续下去，直到取满为止；（4）根据选定的号码抽取样本. 3．系统抽样（等距抽样）：（1）采用随机的方式将总体中的个体编号；（2）将整个的编号按一定的间隔（设为k ）分段，当nN（N 为总体中的个体数，n 为样本容量）是整数时，n N k =；当nN 不是整数时，从总体中剔除一些个体，使剩下的总体中个体的个数N /能被n 整除，这时nN k /=，并将剩下的总体重新编号；（3）在第一段中用简单随机抽样确定起始的个体编号l ；（4）将编号为k n l k l k l l )1(.,,.........2,,-+++的个体抽出. 4．分层抽样：（1）将总体按一定标准分层；（2）计算各层的个体数与总体的个数的比；（3）按各层个体数占总体的个体数的比确定各层应抽取的样本容量；（4）在每一层进行抽样（可用简单随机抽样或系统抽样）. 二．疑难知识1．简单随机抽样是从总体中逐个不放回地抽取.2．简单随机抽样和系统抽样都是一种等概率抽样，即每个个体被抽到的可能性都是相同的. 3．简单随机抽样适用于总体中个体较少的情况；系统抽样适用于总体中个体数较多的情形；分层抽样用于总体由几个差异明显的部分组成的情况.4．分层抽样时，在每一层内进行抽样时可根据具体情况，采用简单随机抽样或系统抽样. 5．在使用分层抽样时，在每一层内抽样的比例相同. 三．经典例题[例1]某工厂生产A,B,C,D 四种不同型号的产品，产品数量之比依次为2：3：5：1，现用分层抽样方法抽出一个容量为n 的样本，样本中A 型号有16件，那么此样本容量n 是多少？错解：样本容量1615322+++⨯=2（件）错因：混淆了A 型号产品与样本容量的比例关系.正解：在分层抽样中，每一层所抽的个体数的比例与总体中各层个体数的比例是一致的，所以，样本容量为881621532=⨯+++=n答：此样本容量为88件.[例2]从1002名学生中选取100名进行抽样检查.请用系统抽样法设计一种方案，叙述其步骤. 解：（1）将1002名学生进行编号，号码分别为1，2，……，1002；（2）用随机数表法剔除2个个体，并将剩下的学生重新编号，号码分别为1，2，……1000；（3）将1000个号码平均分成100组，并在第一组1，2，……，10中用简单随机抽样法确定一个号码（如l ）；（2）将号码为l l l l +++990,......20,10,的个体抽出. [例3]某学校有2005名学生，从中选取20人参加学生代表大会，采用简单随机抽样方法进行抽样，是用抽签法还是随机数表法？如何具体实施？分析：由于学生人数较大，制作号签比较麻烦，所以决定用随机数表法解：采用随机数表法实施步骤：（1）对2005名同学进行编号，0000-2004（2）在随机数表中随机地确定一个数作为开始，如21行45列的数字9开始的4位：9706；依次向下读数，5595，4904,………，如到最后一行，转向左边的四位数字号码，并向上读，凡不在0000-2004范围内的，则跳过，遇到已读过的数也跳过，最后得到号码为：0011，0570，1449，1072，1338，0076，1281，1866，1349，0864，0842，0161，1839，0895，1326，1454，0911，1642，0598，1855的学生组成容量为20的样本.[例4]某工厂有3条生产同一产品的流水线，每天生产的产品件数分别是3000件，4000件，8000件.若要用分层抽样的方法从中抽取一个容量为150件产品的样本，应该如何抽样？解：总体中的个体数N=3000+4000+8000=15000样本容量n=150抽样比例为100115000150==N n 所以应该在第一条流水线生产的产品中随机抽取30001001⨯=30件产品在第二条流水线生产的产品中随机抽取：40001001⨯=40件产品在第三条流水线生产的产品中随机抽取：50001001⨯=50件产品这里因为每条流水线所生产的产品数都较多，所以，在每条流水线的产品中抽取样品时，宜采用系统抽样方法四．典型习题1．为了解某班50名同学的会考及格率，从中抽取10名进行考查分析，则在这次考查中，考查的总体内个体总数为样本容量为 .2．采用系统抽样从含有2000个个体的总体（编号为0000，0001，……，1999）中抽取一个容量为100的样本，则第一段的编号为若在第一段中用简单随机抽样得到起始个体编号为0013，则前6个入样编号为 .3．某市为了了解职工的家庭生活状况，先将职工所在的国民经济行业分成13类，然后每个行业抽1001的职工家庭进行调查，这种抽样方法是 . 4．用分层抽样的方法在一个企业中抽取一个样本容量为50的样本，其中在管理营销部门抽了15人，技术部门10人，其余在生产工人中抽取，已知该企业有生产工人375人，那么这个企业共有多少职工？5．采用简单随机抽样从含有5个人的身高的总体{}173,171,161,167,162中抽取一个容量为2的样本，写出全部样本，并计算各个样本的平均值，各样本平均值的平均值.12.2频率分布直方图、折线图与茎叶图一、知识导学1．频率分布表：反映总体频率分布的表格.2．一般地，编制频率分布表的步骤如下：（1）求全距，决定组数和组距，组距=组数全距；（2）分组，通常对组内数值所在区间取左闭右开区间，最后一组取闭区间；（3）登记频数，计算频率，列出频率分布表.3．频率（分布）直方图：利用直方图反映样本的频率分布规律. 4．一般地，作频率分布直方图的方法为：（1）把横轴分成若干段，每一线段对应一个组的组距；（2）以此线段为底作矩形，它的高等于该组的组距频率，这样得出一系列的矩形；（3）每个矩形的面积恰好是该组上的频率.5．频率折线图：如果将频率分布直方图中各相邻的矩形的上底边的中点顺次连接起，就得到一条折线，称这条折线为本组数据的频率折线图.6．制作茎叶图的方法是：将所有两位数的十位数字作为“茎”，个位数字作为“叶”，茎相同者共用一个茎，茎按从小到大的顺序从上向下列出，共茎的叶一般按从大到小（或从小到大）的顺序同行列出. 二、疑难知识1．在编制频率分布表时，要选择适当的组距和起始点才可以使频率分布表更好地反映数据的分布情况.2．在编制频率分布表时，如果取全距时不利于分组（如不能被组数整除），可适当增大全距，如在左右两端各增加适当范围（尽量使两端增加的量相同）.3．频率折线图的优点是它反映了数据的变化趋势，如果将样本容量取得足够大，分组的组距取得足够小，则这条折线将趋于一条曲线，我们称这一曲线为总体分布的密度曲线. 4．茎叶图对于分布在0~99的容量较小的数据比较合适，此时，茎叶图比直方图更详尽地表示原始数据的信息.5．在茎叶图中，茎也可以放两位，后面位数多可以四舍五入后再制图. 三、典型例题[例1]一个社会调查机构就某地居民的月收入调查了10000人，并根据所得数据画了样本的频率分布直方图（如下图）.为了分析居民的收入与年龄、学历、职业等方面的关系，要从这10000人用再用分层抽样方法抽出100人作进一步调查，则在[)3000,2500（元）月收入段应抽出人.解析:由直方图可得[2500,3000)（元）月收入段共有100000.00055002500⨯⨯=人，按分层抽样应抽出10025002510000⨯=人.故答案 25点评：频率分布直方图中，关健要理解图中数据的意义，特别是图中每个小矩形的面积才是这一组距内个体的频率.[例2]从有甲乙两台机器生产的零件中各随机抽取15个进行检验，相关指标的检验结果为：甲：534，517，528，522，513，516，527，526，520，508，533，524，518，522，512 乙：512，520，523，516，530，510，518，521，528，532，507，516，524，526，514 画出上述数据的茎叶图错解：甲乙 8 0 787632 1 024668 8764220 2 013468 43 3 02 4错因，个位数字作为“叶”，茎相同者共用一个茎，茎按从小到大的顺序从上向下列出，共茎的叶一般按从大到小（或从小到大）的顺序同行列出，对于三位数字，应该把前两位数字作为茎，最后一位数字作为叶，然后从图中观察数据的分布情况，而不是仍考虑两位数，尽管此题的效果一样. 正解：用前两位数作为茎，茎叶图为甲乙 8 50 787632 51 024668 8764220 52 013468 43 53 02 54从图中可以看出，甲机床生产的零件的指标分布大致对称，平均分在520左右，中位数和众数都是522，乙机床生产的零件的指标分布也大致对称，平均分也在520左右，中位数和众数分别是520和516，总的看，甲的指标略大一些. [例3]在绘制频率分布直方图的第三个矩形时，矩形高度① 与这个矩形的宽度（组距）有关； ② 与样本容量n 无关； ③ 与第三个分组的频数有关； ④ 与直方图的起始点无关. 以上结论中正确的共有（）A ．0个 B.1个 C. 2个 D.3个错解：D.错因：起始点与组距均影响第三组的频数，所以矩形高度与以上各因素均有关，①③正确，正解：C.[例4]根据中国银行的外汇牌价，2005年第一季度的60个工作日中，欧元的现汇买入价（100欧元的外汇可兑换的人民币）的分组与各组频数如下：〔1050，1060〕：1，〔1060，1070〕：7，〔1070，1080〕：20，〔1080，1090〕：11，〔1090，1100〕：13，〔1100，1110〕：6，〔1110，1120〕：2.（1）列出欧元的现汇买入价的频率分布表；（2）估计欧元的现汇买入价在区间1065~1105内的频率；（3）如果欧元的现汇买入价不超过x 的频率的估计值为0.95，求此x 解：（1）欧元的现汇买入价的频率分布表为：84.01100111011001105100.0217.0183.0333.01060107010651070117.0=--⨯++++--⨯（3）因为0.017+0.117+0.333+0.183+0.217=0.867〈0.95，0.017+……+0.217+0.100=0.967〉0.95，所以x 在［1100，1110］内，且满足0.867+0.1003.1108,95.0110011101100≈∴=--⨯x x 即欧元现汇买入价不超过1108.3的频率的估计为0.95 [例如果80分以上（包括80分）定为成绩优秀，60分以上（包括60分）定为成绩及格.那么，在这个班级的这次成绩统计中，成绩不及格的频率是多少？成绩及格的频率是多少？成绩优秀的频率是多少？解：被统计的对象（参加这次考试的本班学生）共有2+6+12+21+7+2=50个.60分以上的有48个，80分以上的有20个，所以成绩不及格的频率是04.0502=，成绩及格的频率是96.05048=，成绩优秀的频率是4.05020=.说明要计算一组数据中某个对象的频率，要先计算数据的总的个数，再计算符合这个对象要求的数据的个数.某个对象可以是一个确定的数据，也可以是在某一范围内数据的总数.[例6]在英语单词frequency 和英语词组relative frequency 中，频数最大的各是哪个字母？它们的频数和频率各是多少？解：在frequency 和英语词组relative frequency 中，频数最大的字母都是e ，在单词frequency 中，e 的频数是2，频率是92；在词组relative frequency 中，e 的频数是4，频率是174.点评：在两组数据中，同一个对象的频数相等，但频率不一定相等，频数大，不一定频率大.在同一组数据中，某两个对象的频数相等，频率也相等；频数大，频率也大. 一、典型习题1．为了了解某地区高三学生的身体发育情况，抽查了该地区100名年龄为185.17-岁的男生体重kg ，得到频率分布直方图如下：根据上图可得这100名学生中体重在]5.64,5.56[的学生人数是（）. A ． 20 B.30 C.40 D. 502．一个容量为800的样本，某组的频率为6.25%，则这一组的频数是3．某校随机抽取了20名学生，测量得到的视力数据如下：4.7，4.2，5.0，4.1，4.0，4.9，5.1，4.5，4.8，5.2，5.0，4.0，4.5，4.8，4.7，4.8，4.6，4.9，5.3，4.0（1）列出频率分布表（共分5组）（2）估计该校学生的近视率（视力低于4.9） 4．用一个容量为200的样本制作频率分布直方图时，共分13组，组距为6，起始点为10，第4组的频数为25，则直方图中第4个小矩形的宽和高分别是多少？ 5． 200名学生某次考试的成绩的分组及各组频率如下表：则及格率，优秀率（）的估计分别是6．某地随机检查了140名成年男性红细胞（/1012L ），数据的分组及频率如下表：（2）根据上面的图表，估计成年男性红细胞数在正常值（4.0~5.5）内的百分比7．名著《简爱》的中英文版本中，第一节部分内容每句句子所含单词（字）数如下：英文句子所含单词数10，52，56，40，79，9，23，11，10，21，30，31；中文句子所含字数11，79，7，20，63，33，45，36，87，9，11，37，17，18，71，75，51. （1）作出这些数据的茎叶图；（2）比较茎叶图，你能得到什么结论？12．3平均数、方差与标准差一、知识导学1．n 个数据1a ，2a ，…….n a 的平均数或平均值一般记为-a =na a a n+++........21.2．一般地，若取值n x x x ,......,,21的频率分别为n p p p ,......,,21，则其平均数为n n p x p x p x +++......2211.3．把一组数据的最大值与最小值的差称为极差.4．一般地，设一组样本数据n x x x ,......,,21，其平均数为-x ，则称212)(1∑=--=ni i x x n s 为这个样本的方差，算术平方根21)(1∑=--=n i ix x n s 为样本的标准差，分别简称样本方差，样本标准差. 二、疑难知识1.平均数，中位数和众数都是总体的数字特征，从不同角度反映了分布的集中趋势，平均数是最常用的指标，也是数据点的“重心”位置，它易受极端值（特别大或特别小的值）的影响，中位数位于数据序列的中间位置，不受极端值的影响，在一组数据中，可能没有众数，也可能有多个众数.2.方差和标准差是总体的数字特征，反映了分布的分散程序（波动大小），标准差也会受极端值（特别大或特别小的值）的影响.3.分布的分散程序还可以用极差来描述，但较粗略.4.样本方差也可以用公式21221x x n s n i i -=∑=计算.三、经典例题[例1]某人5次上班途中所花的时间（单位：分钟）分别为.9,11,10,,y x 已知这组数据的平均数为10，方差为2，则y x -的值为（）A ．1 B.2 C.3 D.4 解：由平均数公式为10，得1051)91110(=⨯++++y x ，则20=+y x ，又由于方差为2，则()()()()()[]25110910111010101022222=⨯-+-+-+-+-y x 得20822=+y x 1922=xy 所以有()42222=-+=-=-xy y x y x y x ，故选D.[例2]数据n x x ,,1 是一名运动员的n 次射击的命中环数，则他的平均命中环数的估计是（）.A ．样本平均数均值∑==ni i x n x 11 B ．样本极差),,min(),,max(11n n x x x x R -=C ．样本方差212)(1x x n s n i i -=∑= D ．样本平均差AD=∑=-n i i x x n 11错解：C.错因：后三个选项都表示了样本的波动程度，不能用于总体平均值的估计. 正解：A.[例3]某房间中10个人的平均身高为1.74米，身高为1.85米的第11个人，进入房间后，这11个人的平均身高是多少？解：原来的10个人的身高之和为17.4米，所以，这11个人的平均身高为1185.11074.1+⨯=1.75.即这11个人的平均身高为1075米[例4]若有一个企业，70%的人年收入1万，25%的人年收入3万，5%的人年收入11万，求这个企业的年平均收入及年收入的中位数和众数解：年平均收入为12%511%253%70=⨯+⨯+⨯（万）；中位数和众数均为1万（1）计算所有人员的月平均收入；（2）这个平均收入能反映打工人员的月收入的一般水平吗？为什么？（3）去掉老板的收入后，再计算平均收入，这能代表打工人员的月收入的水平吗？（4）根据以上计算，以统计的观点对（3）的结果作出分析解：（1）平均收入711=-x （3000+450+350+400+320+320+410）=750元（2）这个平均收入不能反映打工人员的月收入水平，可以看出打工人员的收入都低于平均收入，因为老板收入特别高，这是一个异常值，对平均收入产生了较大的影响，并且他不是打工人员（3）去掉老板后的月平均收入612=-x （450+350+400+320+320+410）=375元.这能代表打工人员的月收入水平（4）由上可见，个别特殊数据可能对平均值产生大的影响，因此在进行统计分析时，对异常值要进行专门讨论，有时应剔除之四、典型习题A ．4 B.4.4 C.8 D.8.82．8名新生儿的身长（cm ）分别为50，51，52，55，53，54，58，54，则新生儿平均身长的估计为，约有一半的新生儿身长大于等于，新生儿身长的最可能值是 .用上述分组资料计算得病人平均等待时间的估计值-x = ，病人等待时间的标准差的估计值s =4．样本1021,......,,x x x 的平均数为5，方差为7，则3()()()13,......,13,11021---x x x 的平均数、方差，标准差分别为5．下面是一个班级在一次测验时的成绩（已按从小到大的次序排列），分别计算男生和女生的成绩和平均值，中位数以及众数，试问中位数的含义是什么？对比两个平均值和中位数，你分析一下这个班级的学习情况男生：55，55，61，65，68，71，72，73，74，75，78，80，81，82，87，94女生：53，66，70，71，73，73，75，80，80，82，82，83，84，85，87，88，90，93，94，976．某工厂甲，乙两个车间包装同一产品，在自动包装传送带上每隔30min 抽一包产品，称其重量是否合格，分别记录抽查数据如下：甲车间：102，101，99，103，98，99，98；乙车间：110，105，90，85，75，115，110. （1）这样的抽样是何种抽样方法？（2）估计甲、乙两车间的均值与方差，并说明哪个车间的产品较稳定.12.4线性回归方程一、知识导学1．变量之间的常见关系有如下两类：一类是确定性函数关系，变量之间的关系可以用函数表示；一类是相关关系，变量之间有一定的联系，但不能完全用函数来表达 2．能用直线方程a bx y +=^近似表示的相关关系叫做线性相关关系当a,b 使2222211)(......)()(a bx y a bx y a bx y Q n n --++--+--=取得最小值时，就称a bx y +=∧为拟合这n 对数据的线性回归方程，将该方程所表示的直线称为回归直线.4．线性回归方程a bx y +=∧中的系数b a ,满足：⎪⎪⎩⎪⎪⎨⎧=+⎥⎦⎤⎢⎣⎡=⎥⎦⎤⎢⎣⎡+⎥⎦⎤⎢⎣⎡∑∑∑∑∑=====ni i ni i ni ii n i i n i i y na b x y x a x b x 111112 由此二元一次方程组便可依次求出a b ,的值：⎪⎪⎪⎩⎪⎪⎪⎨⎧-=⎥⎦⎤⎢⎣⎡-⎥⎦⎤⎢⎣⎡⎥⎦⎤⎢⎣⎡-=--=====∑∑∑∑∑x b y a x x n y x y x n b ni i n i i n i i n i i n i i i 2112111（*） 5．一般地，用回归直线进行拟合的一般步骤为：（1）作出散点图，判断散点是否在一条直线附近；（2）如果散点在一条直线附近，用公式（*）求出b a ,，并写出线性回归方程.二、疑难知识1．现实世界中两个变量的关系中更多的是相关关系而不是确定性关系，许多物理学中公式看起来是确定性关系，实际上由于公式的使用范围，测量误差等的影响，试验得到的数据之间是相关关系.2．用最小二乘估计方法计算得到的b a ,使函数()b a Q ,达到最小3．还有其他寻找较好的回归直线的原则（如使y 方向的偏差和最小，使各点到回归直线的距离之和最小等）4．比较相关关系绝对值的大小可以比较一组变量之间哪两个变量有更强的（线性）相关关系.5． “最好的”直线方程中“最好”可以有多种解释，也就有不同的求解方法，现在广泛采用的最小二乘法所用的思想是找到使散点到直线a bx y +==在垂直方向上的距离的平方和最小的直线a bx y +=，用这个方法，b a ,的求解最简单三、经典例题问y 与x 的(样本)相关系数r 是多少?这是否说明y 与x 没有关系? 错解：040707))((7171=⨯⨯-=-=--∑∑==xy y x y y x xi i i i i i所以相关系数r=0,即y 与x 没有关系.错因：相关系数r=0并不是说明y 与x 没有关系，而是说明y 与x 没有线性相关关系，但有可能有非线性相关关系. 正解：040707))((7171=⨯⨯-=-=--∑∑==xy y x y y x xi i i i i i所以相关系数r=0,即y 与x 没有线性相关关系，但有可能有非线性相关关系. 此题中y 与x 之间存在着2x y =的二次相关关系的.[例2]某工厂在2004年的各月中，一产品的月总成本y （万元）与月产量x （吨）之间有如若2005年1月份该产品的计划产量是6吨，试估计该产品1月份的总成本. 分析：可将此问题转化为下面三个问题：（1）画出散点图，根据散点图，大致判断月总成本y 与月产量之间是否有线性相关关系；（2）求出月总成本y 与月产量x 之间的线性回归方程；（4）若2005年1月份该产品的计划产量是6吨，试估计该产品1月份的总成本.错解：省去第一步，即把判断判断月总成本y 与月产量之间是否有线性相关关系的过程舍去，想当然其具有线性相关关系，直接代入公式，求出线性回归方程.错因：此题的月总成本y 与月产量x 之间确实是有线性相关关系，若不具有则会导致错误.因此判断的过程不可少. 正解：（1）散点图见下面，从图中可以看到，各点大致在一条直线附近，说明x 与y 有较强的线性相关关系.（2）代入公式（*）得：a=0.9100,b=0.6477，线性回归方程是：y=0.9100x+0.6477. （3）当x=6.0时，y=0.910011.66477.00.6≈+⨯（万元），即该产品1月份的总成本的估计值为6.11万元.[例3]变量y 与x 有线性回归方程a bx y +=，现在将y 的单位由cm 变为x m ,的单位由ms变为s ，则在新的回归方程**a x b y +=中.=*a .错解：0.1a错因：由 ⎪⎪⎪⎩⎪⎪⎪⎨⎧-=⎥⎦⎤⎢⎣⎡-⎥⎦⎤⎢⎣⎡⎥⎦⎤⎢⎣⎡-=--=====∑∑∑∑∑x b y a x x n y x y x n b n i i n i i n i i n i i ni i i 2112111且y 的值变为原来的210- ，x 的值变为原来的310-可得*a 的值应为原来的210-.正解：0.01a高度（距离）与时间之间的关系由公式22gt s =给出，这里g 是重力加速度的值. （1）画出s 关于t 的散点图，这些点在一条直线附近吗？（2）设2t x =，画出s 关于x 的散点图，这些点在一条直线附近吗？（3）求出s关于x的线性回归方程.解：（1）高度s关于时间t的散点图见下面，从图中可以看到这些点似乎在一条直线附近，也好像在一条抛物线附近（2）高度s关于x的散点图见下面，从图中可以看到这些散点大致在一条直线附近（3）可以求得s关于x的线性回归方程是s=0.0004901x－18.8458（2）求出y与x之间的线性回归方程；（3）如果父亲的身高为73英寸，估计儿子的身高.解：（1）散点图见下面：（2）从散点图可以看出，这些点都分布在一条直线附近，可求得线性回归方程为98.354645.0+=∧x y（3）当73=x 时，9.6998.35734645.0≈+⨯=∧y所以当父亲的身高为73英寸时，估计儿子的身高约为69.9英寸. 四、典型习题1．回归直线方程的系数a,b 的最小二乘估计使函数),(b a Q 最小，Q 函数指（）.A ．21)(∑=--ni i ibx a yB.∑=--ni i i bx a y 1C ．2)(i i bx a y -- D.i i bx a y --2．“回归”一词是在研究子女的身高与父母的身高之间的遗传关系时，高尔顿提出的，他的研究结果是子代的平均身高向中心回归.根据他的结论在儿子的身高y 与父亲的身高x 的线性回归方程bx a y +=∧中，b （）.A ．在（－1，0）内 B.等于0 C ．在（0，1）内 D.在[1，+∞]内3．在研究硝酸钠的可溶性程度时，对不同的温度观测它在水中的溶解度，得到观测结果如下：则由此得到的回归直线的斜率是（保留4位有效数字）4．下面的数据是年龄在40至60岁的男子中随机抽取的6个样本，分别测定了心脏功能水5．某地区近年来冬季的降雨量x(cm)与次年夏季空气中碳氢化合物的最高平均浓度y （ppm ），你认为y与x是什么关系？y与n是什么关系？6．每立方米混凝土的水泥用量x（单位：kg）与28天后混凝土的托压强度（单位：kg/cm2）（2）如果y与x具有线性相关关系，求线性回归方程.。

抽样计划培训教材

抽样计划培训教材第一章：抽样基础知识1.1 抽样的定义抽样是指从总体中选择代表性样本进行研究或测试的过程。

抽样计划是确保样本能够准确、可靠地代表总体的设计与实施。

在实际工作中，抽样计划通常是研究设计的一个重要组成部分。

1.2 抽样的基本原则1) 代表性原则：样本应该能够准确地代表总体。

这需要根据总体的特点和研究目的来选择适当的抽样方法。

2) 随机性原则：抽样应该是随机的，即每个个体都有机会被选中，以减少抽样误差。

3) 目标性原则：抽样应该根据研究目的来设计，以确保研究结果的准确性和可靠性。

1.3 抽样的类型1) 简单随机抽样：从总体中随机地选择样本，每个样本被选中的概率相等。

2) 分层抽样：将总体按某种特征分成若干层，然后从每一层中随机地选择样本。

3) 系统抽样：按照一定的规则从总体中选择样本，如每隔一定的间隔选取一个样本。

4) 整群抽样：将总体按照一定的特征分成若干个群体，然后从这些群体中随机地选择样本。

1.4 抽样误差与样本量1) 抽样误差是由于样本不能完全准确地代表总体而产生的误差，通常通过置信区间来度量。

2) 样本量是影响抽样误差的重要因素，通常通过科学计算得出。

第二章：抽样计划的设计与实施2.1 确定研究目的1) 了解研究的目的和问题，明确研究的范围和目标。

2) 确定所需要的数据类型和数量，包括目标总体的基本情况和特征。

2.2 选择抽样框架1) 按照研究的要求和目的，选择合适的抽样框架，如人口普查、企业数据库等。

2) 确保抽样框架能够准确地代表总体，避免出现抽样偏差。

2.3 确定抽样方法1) 根据总体的特点和研究目的，选择适当的抽样方法，如简单随机抽样、分层抽样等。

2) 计算样本量，确定具体的抽样方案。

2.4 实施抽样计划1) 严格按照抽样计划的要求进行抽样，确保抽样的随机性和代表性。

2) 记录抽样的过程和结果，及时处理抽样中出现的问题。

第三章：抽样结果的分析与应用3.1 数据整理与处理1) 对抽样得到的数据进行整理和处理，确保数据的准确性和可靠性。

抽样教学课件 PPT

抽样教学课件
第一节抽样得意义与作用
一、抽样得概念
1、总体:构成它得所有元素(个体、分析单位、研究对象)得集合,就是从中抽取样本得元素(个体) 得集合体。
2、样本:按照一定方法从调查总体中抽取出来元素得集合。
3、抽样:从总体中按照一定方式抽取样本得过程。
4、抽样单位:指一次直接抽样过程中使用得基本单位,它往往就是多层次得。
4、优缺点
优点:方便易行、较为灵活,特别适用于调查范围大,单位多,情况复杂得调查对象
缺点:误差较大,可相应增加开头阶段得样本数而减少最后阶段得样本数。
第四节户内抽样与PPS抽样
一、户内抽样得方法——kish选择法
1、kish选择法 (1)将调查表分为八种, A、B1、B2、C、D、 E1、E2、F, A、C、D、F各占总数得1/6、 B1、 B2、 E1、E2 1各占/12。 (2)印制相应八种选择卡 (3)将家体中成员进行排序编号,顺序就是:最年长男性、次年长男性……最年幼男性、最年长女性、次年长女性……最年幼女性 (4)按照调查表上得编号,用相应得选择卡进行选择。
抽样得程序
总体抽样框
抽样方法
样本
四、抽样设计得原则
1、目得性原则: 以课题研究得总体方案与研究目标为依据
2、可测性原则能够从样本自身计算出有效得估计值或抽样变动得近似值。
3、可行性原则抽样方案必须在实践中切实可行
4、经济性原则方案设计与研究得经费、时间、人力等适应
大家有疑问的，可以询问和交流
元素2
G院
900
9
70 061~070 076
元素3
H院
800
8
78 071~078

第十二章第二节

同步检测训练一、选择题1．(2009·朝阳4月)从6名女生，4名男生中，按性别采用分层抽样的方法抽取5名学生组成课外小组，则不同的抽取方法种数为( )A ．C 36·C 24B ．C 26·C 34C ．C 510D ．A 36·A 24答案：A解析：从6名女生，4名男生中，按性别采用分层抽样的方法抽取5名学生组成课外小组，其中女生3名，男生2名，则不同的抽取方法种数为C 36·C 24，故选A.2．(2009·黄冈中学一模)如下图实线是函数y ＝f (x )(0≤x ≤2a )的图象，它关于点A (a ，a )对称，如果它是一条总体密度曲线，则正数a 的值为( )A ．22B ．1C ．2 D. 2答案：A 解析：根据曲线的对称性得曲线，直线x ＝2a ，x 轴围成的面积为2a 2，则2a 2＝1，则正数a 的值为22，故选A . 3．(2009·石家庄一模)某市学生的高考成绩ξ服从正态分布，平均成绩μ＝480，方差为10000，若全市高考录取率为0.4，则录取分数线为(已知Φ(0.25)＝0.6)( )A ．525B ．515C ．505D ．495答案：C解析：设分数为x ，由于录取率为0.4，则F (x )＝0⎝⎛⎭⎫x －480100＝0.6，又Φ(0.25)＝0.6，则x －480100＝0.25，x ＝505，故选C.4．已知随机变量ξ服从正态分布N (2，σ2)，P (ξ≤4)＝0.84，则P (ξ≤0)＝( )A ．0.16B ．0.32C ．0.68D ．0.84答案：A解析：由已知P(ξ≤4)＝Φ(4－2σ) ＝Φ(2σ)＝0.84. ∴P(ξ≤0)＝Φ(0－2σ)＝Φ(－2σ) ＝1－Φ(2σ)＝0.16.故选A . 评析：考查正态分布的基础知识.5．某班50名学生在一次百米测试中，成绩全部介于13秒与19秒之间，将测试结果按如下方式分成六组：第一组，成绩大于等于13秒且小于14秒；第二组，成绩大于等于14秒且小于15秒；……第六组，成绩大于等于18秒且小于等于19秒．如右图是按上述分组方法得到的频率分布直方图．设成绩小于17秒的学生人数占全班总人数的百分比为x ，成绩大于等于15秒且小于17秒的学生人数为y ，则从频率分布直方图中可以分析出x 和y 分别为( )A ．0.9,35B ．0.9,45C ．0.1,35D ．0.1,45答案：A解析：x ＝0.02＋0.18＋0.34＋0.36＝0.9，y ＝50(0.34＋0.36)＝35，故选A.6．(2009·武汉5月)下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨标准煤)的几组对应数据. x 3 4 5 6y 2.5 m 4 4.5 根据上表提供的数据，求出y 关于x 的线性回归方程y ^＝0.7x ＋0.35，那么表中m 的值为( )A ．3.15B ．3.5C ．4.5D ．3答案：D解析：本题考查线性回归方程有关知识；由于a ＝y －b x ，故由回归直线方程可得：0.35＝y －0.7x ＝2.5＋m ＋4＋4.54－0.7×3＋4＋5＋64，解之得m ＝3，故选D. 7．(2008·北京朝阳)某校高中研究性学习小组对本地区2006年至2008年快餐公司发展情况进行了调查，制成了该地区快餐公司个数情况的条形图和快餐公司盒饭年销售量的平均数情况条形图(如下图)，根据图中提供的信息可以得出这三年中该地区每年平均销售盒饭( )A ．82万盒B ．83万盒C ．84万盒D ．85万盒答案：D解析：三年中该地区每年平均销售盒饭30×1＋45×2＋90×1.5385(万盒)，故选D.8．(2008·辽宁东北育才中学)如右图是正态分布N (0,1)的正态曲线，现有：①Φ(m )－12，②Φ(－m )，③12Φ(m )－Φ(－m )]，这三个式子能表示图中阴影部分面积的是( ) A ．①② B ．②③C ．①③D ．①②③答案：C解析：由正态曲线的性质及Φ(x 0)＝P (x <x 0)，Φ(x 0)＝1－Φ(－x 0)，Φ(0)＝12，…， ∴三个式子中①③是正确的．故选C.二、填空题9．(2009·辽宁)某企业有3个分厂生产同一种电子产品，第一、二、三分厂的产量之比为1∶2∶1，用分层抽样方法(每个分厂的产品为一层)从3个分厂生产的电子产品中共抽取100件作使用寿命的测试，由所得的测试结果算得从第一、二、三分厂取出的产品的使用寿命的平均值分别为980h ,1020h ,1032h ，则抽取的100件产品的使用寿命的平均值为________h.答案：1013解析：依题意可知平均数 x ＝980×1＋1020×2＋1032×11＋2＋1＝1013. 10．(2009·湖北)样本容量为200的频率分布直方图如下图所示．根据样本的频率分布直方图估计样本数据落在[6,10)内的频数为________，数据落在[2,10)内的概率约为________．答案：64；0.4解析：200×0.08×4＝64；(0.02＋0.08)×4＝0.4.11．(2009·广东重点中学)某企业三月中旬生产A 、B 、C 三种产品共3000件，根据分层由于不小心，表格中A 产品的样本容量比C 产品的样本容量多10，根据以上信息，可得C 的产品数量是________件．答案：800解析：由B 的产品数量和样本容量得其比值为10∶1，又A 产品的样本容量比C 产品的样本容量多10，则A 产品的产品数量比C 产品的产品数量多100，设C 产品的产品数量为x ，则x ＋100＋1300＋x ＝3000，x ＝800，故填800.三、解答题12．(2009·东城3月)甲、乙两运动员进行射击训练，已知他们击中的环数都稳定在7、8、9、10环，且每次射击成绩互不影响，根据以往的统计数据，甲、乙射击环数的频率分布条形图如下：若将频率视为概率，回答下列问题：(1)求甲运动员在3次射击中至少有1次击中9环以上(含9环)的概率；(2)若甲、乙两运动员各自射击1次，ξ表示这2次射击中击中9环以上(含9环)的次数，求ξ的分布列及数学期望E ξ.解：(1)设事件A 表示甲运动员射击一次，恰好击中9环以上(含9环)，则P (A )＝0.35＋0.45＝0.8.甲运动员射击3次均击中9环以下的概率为P 0＝(1－0.8)3＝0.008.所以甲运动员射击3次，至少有1次击中9环以上的概率为P ＝1－0.008＝0.992.(2)记乙运动员射击1次，击中9环以上为事件B ，则P (B )＝1－0.1－0.15＝0.75.由已知ξ的可能取值是0,1,2.P (ξ＝2)＝0.8×0.75＝0.6；P (ξ＝0)＝(1－0.8)×(1－0.75)＝0.05；P (ξ＝1)＝1－0.05－0.6＝0.35.ξ的分布列为所以E ξ＝0×0.05＋1×故所求数学期望为1.55.13．某中学号召学生在今年春节期间至少参加一次社会公益活动(以下简称活动)．该校合唱团共有100名学生，他们参加活动的次数统计如下图所示．(1)求合唱团学生参加活动的人均次数；(2)从合唱团中任选两名学生，求他们参加活动次数恰好相等的概率；(3)从合唱团中任选两名学生，用ξ表示这两人参加活动次数之差的绝对值，求随机变量ξ的分布列及数学期望E ξ.解：由图可知，参加活动1次、2次和3次的学生人数分别为10、50和40.(1)该合唱团学生参加活动的人均次数为1×10×＋2×50＋3×40100＝230100＝2.3. (2)从合唱团中任选两名学生，他们参加活动次数恰好相等的概率为 P 0＝C 210＋C 250＋C 240C 2100＝4199. (3)从合唱团中任选两名学生，记“这两人中一人参加1次活动，另一人参加2次活动”为事件A ，“这两人中一人参加2次活动，另一人参加3次活动”为事件B ，“这两人中一人参加1次活动，另一人参加3次活动”为事件C.易知P (ξ＝1)＝P (A )＋P (B ) ＝C 110C 150C 2100＋C 150C 140C 2100＝5099；P (ξ＝2)＝P (C )＝C 110C 140C 2100＝899；又P (ξ＝0)＝P 0＝4199. ξ的分布列：ξ的数学期望：Eξ＝0×4199＋1×5099＋2×899＝23. 14．(2008·湖北八校二测)高考数学试题中共有10道选择题，每道选择题都有4个选项，其中有且仅有一个是正确的．评分标准规定：“每题只选1项，答对得5分，不答或答错得0分”，某考生每道题都给出了一个答案，已确定有6道题的答案是正确的，而其余题中，有两道题都可以判断出两个选项是错误的，有一道题可以判断一个选项是错误的，还有一道题因不理解题意只能乱猜，试求出该考生： (1)得50分的概率；(2)得多少分的可能性最大；(3)所得分数ξ的数学期望．解：(1)得分为50分，10道题必须全做对．在其余的四道题中，有两道题答对的概率为12，有一道题答对的概率为13，还有一道答对的概率为14，所以得分为50分的概率为 P ＝12·12·13·14＝148. (2)依题意，该考生得分的范围为{30,35,40,45,50}．得分为30分表示只做对了6道题，其余各题都做错，所以概率为：P 1＝12·12·23·34＝648＝18. 同样可以求得得分为35分的概率为：P 2＝C 12·12·12·23·34＋12·12·13·34＋12·12·23·14＝1748. 得分为40分的概率为：P 3＝1748. 得分为45分的概率为：P 4＝748. 得分为50分的概率为：P 5＝148. 所以得35分或得40分的可能性最大．(3)由(2)可知ξ∴Eξ＝30×648＋35×1748＋40×1748＋45×748＋50×148＝45512. 15．某公司在过去几年内使用某种型号的灯管1000支，该公司对这些灯管的使用寿命(单(Ⅰ)将各组的频率填入表中；(Ⅱ)根据上述统计结果，计算灯管使用寿命不足1500小时的频率；(Ⅲ)该公司某办公室新安装了这种型号的灯管3支，若将上述频率作为概率，试求至少有2支灯管的使用寿命不足1500小时的频率．解：(Ⅰ)(Ⅱ)由(Ⅰ)可得0.0481500小时的频率为0.6.(Ⅲ)由(Ⅱ)知：1支灯管使用寿命不足1500小时的概率P＝0.6.根据在n次独立重复试验中事件恰好发生k次的概率公式可得P3(2)＋P3(3)＝C23×0.62×0.4＋0.63＝0.648.所以至少有2支灯管的使用寿命不足1500小时的概率是0.648.评析：本小题主要考查频率、概率、总体分布的估计、独立重复试验等基础知识，考查运用统计的有关知识解决实际问题的能力.。

抽样ppt课件演示文稿

• 3．系统抽样 • 将总体分成均衡的若干部分，然后按照预先制定的规则，从每一个部分抽取一个个体，得到所需要的样本，这种抽样的方法叫做系统抽样． • 4．分层抽样 • 将总体中各个个体按某种特征分成若干个互不重叠的部分，每一部分叫做层，在各层中，按层在总体中所占比例进行随机抽样，这种抽样方法叫做分层抽样．
• 2 ．众数、中位数、平均数、标准差、方差 • (1)众数：在一组数据中出现次数最多的数据叫做这组数据的众数． • (2)中位数：将一组数据按从大到小依次排列，把处在最中间位置的一个数据(或中间两个数据的平均数 ) 叫做这组数据的中位数．
(3)平均数：如果有 n 个数 x1，x2，x3，…，xn，那么－ x 1 ＝n(x1＋x2＋…＋xn)叫做这 n 个数的平均数，把样本中所有个体的平均数叫做样本平均数．
• (三)变量间的相关关系 • 1．相关关系 • 当自变量取值一定时，因变量的取值带有一定的随机性的两个变量之间的关系叫做相关关系． • 2．散点图 • 散点图是表示具有随机关系的两个变量的一组数据的图形，它形象地反映了各对数据的密切程度．
3．求回归直线方程 ^x＋a ^中回归直线方程^ y＝b x )(yi－－ y ) xiyi－n － x － y (xi－－
• 2.用样本估计总体一般分成两种、一种是用样本的频率分布估计总体的分布；另一种是用样本的数字特征(如平均数、标准差等) 估计总体的数字特征．
• 第一种就是利用样本的频率分布表和频率分布直方图对总体情况作出估计，有时也利用频率分布折线图和茎叶图对总体估计．直方图能够很容易地表示大量数据，非常直观地表明分布的形状，使我们能够看到在分布表中看不清楚的数据模式，这样根据样本的频率分布，我们可以大致估计出总体的分布．

统计学抽样PPT课件

第25页/共31页
例2 根据经验，某高校历年入学新生的平均数为167厘米，标准差为10厘米。现从今年入学新生中随机抽查了30名学生，测得其平均身高为169厘米，如果标准差与往年一样，能否第26页/共31页在а=0.05的
例3、某公司引进一自动包装线包装大米，合同规定设计规格为每袋大米10公斤，标准差为0.6公斤，生产调试后随机抽取100袋大米平均重量为9.8公斤。问
感谢您的观看！
第31页/共31页
1、点估计点估计是直接用样本指标推断总体指标的一种方法。点估计的特点是只考虑了样本指标，而没有考虑抽样误差。
第17页/共31页
2、区间估计
（1）理论准备
所谓区间估计就是在一定概率保证下，确定总体参数值的可能范围。
所谓概率就是指在随机事件进行大量实验中，某种事件出现的可能性的大小。
抽样估计的概率保证程度就是指抽样第18页/共31页
第27页/共31页
例4、取8台新型发动机进行测试，其结果是使用柴油每公升的运转时间分别为 28、27、31、29、30、27、30、27 分钟。根据设计要求，平均每公升运转应在30分钟以上。问根据实验结果，在
第28页/共31页
例5、某产品的耐用时间为1000小时，现随机抽取10件新工艺条件下的产品作测试，测得平均耐用时间为1077小时，标准差为51.97小时，能否认为新工艺条件下产生的产品明显不同于老产品？
第15页/共31页
例2：随机抽取500名某国私人对外投资者，发现对外投资额在5000万元以上的人数有80人，求抽样误差。例3：一批食品随机抽查50箱，发现一箱不合格，求合格率的抽样误差。
第16页/共31页
三、点估计和区间估计

第十二章非参数检验(Nonparametric test)

因此在h成立的情况下t远离nn14为小概率事件可认为在一次抽样中是不会发生的故当出现这种情况时推断拒绝hwilcoxonwilcoxon1混合编秩数据相等时取平均秩2分别求两组的秩和3以样本量较小组样本量较小组的秩和为t4查成组设计的t界值表确定p值如果np200kruskalwallish检验1建立检验假设确定检验水准2混合编秩分组求秩和t4确定p值作出推断结论小样本情况
（2）求差值、编秩、求秩和并确定检验统计量：
编秩: 按绝对值大小差值为0舍去不计秩次相等取平均秩次
T＋＝98，T－＝22 任取其中之一作为检验的统计量T 本例取T＝ T－＝22。
（3）确定P值并作出推断结论：
根据T值（ T+=98 或 T-=22 ）查T界值表（ P208附表12-1 ）确定P值
A、用t检验 B、用u检验 C、用Wilcoxon秩和检验 D、用t检验或Wilcoxon秩和检验均可 E、资料符合t检验还是Wilcoxon秩和检验
2、配对样本差值的Wilcoxon符号秩检验，确定P值的方法为： A、T越大，P越大 B、T越大，P越小 C、T值在界值范围内，P小于相应的α D、T值在界值范围内，P大于相应的α E、T值即u值，查u界值表
大样本情况：若k > 3或ni > 5时，理论上， H近似服从自由度为k-1的χ2分布，可查 χ2界值表确定P值。
秩和检验的两两比较
方法有： 1、扩展的t检验 2、Nemenyi法检验 3、q检验
几种方法理论上仍存在争议，故SAS、 SPSS等软件没有提供这方面的分析
第四节配伍组设计的秩和检验
正态近似法
n>50时，T分布近似正态分布可用正态近似法作u检验：
u T T | T n(n 1) / 4 | 0.5

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

j 1 r
c
i 1,2, , r ; j 1,2, , c;
n j nij ,
i 1
n
i 1
r
i
n j n.
j 1
c
其中表示落入第i行和第j列所代表的类的观测值个数。nij
• 如果行因子R和列因子C独立，则对于所有的i和j，有
pij pi p j .
ˆ
此时，在H 0下，Wald统计量近似服从自由度为 1的卡方分布 .
2 ˆ 2 XW ˆ) ˆ ( V
对于较大的列联表，令 [11 , 12 , , r 1,c 1 ]T 为 ij的(r 1)(c 1) 1向量，从而，问题变为 H 0： 0
2 ˆT V ˆ) 1 ˆ, ˆ ( Wald统计量 XW ˆ)是 ˆ的协方差矩阵 ˆ ( 其中，V .
以一阶校正为例 , (2r 1)( c 1)的均值(r 1)(c 1), 假定H 0为真, 基于复杂抽样设计将 E ( X 2 )或者E (G 2 )的值计算出来 ,以 (r 1)(c 1) 作为校正系数 , 将检验统计量 2 E (G ) (r 1)(c 1) 2 X *2 X 2 E( X ) 或者 (r 1)(c 1) 2 G G 2 E (G )
n
ij
ˆ ij ˆ ij p ˆ i p ˆ j m p n . ˆ ij ˆ i p ˆ j m p i 1 j 1
r c 2
似然比检验统计量是
r c ˆ ij n p ij 2 ˆ ij ln G 2 nij ln 2n p ˆ ij ˆ i p ˆ j m p i 1 j 1 i 1 j 1 r c
2 对于大样本, 在H 0下, X W 近似服从 (2r 1)( c 1)分布.这里, " 大样
本" 指的是在复杂调查中需要大量的初级抽样单元 , 而非观测单 ˆ)是一个1616的矩阵而且需 ˆ ( 元.比如, 在一个5 5的列联表中 ,V 要计算136个不同的方差和协方差 .如果一个整群样本只有 140个初级抽样单元, 则由其估计的协方差矩阵将极不稳定 .实际中, 不推荐对较大的列联表进行Wald检验, 因为效果通常较差 .
第十二章
复杂抽样设计下的统计分析
卡方独立性检验
• 定义：用于检验两个或两个以上因素（变量）各有多项分类之间是否有关联或是否具有独立性的问题。 • 如要讨论血型与性格的关系，血型有A、B、 AB、O四类，性格采用心理学上的A型性格来划分，即有A型和B型两种，每个人可能是它们之间交叉所形成的8种类型中的一种，就可以用卡方独立性检验。
• 从而，独立性的检验问题变为
H 0 : pij pi p j , i, j; H1 : 至少存在一对（ i, j），pij pi p j .
令mij npij , mij 代表期望频率，如果 H 0为真，则可以得到mij npi p j .同时mij的估计为 ˆ ij np ˆ i p ˆ j m ˆ ij p ˆ ij . p
整群抽样则通常产生相反的影响 .整群抽样的设计效应通常大于 1.用n个整群抽样观测单元和用少于n个简单随机抽样观测单元来估计pij , 得到的精度是相同的 . 如果忽视整群效应 , X 2和G 2会大于由等量的简单随机样本得到的结果 , 检验的p值则会偏小 , 此时H 0会更容易 ˆ ij 被拒绝, 从而检验犯第一类错误的概率增加了 .在计算p 的置信区间时 , 也会比简单随机抽样下的置信区间要窄 , 看似得到的是更精确的估计, 但这是虚假的 .
Bonferroni检验
变量独立性检验的原假设H 0 : 11 0,12 0, , r 1,c 1 0 分解成m (r 1)(c 1)个组成部分： H 0 (1) : 11 0, H 0 (2) : 12 0, H 0 (m) : ( r 1)( c 1) 0. 使用Bonferroni 不等式，在显著性水平为对每一组成部分 H 0 (k )进行检验.
如果不理会这一整群效应, 则观测频数的列联表数据将如表 12.7：
ˆ 11 此时,比例估计与前面的简单随机样本是相同的 .p ˆ 21 p
19 11 ˆ 12 , ,p 50 40
7 17 ˆ 22 ,p .但是, 皮卡逊卡方检验统计量的值却是简单随机样本 40 100 时的两倍, 为3.891 , 检验的p值为0.049.如果忽视整群效应 , 会得出家庭订阅报纸和开通宽带上网的行为不是相互独立的结论.而如果假定每个家庭都是四口之家, 对家中的两个孩子也一起调查, 得到的p值将会更低,因为检验统计量的值比原来扩大了四倍.
似然比检验统计量为 ˆi p ˆ i ln ( 0 ) . G 2n p ˆi p i 1
2 r
如果原假设成立，这两个统计量近似服从自由度为r-k-1的卡方分布，其中，k为总体分布的未知参数个数。
卡方检验的调查设计效应抽样设计从两个方面对类别数据的分析产生影响：一是影响对单元格中概率的估计，二是影响对相对性或拟合优度的检验。
如果满足：（ 1）每个单元格的期望频数大于1；（2）n 5 单元格的数目 . 则在原假设成立的情况下，X 2和G 2 近似服从自由度为（r 1)(c 1)的卡方分布 .
卡方拟合优度检验
• 基本思想：实际频数与理论频数的吻合程度 • 用途：检验样本所代表的总体的频数分布是否符合某一理论分布（正态、二项、 Poisson) • 注意事项：样本含量要充分大，每个组段的理论频数不能太小（小于5）

m
下分别
如果在显著性水平下拒绝了某一个 H（ , 即对于任意 0 k） m ˆ ij 的 i和j , 有 t k ( ),则在显著性水平下拒绝H 0 . 2m ˆ ) ˆ ( V ij 每一个检验统计量都与 tk (

2m 估计量的自由度 .如果采用随机组的方法来估计方差, 那 k 初级抽样单元的个数层数.
也就是说, 落入单元格(i, j )中的观测值的权重之和 ˆ ij p . 样本中所有单元的权重之和如果不考虑抽样权数 , 得到的各单元格中的概率估计将会是错误的.
对于假设检验和置信区间的影响首先来看分层的影响 , 分层抽样将导致过于保守的检验和置信区间 .对于一个简单随机样本 , 卡方独立性检验统计量为
j 1 c
xij xi x j n , 其中，pij , n n n
卡方检验的基本思想：
期望频数频率相差应该不会太大 .而如果二者相差较大, 则有理由拒绝 H0. 计量为 X 个单元格的实际频数频率与
基于此基本思想的皮尔逊Pearson卡方检验统
对单元格中概率估计的影响如果样本是自加权的 , 那么观测频数nij真实地反映了总体中各类别的相对频数 ; 而如果不是, 则应在估计单元格的比例时, 将抽样权数考虑进去 . 例如, 对pij的估计可调整为 ˆ ij p
w y w
kS k kS k
kij
,
1, 如果观测单元k落入单元格(i, j ) 其中，ykij , wk 是观测单元 0, 否则的抽样权重 .
检验问题可以归结为 H 0 : pi p , i, (12.4)
(0) i
其中，pi( 0 )可以是事先指定的相关数值, 也可以是参数
的一个函数，并且该参数可通过样本数据来估计.
对应的皮尔逊卡方检验统计量为
(0) 2 (0) 2 r ˆ ˆ ˆ ˆ （ n p n p ) ( p p 2 i i i i ) X n . (0) (0) ˆi ˆi np p i 1 i 1 r
过程归纳为：当我们抽取了一个容量为n的样本后，假设可以对样本中的每个单元按两个特性进行分类，分别称为行因子和列因子。将n个独立观测值分别按行因子和列因子进行交叉分组：行因子R有r个水平，列因子C 有c个水平。如表所示：
• 通常在二维表中还按行，列分别求出其合计数：
ni nij ,
2 *
(r 1)(c 1) 或 2 E( X )
2 ˆ ˆ ˆ ( p p p ) ij i j X 2 n . ˆ i p ˆ j p i 1 j 1 r c
一般情况下, 分层会比简单随机抽样有更高的估计精度 . n 用n个分层抽样观测单元和用 (deffij是估计pij时的设计 deffij 效应)个简单随机抽样观测单元来估计pij , 二者的精度是相同的.通常情况下, 如果合理地进行了层的划分, 设计效应会小于 ˆ ij构造简单随机抽样意 1.因此, 如果用从分层样本计算得到的p 义下的检验统计量 X 2和G 2 , 得到的X 2和G 2 将会比它们应该服从的原假设 2 ( r 1)( c 1)分布要小 .忽略掉分层效应后计算得到的p 值将会偏大, 这意味着H 0不那么容易被拒绝 .从而, 如果忽视分 ˆ ij的置信区间时层效应, 得到的便是一个保守的检验.在计算p , 也会比简单随机抽样下的置信区间要宽 , 得到的估计同样是过于保守的 .
卡方检验的校正
Wald (沃尔德)检验首先考虑2 2表格的情形，原假设为 H 0： 11 p11 p1 p1 p11 p22 p12 p21 0. ˆ p ˆ p ˆ p ˆ . 可作如下估计 ˆ p
11 22 12 21
由于参数是总体总量的一个平滑参数，因此， ˆ). 可以采用第十一章中介绍的一些方法来估计 V ( 如果样本量足够大，原假设下正态分布. 近似服从标准 ˆ） ˆ（ V
)进行比较, 其中, k为方差
么k 随机组的个数 1; 而如果采用其他估计方法, 那么
和卡方分布的矩进行匹配