统计学第七章、第八章课后题答案
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
统计学复习笔记
第七章 参数估计
一、 思考题
1. 解释估计量和估计值
在参数估计中,用来估计总体参数的统计量称为估计量。
估计量也是随机变量。
如样本均值,样本比例、样本方差等。
根据一个具体的样本计算出来的估计量的数值称为估计值。
2. 简述评价估计量好坏的标准
(1)无偏性:是指估计量抽样分布的期望值等于被估计的总体参数。
(2)有效性:是指估计量的方差尽可能小。
对同一总体参数的两个无偏估计量,有更小方差的估计量更有效。
(3)一致性:是指随着样本量的增大,点估计量的值越来越接近被估总体的参数。
3. 怎样理解置信区间
在区间估计中,由样本统计量所构造的总体参数的估计区间称为置信区间。
置信区间的论述是由区间和置信度两部分组成。
有些新闻媒体报道一些调查结果只给出百分比和误差(即置信区间),并不说明置信度,也不给出被调查的人数,这是不负责的表现。
因为降低置信度可以使置信区间变窄(显得“精确”),有误导读者之嫌。
在公布调查结果时给出被调查人数是负责任的表现。
这样则可以由此推算出置信度(由后面给出的公式),反之亦然。
4. 解释95%的置信区间的含义是什么
置信区间95%仅仅描述用来构造该区间上下界的统计量(是随机的)覆盖总体参数的概率。
也就是说,无穷次重复抽样所得到的所有区间中有95%(的区间)包含参数。
不要认为由某一样本数据得到总体参数的某一个95%置信区间,就以为该区间以的概率覆盖总体参数。
5. 简述样本量与置信水平、总体方差、估计误差的关系。
1. 估计总体均值时样本量n 为
2. 样本量n 与置信水平1-α、总体方差、估计误差E 之间的关系为
与置信水平成正比,在其他条件不变的情况下,置信水平越大,所
其中: 2222α2222)(E z n σα=n z E σα2=
需要的样本量越大;
与总体方差成正比,总体的差异越大,所要求的样本量也越大;
与与总体方差成正比,样本量与估计误差的平方成反比,即可以接
受的估计误差的平方越大,所需的样本量越小。
二、 练习题
1. 从一个标准差为5的总体中采用重复抽样方法抽出一个样本量为40的样本,样本均值为25。
1) 样本均值的抽样标准差等于多少?
2) 在95%的置信水平下,估计误差是多少?
解: 1) 已知σ = 5,n = 40, = 25
∵ ∴ = 5 /√40 ≈
2) 已知
∵ ∴ 估计误差 E = ×5÷√40 ≈
2. 某快餐店想要估计每位顾客午餐的平均花费金额,在为期3周的时间里选取49名顾客组成了一个简单随机样本。
1) 假定总体标准差为15元,求样本均值的抽样标准误差。
2) 在95%的置信水平下,求估计误差。
3) 如果样本均值为120元,求总体均值µ的95%的置信区间。
解:1)已知σ = 15,n = 49
∵ x n
x n x σσ=α2n
z E σα2=n x n x σσ=n x n x σσ=
∴ = 15÷√49 =
2)已知
∵ ∴ 估计误差 E = ×15÷√49 ≈
3)已知 = 120
∵ 置信区间为
±E ∴ 其置信区间 = 120±
3. 从一个总体中随机抽取n =100的随机样本,得到 =104560,
假定总体标准差σ = 85414,试构建总体均值µ的95%的置信区间。
解: 已知n =100,
=104560,σ = 85414,1-=95% , 由于是正态总体,且总体标准差已知。
总体均值
在1-置信水平下的置信区间为 104560 ± ×85414÷√100 = 104560 ±
4. 从总体中抽取一个n =100的简单随机样本,得到 =81,s=12。
要求:
1) 构建µ的90%的置信区间。
2) 构建µ的95%的置信区间。
3) 构建µ的99%的置信区间。
解:由于是正态总体,但总体标准差未知。
总体均值在1-置信α2n
z E σα2=x x x x 2α()28.109,44.10192.336.10525
10
96.136.1052=±=⨯±=±n z x σ
αx
水平下的置信区间公式为
81±×12÷√100 = 81±×
1)1-=90%,
其置信区间为 81 ±
2)1-=95% ,
其置信区间为 81 ± 3) 1-=99%,
其置信区间为 81 ±
5. 利用下面的信息,构建总体均值的置信区间。
1) = 25,σ = ,n =60,置信水平为95%
2) =119,s =,n =75,置信水平为98%
3) =,s =,n =32,置信水平为90%
解:∵ ∴ 1) 1-=95% , 其置信区间为:25±×÷√60 = 25±
2) 1-
=98% ,则=, /2=, 1-/2=,查标准正态分布表,可知:
其置信区间为: 119±×÷√75
= 119±
3) 1-=90%, x x x 22未知αα)(22未知或σσααn
s z x n z x ±±
其置信区间为: ±×÷√32
= ±
6. 利用下面的信息,构建总体均值µ的置信区间:
1) 总体服从正态分布,且已知σ = 500,n = 15
, =8900,置信水平为95%。
解: N=15,为小样本正态分布,但σ已知。
则1-=95%,。
其置信区间公式为 ∴置信区间为:8900±×500÷√15=( , ) 2) 总体不服从正态分布,且已知σ = 500,n = 35, =8900,置信水平为95%。
解:为大样本总体非正态分布,但σ已知。
则1-=95%,。
其置信区间公式为 ∴置信区间为:8900±×500÷√35=( ) 3) 总体不服从正态分布,σ未知,n = 35,
=8900,s =500,置信水平为90%。
解:为大样本总体非正态分布,且σ未知,1-=90%,。
其置信区间为: 8900±×500÷√35=(8761 9039)
4) 总体不服从正态分布,σ未知,n = 35,
=8900,s =500,置信水平为99%。
解:为大样本总体非正态分布,且σ未知,1-=99%,。
2α()28.109,44.10192
.336.105251096.136.1052=±=⨯
±=±n z x σαx x 2α()28.109,44.10192
.336.105251096.136.1052=±=⨯
±=±n z x σαx x
其置信区间为:8900±×500÷√35=()
7.某大学为了解学生每天上网的时间,在全校7500名学生中采取重复抽样方法随机抽取36人,调查他们每天上网的时间,得到下面的数据(单位:小时)(略)。
求该校大学生平均上网时间的置信区间,置信水平分别为90%
解:先求样本均值:=
再求样本标准差:
置信区间公式:
8.从一个正态总体中随机抽取样本量为8的样本,各样本值分别为:10,8,12,15,6,13,5,11。
求总体均值µ的95%置信区间。
解:本题为一个小样本正态分布,σ未知。
先求样本均值:= 80÷8=10
再求样本标准差:= √84/7 =
于是 , 的置信水平为的置信区间是
,
已知,n = 8,则 ,α/2=,查自由度为n-1 = 7的分布表得临界值
所以,置信区间为:10±×÷√7
9.某居民小区为研究职工上班从家里到单位的距离,抽取了由16个人组成的一个随机样本,他们到单位的距离分别是:10,3,14,8,6,9,12,11,7,5,10,15,9,16,13,2。
假设总体服从正态分布,求职工上班从家里到单位平均距离的95%的置信区间。
解:小样本正态分布,σ未知。
已知,n = 16,,则 , α/2=,查自由度为n-1 = 15的分布表得临界值
样本均值=150/16=
再求样本标准差:= √15 ≈
于是 , 的置信水平为的置信区间是
,
±×÷√16
10.从一批零件是随机抽取36个,测得其平均长度是,标准差是。
1)求确定该种零件平均长度的95%的置信区间。
2)在上面估计中,你使用了统计中的哪一个重要定理?请解释。
解:1)这是一个大样本分布。
已知N=36, = ,S =,1-α=,。
x
其置信区间为:±×÷√36
2)中心极限定理论证:如果总体变量存在有限的平均数和方差,那么,不论这个总体的分布如何,随着样本容量的增加,样本均值的分布便趋近正态分布。
在现实生活中,一个随机变量服从正态分布未必很多,但是多个随机变量和的分布趋于正态分布则是普遍存在的。
样本均值也是一种随机变量和的分布,因此在样本容量充分大的条件下,样本均值也趋近于正态分布,这为抽样误差的概率估计理
论提供了理论基础。
11.某企业生产的袋装食品采用自动打包机包装,每袋标准重量为100克,现从某天生产的一批产品中按重复抽样随机抽取50包进行检查,测得每包重量如下:(略)
已知食品包重服从正态分布,要求:
1)确定该种食品平均重量的95%的置信区间。
2)如果规定食品重量低于100克属于不合格,确定该批食品合格率的95%的置信区间。
解: 1)本题为一个大样本正态分布,σ未知。
已知N=50,µ =100,1-α=,。
①每组组中值分别为97、99、101、103、105,即此50包样本平均值= (97+99+101+103+105)/5 = 101
②样本标准差为:
=√{(97-101)²×2+(99-101)²×3+(101-101)²×34+(103-101)²×7+(105-101)²×4}÷(50-1)≈
③其置信区间为:101±×÷√50
2)∵不合格包数(<100克)为2+3=5包,5/50 = 10%(不合格率),即P = 90%。
∴该批食品合格率的95%置信区间为:
= ±×√×÷50= ±×
12.假设总体服从正态分布,利用下面的数据构建总体均值μ的
99%的置信区间。
(略)
解:样本均值
样本标准差:
尽管总体服从正态分布,但是样本n=25是小样本,且总体标准差未知,应该用T统计量估计。
1-α=,则α=, α/2=,查自由度为n-1 = 24的分布表得临界值
的置信水平为的置信区间是,
13.一家研究机构想估计在网络公司工作的员工每周加班的平均时间,为此随机抽取了18个员工,得到他们每周加班的时间数据如下(单位:小时):(略)
假定员工每周加班的时间服从正态分布,估计网络公司员工平均每周加班时间的90%的置信区间。
解:① N = 18 < 30,为小样本正态分布,σ未知。
②样本均值= 244/18 =
样本标准差:=
③ 1-α= 90%,α= ,α/2= ,则查自由度为n-1 = 17的分布表得临界值
④的置信水平为的置信区间是,
14.利用下面的样本数据构建总体比例丌的置信区间:
1)n =44,p = ,置信水平为99%
2)n =300,p = ,置信水平为95%
3)n =1150,p = ,置信水平为90%
解: 1) 1-α= 99%,α= ,α/2= ,1-α/2= ,查标准正态分布表,则
2)1-=95%,
3)1-=90%,
分别代入
15.在一项家电市场调查中,随机抽取了200个居民户,调查他们是否拥有某一品牌的电视机,其中拥有该品牌电视机的家庭占23%。
求总体比例的置信区间,置信水平分别为90%和95%。
解: 1)置信水平90%,1-=90%,,N = 200,P = 23%。
代入
2)置信水平95%,1-=95%,,N = 200,P = 23%。
代入
16.一位银行的管理人员想估计每位顾客在该银行的月平均存款额。
他假设所有顾客月存款额的标准差为1000元,要求的估计误差在200元以内,置信水平为99%。
应选取多大的样本?
解:已知 1-α = 99%,则。
E = 200,σ= 1000元。
则 N = (²×σ²)÷E²= (²×1000²)÷200²≈167
(得数应该是,不管小数后是多少,都向上进位取整,因此至少是
167人)
17.要估计总体比例丌,计算下列条件下所需的样本量。
1)E=,丌=,置信水平96%
2)E=,丌未知,置信水平95%
3)E=,丌=,置信水平90%
解: 1)已知 1-α = 96%,α/2 = ,则
N = {²×丌(1-丌)}÷E²=²××÷²≈2547
2) 已知 1-α = 95%,α/2 = ,则
丌未知,则取使丌(1-丌)最大时的。
N = {²×丌(1-丌)}÷E²=²××÷²≈601
3)置信水平90%,1-=90%,,
N = {²×丌(1-丌)}÷E²=²××÷²≈270
18.某居民小区共有居民500户,小区管理者准备采用一项新的供水设施,想了解居民是否赞成。
采取重复抽样方法随机抽取了50户,其中有32户赞同,18户反对。
1)求总体中赞成该项改革的户数比例的置信区间(α=)
2)如果小区管理者预计赞成的比例能达到80%,估计误差不超过10%,应抽取多少户进行调查(α=)
解:1)
已知N=50,P=32/50=,α=,α/2 = ,则
置信区间:P±√{P(1-P)/N}= ±√×50
= ±×=±
2)已知丌= , E = , α=,α/2 = ,则
N= ²丌(1-丌)/E²= ²××÷²≈62
19.根据下面的样本结果,计算总体标准差σ的90%的置信区间:1)=21,S=2,N=50
2)=,S=,N=15
3)=167,S=31,N=22
解:1)大样本,σ未知,置信水平90%,1-=90%,
21±×2÷√50
2)小样本,σ未知,置信水平90%,1-=90%,则查自由度为n-1 = 14的分布表得临界值
, = ±×÷√15
3) 大样本, σ未知,置信水平90%,1-=90%,
167±×31÷√22
20.题目(略)
1)构建第一种排队方式等待时间标准差的95%的置信区间
2)构建第二种排队方式等待时间标准差的95%的置信区间
3)根据1)和2)的结果,你认为哪种排队方式更好?
解:本题为小样本正态分布,σ未知,应用公式
,
置信水平95%,1-=95%,则查自由度为n-1 = 9的分布表得临界值
1) = ,
= √9≈
其置信区间为±×÷√10
2) =
= √0/9 = 0
其置信区间为±0
4)第二种排队方式更好.
(19题是对总体方差的估计,应该用卡方统计量进行估计,20题是对两个总体参数的估计,这二种类型老师未讲,不是本次考试的内容,不能用Z统计量像估计总体均值和比例那样去估计,具体内容见书上P188――P194)
第八章假设检验
一、思考题
1.假设检验和参数估计有什么相同点和不同点?
解:参数估计与假设检验是统计推断的两个组成部分。
相同点:它们都是利用样本对总体进行某种推断。
不同点:推断的角度不同。
参数估计讨论的是用样本统计量估计总体参数的方法,总体参数μ在估计前是未知的。
而在假设检验中,
则是先对μ的值提出一个假设,然后利用样本信息去检验这个假设是否成立。
2.什么是假设检验中的显著性水平?统计显著是什么意思?
解:显著性水平用α表示,在假设检验中,它的含义是当原假设正确时却被拒绝的概率或风险,即假设检验中犯弃真错误的概率。
它是由人们根据检验的要求确定的。
(我理解的统计学意义,统计显著是统计上专用的判定标准,指在一定的概率原则下,可以承认一种趋势或者合理性达到的程度,达到为统计上水平显著,达不到为统计上水平不显著)
3.什么是假设检验中的两类错误?
解:弃真错误(α错误):当原假设为真时拒绝原假设,所犯的错误成为第I类错误,又称为弃真错误。
犯第I类错误的概率常记作α。
取伪错误(β错误):当原假设为假时没有拒绝原假设,所犯的错误称为第II类错误,又称取伪错误。
犯第II类错误概率常记作β。
发生第I类错误的概率也常被用于检验结论的可靠性度量。
假设检验中犯第I类错误的概率被称为显著性水平,记作α。
4.两类错误之间存在什么样的数量关系?
在样本容量n一定的情况下,假设检验不能同时做到犯α和β两类错误的概率都很小。
若减小α错误,就会增大犯β错误的机会;若减小β错误,也会增大犯α错误的机会。
要使α和β同时变小只有
增大样本容量。
但样本容量增加要受人力、经费、时间等很多因素的限制,无限制增加样本容量就会使抽样调查失去意义。
因此假设检验需要慎重考虑对两类错误进行控制的问题。
5.解释假设检验中的P值。
解:如果原假设为真,所得到的样本结果会像实际观测结果那么极端或更极端的概率,称为P值。
也称为观察到的显著性水平。
P值是反映实际观测到的数据与原假设H0之间不一致程度的一个概率值。
P值越小,说明实际观测到的数据与H0之间不一致程度就越大。
6.显著性水平与P值有何区别?
解:α(显著性水平)是一个判断的标准(当原假设为真,却被拒绝的概率),而P是实际统计量对应分位点的概率值(当原假设为真时,所得到的样本观察结果或更极端结果出现的概率)。
可以通过α计算置信区间,然后与统计量进行比较判断,也可以通过统计量计算对应的p值,然后与α值比较判断。
7.假设检验依据的基本原理是什么?
解:假设检验利用的是小概率原理,小概率原理是指发生概率很小的随机事件在一次试验中是几乎不可能发生的。
根据这一原理,可以先假设总体参数的某项取值为真,也就是假设其发生的可能性很大,
然后抽取一个样本进行观察,如果样本信息显示出现了与事先假设相反的结果且与原假设差别很大,则说明原来假定的小概率事件在一次实验中发生了,这是一个违背小概率原理的不合理现象,因此有理由怀疑和拒绝原假设;否则不能拒绝原假设。
8. 你认为在单侧检验中原假设和备择假设的方向应该如何确
定?
解: 假设问题有两种情况,一种是所考察的数值越大越好(左单侧检验或下限检验),临界值和拒绝域均在左侧;另一种是数值越小越好(右单侧检验或上限检验),临界值和拒绝域均在右侧。
二、 练习题
1. 已知某炼铁厂的含碳量服从正态分布N (,²),现在测定了9炉铁水,其平均含碳量为。
如果估计方差没有变化,可否认为现在生产的铁水平均含碳量为(α=)?
解: 已知μ0=,σ²=²,N=9,=,
这里采用双侧检验,小样本,σ已知,使用Z 统计。
假定现在生产的铁水平均含碳量与以前无显著差异。
则, H 0 :μ = ; H 1 :μ ≠
α=,α/2 = ,查表得临界值为
计算检验统计量: = = n x Z /
μ0
决策:∵Z 值落入接受域,∴在=的显著性水平上接受H 0。
结论:有证据表明现在生产的铁水平均含碳量与以前没有显著差异,可以认为现在生产的铁水平均含碳量为。
2. 一种元件,要求其使用寿命不得低于700小时。
现从一批这种元件中随机抽取36件,测得其平均寿命为680小时。
已知该元件寿命服从正态分布,σ=60小时,试在显著性水平下确定这批元件是否合格。
解: 已知N=36,σ=60,=680,μ0 =700
这里是大样本,σ已知,左侧检验,采用Z 统计量计算。
提出假设:假定使用寿命平均不低于700小时
H 0:μ≥700
H 1: μ < 700
= ,左检验临界值为负,查得临界值: =
计算检验统计量: = (680-700)/(60/√36) = -2 决策:∵Z 值落入拒绝域,∴在=的显著性水平上拒绝H 0,接受H 1
结论:有证据表明这批灯泡的使用寿命低于700小时,为不合格产品。
3. 某地区小麦的一般生产水平为亩产250公斤,其标准差是30公n x Z /
μ
斤。
现用一种化肥进行试验,从25个小区抽样,平均产量为270公斤。
这种化肥是否使小麦明显增产(α=)?
解:已知μ0 =250,σ = 30,N=25,=270
这里是小样本分布,σ已知,用Z统计量。
右侧检验,α =,则Zα=
提出假设:假定这种化肥没使小麦明显增产。
即H0:μ≤250
H1: μ> 250
计算统计量:
Z = (-μ0)/(σ/√N)= (270-250)/(30/√25)=
结论:Z统计量落入拒绝域,在α =的显著性水平上,拒绝H0,接受H1。
决策:有证据表明,这种化肥可以使小麦明显增产。
4.糖厂用自动打包机打包,每包标准重量是100千克。
每天开工后需要检验一次打包机工作是否正常。
某日开工后测得9包重量(单位:千克)如下:(略)
已知包重服从正态分布,试检验该日打包机工作是否正常。
(α=)
解:已知N=9,这里是小样本正态分布,σ未知,双侧检验,采用t 统计量,自由度为N-1=8。
α =,则Tα/2=
=
≈
提出假设,假设打包机工作正常:
即 H 0:μ= 100
H 1: μ ≠ 100
计算统计量:
= ()/
( √9)≈ 结论:∵t 值落入接受域,∴在=的显著性水平上接受H 0 决策:有证据表明这天的打包机工作正常。
5. 某种大量生产的袋装食品,按规定不得少于250克。
今从一批该食品中任意抽取50袋,发现有6袋低于250克。
若规定不符合标准的比例超过5%就不得出厂,问该批食品能否出厂(=)?
解:已知N=50,P=6/50=,为大样本,右侧检验,用Z 统计量计算。
=,即Z =
H 0:丌≤5%
H 1:丌>5%
= -/√×÷50)≈ (因为没有找到丌表示的公式,这里用P 0表示丌0)
结论:因为Z 值落入拒绝域,所以在=的显著性水平上,拒绝H 0,而接受H 1。
n s x t μ0
0)1,0(~)1(000N n P P P p z --=
决策:有证据表明该批食品合格率不符合标准,不能出厂。
6. 某厂家在广告中声称,该厂生产的汽车轮胎在正常行驶条件下超过目前的平均水平25000公里。
对一个由15个轮胎组成的随机样本做了试验,得到样本均值和标准差分别为27000公里和5000公里。
假定轮胎寿命服从正态分布,问该厂家的广告是否真实(=)? 解:N=15, =27000,s=5000,小样本正态分布,σ未知,用t 统计量计算。
这里是右侧检验,=,自由度N-1=14,即t =
H 0:μ0 ≤25000
H 1:μ >25000
= (27000-25000)/(5000÷√15)≈ 结论:因为t 值落入接受域,所以接受H 0 ,拒绝H 1。
决策:有证据表明,该厂家生产的轮胎在正常行驶条件下使用寿命与目前平均水平25000公里无显著性差异,该厂家广告不真实。
7. 某种电子元件的寿命x (单位:小时)服从正态分布。
现测得16只元件的寿命如下:(略)。
问是否有理由认为元件的平均寿命显著地大于225小时(
=)? 解:= ,
=
由于N=16,小样本正态分布,σ未知,用t 统计量计算。
这里 n s x t μ
是右侧分布,=,自由度N-1=15,即t =
H 0:μ0 ≤225
H 1:μ >225
= ()/(÷√16)≈ 结论:因为t 值落入接受域,所以接受H 0 ,拒绝H 1。
决策:有证据表明,元件平均寿命与225小时无显著性差异,不能认为元件的平均寿命显著地大于225小时。
n s x t μ。