统计学第七章、第八章课后题答案
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
统计学复习笔记之南宫帮珍创作
第七章
第八章参数估计
一、思考题
1.解释估计量和估计值
在参数估计中, 用来估计总体参数的统计量称为估计量.估计量也是随机变量.如样本均值, 样本比例、样本方差等.
根据一个具体的样本计算出来的估计量的数值称为估计值. 2.简述评价估计量好坏的标准
(1)无偏性:是指估计量抽样分布的期望值即是被估计的总体参数.
(2)有效性:是指估计量的方差尽可能小.对同一总体参数的两个无偏估计量, 有更小方差的估计量更有效.
(3)一致性:是指随着样本量的增年夜, 点估计量的值越来越接近被估总体的参数.
3.怎样理解置信区间
在区间估计中, 由样本统计量所构造的总体参数的估计区间称为置信区间.置信区间的论述是由区间和置信度两部份组成.有些新闻媒体报道一些调查结果只给出百分比和误差(即置信区间), 其实不说明置信度, 也不给出被调查的人数, 这是不负责的暗示.因为降低置信度可以使置信区间变窄(显得“精确”),
有误导读者之嫌.在公布调查结果时给出被调查人数是负责任的暗示.这样则可以由此推算出置信度(由后面给出的公式), 反之亦然.
4.解释95%的置信区间的含义是什么
置信区间95%仅仅描述用来构造该区间上下界的统计量(是随机的)覆盖总体参数的概率.也就是说, 无穷次重复抽样所获得的所有区间中有95%(的区间)包括参数.
不要认为由某一样本数据获得总体参数的某一个95%置信区间, 就以为该区间以0.95的概率覆盖总体参数.
5.简述样本量与置信水平、总体方差、估计误差的关系.
1.估计总体均值时样本量n为
其中:
2.样本量n与置信水平1-α、总体方差、估计误差E之间
的关系为
▪与置信水平成正比, 在其他条件不变的情况下, 置信水平越年夜, 所需要的样本量越年夜;
▪与总体方差成正比, 总体的不同越年夜, 所要求的样本量也越年夜;
▪与与总体方差成正比, 样本量与估计误差的平方成反比, 即可以接受的估计误差的平方越年夜, 所需的样
本量越小.
二、练习题
1.从一个标准差为5的总体中采纳重复抽样方法抽出一个样本量为40的样本, 样本均值为25.
1)样本均值的抽样标准差即是几多?
2)在95%的置信水平下, 估计误差是几多?
解: 1)已知σ = 5, n = 40, = 25
∵
∴
2)已知
∵
2.某快餐店想要估计每位顾客午餐的平均花费金额, 在为期3周的时间里选取49名顾客组成了一个简单随机样本.
1)假定总体标准差为15元, 求样本均值的抽样标准误差.
2)在95%的置信水平下, 求估计误差.
3)如果样本均值为120元, 求总体均值µ的95%的置信区间.解:1)已知σ = 15, n = 49
∵
∴
2)已知
∵
3)已知 = 120
∵ 置信区间为±E
3.从一个总体中随机抽取n =100的随机样本, 获得 =104560, 假定总体标准差σ = 85414, 试构建总体均值µ的95%的置信区间.
解:已知n =100, =104560, σ = 85414, 1-a=95% ,
由于是正态总体, 且总体标准差已知.总体均值m在1-a置信水平下的置信区间为
104560 ± 1.96×85414÷√100
4.从总体中抽取一个n =100的简单随机样本, 获得 =81, s=12.要求:
1)构建µ的90%的置信区间.
2)构建µ的95%的置信区间.
3)构建µ的99%的置信区间.
解:由于是正态总体, 但总体标准差未知.总体均值m在1-a置信水平下的置信区间公式为
81±×12÷√100 = 81±×
????
????
4)= 25, σ = 3.5, n =60, 置信水平为95%
5)=119, s =23.89, n =75, 置信水平为98%
6)=3.149, s =0.974, n =32, 置信水平为90%
解:∵
∴ 1) 1-a=95% ,
其置信区间为:25±1.96×3.5÷√60
2) 1-a=98% , 则a=0.02, a/2=0.01, 1-a/2=0.99,查标准正态分布表,可知:
其置信区间为: 119±2.33×23.89÷√75
3) 1-a=90%,
其置信区间为:3.149±1.65×0.974÷√32
5.利用下面的信息, 构建总体均值µ的置信区间:
1)总体服从正态分布, 且已知σ = 500, n = 15, =8900, 置信水平为95%.
解:N=15, 为小样本正态分布, 但σ已知.则1-a=95%, .其置信区间公式为
∴置信区间为:8900±1.96×500÷√15=(8646.7 , 9153.2)2)总体不服从正态分布, 且已知σ = 500, n = 35, =8900,
置信水平为95%.
解:为年夜样本总体非正态分布, 但σ已知.则1-a=95%, .其置信区间公式为
∴置信区间为:8900±1.96×500÷√35=(8733.9 9066.1)
3)总体不服从正态分布, σ未知, n = 35, =8900, s =500, 置信水平为90%.
解:为年夜样本总体非正态分布, 且σ未知, 1-a=90%,
1.65.
其置信区间为:8900±1.65×500÷√35=(8761 9039)
4)总体不服从正态分布, σ未知, n = 35, =8900, s =500, 置信水平为99%.
解:为年夜样本总体非正态分布, 且σ未知, 1-a=99%,
2.58.
其置信区间为:8900±2.58×500÷√35=(8681.9 9118.1)
6.某年夜学为了解学生每天上网的时间, 在全校7500名学生中采用重复抽样方法随机抽取36人, 调查他们每天上网的时间, 获得下面的数据(单元:小时)(略).求该校年夜学生平均上网时间的置信区间, 置信水平分别为90%
解:先求样本均值:= 3.32
再求样本标准差:
置信区间公式:
7.从一个正态总体中随机抽取样本量为8的样本, 各样本值分别为:10, 8, 12, 15, 6, 13, 5, 11.求总体均值µ的95%置信区间.
解:本题为一个小样本正态分布, σ未知.
先求样本均值:= 80÷8=10
再求样本标准差:
于是 , 的置信水平为的置信区间是
,
已知, n = 8, 则,α/2=0.025, 查自由度
为n-1 = 7的分布表得临界值
所以, 置信区间为:10±2.45×3.4641÷√7
8.某居民小区为研究职工上班从家里到单元的距离, 抽取了由16个人组成的一个随机样本, 他们到单元的距离分别是:10, 3,
14, 8, 6, 9, 12, 11, 7, 5, 10, 15, 9, 16, 13, 2.假设总体服从正态分布, 求职工上班从家里到单元平均距离的95%的置信区间.
解:小样本正态分布, σ未知.已知, n = 16, , 则, α/2=0.025, 查自由度为n-1 = 15的分布表得临界值
样本均值
再求样本标准差:
于是 , 的置信水平为的置信区间是
?? ??????????????????±??×??÷√??
9.从一批零件是随机抽取????个, 测得其平均长度是??????, 标准差是????.
1)求确定该种零件平均长度的????August的置信区间.
2)在上面估计中, 你使用了统计中的哪一个重要定理?请解
释.
解:)??这是一个年夜样天职布.已知N??????, ??????????????, S????????, α?? ????, .
其置信区间为:149.5±1.96×1.93÷√36 2)中心极限定理论证:如果总体变量存在有限的平均数和方差, 那么, 不论这个总体的分布如何, 随着样本容量的增加, 样本均值的分布便趋近正态分布.在现实生活中, 一个随机变量服从正态分布未必很多, 可是多个随机变量和的分布趋于正态分布则是普遍存在的.样本均值也是一种随机变量和的分布, 因此在样本容量充沛年夜的条件下, 样本均值也趋近于正态分布, 这为抽样误差的概率估计理论提供了理论基础.
10.某企业生产的袋装食品采纳自动打包机包装, 每袋标准重量为100克, 现从某天生产的一批产物中按重复抽样随机抽取50包进行检查, 测得每包重量如下:(略)
已知食品包重服从正态分布, 要求:
1)确定该种食品平均重量的95%的置信区间.
2)如果规定食品重量低于100克属于分歧格, 确定该批食品合格率的95%的置信区间.
解:1)本题为一个年夜样本正态分布, σ未知.已知N=50, µ=100, 1-α=0.95, .
① 每组组中值分别为97、99、101、103、105, 即此50包样本平均值= (97+99+101+103+105)/5 = 101
② 样本标准差为:
③其置信区间为:101±1.96×1.666÷√50
2)∵ 分歧格包数(<100克)为2+3=5包, 5/50 = 10%(分歧格率), 即P = 90%.
∴ 该批食品合格率的95%置信区间为:
11.假设总体服从正态分布, 利用下面的数据构建总体均值μ的99%的置信区间.(略)
解:样本均值
样本标准差:
尽管总体服从正态分布, 可是样本n=25是小样本, 且总体标准差未知, 应该用T统计量估计.1-α=0.99, 则α=0.01, α/2=0.005, 查自由度为n-1 =24的分布表得临界值
的置信水平为的置信区间是,
12.一家研究机构想估计在网络公司工作的员工每周加班的平均时间, 为此随机抽取了18个员工, 获得他们每周加班的时间数据如下(单元:小时):(略)
假定员工每周加班的时间服从正态分布, 估计网络公司员工平均每周加班时间的90%的置信区间.
解:① N = 18 < 30, 为小样本正态分布, σ未知.
②样本均值
样本标准差:=
③ 1-α= 90%, α= 0.1, α/2= 0.05, 则查自由度为n-1 = 17的分布表得临界值
④的置信水平为的置信区间是,
13.利用下面的样本数据构建总体比例丌的置信区间:
1)n =44, p = 0.51 , 置信水平为99%
2)n =300, p = 0.82 , 置信水平为95%
3)n =1150, p = 0.48, 置信水平为90%
解: 1) 1-α= 99%, α= 0.01, α/2= 0.005, 1-α/2= 0.995, 查标准正态分布表, 则
2)1-a=95%,
3)1-a=90%,
分别代入
14.在一项家电市场调查中, 随机抽取了200个居民户, 调查他们是否拥有某一品牌的电视机, 其中拥有该品牌电视机的家庭占23%.求总体比例的置信区间, 置信水平分别为90%和95%.
解: 1)置信水平90%, 1-a=90%, 1.65, N = 200, P = 23%.
代入
2)置信水平95%, 1-a=95%, , N = 200, P = 23%.
代入
15.一位银行的管理人员想估计每位顾客在该银行的月平均存款额.他假设所有顾客月存款额的标准差为1000元, 要求的估计误差在200元以内, 置信水平为99%.应选取多年夜的样本?
解:已知 1-α = 99%, 则 2.58.E = 200, σ= 1000元.
则N = (²×σ²)÷E²= (2.58²×1000²)÷200²≈167
(得数应该是166.41, 不论小数后是几多, 都向上进位取整, 因此至少是167人)
16.要估计总体比例丌, 计算下列条件下所需的样本量.
1)E=0.02, 丌=0.40, 置信水平96%
2)E=0.04, 丌未知, 置信水平95%
3)E=0.05, 丌=0.55, 置信水平90%
解: 1)已知 1-α = 96%, α/2 =0.02 , 则
N = {²×丌(1-丌)}÷E²=2.06²×0.4×0.6÷0.02²≈2547
2)已知 1-α = 95%, α/2 =0.025 , 则
丌未知,则取使丌(1-丌)最年夜时的0.5.
N = {²×丌(1-丌)}÷E²=1.96²×0.5×0.5÷0.04²≈601 3)置信水平90%, 1-a=90%, 1.65,
N = {²×丌(1-丌)}÷E²=1.65²×0.55×0.45÷0.05²≈270
17.某居民小区共有居民500户, 小区管理者准备采纳一项新的供水设施, 想了解居民是否赞成.采用重复抽样方法随机抽取了50户, 其中有32户赞同, 18户反对.
1)求总体中赞成该项改革的户数比例的置信区间(α=0.05)
2)如果小区管理者预计赞成的比例能到达80%, 估计误差不超越10%, 应抽取几多户进行调查(α=0.05)解:1)
已知N=50, P=32/50=0.64, α=0.05, α/2 =0.025 , 则置信区间:P±
2)已知丌=0.8 , E = 0.1, α=0.05, α/2 =0.025 , 则
N= ²丌(1-丌)/E²= 1.96²×0.8×0.2÷0.1²≈62
18.根据下面的样本结果, 计算总体标准差σ的90%的置信区间:
1)=21, S=2, N=50
2)=1.3, S=0.02, N=15
3)=167, S=31, N=22
解:1)年夜样本, σ未知, 置信水平90%, 1-a=90%,
21±1.65×2÷√50
2)小样本, σ未知, 置信水平90%, 1-a=90%, 则查自由度为n-1 = 14的分布表得临界值
, = 1.3±1.761×0.02÷√15
3) 年夜样本, σ未知, 置信水平90%, 1-a=90%,
167±1.65×31÷√22
19.题目(略)
1)构建第一种排队方式等候时间标准差的95%的置信区间
2)构建第二种排队方式等候时间标准差的95%的置信区间
3)根据1)和2)的结果, 你认为哪种排队方式更好?
解:本题为小样本正态分布, σ未知, 应用公式
,
置信水平95%, 1-a=95%, 则查自由度为n-1 = 9的分布
表得临界值
1)= 7.15,
其置信区间为7.15±2.31×0.48÷√10
2)
= √0/9 = 0
其置信区间为7.15±0
4)第二种排队方式更好.
(19题是对总体方差的估计, 应该用卡方统计量进行估计, 20题是对两个总体参数的估计, 这二种类型老师未讲, 不是本次考试的内容, 不能用Z统计量像估计总体均值和比例那样去估计, 具体内容见书上P188――P194)
第九章假设检验
一、思考题
1.假设检验和参数估计有什么相同点和分歧点?
解:参数估计与假设检验是统计推断的两个组成部份.
相同点:它们都是利用样本对总体进行某种推断.
分歧点:推断的角度分歧.参数估计讨论的是用样本统计量估计总体参数的方法, 总体参数μ在估计前是未知的.而在假设检验中, 则是先对μ的值提出一个假设, 然后利用样本信息去检验
这个假设是否成立.
2.什么是假设检验中的显著性水平?统计显著是什么意思?解:显著性水平用α暗示, 在假设检验中, 它的含义是当原假设正确时却被拒绝的概率或风险, 即假设检验中犯弃真毛病的概率.它是由人们根据检验的要求确定的.
(我理解的统计学意义, 统计显著是统计上专用的判定标准, 指在一定的概率原则下, 可以供认一种趋势或者合理性到达的水平, 到达为统计上水平显著, 达不到为统计上水平不显著)
3.什么是假设检验中的两类毛病?
解:弃真毛病(α毛病):当原假设为真时拒绝原假设, 所犯的毛病成为第I类毛病, 又称为弃真毛病.犯第I类毛病的概率常记作α.
取伪毛病(β毛病):当原假设为假时没有拒绝原假设, 所犯的毛病称为第II类毛病, 又称取伪毛病.犯第II类毛病概率常记作β.
发生第I类毛病的概率也常被用于检验结论的可靠性怀抱.假设检验中犯第I类毛病的概率被称为显著性水平, 记作α.
4.两类毛病之间存在什么样的数量关系?
在样本容量n一定的情况下, 假设检验不能同时做到犯α和β两类毛病的概率都很小.若减小α毛病, 就会增年夜犯β毛病的机会;若减小β毛病, 也会增年夜犯α毛病的机会.要使α和β同时变小只有增年夜样本容量.但样本容量增加要受人
力、经费、时间等很多因素的限制, 无限制增加样本容量就会使抽样调查失去意义.因此假设检验需要慎重考虑对两类毛病进行控制的问题.
5.解释假设检验中的P值.
解:如果原假设为真, 所获得的样本结果会像实际观测结果那么
极端或更极真个概率, 称为P值.也称为观察到的显著性水平.
P值是反映实际观测到的数据与原假设H0之间纷歧致水平的一个概率值.P值越小, 说明实际观测到的数据与H0之间纷歧致
水平就越年夜.
6.显著性水平与P值有何区别?
解:α(显著性水平)是一个判断的标准(当原假设为真, 却被拒绝的概率), 而P是实际统计量对应分位点的概率值(当原假设为真时, 所获得的样本观察结果或更极端结果呈现的概率).
可以通过α计算置信区间, 然后与统计量进行比力判断, 也可以通过统计量计算对应的p值, 然后与α值比力判断.
7.假设检验依据的基来源根基理是什么?
解:假设检验利用的是小概率原理, 小概率原理是指发生概率很小的随机事件在一次试验中是几乎不成能发生的.根据这一原理, 可以先假设总体参数的某项取值为真, 也就是假设其发生的可能性很年夜, 然后抽取一个样本进行观察, 如果样本信息显示呈现了与事先假设相反的结果且与原假设分歧很年夜, 则说明原来假定的小概率事件在一次实验中发生了, 这是一个违背小概率原理
的分歧理现象, 因此有理由怀疑和拒绝原假设;否则不能拒绝原假设.
8. 你认为在单侧检验中原假设和备择假设的方向应该如何确
定?
解: 假设问题有两种情况, 一种是所考察的数值越年夜越好(左单侧检验或下限检验), 临界值和拒绝域均在左侧;另一种是数值越小越好(右单侧检验或上限检验), 临界值和拒绝域均在右侧.
二、 练习题
1. 已知某炼铁厂的含碳量服从正态分布N (4.55, 0.108²), 现在测定了9炉铁水, 其平均含碳量为4.484.如果估计方差没有变动, 可否认为现在生产的铁水平均含碳量为4.55(α=0.05)? 解: 已知μ0=4.55, σ²=0.108², N=9, =4.484,
这里采纳双侧检验, 小样本, σ已知, 使用Z 统计.
假定现在生产的铁水平均含碳量与以前无显著不同.则, α=0.05, α/2 =0.025 , 查表得临界值为
计算检验统计量: = (4.484-4.55)/(0.108/√9) 决策:∵Z 值落入接受域, ∴在
=0.05的显著性水平上接
受H0. n
x Z / σ - =
μ0
结论:有证据标明现在生产的铁水平均含碳量与以前没有显著不同, 可以认为现在生产的铁水平均含碳量为4.55.
2. 一种元件, 要求其使用寿命不得低于700小时.现从一批这种元件中随机抽取36件, 测得其平均寿命为680小时.已知该元件寿命服从正态分布, σ=60小时, 试在显著性水平0.05下确定这批元件是否合格.
解: 已知N=36, σ=60, =680, μ0=700
这里是年夜样本, σ已知, 左侧检验, 采纳Z 统计量计算. 提出假设:假定使用寿命平均不低于700小时
H0:μ≥700
H1: μ < 700
= 0.05, 左检验临界值为负, 查得临界值: -Z0.05=-
1.645
计算检验统计量: = (680-700)/(60/√36) = -2
决策:∵Z 值落入拒绝域, ∴在
=0.05的显著性水平上拒绝H0, 接受H1
结论:有证据标明这批灯胆的使用寿命低于700小时, 为分歧格产物.
3. 某地域小麦的一般生产水平为亩产250公斤, 其标准差是30公斤.现用一种化肥进行试验, 从25个小区抽样, 平均产量为
n x Z / σ - = μ0
270公斤.这种化肥是否使小麦明显增产(α=0.05)?
解:已知μ0 =250, σ = 30, N=25, =270
提出假设:假定这种化肥没使小麦明显增产.
即 H0:μ≤250
H1: μ>250
计算统计量:
Z = (
结论:Z统计量落入拒绝域, 在α =0.05的显著性水平上, 拒绝H0, 接受H1.
决策:有证据标明, 这种化肥可以使小麦明显增产.
4.糖厂用自动打包机打包, 每包标准重量是100千克.每天开工后需要检验一次打包机工作是否正常.某日开工后测得9包重量(单元:千克)如下:(略)
已知包重服从正态分布, 试检验该日打包机工作是否正常.(α =0.05)
= 99.98
提出假设, 假设打包机工作正常:
即 H0:μ= 100
H1: μ≠100
计算统计量:
决策:有证据标明这天的打包机工作正常.
5. 某种年夜量生产的袋装食品, 按规定不得少于250克.今从一批该食品中任意抽取50袋, 发现有6袋低于250克.若规定不符合标准的比例超越5%就不得出厂, 问该批食品能否出厂(=0.05)?
H0:丌≤5%
H1:丌>5%
(因为没有找到丌暗示的公式, 这里用P0暗示丌0)
结论:因为Z 值落入拒绝域, 所以在
=0.05的显著性水平上, 拒绝H0, 而接受H1.
决策:有证据标明该批食品合格率不符合标准, 不能出厂. 6. 某厂家在广告中声称, 该厂生产的汽车轮胎在正常行驶条件下超越目前的平均水平25000公里.对一个由15个轮胎组成的随机样本做了试验, 获得样本均值和标准差分别为27000公里和5000公里.假定轮胎寿命服从正态分布, 问该厂家的广告是否真
- = n
s x t μ0
实(=0.05)?
解:N=15,
H0:μ0 ≤25000
H1:μ >25000
结论:因为t 值落入接受域, 所以接受H0, 拒绝H1.
决策:有证据标明, 该厂家生产的轮胎在正常行驶条件下使用寿命与目前平均水平25000公里无显著性不同, 该厂家广告不真实. 7. 某种电子元件的寿命x (单元:小时)服从正态分布.现测得16只元件的寿命如下:(略).问是否有理由认为元件的平均寿命显著地年夜于225小时(=0.05)? 解:= 241.5,
H :μ??> ??
创作时间:二零二一年六月三十日 - = n
s x t - = n
s x t
μ0 μ0。