第2章统计数据的描述
![第2章统计数据的描述](https://img.360docs.net/img00/11rxl2qjkcq4hu60ywbcluxo2t2oddv-01.webp)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第2章统计数据的描述——练习题
●1.为评价家电行业售后服务的质量,随机抽取了由100家庭构成的一个样本。服务质量的等级分别表示为:A.好;B.较好;C.一般;D.差;E.较差。调查结果如下:
B E
C C A
D C B A E
D A C B C D
E C E E
A D
B
C C A E
D C B
B A
C
D
E A B D D C
C B C E
D B C C B C
D A C B C D
E C E B
B E
C C A
D C B A E
B A
C
D
E A B D D C
A D
B
C C A E
D C B
C B C E
D B C C B C
(1) 指出上面的数据属于什么类型;
(2)用Excel制作一张频数分布表;
(3) 绘制一张条形图,反映评价等级的分布。
解:(1)由于表中的数据为服务质量的等级,可以进行优劣等级比较,但不能计算差异大小,属于顺序数据。
(2)频数分布表如下:
服务质量等级评价的频数分布
服务质量等级家庭数(频数)频率%
A1414
B2121
C3232
D1818
E1515
合计100100
(3)条形图的制作:将上表(包含总标题,去掉合计栏)复制到Excel表中,点击:图表向导→条形图→选择子图表类型→完成(见Excel练习题。即得到如下的条形图:
700716728719685709691684705718
706715712722691708690692707701
708729694681695685706661735665
668710693697674658698666696698
706692691747699682698700710722
694690736689696651673749708727
688689683685702741698713676702
701671718707683717733712683692
693697664681721720677679695691
713699725726704729703696717688
(1)利用计算机对上面的数据进行排序;
(2)以组距为10进行等距分组,整理成频数分布表,并绘制直方图;
(3)绘制茎叶图,并与直方图作比较。
解:(1)排序:将全部数据复制到Excel中,并移动到同一列,点击:数据→排序→确定,即完成数据排序的工作。(见Excel练习题(2)按题目要求,利用已排序的Excel表数据进行分组及统计,得到频数分布表如下:
(见Excel练习题
100只灯泡使用寿命非频数分布
按使用寿命分组(小时)灯泡个数(只)频率(%)
650~66022
660~67055
670~68066
680~6901414
690~7002626
700~7101818
710~7201313
720~7301010
730~74033
740~75033
合计100100
制作直方图:将上表(包含总标题,去掉合计栏)复制到Excel表中,选择全表后,点击:图表向导→柱形图→选择子图表类型→完成。即得到如下的直方图:
(见Excel练习题
(3)制作茎叶图:以十位以上数作为茎,填入表格的首列,将百、十位数相同的数据的个位数按由小到大的顺序填入相应行中,即成为叶,得到茎叶图如下:
第5章 参数估计
●1.某快餐店想要估计每位顾客午餐的平均花费金额,在为期3周的时间里选取49名顾客组成了一个简单随机样本。
(1) 假定总体标准差为15元,求样本均值的抽样标准误差; (2) 在95%的置信水平下,求允许误差;
(3) 如果样本均值为120元,求总体均值95%的置信区间。 解:(1)已假定总体标准差为σ=15元, 则样本均值的抽样标准误差为
x σσ15=
(2)已知置信水平1-α=95%,得 α/2Z =,
于是,允许误差是E =
α/2
σ
Z =×=。 (3)已知样本均值为x =120元,置信水平1-α=95%,得 α/2Z =, 这时总体均值的置信区间为
±α/2
x Z ±=124.2115.8
(1)假定总体标准差为15元,求样本均值的抽样标准误差。
x σ=
=
= (2)在95%的置信水平下,求边际误差。
x x t σ?=?,由于是大样本抽样,因此样本均值服从正态分布,因此概率度t=2z α
因此,x x t σ?=?2x z ασ=?0.025x z σ=?=×=
(3)如果样本均值为120元,求总体均值 的95%的置信区间。 置信区间为:
(),x x x x -?+?=()120 4.2,120 4.2-+=(,)
可知,如果样本均值为120元,总体均值95%的置信区间为(,)元。
利用下面的信息,构建总体均值μ的置信区间:
1) 总体服从正态分布,且已知σ = 500,n = 15, =8900,置信水平为95%。
解: N=15,为小样本正态分布,但σ已知。则1-=95%,
。其置信区间公式为
∴置信区间为:8900±×500÷√15=( , )
2) 总体不服从正态分布,且已知σ = 500,n = 35, =8900,置信水平为95%。
解:为大样本总体非正态分布,但σ已知。则1-=95%,
。其置信区间公式为
∴置信区间为:8900±×500÷√35=( )
3) 总体不服从正态分布,σ未知,n = 35, =8900,s =500,置信水平为90%。
解:为大样本总体非正态分布,且σ未知,1-=90%,。
2α()
28.109,44.10192.336.10525
10
96.136.1052=±=?±=±n
z x σ
αx x 2α()
28.109,44.10192.336.10525
10
96.136.1052=±=?±=±n
z x σ
αx
其置信区间为:8900±×500÷√35=(8761 9039)
x
4)总体不服从正态分布,σ未知,n = 35,=8900,s =500,置信水平为99%。
解:为大样本总体非正态分布,且σ未知,1-=99%,。
其置信区间为:8900±×500÷√35=()
●3.某大学为了解学生每天上网的时间,在全校7500名学生中采取不重复抽样方法随机抽取36人,调查他们每天上网的时间,得到下面的数据(单位:小时):
求该校大学生平均上网时间的置信区间,置信水平分别为90%、95%和99%。
解:⑴计算样本均值x:将上表数据复制到Excel表中,并整理成一列,点击最后数据下面空格,选择自动求平均值,回车,得到x=,
⑵计算样本方差s:删除Excel表中的平均值,点击自动求值→其它函数→STDEV→选定计算数据列→确定→确定,得到s=
也可以利用Excel进行列表计算:选定整理成一列的第一行数据的邻列的单元格,输入“=^2”,回车,即得到各数据的离差平方,在最下行求总和,得到:
∑2
i (x -x )=
再对总和除以n-1=35后,求平方根,即为样本方差的值
s=
。 ⑶计算样本均值的抽样标准误差: 已知样本容量 n =36,为大样本, 得样本均值的抽样标准误差为 x σ
s
1.6093
⑷分别按三个置信水平计算总体均值的置信区间:
① 置信水平为90%时:
由双侧正态分布的置信水平1-α=90%,通过2β-1=换算为单侧正态分布的置信水平β=,查单侧正态分布表得 α/2Z =,
计算得此时总体均值的置信区间为
±α/2
s
x Z ±×= 3.75652.8769
可知,当置信水平为90%时,该校大学生平均上网时间的置信区间为(,)小时;
② 置信水平为95%时:
由双侧正态分布的置信水平1-α=95%,得 α/2Z =,
计算得此时总体均值的置信区间为
±α/2
s
x Z ±×= 3.84232.7910
可知,当置信水平为95%时,该校大学生平均上网时间的置信区间为(,)小时;
③ 置信水平为99%时:
若双侧正态分布的置信水平1-α=99%,通过2β-1=换算为单侧正态分布的置信水平β=,查单侧正态分布表得 α/2Z =,
计算得此时总体均值的置信区间为
±α/2
s
x Z ±×= 4.00872.6247
可知,当置信水平为99%时,该校大学生平均上网时间的置信区间为(,)小时。
●4.某居民小区共有居民500户,小区管理者准备采取一项新的供水设施,想了解居民是否赞成。采取重复抽样方法随机抽取了50户,其中有32户赞成,18户反对。
(1)求总体中赞成该项改革的户数比率的置信区间,置信水平为95%; (2)如果小区管理者预计赞成的比率能达到80%,应抽取多少户进行调查 解: 已知总体单位数N =500,重复抽样,样本容量n =50,为大样本,
样本中,赞成的人数为n 1=32,得到赞成的比率为 p =
n 1n =3250
=64%
(1)赞成比率的抽样标准误差为
=%
由双侧正态分布的置信水平1-α=95%,得 α/2Z =,
计算得此时总体户数中赞成该项改革的户数比率的置信区间为
p ±αZ ±×%=77.304%50.696%
可知,置信水平为95%时,总体中赞成该项改革的户数比率的置信区间为(%,%)。
(2)如预计赞成的比率能达到80%,即 p =80%,
由
得样本容量为 n =
2
0.80.2
(6.788%)?= 取整为35,
即可得,如果小区管理者预计赞成的比率能达到80%,应抽取35户进行调查。
5.顾客到银行办理业务时往往需要等待一段时间,而等待时间的长短与许多因素有关,比如,银行业务员办理业务的速度,顾客等待排队的方式等。为此,某银行准备采取两种排队方式进行试验,第一种排队方式是:所有顾客都进入一个等待队列;第二种排队方式是:顾客在三个业务窗口处列队等待。为
(1) 构建第一种排队方式等待时间标准差的95%的置信区间 (2) 构建第二种排队方式等待时间标准差的95%的知心区间 (3) 根据(1)和(2)的结果,你认为哪种排队方式更好 卷面解答过程: 解:已知n=10
(1) 根据抽样结果计算得
x =
s=
又∵α=,由单方差得总体标准差σ的95%的置信区间为, ;
(2) 根据抽样结果计算得
x =
s=
又∵α=,由单方差得总体标准差σ的95%的置信区间为, 。
(3) 根据上面两道题目的答案可知,第一种排队方式所需等待的时间较为稳定,更为可取。 MINITAB 操作步骤:
(1) 输入数据→统计→基本统计量→单样本t →选择数据→选项:95%
MINITAB 显示: 单样本 T: C1
平均值
变量 N 平均值 标准差 标准误 95% 置信区间 C1 10 ,
(2) 同上
6.从两个正态总体中分别抽取两个独立的随机样本,它们的均值和标准差如下表:
来自总体1的样本 来自总体2的样本
141=n 72=n 2.531=x
4.432=x
8.9621=s
0.1022
2=s
(1) 求21μμ-90%的置信区间;
(2) 求21μμ-95%的置信区间。 解:(,);(,)。
7.一家人才测评机构对随机抽取的10名小企业的经理人采用两种方法进行自信心测试,得到的自信心测试分数如下:
试构建两种分方法自信心平均得分之差95%的置信区间。
解:11)
(x d 21i
=-=
∑n
x i
68.61
)(S 2
d =--=n d d i
因此,均值之差的的置信区间为:
n
s d ?
±)9(t d 0.025
即:9
68.62.262211?
±
8.从两个总体中各抽取一个25021==n n 的独立随机样本,来自总体1的样本比率为%401=p ,来自总体2的样本比率为%302=p 。
(1)构造21ππ-90%的置信区间; (2)构造21ππ-95%的置信区间。 解:(1)10%±%;(2)10%±%。
7.25 从两个总体中各抽取一个12n n ==250的独立随机样本,来自总体1的样本比例为1p =40%,来自总体2的样本比例为2p =30%。要求:
(1)构造12ππ-的90%的置信区间。 (2)构造12ππ-的95%的置信区间。 解:总体比率差的估计
大样本,总体方差未知,用z 统计量
p p z ππ---=
()0,1N :
样本比率p1=,p2= 置信区间:
122122p p z p p z αα? ---+ ? 1α-=,2z α=0.025z =
122122p p z p p z αα? ---+ ?
=
0.1 1.645 1.645? -+ ? =(%,%)
1α-=,2z α=0.025z =
122122p p z p p z αα? ---+ ?
=
0.1 1.96 1.96? -+ ? =(%,%)
g )的数据如下:
1 机器2
。构造两个总体方差比2
221σσ的95%的置信区间。
答案:已知, 1x =,21s =,2x =,2
2s =, 根据自由度n 1 =21-1=20和n 2=21-1=20,当置信区间为95%时,查F 分布表得:F
/2(20)= (20)=,根据
公式)
,(1
),(1222121n n F n n F αα=
-得,F 1-
/2(20)=1/=。
再根据公式212
22122
2122221αασσ-≤≤F s s F s s 得:,即两部机器生产的袋茶重量的总体方差比2
221σσ的95%的置信区间为(,)。
●10.某超市想要估计每个顾客平均每次购物花费的金额。根据过去的经验,标准差大约为120元,现要求以95%的置信水平估计每个购物金额的置信区间,并要求允许误差不超过20元,应抽取多少个顾客作为样本
解:已知总体标准差x σ=120,由置信水平1-α=95%,得置信度α/2Z =,允许误差E ≤ 20
即由允许误差公式 E=/2
Z n
x ασ整理得到样本容量n 的计算公式:
n=2(
)E
α/2x
Z σ≥2
(
)20
?1.96120= 由于计算结果大于47,故为保证使“≥”成立,至少应取139个顾客作为样本。 解:2222x
z n ασ
?=
?,1α-=,z α=0.025z =,
2222x
z n ασ
?=
?22
2
1.9612020
?==,取n=139或者140,或者150。
11.假定两个总体的标准差分别为:121=σ,152=σ,若要求误差范围不超过5,相应的置信水平为95%,假定21n n =,估计两个总体均值之差21μμ-时所需的样本容量为多大 解: 57。 n1=n2=()
12
2222122
x x z n ασσ-?+=
?
,1α-=,z α=0.025z =,
n1=n2=()
12
2222122x x z n ασσ-?+=?=
()
2222
1.9612155?+=,取n=57
12.假定21n n =,允许误差05.0=E ,相应的置信水平为95%,估计两个总体比率之差21ππ-时所需的样本容量为多大 解:n1=n2=()()12
2211222
11p p z p p p p n α-?-+-????
=
?
,1α-=,z α=0.025z =,取p1=p2=,
n1=n2=()()12
2211222
11p p z p p p p n α-?-+-????
=?
=
()
2222
1.960.50.50.05
?+=,取n=769,或者780或800。
解: 769。
第六章 假设检验
1.依题意提出的假设 Ho :μ≤,H1:μ> 检验统计量Ζ=
Ζ= p 值==
p<α,拒绝原假设
所以,这个调查能证明“如今每个家庭每天收看电视的平均时间增加了”。
一项包括了200个家庭的调查显示,每个家庭每天看电视的平均时间为小时,标准差为小时。据报道,10年前每天每个家庭看电视的平均时间是小时。取显著性水平,这个调查能否证明“如今每个家庭每天收看电视的平均时间增加了”?
详细答案:
,=,,拒绝,如今每个家庭每天收看电视的平均时间显著地增加了。
为监测空气质量,某城市环保部门每隔几周对空气烟尘质量进行一次随机测试。已知该城市过去每立方米空气中悬浮颗粒的平均值是82微克。在最近一段时间的检测中,每立方米空气中悬浮颗粒的数值如下(单位:微克):
根据最近的测量数据,当显著性水平时,能否认为该城市空气中悬浮颗粒的平均值显著低于过去的平均值
详细答案:
,=,,拒绝,该城市空气中悬浮颗粒的平均值显著低于过去的平均值。
安装在一种联合收割机的金属板的平均重量为25公斤。对某企业生产的20块金属板进行测量,得到的重量数据如下:
假设金属板的重量服从正态分布,在显著性水平下,检验该企业生产的金属板是否符合要求?
详细答案:
,,,不拒绝,没有证据表明该企业生产的金属板不符合要求。
在对消费者的一项调查表明,17%的人早餐饮料是牛奶。某城市的牛奶生产商认为,该城市的人早餐饮用牛奶的比例更高。为验证这一说法,生产商随机抽取550人的一个随机样本,其中115人早餐饮用牛奶。在显著性水平下,检验该生产商的说法是否属实详细答案:
,,,拒绝,该生产商的说法属实。
某生产线是按照两种操作平均装配时间之差为5分钟而设计的,两种装配操作的独立样本产生如下结果: