第2章统计数据的描述

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第2章统计数据的描述——练习题

●1.为评价家电行业售后服务的质量,随机抽取了由100家庭构成的一个样本。服务质量的等级分别表示为:A.好;B.较好;C.一般;D.差;E.较差。调查结果如下:

B E

C C A

D C B A E

D A C B C D

E C E E

A D

B

C C A E

D C B

B A

C

D

E A B D D C

C B C E

D B C C B C

D A C B C D

E C E B

B E

C C A

D C B A E

B A

C

D

E A B D D C

A D

B

C C A E

D C B

C B C E

D B C C B C

(1) 指出上面的数据属于什么类型;

(2)用Excel制作一张频数分布表;

(3) 绘制一张条形图,反映评价等级的分布。

解:(1)由于表中的数据为服务质量的等级,可以进行优劣等级比较,但不能计算差异大小,属于顺序数据。

(2)频数分布表如下:

服务质量等级评价的频数分布

服务质量等级家庭数(频数)频率%

A1414

B2121

C3232

D1818

E1515

合计100100

(3)条形图的制作:将上表(包含总标题,去掉合计栏)复制到Excel表中,点击:图表向导→条形图→选择子图表类型→完成(见Excel练习题。即得到如下的条形图:

700716728719685709691684705718

706715712722691708690692707701

708729694681695685706661735665

668710693697674658698666696698

706692691747699682698700710722

694690736689696651673749708727

688689683685702741698713676702

701671718707683717733712683692

693697664681721720677679695691

713699725726704729703696717688

(1)利用计算机对上面的数据进行排序;

(2)以组距为10进行等距分组,整理成频数分布表,并绘制直方图;

(3)绘制茎叶图,并与直方图作比较。

解:(1)排序:将全部数据复制到Excel中,并移动到同一列,点击:数据→排序→确定,即完成数据排序的工作。(见Excel练习题(2)按题目要求,利用已排序的Excel表数据进行分组及统计,得到频数分布表如下:

(见Excel练习题

100只灯泡使用寿命非频数分布

按使用寿命分组(小时)灯泡个数(只)频率(%)

650~66022

660~67055

670~68066

680~6901414

690~7002626

700~7101818

710~7201313

720~7301010

730~74033

740~75033

合计100100

制作直方图:将上表(包含总标题,去掉合计栏)复制到Excel表中,选择全表后,点击:图表向导→柱形图→选择子图表类型→完成。即得到如下的直方图:

(见Excel练习题

(3)制作茎叶图:以十位以上数作为茎,填入表格的首列,将百、十位数相同的数据的个位数按由小到大的顺序填入相应行中,即成为叶,得到茎叶图如下:

第5章 参数估计

●1.某快餐店想要估计每位顾客午餐的平均花费金额,在为期3周的时间里选取49名顾客组成了一个简单随机样本。

(1) 假定总体标准差为15元,求样本均值的抽样标准误差; (2) 在95%的置信水平下,求允许误差;

(3) 如果样本均值为120元,求总体均值95%的置信区间。 解:(1)已假定总体标准差为σ=15元, 则样本均值的抽样标准误差为

x σσ15=

(2)已知置信水平1-α=95%,得 α/2Z =,

于是,允许误差是E =

α/2

σ

Z =×=。 (3)已知样本均值为x =120元,置信水平1-α=95%,得 α/2Z =, 这时总体均值的置信区间为

±α/2

x Z ±=124.2115.8

(1)假定总体标准差为15元,求样本均值的抽样标准误差。

x σ=

=

= (2)在95%的置信水平下,求边际误差。

x x t σ?=?,由于是大样本抽样,因此样本均值服从正态分布,因此概率度t=2z α

因此,x x t σ?=?2x z ασ=?0.025x z σ=?=×=

(3)如果样本均值为120元,求总体均值 的95%的置信区间。 置信区间为:

(),x x x x -?+?=()120 4.2,120 4.2-+=(,)

可知,如果样本均值为120元,总体均值95%的置信区间为(,)元。

利用下面的信息,构建总体均值μ的置信区间:

1) 总体服从正态分布,且已知σ = 500,n = 15, =8900,置信水平为95%。

解: N=15,为小样本正态分布,但σ已知。则1-=95%,

。其置信区间公式为

∴置信区间为:8900±×500÷√15=( , )

2) 总体不服从正态分布,且已知σ = 500,n = 35, =8900,置信水平为95%。

解:为大样本总体非正态分布,但σ已知。则1-=95%,

。其置信区间公式为

∴置信区间为:8900±×500÷√35=( )

3) 总体不服从正态分布,σ未知,n = 35, =8900,s =500,置信水平为90%。

解:为大样本总体非正态分布,且σ未知,1-=90%,。

2α()

28.109,44.10192.336.10525

10

96.136.1052=±=?±=±n

z x σ

αx x 2α()

28.109,44.10192.336.10525

10

96.136.1052=±=?±=±n

z x σ

αx

其置信区间为:8900±×500÷√35=(8761 9039)

x

4)总体不服从正态分布,σ未知,n = 35,=8900,s =500,置信水平为99%。

解:为大样本总体非正态分布,且σ未知,1-=99%,。

其置信区间为:8900±×500÷√35=()

●3.某大学为了解学生每天上网的时间,在全校7500名学生中采取不重复抽样方法随机抽取36人,调查他们每天上网的时间,得到下面的数据(单位:小时):

求该校大学生平均上网时间的置信区间,置信水平分别为90%、95%和99%。

解:⑴计算样本均值x:将上表数据复制到Excel表中,并整理成一列,点击最后数据下面空格,选择自动求平均值,回车,得到x=,

⑵计算样本方差s:删除Excel表中的平均值,点击自动求值→其它函数→STDEV→选定计算数据列→确定→确定,得到s=

也可以利用Excel进行列表计算:选定整理成一列的第一行数据的邻列的单元格,输入“=^2”,回车,即得到各数据的离差平方,在最下行求总和,得到:

∑2

i (x -x )=

再对总和除以n-1=35后,求平方根,即为样本方差的值

s=

。 ⑶计算样本均值的抽样标准误差: 已知样本容量 n =36,为大样本, 得样本均值的抽样标准误差为 x σ

s

1.6093

⑷分别按三个置信水平计算总体均值的置信区间:

① 置信水平为90%时:

由双侧正态分布的置信水平1-α=90%,通过2β-1=换算为单侧正态分布的置信水平β=,查单侧正态分布表得 α/2Z =,

计算得此时总体均值的置信区间为

±α/2

s

x Z ±×= 3.75652.8769

可知,当置信水平为90%时,该校大学生平均上网时间的置信区间为(,)小时;

② 置信水平为95%时:

由双侧正态分布的置信水平1-α=95%,得 α/2Z =,

计算得此时总体均值的置信区间为

±α/2

s

x Z ±×= 3.84232.7910

可知,当置信水平为95%时,该校大学生平均上网时间的置信区间为(,)小时;

③ 置信水平为99%时:

若双侧正态分布的置信水平1-α=99%,通过2β-1=换算为单侧正态分布的置信水平β=,查单侧正态分布表得 α/2Z =,

计算得此时总体均值的置信区间为

±α/2

s

x Z ±×= 4.00872.6247

可知,当置信水平为99%时,该校大学生平均上网时间的置信区间为(,)小时。

●4.某居民小区共有居民500户,小区管理者准备采取一项新的供水设施,想了解居民是否赞成。采取重复抽样方法随机抽取了50户,其中有32户赞成,18户反对。

(1)求总体中赞成该项改革的户数比率的置信区间,置信水平为95%; (2)如果小区管理者预计赞成的比率能达到80%,应抽取多少户进行调查 解: 已知总体单位数N =500,重复抽样,样本容量n =50,为大样本,

样本中,赞成的人数为n 1=32,得到赞成的比率为 p =

n 1n =3250

=64%

(1)赞成比率的抽样标准误差为

=%

由双侧正态分布的置信水平1-α=95%,得 α/2Z =,

计算得此时总体户数中赞成该项改革的户数比率的置信区间为

p ±αZ ±×%=77.304%50.696%

可知,置信水平为95%时,总体中赞成该项改革的户数比率的置信区间为(%,%)。

(2)如预计赞成的比率能达到80%,即 p =80%,

得样本容量为 n =

2

0.80.2

(6.788%)?= 取整为35,

即可得,如果小区管理者预计赞成的比率能达到80%,应抽取35户进行调查。

5.顾客到银行办理业务时往往需要等待一段时间,而等待时间的长短与许多因素有关,比如,银行业务员办理业务的速度,顾客等待排队的方式等。为此,某银行准备采取两种排队方式进行试验,第一种排队方式是:所有顾客都进入一个等待队列;第二种排队方式是:顾客在三个业务窗口处列队等待。为

(1) 构建第一种排队方式等待时间标准差的95%的置信区间 (2) 构建第二种排队方式等待时间标准差的95%的知心区间 (3) 根据(1)和(2)的结果,你认为哪种排队方式更好 卷面解答过程: 解:已知n=10

(1) 根据抽样结果计算得

x =

s=

又∵α=,由单方差得总体标准差σ的95%的置信区间为, ;

(2) 根据抽样结果计算得

x =

s=

又∵α=,由单方差得总体标准差σ的95%的置信区间为, 。

(3) 根据上面两道题目的答案可知,第一种排队方式所需等待的时间较为稳定,更为可取。 MINITAB 操作步骤:

(1) 输入数据→统计→基本统计量→单样本t →选择数据→选项:95%

MINITAB 显示: 单样本 T: C1

平均值

变量 N 平均值 标准差 标准误 95% 置信区间 C1 10 ,

(2) 同上

6.从两个正态总体中分别抽取两个独立的随机样本,它们的均值和标准差如下表:

来自总体1的样本 来自总体2的样本

141=n 72=n 2.531=x

4.432=x

8.9621=s

0.1022

2=s

(1) 求21μμ-90%的置信区间;

(2) 求21μμ-95%的置信区间。 解:(,);(,)。

7.一家人才测评机构对随机抽取的10名小企业的经理人采用两种方法进行自信心测试,得到的自信心测试分数如下:

试构建两种分方法自信心平均得分之差95%的置信区间。

解:11)

(x d 21i

=-=

∑n

x i

68.61

)(S 2

d =--=n d d i

因此,均值之差的的置信区间为:

n

s d ?

±)9(t d 0.025

即:9

68.62.262211?

±

8.从两个总体中各抽取一个25021==n n 的独立随机样本,来自总体1的样本比率为%401=p ,来自总体2的样本比率为%302=p 。

(1)构造21ππ-90%的置信区间; (2)构造21ππ-95%的置信区间。 解:(1)10%±%;(2)10%±%。

7.25 从两个总体中各抽取一个12n n ==250的独立随机样本,来自总体1的样本比例为1p =40%,来自总体2的样本比例为2p =30%。要求:

(1)构造12ππ-的90%的置信区间。 (2)构造12ππ-的95%的置信区间。 解:总体比率差的估计

大样本,总体方差未知,用z 统计量

p p z ππ---=

()0,1N :

样本比率p1=,p2= 置信区间:

122122p p z p p z αα? ---+ ? 1α-=,2z α=0.025z =

122122p p z p p z αα? ---+ ?

=

0.1 1.645 1.645? -+ ? =(%,%)

1α-=,2z α=0.025z =

122122p p z p p z αα? ---+ ?

=

0.1 1.96 1.96? -+ ? =(%,%)

g )的数据如下:

1 机器2

。构造两个总体方差比2

221σσ的95%的置信区间。

答案:已知, 1x =,21s =,2x =,2

2s =, 根据自由度n 1 =21-1=20和n 2=21-1=20,当置信区间为95%时,查F 分布表得:F

/2(20)= (20)=,根据

公式)

,(1

),(1222121n n F n n F αα=

-得,F 1-

/2(20)=1/=。

再根据公式212

22122

2122221αασσ-≤≤F s s F s s 得:,即两部机器生产的袋茶重量的总体方差比2

221σσ的95%的置信区间为(,)。

●10.某超市想要估计每个顾客平均每次购物花费的金额。根据过去的经验,标准差大约为120元,现要求以95%的置信水平估计每个购物金额的置信区间,并要求允许误差不超过20元,应抽取多少个顾客作为样本

解:已知总体标准差x σ=120,由置信水平1-α=95%,得置信度α/2Z =,允许误差E ≤ 20

即由允许误差公式 E=/2

Z n

x ασ整理得到样本容量n 的计算公式:

n=2(

)E

α/2x

Z σ≥2

(

)20

?1.96120= 由于计算结果大于47,故为保证使“≥”成立,至少应取139个顾客作为样本。 解:2222x

z n ασ

?=

?,1α-=,z α=0.025z =,

2222x

z n ασ

?=

?22

2

1.9612020

?==,取n=139或者140,或者150。

11.假定两个总体的标准差分别为:121=σ,152=σ,若要求误差范围不超过5,相应的置信水平为95%,假定21n n =,估计两个总体均值之差21μμ-时所需的样本容量为多大 解: 57。 n1=n2=()

12

2222122

x x z n ασσ-?+=

?

,1α-=,z α=0.025z =,

n1=n2=()

12

2222122x x z n ασσ-?+=?=

()

2222

1.9612155?+=,取n=57

12.假定21n n =,允许误差05.0=E ,相应的置信水平为95%,估计两个总体比率之差21ππ-时所需的样本容量为多大 解:n1=n2=()()12

2211222

11p p z p p p p n α-?-+-????

=

?

,1α-=,z α=0.025z =,取p1=p2=,

n1=n2=()()12

2211222

11p p z p p p p n α-?-+-????

=?

=

()

2222

1.960.50.50.05

?+=,取n=769,或者780或800。

解: 769。

第六章 假设检验

1.依题意提出的假设 Ho :μ≤,H1:μ> 检验统计量Ζ=

Ζ= p 值==

p<α,拒绝原假设

所以,这个调查能证明“如今每个家庭每天收看电视的平均时间增加了”。

一项包括了200个家庭的调查显示,每个家庭每天看电视的平均时间为小时,标准差为小时。据报道,10年前每天每个家庭看电视的平均时间是小时。取显著性水平,这个调查能否证明“如今每个家庭每天收看电视的平均时间增加了”?

详细答案:

,=,,拒绝,如今每个家庭每天收看电视的平均时间显著地增加了。

为监测空气质量,某城市环保部门每隔几周对空气烟尘质量进行一次随机测试。已知该城市过去每立方米空气中悬浮颗粒的平均值是82微克。在最近一段时间的检测中,每立方米空气中悬浮颗粒的数值如下(单位:微克):

根据最近的测量数据,当显著性水平时,能否认为该城市空气中悬浮颗粒的平均值显著低于过去的平均值

详细答案:

,=,,拒绝,该城市空气中悬浮颗粒的平均值显著低于过去的平均值。

安装在一种联合收割机的金属板的平均重量为25公斤。对某企业生产的20块金属板进行测量,得到的重量数据如下:

假设金属板的重量服从正态分布,在显著性水平下,检验该企业生产的金属板是否符合要求?

详细答案:

,,,不拒绝,没有证据表明该企业生产的金属板不符合要求。

在对消费者的一项调查表明,17%的人早餐饮料是牛奶。某城市的牛奶生产商认为,该城市的人早餐饮用牛奶的比例更高。为验证这一说法,生产商随机抽取550人的一个随机样本,其中115人早餐饮用牛奶。在显著性水平下,检验该生产商的说法是否属实详细答案:

,,,拒绝,该生产商的说法属实。

某生产线是按照两种操作平均装配时间之差为5分钟而设计的,两种装配操作的独立样本产生如下结果:

相关文档
最新文档