统计学答案1
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第一章导论
1。
1
(1)数值型变量.
(2)分类变量.
(3)离散型变量。
(4)顺序变量。
(5)分类变量。
1。
2
(1)总体是该市所有职工家庭的集合;样本是抽中的2000个职工家庭的集合。
(2)参数是该市所有职工家庭的年人均收入;统计量是抽中的2000个职工家庭的年人均收入。
1.3
(1)总体是所有IT从业者的集合.
(2)数值型变量。
(3)分类变量.
(4)截面数据.
1.4
(1)总体是所有在网上购物的消费者的集合。
(2)分类变量.
(3)参数是所有在网上购物者的月平均花费。
(4)参数
(5)推断统计方法。
第二章数据的搜集
1.什么是二手资料?使用二手资料需要注意些什么?
与研究内容有关的原始信息已经存在,是由别人调查和实验得来的,并会被我们利用的资料称为“二手资料”。
使用二手资料时需要注意:资料的原始搜集人、搜集资料的目的、搜集资料的途径、搜集资料的时间,要注意数据的定义、含义、计算口径和计算方法,避免错用、误用、滥用.在引用二手资料时,要注明数据来源。
2.比较概率抽样和非概率抽样的特点,举例说明什么情况下适合采用概率抽样,什么情况下适合采用非概率抽样.
概率抽样是指抽样时按一定概率以随机原则抽取样本。
每个单位被抽中的概率已知或可以计算,当用样本对总体目标量进行估计时,要考虑到每个单位样本被抽中的概率,概率抽样的技术含量和成本都比较高.如果调查的目的在于掌握和研究总体的数量特征,得到总体参数的置信区间,就使用概率抽样。
非概率抽样是指抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查.非概率抽样操作简单、实效快、成本低,而且对于抽样中的专业技术要求不是很高。
它适合探索性的研究,调查结果用于发现问题,为更深入的数量分析提供准备。
非概率抽样也适合市场调查中的概念测试。
3。
调查中搜集数据的方法主要有自填式、面方式、电话式,除此之外,还有那些搜集数据的方法?
实验式、观察式等。
4。
自填式、面方式、电话式调查个有什么利弊?
自填式优点:调查组织者管理容易,成本低,可以进行较大规模调查,对被调查者可以刻选择方便时间答卷,减少回答敏感问题的压力。
缺点:返回率低,调查时间长,在数据搜集过程中遇到问题不能及时调整。
面谈式优点:回答率高,数据质量高,在数据搜集过程中遇到问题可以及时调整可以充分发挥调查员的作用。
缺点:成本比较高,对调查过程的质量控制有一定难度。
对于敏感问题,被访者会有压力.
电话式优点:速度快,对调查员比较安全,对访问过程的控制比较容易,缺点:实施地区有限,调查时间不宜过长,问卷要简单,被访者不愿回答时,不宜劝服.
5。
请举出(或设计)几个实验数据的例子.
不同饲料对牲畜增重有无影响,新旧技术的机器对组装同一产品所需时间的影响。
6.你认为应当如何控制调查中的回答误差?
对于理解误差,要注意表述中的措辞,学习一定的心里学知识。
对于记忆误差,尽量缩短所涉及问题的时间范围.对于有意识误差,调查人员要想法打消被调查者得思想顾虑,调查人员要遵守职业道德,为被调查者保密,尽量避免敏感问题。
7.怎样减少无回答?请通过一个例子,说明你所考虑到的减少无回答的具体措施。
对于随机误差,可以通过增加样本容量来控制。
对于系统误差,做好预防,在调查前做好各方面的准备工作,尽量把无回答率降到最低程度.无回答出现后,分析武回答产生的原因,采取补救措施。
比如要收回一百份,就要做好一百二十份或一百三十份问卷的准备,当被调查者不愿意回答时,可以通过一定的方法劝服被访者,还可以通过馈赠小礼品等的方式提高回收率。
第三章数据的图表搜集
一、思考题
3。
1数据的预处理包括哪些内容?
答:审核、筛选、排序等.
3。
2分类数据和顺序数据的整理和显示方法各有哪些?
答:分类数据在整理时候先列出所分的类别,计算各组的频数、频率,得到频数分布表,如果是两个或两个以上变量可以制作交叉表.对于分类数据可以绘制条形图、帕累托图、饼
图、环形图等.根据不同的资料或者目的选择不同的图.
对于顺序数据,可以计算各种的频数、频率,以及累计频数、累计频率。
可根据需要绘制条形图、饼图、环形图等。
3。
3数值型数据的分组方法有哪些?简述组距分组的步骤。
答:单变量值分组和组距分组。
其中组距分组:第一步,确定组数,组数多少由数据的多少和特点等决定,一般5~15组;第二步,确定各组组距,宜取5或10的倍数;第三步,根据分组整理出频数分布表,注意遵循“不重不漏”和“上限不在内”的原则。
3。
4直方图和条形图有何区别?
答:1,条形图使用图形的长度表示各类别频数的多少,其宽度固定,直方图用面积表示各组频数,矩形的高度表示每一组的频数或频率,宽度表示组距,高度与宽度都有意义;2直方图各矩形连续排列,条形图分开排列;3条形图主要展示分类数据,直方图主要展示数值型数据。
3。
5绘制线图应注意问题?
答:时间在横轴,观测值绘在纵轴。
一般是长宽比例10:7的长方形,纵轴下端一般从0开始,数据与0距离过大的话用折断符号折断。
3.6饼图和环形图的不同?
答:饼图只能显示一个样本或总体各部分所占比例,环形图可以同时绘制多个样本或总体的数据系列,其图形中间有个“空洞”,每个样本或总体的数据系类为一个环.
3.7茎叶图比直方图的优势,他们各自的应用场合?
答:茎叶图既能给出数据的分布情况,又能给出每一个原始数据,即保留了原始数据的信息。
在应用方面,直方图通常适用于大批量数据,茎叶图适用于小批量数据。
3.8鉴别图标优劣的准则?
答:P65明确有答案,我就不写了。
3.9制作统计表应注意的问题?
答:1,合理安排统计表结构;2表头一般包括表号,总标题和表中数据的单位等内容;3表中的上下两条横线一般用粗线,中间的其他用细线,两端开口,数字右对齐,不要有空白格;4在使用统计表时,必要时可在下方加注释,注明数据来源。
第4章数据的概括性度量
4.1(1)众数:。
中位数:,。
平均数:。
(2),.
,。
(3)
(4)由于平均数小于中位数和众数,所以汽车销售量为左偏分布.
4.2(1)从表中数据可以看出,年龄出现频数最多的是19和23,所以有两个众数,即和。
将原始数据排序后,计算的中位数的位置为:,第13个位置上的数值为23,所以中位数. (2),。
,.
(3)平均数。
(4)偏态系数:.
峰态系数:。
(5)分析:从众数、中位数和平均数来看,网民年龄在23~24岁的人数占多数。
由于标准差较大,说明网民年龄之间有较大差异。
从偏态系数来看,年龄分布为右偏,由于偏态系数大于1,所以偏斜程度很大.由于峰态系数为正值,所以为尖峰分布。
4.3(1)茎叶图如下:
茎叶数据个数
5 5 1
6 6
7
8 3
7 1 3 4 8 8 5
(2)。
(3)由于两种排队方式的平均数不同,所以用离散系数进行比较。
第一种排队方式:;。
由于,表明第一种排队方式的离散程度大于第二种排队方式.
(4)选方法二,因为第二种排队方式的平均等待时间较短,且离散程度小于第一种排队方式。
4。
4(1)。
,。
(2),。
,.
(3).
4.5(1)。
.
原因:尽管两个企业的单位成本相同,但单位成本较低的产品在乙企业的产量中所占比重较大,因此拉低了总平均成本.
4。
6(1)平均数计算过程见下表:
组中值企业数
按利润额分组
200~300 250 19 4750
300~400 350 30 10500
400~500 450 42 18900
500~600 550 18 9900
600以上650 11 7150
合计—120 51200。
标准差计算过程见下表:。
(2)偏态系数和峰态系数的计算过程见下表:
偏态系数:.
峰态系数:。
4。
7(1)两位调查人员所得到的平均身高应该差不多相同,因为均值的大小基本上不受样本大小的影响.
(2)两位调查人员所得到的身高的标准差应该差不多相同,因为标准差的大小基本上不受样本大小的影响.
(3)具有较大样本的调查人员有更大的机会取到最高或最低者,因为样本越大,变化的范围就可能越大。
4.8 (1)要比较男女学生体重的离散程度应该采用离散系数。
女生体重的离散系数为,男生体重的离散系数为,所以女生的体重差异大。
(2)男生:(磅),(磅);
女生:(磅),(磅);
(3)假定体重为对称分布,根据经验法则,在平均数加减1个标准差范围内的数据个数大约为68%。
因此,男生中大约有68%的人体重在55kg到65kg之间。
(4)假定体重为对称分布,根据经验法则,在平均数加减2个标准差范围内的数据个数大约为95%。
因此,女生中大约有95%的人体重在40kg到60kg之间。
4。
9 通过计算标准分数来判断:
;.
该测试者在A项测试中比平均分数高出1个标准差,而在B项测试中只高出平均分数0.5个标准差,由于A项测试的标准分数高于B项测试,所以A项测试比较理想.
4。
10 通过标准分数来判断,各天的标准分数如下表:
日期周一周二周三周四周五周六周日
标准分数Z 3 —0。
6 —0。
2 0。
4 -1.8 —2.2 0
周一和周六两天失去了控制。
4。
11(1)应该采用离散系数,因为它消除了不同组数据水平高低的影响.
(2)成年组身高的离散系数:;
幼儿组身高的离散系数:;
由于幼儿组身高的离散系数大于成年组身高的离散系数,说明幼儿组身高的离散程度相对较大。
4,11(1)应该从平均数和标准差两个方面进行评价。
在对各种方法的离散程度进行比较时,应该采用离散系数.
(2)下表给出了用Excel计算一些主要描述统计量。
从三种方法的集中趋势来看,方法A的平均产量最高,中位数和众数也都高于其他两种方法。
从离散程度来看,三种方法的离散系数分别为:,,。
方法A的离散程度最小.
因此应选择方法A.
4。
12(1)用方差或标准差来评价投资的风险。
(2)从直方图可以看出,商业类股票收益率的离散程度较小,说明投资风险也就较小。
(3)从投资风险角度看,应该选择风险较小的商业类股票。
当然,选择哪类股票还与投资者的主观判断有很大关系。
第六章统计量与抽样分布
由样本构建具体的统计量,实际上是对样本所含的总体信息按某种要求进行加
工处理,把分散在样本中的信息集中到统计量的取值上,不同的统计推断问题要求构造
不同的统计量。
构造统计量的主要目的就是对总体的未知参数进行推断,如果统计量中含有总体的
未知参数就没办法再对参数进行统计推断。
2、是统计量,在不是统计量。
4、假若一个统计量能把含在样本中有关总体的信息一点都不损失地提取出来,这样的统计量称充分统计量。
5、统计学上的自由度指当以样本的统计量来估计总体的参数时,样本中独立或能自由变化的资料的个数。
6、
7、在重复选取容量为n的样本时,由样本统计量的所有取值形成的相对频数分布为统计量的抽样分布。
二、练习
1、易知由这台机器灌装的9个瓶子形成的样本,其平均灌装量服从正态分布,均值为标准差为,故
2、若,则,即,又知,故.
3、易知服从自由度为6的卡方分布,得(左侧分位数)
4、因为服从分布,我们已知,故服从9)分布,,我们若取,则可以得到,,故。
(题中均为左侧分位数)
第7章抽样与参数估计
7.1(1)已知:,,,,。
样本均值的抽样标准差。
(2)估计误差。
7.2(1)已知:,,,,.
样本均值的抽样标准差。
(2)估计误差。
(3)由于总体标准差已知,所以总体均值的95%的置信区间为:
,即(115.8,124.2)。
7.3已知:,,,,。
由于总体标准差已知,所以总体均值的95%的置信区间为:
,即(87818。
856,121301.144).
7.4(1)已知:,,,,。
由于为大样本,所以总体均值的90%的置信区间为:
,即(79。
026,82。
974).
(2)已知:,。
由于为大样本,所以总体均值的95%的置信区间为:
,即(78.648,83。
352)。
(3)已知:,.
由于为大样本,所以总体均值的99%的置信区间为:
,即(77。
940,84。
096).
7.5(1)已知:,,,,.
由于总体标准差已知,所以总体均值的95%的置信区间为:
,即(24.11,25。
89)。
(2)已知:,,,,。
由于为大样本,所以总体均值的98%的置信区间为:
,即(113.17,126。
03).
(3)已知:,,,,。
由于为大样本,所以总体均值的90%的置信区间为:
,即(3.136,3。
702)。
7。
6(1)已知:总体服从正态分布,,,,,。
由于总体服从正态分布,所以总体均值的95%的置信区间为:
,即(8646。
97,9153。
03)。
(2)已知:总体不服从正态分布,,,,,.
虽然总体不服从正态分布,但由于为大样本,所以总体均值的95%的置信区间为:,即(8734。
35,9065.65)。
(3)已知:总体不服从正态分布,未知,,,,,。
虽然总体不服从正态分布,但由于为大样本,所以总体均值的90%的置信区间为:,即(8760.97,9039.03).
(4)已知:总体不服从正态分布,未知,,,,,。
虽然总体不服从正态分布,但由于为大样本,所以总体均值的99%的置信区间为:,即(8681。
95,9118.05)。
7。
7已知:,当为0。
1、0。
05、0.01时,相应的、、。
根据样本数据计算得:,.
由于为大样本,所以平均上网时间的90%的置信区间为:
,即(2.88,3。
76).
平均上网时间的95%的置信区间为:
,即(2。
79,3。
85)。
平均上网时间的99%的置信区间为:
,即(2。
63,4.01)。
7。
8已知:总体服从正态分布,但未知,为小样本,,。
根据样本数据计算得:,。
总体均值的95%的置信区间为:
,即(7。
11,12.89)。
7.9已知:总体服从正态分布,但未知,为小样本,,。
根据样本数据计算得:,.
从家里到单位平均距离的95%的置信区间为:
,即(7.18,11.57)。
7。
10(1)已知: ,,,。
由于为大样本,所以零件平均长度的95%的置信区间为:
,即(148。
87,150。
13)。
(2)在上面的估计中,使用了统计中的中心极限定理.该定理表明:从均值为、方差为的总体中,抽取容量为的随机样本,当充分大时(通常要求),样本均值的抽样分布近似服从均值为、方差为的正态分布。
7。
11(1)已知:总体服从正态分布,但未知,为大样本,,。
根据样本数据计算得:,。
该种食品平均重量的95%的置信区间为:
,即(100。
87,101.77)。
(2)根据样本数据可知,样本合格率为。
该种食品合格率的95%的置信区间为:
,即(0。
82,0。
98)。
7.12已知:总体服从正态分布,但未知,为小样本,,。
根据样本数据计算得:,。
总体均值的99%的置信区间为:
,即(15。
64,16.62)。
7。
13已知:总体服从正态分布,但未知,为小样本,,.
根据样本数据计算得:,。
网络公司员工平均每周加班时间的90%的置信区间为:
,即(10.36,16。
76).
7.14(1)已知:,,,.
总体总比例的99%的置信区间为:
,即(0。
32,0.70);
(2)已知:,,,。
总体总比例的95%的置信区间为:
,即(0。
78,0。
86);
(3)已知:,,,。
总体总比例的90%的置信区间为:
,即(0.46,0.50)。
7,15已知:,,为0。
1和0。
05时,相应的,。
总体总比例的90%的置信区间为:
,即(0。
18,0。
28).
总体总比例的95%的置信区间为:
,即(0。
17,0.29)。
7。
16已知:,估计误差,,。
应抽取的样本量为:。
7.17(1)已知:,,,。
应抽取的样本量为:。
(2)已知:,未知,,。
由于未知,可用使用0.5。
应抽取的样本量为:。
(3)已知:,,,。
应抽取的样本量为:。
7。
18(1)已知:,,,。
总体中赞成该项改革的户数比例的95%的置信区间为:
,即(0.51,0。
77)。
(2)已知:,,.
应抽取的样本量为:.
第8章假设检验
二、练习题
(说明:为了便于查找书后正态分布表,本答案中,正态分布的分位点均采用了下侧分位点.其他分位点也可。
为了便于查找书后t分布表方便,本答案中,正态分布的分位点均采用了上侧分位点。
)
8。
1解:根据题意,这是双侧检验问题。
已知:总体方差
当,查表得。
拒绝域W={}
因为,所以不能拒绝H0,认为现在生产的铁水平均含碳量为4。
55。
(注:为正态分布的1—α/2下侧分位点)
8。
2解:根据题意,这是左单侧检验问题.
已知:总体方差
当,查表得。
拒绝域W={}
因为,所以拒绝H0,认为该元件的使用寿命低于700小时。
(注:为正态分布的1—α下侧分位点)
8.3解:根据题意,这是右单侧检验问题。
已知:总体方差
当,查表得。
拒绝域W={}
因为,所以拒绝H0,认为这种化肥能使小麦明显增产.
(注:为正态分布的1—α下侧分位点)
8。
4解:根据题意,这是双侧检验问题。
方差未知。
已知:总体
根据样本计算得:
当,查表得。
拒绝域W={}
因为,所以不能拒绝H0,认为该日打包机工作正常。
(注:为t分布的α/2上侧分位点)
8。
5解:根据题意,这是右单侧检验问题。
已知:
当,查表得。
拒绝域W={}
因为,所以拒绝H0,认为不符合标准的比例超过5%,该批食品不能出厂。
(注:为正态分布的1—α下侧分位点)
8.6解:根据题意,这是右单侧检验问题。
已知:
当,查表得。
拒绝域W={}
因为,所以不能拒绝H0,认为该厂家的广告不真实。
(注:为t分布的α上侧分位点)
8.7解:根据题意,这是右单侧检验问题。
已知:
当,查表得。
拒绝域W={}
因为,所以不能拒绝H0,认为元件的平均寿命不大于225小时。
(注:为t分布的α上侧分位点)
8.8解:根据题意,这是右侧检验问题.
已知:
当,查表得。
拒绝域W={}
因为,所以拒绝H0,认为成立.
(注:为—分布的α上侧分位点)
8.9解:根据题意,这是双侧检验问题。
已知:总体方差
当,查表得。
拒绝域W={}
因为,所以拒绝H0,可以认为A,B两厂生产的材料平均抗压强度不相同。
(注:为正态分布的1-α/2下侧分位点)
8。
10解:根据题意,这是双侧检验问题。
已知:总体方差,但未知
2.3579
当,查表得。
拒绝域W={}
因为,所以拒绝H0,认为两种方法的装配时间有显著差异。
(注:为t分布的α上侧分位点)
8。
11解:根据题意,这是双侧检验问题。
已知:
在大样本条件下
当,查表得。
拒绝域W={}
因为,所以拒绝H0,认为调查数据支持“吸烟者容易患慢性气管炎”这种观点.
(注:为正态分布的1—α/2下侧分位点)
8。
12解:根据题意,这是右单侧检验问题.
(1)
等同于(2)
已知:
在n=144情况下,(2)中的H0成立时,t近似服从标准正态分布。
因此P=P(t 〉2.16)=1—0。
9846=0.0154。
所以在α=0.01的显著水平,不能拒绝H0,认为贷款的平均规模没有明显超过60万元。
8。
13解:根据题意,这是左单侧检验问题。
已知:
在大样本条件下
当,查表得。
拒绝域W={}
因为,所以拒绝H0,认为阿司匹林可以降低心脏病发生率。
(注:为正态分布的1-α下侧分位点)
8.14解:(1)根据题意,这是双侧检验问题。
已知:
当,利用EXCEL提供的统计函数“CHIINV",得
.
拒绝域W={}
因为,所以不能拒绝H0,认为成立.
(注:为-分布的α上侧分位点)
(2)根据题意,这是双侧检验问题。
已知:总体方差
当,查表得.
拒绝域W={}
因为,所以不能拒绝H0,认为螺栓口径为7。
0cm 。
(注:为正态分布的1—α/2下侧分位点)
因此,由(1)和(2)可得:这批螺栓达到了规定的要求.
8。
15(1)根据题意,这是双侧检验问题。
已知:
当,利用EXCEL提供的统计函数“FINV",得。
拒绝域W={}
因为,所以不能拒绝H0,认为成立。
(注:为F—分布的α/2上侧分位点)
(2)根据题意,这是右单侧检验问题。
由(1)的分析可知:总体方差,但未知
当,查表得.
拒绝域W={}
因为,所以拒绝H0,认为有显著大学中男生学习成绩比女生好。
(注:为t分布的α上侧分位点)。