应用统计分析复习要点和答案

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

组口値企业数
Z y
200-3002504750
5303010500 <10-50045042
500—600550189900 6oa以上&5D H7JS0音计12051200搀刑制额分姐沦业數/;(性-切(叫-石丁
RD-300第01931212359W33J 300^400350305878J17634&7
4OD—50045042544 322f56O.l $00—6005501S15210.3Z7378S.2
60D以卜6501149876 3548639.2
—120102T21.516146667
L20
《应用统计学》复习要点
(要求:每人携带具有开方功能的计算器)
、名词解释
1•统计学:收集、处理、分析、解释数据并从数据中得出结论的科学。

2•方差分析:是通过分析数据的误差判断各总体均值是否相等,研究分类型自变量对数值型因变量的影响,分为单因素方差分析和双因素方差分析。

3•假设检验:是事先对总体参数或分布形式做出某种假设,然后利用样本信息来判断原假设是否成立。

分为参数假设检验和非参数假设检验。

一般采用逻辑上的反证法,依据统计上的小概率原理。

4.置信区间:是指由样本统计量所构成的总体参数的估计区间。

在统计学中,一个概率样本的置信区间是对这个样本的某个总体参数的区间估计。

置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的成都。

5•置信水平:是指总体参数值落在样本统计值某一区内的概率。

6•抽样分布:从已知的总体中以一定的样本容量进行随机抽样,由样本的统计数所对应的概率分布称为抽样分布。

抽样分布是统计推断的理论基础。

7•方差分析:是通过分析数据的误差判断各总体均值是否相等,研究分类型自变量对数值型因变量的影响,分为单因素方差分析和双因素方差分析。

(重复啦)8•相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度是研究随机变量之间的相关关系的一种统计方法。

9•推断统生J:是研究如何利用样本数据来推断总体特征的统计方法。

包含两个内容:参数估计,即利用样本信息推断总体特征;假设检验,即利用样本信息判断对总体的假设是否成立。

、计算题
按利润额分组(万兀)企业数(个)
300以下19
300〜400 30
400〜500 42
500〜600 18
600以上11
合计120
解:
'.I)半戏劉讣营过翟见下
=426.fi?,标唯卷计算过程见下慕=
=11S -
5 I 200\ 120-1
2.某银行为缩短顾客到银行办理业务等待的时间, 准备了两种排队方式进行试验。

为比较哪种排队方式使顾客等待的时间 更短,两种排队方式各随机抽取 9名顾客,得到第一种排队方式的平均等待时间为 7.2分钟,标准差为1.97分钟,第二 种




的等


间(



分钟
)



5.5
6.6 6.7 6.8
7.1 7.3 7.4
7.8
7.8
(1) 计算第二种排队时间的平均数和标准差。

(2) 比较两种排队方式等待时间的离散程度。

(3) 如果让你选择一种排队方式,你会选择哪一种?试说明理由 解:
[(5.5-7): ^(6.6-7)^+
+(7.8-7)2
+(T8-7)" 卜08 ”“
(2)由干两种排队方式的平均JS 不同,所以用离敢系数谜行比較.
龍一艸排队方V. - 1 97
» 0.274 t v. - 714 .0)02.由干V.
>v 3・耒明黑一棘徘
1
7.2
1 7 1 2
队方球的高般程度大干第二种排队方球.
⑶ 诜方法二 因为第二W 排队方式的平均等待时间较短.冃宴散程宴小于第一种排队方式亠
3.某大学为了解学生每天上网的时间,在全校学生中随机抽取 36人,调查他们每天上网的时间(单位:小时) ,得到的
数据如下:
3.3 3.1 6.2 5.8 2.3
4.1 4.4 2.0
5.4 2.6
6.4 1.8 2.1 1.9 1.2 5.1 4.3 4.2 4.7 1.4 1.2 2.9 3.5 2.4 5.4
3.6
4.5
0.8
3.2
1.5
3.5 0.5 5.7
3.6 2.3 2.5
统计量值
分别为 1.65、1.96 和 2.58) 解:
由于n 书6为大样本,计算停 样本均值X=3.32,样本标准差s-Ldl ¥ ]石] l-£Z=09s (=^;2 = ^5=1.645,疋 ± 7 血賞了 =332 ±1.(5 輛3.76)
l-£Z=0.95,匸為7 =两血二1-骑,A ±^-^=-3.32^1.96-^== (2.79, 3.85)
* yjfi V36
—3+32 ± 2.76 --^===〔2.53, 4.01 >
736
4.利用下面的信息,构建总体均值 卩的置信区间。

(1)总体服从正态分布,且已知
(T =500,=15 , £=8900,置信水平为95%。

(注:z 统计量值为1.96 )
9-1
1 一 €Z =0.刃・仁Q 尸莖0JW5 =2刃6* x 士忑&2
⑵总体不服从正态分布,且已知 (3)总体不服从正态分布,b 未知, (4)总体不服从正态分布,b 未知, 解: (T =500 ,=35,乐=8900,置信水平为 n=35,': =8900 , s=500,置信水平为 n=35,": =8900 ,s=500,置信水平为 95%
90% 99%
(注:
(注: (注: z 统计量值为 z 统计量值为 z 统计量值为 1.96 ) 1.65) 2.58)
由于也休^从正态分布.所以想体均値的日5%的胃信丙闻为;
= 1.96 ; 士 為皿 产=890fti 1 96 鬻=8900t 2
5103
即 C8646. 97, 9153.
035
但由于炉即为犬样本・所以总休均值的9呼的壹信区屈为
5仁=1.96 上士
即(0734
9065, 65)
二=8900b L96響=89OQt 】6565

虽然也体环正态分权 但由于*亦为大样本,斯以总体均鱼的粼旬置信区阖为.
J 门
=],645
7 士為=X^CKH 1 (S45 5D - = K900f \ 39.0^
r vn ^35
即(0760.97, 9039. 03) 虽然总体不服从正彥井布,但由于貝5为大样本 所以总■(*均值的測的畫信区间
如 w 工=2,58 \±2^,-^ = 8900±2.5
'寸口
-8900+218.05
即91:S, 05^ 5.对消费者的一项调查表明, 17%的人早餐饮料是牛奶。

某城市的牛奶生产商认为,该城市的人早餐饮用牛奶的比例更 高。

为验证这一说法,生产商随机抽取 550人的一个随机样本,其中 115人早餐饮用牛奶。

在 a =0.05的显著性水平 下,检验该生产商的说法是否属实?(注: z 统计量值为1.96 ) 解: 本题为总体比例检验.a=O.OL 斯=17%. P=115/550=20.
H : EP a H :用工17%
利用潘验分制L “ = 严国-0” 二2加51
jTd-T) :(). 17x(1-0,17) 弦是T 石侧粒虬慑假设域1%备择假设p'g .拒绝產假设,该生产商的说涨属实. 当a =0.05时.由=2 > %i
解: 建立假设:H o : 70, ^>6.70
11出右制检嵋•兑体方垫未知.所且检験统i|
3
- L " ■
f ---- - J. 11 > J QO I **■ J J ■心
2, 5/伽)
所以拒绝 % 即认为”如今每个彖庭每夭收百电視的平均时ihjiftfin 厂
6.一项包括了 200个家庭的调查显示,每个家庭每天看电视的平均时间为
7.25小时,标准差为 2.5小时。

据报道,10 年前每天每个家庭看电视的平均时间是 6.7小时。

取显著性水平 a =0.01这个调查能否证明“如今每个家庭每天收看电 视的平均时间增加了”?(注:
z 统计量值为1.96 )
7.下面是7个地区2000年的人均国内生产总值
GDP (Y )和人均消费水平(X )的统计数据(注:此题对应的 t 统计量
值为2.57): 地区 人均GDP (千元)丫 人均消费水 干(千兀)X Y-E(Y) X-E(X) (Y-E(Y))
X (XE(X))
(X-E(X))2 (Y-E(Y))2 北京 22.460 7.326 10.212 2.810 28.699 7.899 104.276 辽宁 11.226 4.490 -1.022 -0.026 0.026 0.001 1.045 上海 34.547 11.546 22.299 7.030 156.769 49.427 497.226 江西 4.851 2.396 -7.397 -2.120 15.679 4.493 54.722 河南 5.444 2.208 -6.804 -2.308 15.702 5.325 46.300 贵州 2.662 1.608 -9.586 -2.908 27.873 8.454 91.900 陕西
4.549
2.035
-7.699
-2.481
19.099 6.153 59.281 合计X 85.739 31.609
263.847
81.751
854.751
(1 )计算相关系数,说明二者之间的关系。

(2 )人均GDP 作自变量,人均消费水平作因变量,利用最小二乘法求岀估计的回归方程,并解释回归系数的实际意义。

(3 )计算判定系数和估计标准误差,并解释其意义。

(4 )检验回归方程线性关系的显著性。

(a =0.05 )
(5 )如果某地区的人均 GDP 为5千元,预测其人均消费水平。

(6 )求人均GDP 为5千元时,人均消费水平
95%的置信区间和预测区间。

解:
・ 7 *65100742 1 - 27 10124051
°、= ---------------------------------- =0308683
7 * 190491^867 - (U5739}
R =4515. 571429-0. 308683*12248. 428=734*6928
y=734. 6928+0. 308683x
回归系数的含文;人均GDP 毎增加1元*人均消费增加0L3097G
(1)
7 * 6S 10 07421 - 2 7jL0j24051
^7 * 190491S867 -(8573^)^ ^7 • 13 46900766 - (31609)'
=0.99812^
显■示满个变总之间喬度朋壬・有很遂的线■區系・
= ------------------- = 0,9963 8 ] 750763,7 1
佔计的标准差;247. 303
意文足:人均GDP 对人均•消拥的彫响达到99. 63^
(4) 捉出假设I
H0: /?1=0人均消费水平与人均GDP 之间的线性矢系不显称
汁算检验続计鼠F
SSR/\ 81444968.68/1
F --------- —1 ------ -- ----------------- --- L — = 1331.692 1 SSE/in - 2) 305795.03/(7 - 2)
桶定显蔷性水a -0.05,并根据分子口由庇1利芬母自由度7-2tttUlWMllFa=6-61 作出决策』若F>Fa -
JI^HO*缄杵矣杀晁薯,
y=734. 6928+0. 308683*5000=2278. 1078 预测该地区人购消裁水平为22沼.10沼元。

⑹ 己知 n
=
7 * tc^2(7_2)=2*5706
"
壬2(兀一牙『
f=l
1 (5000 - 45 15. 5714)
2278.1 078 土 2.5706 * 61 159.007#—+
1990. 74915^E (y) ^2565. 46399
|
(500U - 45 1 5 .57 14)
1+ -+ ------------------------------
1 Jt )25 127.29
1580, 46315WE (玛)02973. 74999
即人均GDPZfSOOO 尤时.人均誚费木平95%的置信1XM>J[199O, 74915・2565 46399L 预测区间为[1580. 16315. 2975. 74999] °
8.随机抽取7家超市,得到其广告费支岀( X )和销售额(丫)数据如下: (注:此题对应的 t 统计量值为2.57)
超市 销售额 (万兀)丫 广告费支出 (万兀)X
Y-E(Y)
X-E(X)
(Y-E(Y))
X (XE(X))
(X-E(X))2 (Y-E(Y))2 A 19 1 -23 -7.143 164.286 51.020 529 B
32
2
-10
-6.143
61.429
37.735
100
J
勺》—奇
T-l
勺-耳-莎
I —I
13625127.29
505795 0341
二召丨 159.007
7.下面是7个地区2000年的人均国内生产总值GDP (Y)和人均消费水平(X)的统计数据(注:此题对应的t统计量
(6)
(1)(2 )广告费用支岀作自变量,销售额作因变量,利用最小二乘法求岀估计的回归方程,并解释回归系数的实际意义。

(3 )计算判定系数和估计标准误差,并解释其意义。

(4 )检验回归方程线性关系的显著性。

(a =0.05 )
(5 )如果某超市的广告费用支岀为
5万元,预测其销售额。

(6 )求广告费用支岀为 5万元时,超市销售额 95%的置信区间和预测区间。

4 甲'专爱 b set evr
I
1
"册
*抻7
e in
Qg
rfiissa ;(万元〉
I 347
QIJ1
0 021
・ -■
(1) r=63.86/ (6.424*11.964 ) =0.831
显示两个变量之间高度相关,有很强的线性关系。

(2) 门宀220399+1.54748权,代表广告费用每增加1万元,销售额增加1.54748万元。

(3) 列表中可得:判定系数 R2=0.6906,估计标准误差 4.807253
(4)
根据方差分析所示,F a =6.608V F=11.14684,即广告费支出与销售额之间的线性关系显著。

(5)
sin=7, f 切2(7-2)=2.5706
37. 1364± 2. 5706* 1L 762 丄.('-包 1 醒"〉
288. 857
24. 4139<E<y)<4D.3S03
预测因咲応士十_»亠
宀-Q
1
” 二(叫_刃
37. 1304 ±2. 5700* 11. 762
288. 8E7
4. 33402<E(yu)<G9. 93S7S
即广告费用支出为5万元时.超市销售徹硏置信区间为[24. 4130, 41 8539], 预测区间为[4 33402 , 69.93878]
6
三、论述题
1. 简述样本量与置信水平、总体方差、估计误差的关系。

答:
(1) 估计总体均值时样本量为 n ,则
(讣)宁 F _ 2 « =——L ~i ------ 尺屮' L 一 F 厂
£*
\ fl
(2) 样本量n 与置信水平1- a 、总体方差b 2、估计误差 E 之间的关系为:
① 与置信水平成正比,在其他条件不变的情况下,置信水平越大,所需要的样本量越大; ② 与总体方差成正比,总比的差异越大,所要求的样本量也越大; ③ 与总体方差成正比,样本量与估计误差的平方成反比,
即可以接受的估计误差的平方越大,
2. 简述评价估计量的三个标准。

(15分)
答:评价估计量好坏的标准主要有:无偏性、有效性和相合性。

① 无偏性:估计量抽样分布的数学期望等于被估计的总体参数;
② 有效性:对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效; ③ 一致性:随着样本量的增大时,点估计量的值越来越接近被估总体的参数。

的皆计■有晞和玄.如果忙(4)"・粽&把iiftt 估计鼬 ・彙4和玄屋无■估计量・什刊甘川! 别巩比瓦
电気也 如幄牛样束畀怖 t 八
►余.嘲幷上槽舍曲计队
3.
简要说明残差分析在回归分析中的作用。

(15分)
答:残差是因变量的观测值
y 与根据估计的回归方程求岀的预测值之差,它反映了用估计的回归方程去预测
y 而引起
11. 7&2
为」
1
(5 - E. 14286)
所需的样本量越小
的误差。

回归模型中出现残差的前提条件是:平均值及总和是0,标准误差符合正规分布。

因此在回归分析中,可以通过残差进行线性回归适用性检验:
①回归模型残差的正态性检验:残差的直方图和累计概率图
②回归模型残差的独立性检验:参数有Dw或D, D的取值范围是O V D V 4,其统计学意义为:D- 2,残差与自变量相
互独立;D V 2,残差与自变量正相关;D> 2,残差与自变量负相关。

③残差的方差齐性检验。

另外,残差还可以检验奇异点,评判预测效果等。

这在回归分析中对模型的效果检验有着重要的作用。

4. 简要误差分解的概念和基本原理。

(15分)
答:
(1)误差是测量值与真值之间的差值,误差分为系统误差和随机误差。

①系统误差是某一确定的因素引起的,它可以测量,有确定性,单向性,系统误差是可以消除的,在正确的操作中不应含系统误差。

②随时误差是不可测量的,它不能被避免,只能适当减小,就个体而言,它有不确定性,无规律可循,但在等精度条件下的多次测量,其大多数服从正态分布。

③还有一种是,过失误差是测量过失而产生的明显偏离真值的误差,是完全可以避免的。

总I*均備
P-Kff X A X/ i'Q ・一
(2)误差分解的原理:是通过计算来比较因某一特定因素带来的样本值的差异与随机偶然因素对样本值的差异的大小,从而判断该因素对总体是否有统计意义。

瓏机逞差
r
+误差甲方和。

相关文档
最新文档