统计学部分课后答案
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
思考与练习(第五章) BY 缪嘉伦 思考题
1. 解释原假设与备择假设的含义,并归纳常见的几种建立原假设与备择假设的原则。
答:原假设(null hypothesis )通常是研究者想悼念证据予以反对的假设,也称零假设,用H 0表示。
备择假设(alternative hypothesis)通常是研究者想悼念证据予以支持的假设,也称研究假设,用H l 或 H a 表示。
几种常见的原则:
第一, 原假设和备择假设是一个完备事件组,而且相互对立。
第二, 在建立原假设时,通常是先确定备择假设,然后再确定原假设。
第三, 在假设检验中,等号“=”总是放在原假设上。
第四, 在面对某一实际问题时,由于不同的研究者有不同的研究目的,即使对同一问
题也可能提出截然相反的原假设和备择假设。
第五, 假设检验的目的主要是收集证据拒绝原假设。
3.什么是显著性水平?它对于假设检验决策的意义是什么?与置信水平的区别?
答:显著性水平(level of significance )是指当原假设实际上是正确时,检验统计量落在拒绝域的概率,记为α。
它是人们事先指定的犯第I 类错误概率α的最大允许值。
显著性水平α越小,犯第I 类错误的可能性自然就越小,但犯第∏类错误的可能性随之增大。
置信水平是指变量落在置信区间的可能性,记为1-α。
4.什么是P 值?P 值检验和统计量检验有什么不同?
答:P 值(P value )就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。
如果P 值很小,说明原假设情况的发生的概率很小,而如果出现了,根据小概率原理,我们就有理由拒绝原假设,P 值越小,我们拒绝原假设的理由越充分。
总之,P 值越小,表明结果越显著。
但是检验的结果究竟是“显著的”、“中度显著的”还是“高度显著的”需要我们自己根据P 值的大小和实际问题来解决。
区别:从显著性水平来比较,如果选择的α值相同,所有检验结论的可靠性都一样;通过计算P 值,可测量出样本观测数据与原假设的值0μ的偏离程度。
练习题
4. 解:提出假设: H 0
≤ 6, H 1 > 6 已知: σ = 1.19, n = 100, 0.5α=
(1) 选择检验统计量 0
/z s n =(2) 拒绝规则是:若Z z α>,拒绝0H ;否则,不拒绝0H
(3) 计算检验统计量的数值,即
2.941/ 1.19/100
x z s n ===
即有, 0.052.941 1.64z z z α=>==
因此,拒绝0H ,认为改进工艺能提高纤维原的平均强度。
5. 解: 提出假设:0:
6.70H μ≤,1: 6.70H μ>
其中μ为如今每个家庭每天收看电视的平均时间
调查的样本:200,7.25, 2.5n x s ===
检验统计量: 3.111x z === 进行P 值检验,利用Excel 的统计函数功能进行计算,如下图
图5.5
可得z 值3.111左边的面积为0.999067725,用1减去该值,即为单侧检验的P 值,即P 值=1 - 0.999067725 = 0.000932275,小于给定的显著性水平0.01,所以拒绝原假设,认为如今每个家庭收看电视的平均时间增加了。
6.解:提出假设:222201:0.75,:0.75TV VCR TV H H σσσ≤=>
已知:230,2,0.05n s α===
检验统计量: 2
222/20.02522(1)(301)2103.11(1)(301)42.7220.75
VCR n s n αχχχσ--⨯===>-=-= 因此,拒绝0H ,认为电视寿命的方差显著大于VCR 。
10.解:提出假设:2222012112:,:H H σσσσ=≠
在Excel 中输入相关数据,如下图:
图5.10.1
利用F-检验 双样本方差分析,得下图
图5.10.2
可得,检验统计量为:
21220.0488898.28490.005901s F s === 则有, 120.0252
8.2849(1,1)(24,21) 2.37F F n n F α=>--==
因此,拒绝0H ,认为两种机器生产的袋茶重量的方差存在显著差异。
思考与练习(第六章)
思考题
1. 什么是方差分析?它所研究的是什么?
答:方差分析(analysis of variance ,ANOVA )是检验多个总体均值是否相等的统计方法。
本质上它研究的是分类型自变量对数值型因变量的影响。
3. 方差分析中有哪些基本假设?
答:(1)每个总体都应服从正态分布;(2)各个总体的方差必须相同;(3)观测值
是独立的。
4. 简述方差分析的基本思想。
答:试验指标的变化可以用指标值的方差反映,导致试验指标值发生变化的原因有
两方面:一是可控因素,二是不可控因素或未加控制因素。
方差分析就是将试验指标值的方差分解成条件变差与随机误差,然后,将各因素形成的条件 变差与随机误差进行比较,评价由某种因素所引起的变异是否具有统计学意义。
6. 简述方差分析的基本步骤。
答:(1)提出假设;(2)构造检验的统计量;(3)统计决策;(4)方差分析表。
7. 解释水平项平方和、误差项平方和的含义。
答:水平项误差平方和简记为SSA ,它是各组平均值与总平均值的误差平方和,反映各总体的样本均值之间的差异程度,因此双称为组间平方各。
误差项平方和,简记为SSE ,它是每个水平或的各样本数据与其组平均值误差的平方和,反映了每个样本各观测值的离散状况,因此双称为组内平方和或残差平方和。
11. 解释试验、试验设计、试验单元的含义。
答:试验:收集样本数据的过程。
试验设计:收集样本数据的计划。
试验单元:接受“处理”的对象或实体。
12. 简述完全随机化设计、随机化区组设计、因子设计的含义。
答:含义:
完全随机化设计:将k 种“处理”随机地指派给试验单元的设计。
随机化区组设计:先按一定规则将试验单元划分为若干同质组,称为“区组”,然后再将各种处理随机地指派给各个区组。
因子设计:考虑两个因素(可推广到多个因素)的搭配试验设计。
练习题
1. 解:提出假设:01231123:,:,,H H μμμμμμ==不完全相等
式中,i μ为第i 个样本的均值。
在Excel 中输入相关数据,如下图:
图6.1.1
利用单因素方差分析,可得
图6.1.2
从分析方差表中可以看到,由于
0.014.6574(2,9)8.021517F F =<=
所以不拒绝原假设,即不能认为3个总体的均值之间存在显著差异。
4. 解: 对两个因素分别提出如下假设:
行因素(品种)为
012345
112345::,,,,H H μμμμμμμμμμ====不全相等
列因素(施肥方案)为 01234
11234::,,,H H μμμμμμμμ===不全相等
在Excel 中输入相关数据,如下图:
图6.4.1
利用无重复双因素分析,可得
图6.4.2
从分析方差表中可以看到,
由于,
7.239716492>F 3.2591667R F α==
所以拒绝原假设0H ,认为品种对收获量有显著影响。
由于,
9.20465763>F 3.490295R F α==
所以拒绝原假设0H ,认为施肥方案对收获量有显著影响。
思考与练习(第七章)
思考题
1. 相关分析与回归分析的区别和联系是什么?
答:相关与回归分析是研究变量之间不确定性统计关系的重要方法,相关分析主要是判断两个或两个以上变量之间是否存在相关关系,并分析变量间相关关系的形态和程度。
回归分析主要是对存在相关关系的现象间数量变化的规律性作出测度。
但它们在研究目的和对变量的处理上有明显区别。
它们均是统计方法,不能揭示现象之间的本质关系。
3.什么是总体回归函数和样本回归函数?它们之间的区别是什么?
答:答:以简单线性回归模型为例,总体回归函数是总体因变量的条件期望表现为自变量的函数:,或。
总体回归函数是确定的和未知的,是回归分析所估计的对象。
样本回归函数是根据样本数据所估计出的因变量与自变量之间的函数关系:或。
回归分析的目的是用样本回归函数来估计总体回归函数。
它们的区别在于,总体回归函数是未知但是确定的,而样本回归函数是随样本波动而变化;总体回归函数的参数
, 是确定的,而样本回归函数的系数,是随机变量;总体回归函数中的误差项i u 不可观察的,而样本回归函数中的残差项i e 是可以观察的。
4.什么是机误差项和残差?它们之间的区别是什么?
答:随机误差项表示自变量之外其他变量的对因变量产生的影响,是不可观察的,通常要对其给出一定的假设。
残差项指因变量实际观察值与样本回归函数计算的估计值之间的偏差,是可以观测的。
它们的区别在于,反映的含义是不同且可观察性也不同,它们的联系可有下式:
5.为什么在对参数进行最小二乘估计之前,要对模型提出一些基本的假定?
答:最小二乘法只是寻找估计量的一种方法,其寻找到的估计量是否具有良好的性质则依赖模型的一些基本的假定。
只有在一系列的经典假定下,最小二乘估计量才是BLUE 。
11.为什么用可决系数能够度量回归方程对样本数据的拟合程度?为什么对多元线性回归的多重可决系数要作修正?
答:可决系数是测定变量间相关关系密切程度的统计分析指标,它也是反映自变量对因变量的联合的影响程度。
可决系数越大,自变量对因变量的解释程度越高,自变量引起的变动占总变动的百分比高。
观察点在回归直线附近越密集。
可决系数的取值范围在0到
1之间,它是一个非负统计量。
随着抽样的不同而不同,既是随样本而变动的统计量。
在样本容量一定下,随着模型中自变量个数的增加,可决系数R2会随之增加,模型的拟合程度上升,但自由度会损失,从而降低推断的精度,因此需要用自由度来修正可决系数,用修正的可决系数来判断增加自变量的合适性。
12.对回归系数显著性作t检验的基本思想是什么?在多元线性回归中,对参数作了t检验以后为什么还要作方差分析和F检验?
答:回归系数显著性检验是检验模型中每个自变量与因变量之间的线性关系是否显著。
显著性检验是通过计算各回归系数的t检验值进行的。
回归系数的t检验值的计算公式为:= (j = 1,2,…,k),式中是回归系数的标准差。
在多元回归模型中,某个变量回归系数的t检验没有通过,说明该变量与因变量之间不存在显著的线性相关关系,在回归分析时就可以将该变量删去,或者根据情况作适当的调整,而后用剩下的自变量再进行回归分析。
t 检验仅是对单个系数的显著性进行检验,由于自变量之间存在着较为复杂的关系,因此有必要对回归系数进行整体检验,方差分析和F 检验就是对回归方程的整体统计显著性进行的检验方法。
17.试证明“在一元回归情形下F=t2, F检验与t检验是等价的”。
试证明在一元回归中t检验与F检验是等价的。
练习题
2.解:在Excel中输入相关数据,如下图,
图7.2.1
(1)如图
图7.2.2
(2) 负相关关系
(3)
图7.2.3 由Excel 回归分析结果可得, 6.0178319950.0704144y x =-
(4) 估计的斜率系数为-0.0704144,表示航班的正点率每提高1%,百万名乘客的投诉
次数会下降:0.0704144*1=0.0704144次。
(5) 6.0178319950.070414480=0.38y =-⨯
4. 解:要Excel 中输入相关数据,如下图,
图7.4.1
Excel 回归分析,可得
图7.4.2
(1)2427.0303130.545903278y x =+
(2)由Excel 回归分析结果可得,
标准误差:3137.800667
可决系数:0.991179504
(3)提出假设:
**01**01:,::,:H H H H ααααββββ=≠=≠
由图7.4.2可得, α的t 统计量为2.996756,β的t 统计量为55.082234。
若取显著性水平为5%,查t 分布表得
0.025(292) 2.0518t -=
显然,α和β的t 统计量都大于0.025(292)t -,表明应拒绝0
H
(4)
20072427.0303130.545903278236000=131260.2
y =+⨯ 利用预测系数的95%上下限计算可得到95%预测区间
[]124799.3793,137721.0287
案例分析
在Excel中输入相关数据,如图1,
图1
讨论题(由于各小题联系比较大,于是将1-4小题统一回答)
首先,对数据进行相关分析检验,得图2
图2
通过相关系数分析,我们可以看到,x1对与y的相关性最大,达到0.992018;x2与y的相关性较弱,仅为0.77707;其余变量皆与y有较大的相关性;也可看出,各变量之间也有较大的相关性,因此,我们需要考虑各单一变量对y的影响强度。
下面我对每一个变量进行回归分析。
a.轿车生产量与私人载客汽车拥有量的关系
图3
从图3可以看出,轿车生产量与私人载客汽车拥有量呈线性正相关,回归统计的可决系数为0.98410066,表明所建的回归模型有很好的拟合度,回归函数为: 11.775686590.20678305y x =+
取显著性水平为0.05,由图3可得α和β的P 值分别为0.7094815和6.608E-15,显然α的p 值大于显著性水平α=0.05,β的值远小于显著性水平,则认为私人载客汽车拥有量对轿车生产量有显著影响。
b. 轿车生产量与城镇居民家庭恩格尔系数的关系
图4
从图4可以看出,轿车生产量与城镇居民家庭恩格尔系数的回归统计的可决系数为0.60383498,负相关,表明所建的回归模型有较差的拟合度,线性关系一般,故不进一步分析。
c. 轿车生产量与公路里程的关系
图5
从图5可以看出,轿车生产量与公路里程呈线性正相关,回归统计的可决系数为0.88588288,表明所建的回归模型有较好的拟合度,回归函数为:
3125.15633 1.40302207y x =-+
取显著性水平为0.05,由图5可得α和β的P 值分别为5.637E-05和1.819E-08,显然α和β的值都远小于显著性水平,但由于β对两者的影响更为显著,则可认为公路里程对轿车生产量有显著影响。
d. 轿车生产量与国内生产总值GDP 的关系
图6
从图6可以看出,轿车生产量与国内生产总值GDP 呈线性正相关,回归统计的可决系数为0.88359024,表明所建的回归模型有较好的拟合度,回归函数为: 470.712670.001829y x =-+
取显著性水平为0.05,由图6可得α和β的P 值分别为0.0015339和2.114E-08,显然α和β的值都小于显著性水平,但由于β对两者的影响更为显著,则可认为国内生产总值GDP 对轿车生产量有显著影响。
e. 轿车生产量与城镇居民人均可支配收入的关系
图7
从图7可以看出,轿车生产量与国内生产总值GDP 呈线性正相关,回归统计的可决系数为0.8421636,表明所建的回归模型有较好的拟合度,回归函数为: 592.9054150.03292845y x =-+
取显著性水平为0.05,由图7可得α和β的P 值分别为0.0014443和2.118E-07,显然α和β的值都小于显著性水平,但由于β对两者的影响更为显著,则可认为城镇居民人均可支配收入对轿车生产量有显著影响。
f. 轿车生产量与以上所有因素的综合关系
图8
从图8可以看出,轿车生产量与以上所有因素可构成一个多元线性回归关系,回归统计的可决系数为0.9934807,表明所建的回归模型有很好的拟合度,回归函数为:
12345
214.13050.2822131 4.20321390.2991960.0019030.0375007y x x x x x =-++--+
取显著性水平为0.05,由图8可得只有 的p值小于显著性水平,则可认为私人载客汽车拥有量对轿车生产量有显著影响。
综上所述,我认为最理想的结果是轿车生产量与私人载客汽车拥有量的线性回归模型,尽管在轿车生产量与以上所有因素的综合关系中的拟合度看似最高,但从显著性分析来看,也是只有私人载客汽车拥有量的影响最大;并且,可以从相关系数分析中看,私人载客汽车拥有量与其它各因单一因素的相关性都比较强,所以一定程度上私人载客汽车拥有量也代表了其它各单一因素。