统计学简答题答案修订
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
统计学简答答案
1.一组数据的分布特征可以从哪几个方面进行描述?
数据分布的特征可以从三个方面进行测度和描述:
(1)分布的集中趋势,反映各数据向其中心值靠拢或聚集的程度;
(2)分布的离散程度,反映各数据远离其中心值的趋势;
(3)分布的形状,反映数据分布的偏态和峰态。
2.影响样本量大小的因素有哪些?简述这些因素与样本量的关系。
(1)影响样本量大小的因素有:所要求的置信水平、总体方差和估计时所希望的估计误差。
(2)关系:其他条件不变的情况下:
1)样本量的大小与置信水平成正比。置信水平越大,所需样本量也就越大;
2)样本量与总体方差成正比。总体的差异越大,所要求的样本量也越大;
3)样本量与估计误差的平方成反比,即允许的估计误差的平方越大,所需的样本量就越小。
3.简述统计数据的类型和特点。
类型:(1)按计量尺度:分类数据、顺序数据和数值型数据;
(2)按收集方法:观测数据和实验数据;
(3)按被描述的现象与时间的关系:截面数据和时间序列数据。
特点:(1)按计量尺度分时:分类数据中各类别间是平等的并列关系,各类别间的顺序是可任意改变的;顺序数据的类别间是可以比较顺序的;数值型数据其结果表现为具体的数值。
(2)按收集方法分时:观测数据是在没有对事物进行人为控制的条件下等到的;实验数据的在实验中控制实验对象而收集到的数据。
(3)按被描述的对象与时间关系分时:截面数据所描述的是现象在某一时刻的变化情况;时间序列数据所描述的是现象随时间而变化的情况。
4.在假设检验中,当不拒绝原假设时,为什么不采取“接受原假设”的表示方式?
(1)在假设检验时,当拒绝原假设时,表明样本提供的证据证明它是错误的;当没有拒绝原假设时,也没法证明它是正确的。
(2)采用“接受”原假设的说法,意味着样本提供的证据证明了原假设是正确的。但由于原假设的真实值是什么并不知道,没有足够的证据拒绝原假设并不等于能够证明原假设是真的,它仅仅意味着目前我们还没有足够的证据拒绝原假设,只表示手头上这个样本提供的证据还不足以拒绝原假设。5.什么是判定系数?它在回归分析中的主要作用是什么?
(1)判定系数:回归平方和占总平方和的比例。记为R2,公式为:R2,=SSR/SST.
(2)在回归分析中,R2,主要是用于测度回归直线对观测数据的拟合程度。取值范围是[0,1]。R2,越接近于1,回归直线的拟合程度就越好;R2,越接近于0,回归直线的拟合程度就越差。若所有观测点都落在直线上,R2,=1,拟合是完全的;如果R2,=0,回归直线对数据完全没有拟合。
6.解释95%的置信区间
如果用某种方法构造的所有区间中有95%的区间包含总体参数的真值,5%的区间不包含总体参数的真值,那么,用该方法构造的区间称为置信水平为95%的置信区间。
7.说明区间估计的基本原理
区间估计是在点估计的基础上给出总体参数估计的一个估计区间,该区间通常是由样本统计量加减估计误差得到的。与点估计不同,进行区间估计时,根据样本统计量的抽样分布,可以对统计量与总体参数的接近程度给出一个概率度量。
8.测度两个分类变量相关性的统计量有哪些?他们有什么不同?
测度两个分类变量相关性的统计量有以下几个:
Φ相关系数、列联相关系数(c系数)、v相关系数
(1)Φ相关系数:描述2×2列联表数据相关程度最常用的一种相关系数且Φ系数没有上限。
(2)列联相关系数(c系数):主要用于大于2×2列联表的情况且c系数小于1.
(3)v相关系数:取值在0-1之间,当两个变量相互独立时,v=0;当两个变量完全相关时,v=1.若列联表中有一维为2,v相关系数=Φ相关系数。
9.什么是方差分析?它研究的是什么?
(1)方差分析:就是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。
(2)本质上来说它所研究的是分类型自变量对数值型因变量的影响。
10.方差分析中有哪些基本假定?
方差分析有三个基本假定:
(1)每个总体都应服从正态分布。也就是说,对于因素的每一个水平,其观测值是来自正态分布总体的简单随机样本。
(2)各个总体的方差σ2必须相同。也就是说,各组观察数据是从具有相同方差的正态总体中抽取的。(3)观测值是独立的。也就是说,每个样本数据是来自因子各水平的独立样本
11.相关分析主要解决哪些问题?
相关分析就是对两个变量之间线性关系的描述与变量,它要解决的问题包括:
(1)变量之间是否存在关系?
(2)如果存在关系,它们之间是什么样的关系?
(3)变量之间的关系强度如何?
(4)样本所反映的变量之间的关系能否代表总体变量之间的关系?
为解决这些问题,在进行相关分析时,对总体主要有以下两个假定:
(1)两个变量之间是线性关系。(2)两个变量都是随机变量
12.在回归分析中,F检验和t检验各有什么作用?
(1)t检验常能用作检验回归方程中各个参数的显著性,而F检验则能用作检验整个回归关系的显著性。
(2)各解释变量联合起来对被解释变量有显著的线性关系,并不意味着每一个解释变量分别对被解释变量有显著的线性关系。
(3)在一般情形下,t检验与F检验的结果没有必然联系;但当解释变量之间两两不相关时,若所有解释变量的系数均通过t检验,那么回归方程也能通过F检验。
13.解释回归模型和估计的回归方程的含义
(1)回归模型:描述因变量y如何依赖于自变量x和误差项的方程。只涉及一个自变量的一元线性回归模型可表示为:y=β0+β1 X +ε
(2)估计的回归方程:回归模型中的参数β0和β1是未知数,必须利用样本数据去估计他们。用样本统计量^β0和^β1代替回归方程中的未知数β0和β1,就得到了估计的回归方程。它是根据样本数据求出的回归方程的估计。对于一元线性回归,估计的回归方程形式是:^y=^β0+^β1x
14.解释多重判定系数和调整的多重判定系数的含义和作用
(1)多重判定系数:是多元回归中的回归平方和占总平方和的比例,它是度量多元回归方程拟合程度的一个统计量,反应了在因变量y的变差中被估计的回归方程所解释的比例。
(2)调整的多重判定系数:用样本容量n和自变量的个数k去调整R2 得到,这使得R a 2的值永远小于R2且R a 2的值不会由于模型中自变量个数的增加而越来越接近1,避免增加自变量而高估多重判定系数。
15.解释多重共线性的含义