应用统计期末考试试题

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

一、数据见参考书1第160页习题3.1

1、计算该数据的均值、方差、标准差、极差、标准误、变异系数、偏度、峰度、25%和75%分位数,并给出这些量的含义。

解:R语言求解结果如下:

a=c(74.3 ,78.8, 68.8, 78.0, 70.4, 80.5, 80.5, 69.7, 71.2, 73.5,

+ 79.5, 75.6, 75.0, 78.8 ,72.0, 72.0, 72.0 ,74.3, 71.2, 72.0,

+ 75.0 ,73.5, 78.8 ,74.3 ,75.8 ,65.0 ,74.3, 71.2 ,69.7 ,68.0,

+ 73.5 ,75.0, 72.0, 64.3, 75.8, 80.3 ,69.7 ,74.3 ,73.5 ,73.5,

+ 75.8, 75.8 ,68.8 ,76.5 ,70.4 ,71.2 ,81.2, 75.0, 70.4, 68.0,

+ 70.4, 72.0 ,76.5, 74.3 ,76.5, 77.6, 67.3 ,72.0, 75.0 ,74.3,

+ 73.5, 79.5, 73.5, 74.7 ,65.0 ,76.5, 81.6 ,75.4, 72.7, 72.7,

+ 67.2, 76.5, 72.7, 70.4, 77.2, 68.8, 67.3 ,67.3, 67.3 ,72.7,

+ 75.8 ,73.5 ,75.0, 73.5 ,73.5 ,73.5, 72.7, 81.6, 70.3, 74.3,

+ 73.5 ,79.5, 70.4, 76.5 ,72.7, 77.2 ,84.3, 75.0 ,76.5 ,70.4);

> mean(a)

[1] 73.668

> var(a)

[1] 15.51513

> sd(a)

[1] 3.938925

> range(a)

[1] 64.3 84.3

> sd(a)/sqrt(length(a))

[1] 0.3938925

> sd(a)/mean(a)

[1] 0.0534686

> n=length(a);

> s=sd(a);

> a.mean=mean(a);

> g1=n/((n-1)*(n-3))*sum((a-a.mean)^3)/(s^3)

> g1

[1] 0.05461661

> g2=n*(n+1)/((n-1)*(n-2)*(n-3))*sum((a-a.mean)^4)/(s^4)-3*((n-1)^2)/((n-2)*(n-3));

> g2

[1] 0.03702249

> quantile(a)

0% 25% 50% 75% 100%

64.3 71.2 73.5 75.8 84.3

> fivenum(a)

[1] 64.3 71.2 73.5 75.8 84.3

将结果总结成下表:

到异常数据的影响,如果样本量较小,出现了异常值,则样本均值就会因异常值的存在受到很大的影响,此时的样本均值往往不能够代表整体的信息。

方差反映的样本数据的波动情况,描述的是数据的分散性,方差越大,说明数据的波动就也大。

标准差是方差的开方,与方差一样,也是反映数据波动情况的统计量。

极差可以反映数据的离散程度,一般说来,极差越小,说明数据的离散程度就越小。 标准误是

m s =

用于比较两个不同样本的离散程度特征。

变异系数是数据相对分散性的一种度量,不受数值变量单位的影响,常用于比较不同来源的观测样本数据的离散程度。

偏度描述的是随机变量取值分布对称性的统计量,偏度为0,说明随机变量密度函数具有对称性,与正态分布的偏度相同;偏度值大于0,值越大时,说明密度函数是右偏越大,密度函数的长尾巴拖在右边;偏度值小于0,绝对值越大,说明密度函数是左偏越大,密度函数的长尾巴拖在左边。

峰度描述的是随机变量密度函数取值布陡峭程度的统计量,峰度为0,说明随机变量密度函数与正态分布密度函数的陡峭程度相同;峰度值大于0,比正态分布陡峭程度更大,为尖顶峰;峰度值小于0,说明比正态分布的陡峭程度小,为平顶峰。

25%分位数,75%分位数也是重要的统计量,分别记为13,Q Q ,记四分位间距为31d Q Q Q =-,常用闭区间13[ 1.5, 1.5]d d Q Q Q Q -+来反映数据的离群数据,若数据位于

13[ 1.5, 1.5]d d Q Q Q Q -+外,则认为该数据为离群数据。四分位间距31d Q Q Q =-也是度量

数据离散程度的一种指标,越小表明数据越集中于中位数。

样本中位数是样本数据取值的为中间位置的数据,相对均值来说,是比较稳定的统计量,一般不会受到异常值的影响。

众数是样本中某一值出现的次数最多的数,有些数据反映的是属性,这时无法用均值以及众数来描述,此时用众数便可分类变量的“中心”。

2、绘出该数据的直方图、密度估计曲线、经验分布图、茎叶图、箱线图,并解释通过这些图得到的统计信息或统计特征。

解:用R 软件求解:

> a=c(74.3 ,78.8, 68.8, 78.0, 70.4, 80.5, 80.5, 69.7, 71.2, 73.5, + 79.5, 75.6, 75.0, 78.8 ,72.0, 72.0, 72.0 ,74.3, 71.2, 72.0, + 75.0 ,73.5, 78.8 ,74.3 ,75.8 ,65.0 ,74.3, 71.2 ,69.7 ,68.0, + 73.5 ,75.0, 72.0, 64.3, 75.8, 80.3 ,69.7 ,74.3 ,73.5 ,73.5, + 75.8, 75.8 ,68.8 ,76.5 ,70.4 ,71.2 ,81.2, 75.0, 70.4, 68.0, + 70.4, 72.0 ,76.5, 74.3 ,76.5, 77.6, 67.3 ,72.0, 75.0 ,74.3, + 73.5, 79.5, 73.5, 74.7 ,65.0 ,76.5, 81.6 ,75.4, 72.7, 72.7, + 67.2, 76.5, 72.7, 70.4, 77.2, 68.8, 67.3 ,67.3, 67.3 ,72.7,

相关文档
最新文档