统计学基本概念与EXCEL函数

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

统计学基本概念与EXCEL函数

编辑自CSDN zxca368

对于一维数据的分析,最常见的就是计算平均值(Mean)、方差(Variance)和标准差(Standard Deviation)。在做【特征工程】的时候,会出现缺失值,那么经常会用到使用平均值或者中位数等进行填充。

一,平均值(Mean)

1,平均值的概念很简单:所有数据之和除以数据点的个数,以此表示数据集的平均大小;

2,平均值的EXCEL函数:AVERAGE

二,方差(Variance),这一概念的目的是为了表示数据集中数据点的离散程度;

1,总体方差

(为总体方差,为变量,为总体均值,为总体例数。)2,样本中各数据与样本平均数的差的平方和的平均数叫做样本方差S2

样本方差的EXCEL函数:VARPA函数

3,样本方差的算术平方根叫做样本标准差。标准差(Standard Deviation,缩写SD),中文环境中又常称均方差,是离均差平方的算术平均数的平方根。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的两组数据,标准差未必相同。

标准差的EXCEL函数:

STDEV:用途:估算样本的标准偏差。它不计算文本值和逻辑值(如TRUE和FALSE)。它反映了数据相对于平均值(mean)的离散程度。

2.STDEVA:基于样本估算标准偏差。标准偏差反映数值相对于平均值(mean)的离散程度。文本值和逻辑值(如TRUE和FALSE)也将计算在内。

3.STDEVP:用途:返回整个样本总体的标准偏差。它反映了样本总体相对于平均值(mean)的离散程度。

简单说函数stdev的根号里面的分母是n-1,而stdevp是n,如果是抽样当然用stdev.在十个数据的标准偏差如果是总体时就用STDEVP,如果是样本是就用STDEV。

至于STDEVA与STDEV差不多,只不过它可以把逻辑值当数值处理。

4,协方差Covariance:

每对数据点的偏差乘积的平均数,利用协方差可以决定两个数据集之间的关系。

协方差的EXCEL函数:covar(第一个所含数据为整数的单元格区域,第二个所含数据为整数的单元格区域)

三,标准误差(Standard error,缩写SE),也称均方根误差(Root mean squared error),标准误差是指在抽样试验(或重复的等精度测量)中,常用到样本平均数的标准差。标准差与标准误差,计算公式类似,但是是两个不同的概念。对一个总体多次抽样,每次样本大小都为n,那么每个样本都有自己的平均值,这些平均值的标准差叫做标准误差。

设n个测量值的误差为,则这组测量值的标准误差等于:

(E为误差=测定值—真实值。)stand error=stand deviation/sqrt(样本数),

标准误差EXCEL函数:excel函数里没有标准误差可直接应用的函数,不过你可以用标准差除以该组数据的个数n的平方根来求。即σ/根号n,σ= stdev(array). 故,若数据组为a1:a10, 在要显示结果的某个单元格里输入公式:= stdev(a1:a10)/sqrt(counta(a1:a10))

如图数据要计算数据与20的标准误差,则可用数组公式:

{=SQRT(AVERAGE((C2:C11-20)^2))} (输入公式后同时按下Ctrl+Shift+Enter完成输入,{}是自动生成的,不是人工输入的)

标准差与标准误差区别意义、作用和使用范围均不同。标准差(亦称单数标准差)一般用SD(Standard Deviation)表示,是表示个体间变异大小的指标,反映了整个样本对样本平均数的离散程度,是数据精密度的衡量指标;而标准误差一般用SE(Standard error)表示,反映样本平均数对总体平均数的变异程度,从而反映抽样误差的大小,是量度结果精密度的指标。

随着样本数(或测量次数)n的增大,标准差趋向某个稳定值,即样本标准差s越接近总体标准差σ,而标准误差则随着样本数(或测量次数)n的增大逐渐减小,即样本平均数越接近总体平均数μ;故在实验中也经常采用适当增加样本数(或测量次数)n减小的方法来减小实验误差,但样本数太大意义也不大。标准差是最常用的统计量,一般用于表示一组样本变量的分散程度;标准误差一般用于统计推断中,主要包括假设检验和参数估计,如样本平均数的假设检验、参数的区间估计与点估计等。

标准差是针对特定的一组数据而言,看数据序列偏离均值的程度;而标准误差则是针对n组数据而言,看每次抽样的效果如何,可以理解为n组数据标准差的标准差。

为什么使用标准差?

与方差相比,使用标准差来表示数据点的离散程度有3个好处:

1.表示离散程度的数字与样本数据点的数量级一致,更适合对数据样本形成感性认知。

依然以上述10个点的CPU使用率数据为例,其方差约为41,而标准差则为6.4;两者相比较,标准差更适合人理解。

2.表示离散程度的数字单位与样本数据的单位一致,更方便做后续的分析运算。

3.在样本数据大致符合正态分布的情况下,标准差具有方便估算的特性:66.7%的数据

点落在平均值前后1个标准差的范围内、95%的数据点落在平均值前后2个标准差的范围内,而99%的数据点将会落在平均值前后3个标准差的范围内。

贝赛尔修正

在上面的方差公式和标准差公式中,存在一个值为N的分母,其作用为将计算得到的累积偏差进行平均,从而消除数据集大小对计算数据离散程度所产生的影响。不过,使用N所计算得到的方差及标准差只能用来表示该数据集本身(population)的离散程度;如果数据集是某个更大的研究对象的样本(sample),那么在计算该研究对象的离散程度时,就需要对上述方差公式和标准差公式进行贝塞尔修正,将N替换为N-1:

公式的选择

是否使用贝塞尔修正,是由数据集的性质来决定的:如果只想计算数据集本身的离散程度(population),那么就使用未经修正的公式;如果数据集是一个样本(sample),而想要计算的则是样本所表达对象的离散程度,那么就使用贝塞尔修正后的公式。在特殊情况下,如果该数据集相较总体而言是一个极大的样本(比如一分钟内采集了十万次的IO数据) —在这种情况下,该样本数据集不可能错过任何的异常值(outlier),此时可以使用未经修正的公式来计算总体数据的离散程度。

变异系数(Coefficient of Variance),标准差与平均数的比值称为变异系数,记为C.V。当进行两

均数不同时,只能用变异系数了,它也是表示离散程度,是标准差和相应平均数的比值。变异系数可以消除单位和(或)平均数不同对两个或多个资料变异程度比较的影响。

相关文档
最新文档