统计学原理重要公式
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一.加权算术平均数和加权调和平均数的计算
加权算术平均数: ∑∑=
f
xf x 或 ∑
∑
=
f
f
x
x
加权调和平均数: ∑∑∑
∑=
=
f
xf x m m x
频数也称次数。在一组依大小顺序排列的测量值中,当按一定的组距将其分组时出现在各组内的
测量值的数目,即落在各类别(分组)中的数据个数。
再如在3.14159265358979324中,…9‟出现的频数是3,出现的频率是3/18=16.7% 一般我们称落在不同小组中的数据个数为该组的频数,频数与总数的比为频率。
频数也称“次数”,对总数据按某种标准进行分组,统计出各个组内含个体的个数。而频率则每个小组的频数与数据总数的比值。
在变量分配数列中,频数(频率)表明对应组标志值的作用程度。频数(频率)数值越大表明该组标志值对于总体水平所起的作用也越大,反之,频数(频率)数值越小,表明该组标志值对于总体水平所起的作用越小。
掷硬币实验:在10次掷硬币中,有4次正面朝上,我们说这10次试验中…正面朝上‟的频数是4
例题:我们经常掷硬币,在掷了一百次后,硬币有40次正面朝上,那么,硬币反面朝上的频数为____.
解答,掷了硬币100次,40次朝上,则有100-40=60(次)反面朝上,所以硬币反面朝上的频数为60.
一.加权算术平均数和加权调和平均数的计算
加权算术平均数: ∑∑=
f
xf x 或 ∑
∑
=
f
f
x
x
x 代表算术平均数;∑是总和符合;f 为标志值出现的次数。
加权算术平均数是具有不同比重的数据(或平均数)的算术平均数。比重也称为权重,数据
的权重反映了该变量在总体中的相对重要性,每种变量的权重的确定与一定的理论经验或变量在总体中的比重有关。依据各个数据的重要性系数(即权重)进行相乘后再相加求和,就是加权和。加权和与所有权重之和的比等于加权算术平均数。
加权平均数 = 各组(变量值 × 次数)之和 / 各组次数之和 = ∑xf / ∑f
加权调和平均数: ∑
∑∑
∑==f
xf x
m m x
加权算术平均数以各组单位数f 为权数,加权调和平均数以各组标志总量m 为权数但计算内容和结果都是相同的。
二.标准差和标准差系数的计算方法标准差:
σ=
()
∑
∑-
f
f
x
x2
公式
标准差也被称为标准偏差,或者实验标准差,公式如图。
简单来说,标准差是一组数据平均值分散程度的一种度量。一个较大的标准差,代表大部分数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值。
例如,两组数的集合 {0, 5, 9, 14} 和 {5, 6, 8, 9} 其平均值都是 7 ,但第二个集合具有较小的标准差。
标准差可以当作不确定性的一种测量。例如在物理科学中,做重复性测量时,测量数值集合的标准差代表这些测量的精确度。当要决定测量值是否符合预测值,测量值的标准差占有决定性重要角色:如果测量平均值与预测值相差太远(同时与标准差数值做比较),则认为测量值与预测值互相矛盾。这很容易理解,因为如果测量值都落在一定数值范围之外,可以合理推论预测值是否正确。
标准差应用于投资上,可作为量度回报稳定性的指标。标准差数值越大,代表回报远离过去平均数值,回报较不稳定故风险越高。相反,标准差数值越细,代表回报较为稳定,风险亦较小。
例如,A、B两组各有6位学生参加同一次语文测验,A组的分数为95、85、75、65、55、45,B组的分数为73、72、71、69、68、67。这两组的平均数都是70,但A组的标准差为17.07分,B组的标准差为2.37分(此数据时在R统计软件中运行获得),说明A组学生之间的差距要比B组学生之间的差距大得多。
如是总体,标准差公式根号内除以n
如是样本,标准差公式根号内除以(n-1)
因为我们大量接触的是样本,所以普遍使用根号内除以(n-1)
公式意义
所有数减去其平均值的平方和,所得结果除以该组数之个数(或个数减一),再把所得值开根号,所得之数就是这组数据的标准差。
标准差的意义
标准差越高,表示实验数据越离散,也就是说越不精确
反之,标准差越低,代表实验的数据越精确
离散度
标准差是反应一组数据离散程度最常用的一种量化形式,是表示精密确的最要指标。说起标准差首先得搞清楚它出现的目的。我们使用方法去检测它,但检测方法总是有误差的,所以检测值并不是其真实值。检测值与真实值之间的差距就是评价检测方法最有决定性的指标。但是真实值
是多少,不得而知。因此怎样量化检测方法的准确性就成了难题。这也是临床工作质控的目的:保证每批实验结果的准确可靠。
虽然样本的真实值是不可能知道的,但是每个样本总是会有一个真实值的,不管它究竟是多少。可以想象,一个好的检测方法,基检测值应该很紧密的分散在真实值周围。如何不紧密,那距真实值的就会大,准确性当然也就不好了,不可能想象离散度大的方法,会测出准确的结果。因此,离散度是评价方法的好坏的 最重要也是最基本的指标。
标准差系数: x
v σ
σ=
三.总体平均数和总体成数的区间估计。
抽样平均误差的计算公式: 1.总体平均数: 重复抽样:n
x σμ=
重复抽样又称放回式抽样。
每次从总体中抽取的样本单位,经检验之后又重新放回总体,参加下次抽样,这种抽样的特点是总体中每个样本单位被抽中的概率是相等的。
不重复抽样: )1(2
N
n n
x -
=σ
μ
不重复抽样亦称不放回式抽样。
每次从总体中抽取的样本单位,经检验之后不再放回总体,在下次抽样时不会再次抽到前面已抽中过的样品单位。
总体每经一次抽样,其样品单位数就减少一个,因此每个样品单位在各次抽样中被抽中的概率是不同的。
2.总体成数:
重复抽样: n
p p p )1(-=
μ 不重复抽样: )1()1(N
n n
p p p -
-=
μ
抽样极限误差: