文件B彻底理解样本方差为何除以n-1-Abner-CSDN博客
标准偏差为什么除以n-1
标准偏差为什么除以n-1标准偏差是用来衡量一组数据的离散程度的统计量,它可以帮助我们了解数据的分布情况。
在计算标准偏差时,我们经常会遇到一个除以n-1的操作,这是为什么呢?接下来我们将从数学和统计学的角度来解释这个问题。
首先,我们来看一下标准偏差的计算公式:标准偏差 = sqrt(Σ(xi x)² / (n 1))。
其中,Σ代表求和,xi代表每个数据点,x代表数据的平均值,n代表数据的个数。
在计算标准偏差时,我们会发现分母是n-1而不是n,这是因为我们使用样本数据来估计总体的标准偏差。
为了理解为什么要除以n-1,我们需要先了解一下总体标准差和样本标准差的区别。
总体标准差是用来衡量整个总体数据的离散程度,而样本标准差是用来估计总体标准差的。
在统计学中,我们通常使用样本数据来推断总体的特征,因为很难获取到整个总体的数据。
当我们使用样本数据来估计总体标准差时,我们会发现样本数据的离散程度往往会比总体数据的离散程度小一些。
这是因为样本数据中的每个数据点都是从总体中抽取出来的,而在这个过程中会丢失一些信息。
为了弥补这个信息的损失,我们需要对样本标准差进行修正,这就是为什么要除以n-1而不是n的原因。
具体来说,当我们使用样本数据来估计总体标准差时,我们会发现样本数据的离散程度往往会比总体数据的离散程度小一些。
这是因为样本数据中的每个数据点都是从总体中抽取出来的,而在这个过程中会丢失一些信息。
为了弥补这个信息的损失,我们需要对样本标准差进行修正,这就是为什么要除以n-1而不是n的原因。
总之,标准偏差除以n-1是为了修正样本数据对总体数据离散程度的低估,从而更准确地估计总体数据的离散程度。
这种修正方法在统计学中被广泛应用,并且经过了严格的理论推导和实践验证。
希望通过本文的解释,读者对标准偏差为什么除以n-1有了更深入的理解。
样本方差公式中N-1的思考
样本方差公式中N-1的思考蒲智勇摘要:样本方差是来判断数据的稳定性的,在生活中应用样本方差来做出选择,直接关系着事件的成功与否。
本文通过文件检索等方法,分析了的意义与来源,得出样本方差公式中N-1是对标准方差的修正的结果。
关键词:样本样本方差统计量无偏性Sample variance formula for N - 1Abstract:the stability of the sample variance is to judge the data, application sample variance in life to make a choice, directly related with the success of the event. In these paper, through methods of document retrieval, analyzes the meaning and origin, draw a sample variance formula for N - 1 is the result of a modification to the standard variance.Keywords:sample sample variance statistics magnitude unbiasedness前言:目前许多教材上,对样本方差是如何来的都未做出解释,即使有也一笔带过,大学上课的老师提都未提。
大学是来做学问的地方,怎么不去探讨它?当接触这样本方差公式时,就在想是不是,样本的平均值与观察值相等的原因引起的。
就随便列举了一组观察值,恰好观察值与样本均值相等,就草率的认为明白了这公式。
但心里还是对这个公式感觉怪怪的,怎么跟以前的方差公式不一样,以前是N,怎么现在变成了N-1?一直想从其他角度推出这个公式,因为个人因素,未能如愿。
那就只有从侧面去解释这个原因一、样本方差中的基本概念为无偏估计。
为什么样本方差里面要除以(n-1)而不是n
为什么样本方差里面要除以(n-1)而不是n?(---by小马哥整理)首先,我们来看一下样本方差的计算公式:(1) 刚开始接触这个公式的话可能会有一个疑问就是:为什么样本方差要除以(n-1)而不是除以n?为了解决这个疑惑,我们需要具备一点统计学的知识基础,关于总体、样本、期望(均值)、方差的定义以及统计估计量的评选标准。
有了这些知识基础之后,我们会知道样本方差之所以要除以(n-1)是因为这样的方差估计量才是关于总体方差的无偏估计量。
这个公式是通过修正下面的方差计算公式而来的。
公式(2)是我们按照正常的思维, 思考的应该有的方差的计算公式,也就是除以n的情况:(2)公式(3)是我们经过修正得到的式子, 修正过程为:(3)我们在课本上看到的其实是修正后的结果:(4) 下面详细(推导)讲, 为啥会要乘以前面那个(1/n-1), 来对公式(2)进行修正.为了方便叙述,在这里说明好数学符号:(5) 前面说过样本方差之所以要除以(n-1)是因为这样的方差估计量才是关于总体方差的无偏估计量。
在公式上来讲的话就是样本方差的估计量的期望要等于总体方差。
如下:(6) 但是没有修正的方差公式,它的期望是不等于总体方差的(下面会讲解详细原因, 就是下面那个公式推导!)(7) 也就是说,样本方差估计量如果是用没有修正的方差公式来估计总计方差的话是有偏差的下面给出比较好理解的公式推导过程:(8) 也就是说,除非否则一定会有(9) 需要注意的是不等式右边的才是的对方差的“正确”估计,但是我们是不知道真正的总体均值是多少的,只能通过样本的均值来代替总体的均值。
所以样本方差估计量如果是用没有修正的方差公式来估计总计方差的话是会有偏差,是会低估了总体的样本方差的。
为了能无偏差的估计总体方差,所以要对方差计算公式进行修正,修正公式如下:(10) 这种修正后的估计量将是总体方差的无偏估计量,下面将会给出这种修正的一个来源;为了能搞懂这种修正是怎么来的,首先我们得有下面几个等式:1.方差计算公式:(11) 2. 均值的均值、方差计算公式:(12) 对于没有修正的方差计算公式我们有:(13)因为:(14) 所以有:(15) 在这里如果想修正的方差公式,让修正后的方差公式求出的方差的期望为总体方差的话就需要在没有修正的方差公式前面加上来进行修正,即:(16) 所以就会有这样的修正公式:(17) 而我们看到的都是修正后的最终结果:(18)。
关于求方差时为什么要除以n
关于求方差时为什么要除以n-1,而不是除以n的问题
无论你采用哪种抽样方法,样本都不可能覆盖全体对象,所以为了补偿误差,便除以n-1。
比如统计一个国家人民的身高的时候,整个国家里应该有最高与最矮的人,但是你自己确定的样本里,往往很难取到这么稀有的数值,所以你根据样本算出的波动区间往往小于实际波动区间,所以便除以n-1来补偿。
一般都能够理解样本计算出的结果和实际结果之间的误差,但不明白的是如果要补偿误差的话,为什么是n-1而不是n-2或n-3、甚至其他的数,这些数不是同样可以增大结果吗?
具体说来,抽样,实际上也就是通过样本去估计总体。
用样本去估计总体,当然就要评估估计的好坏如何。
首先,评估方面就是先要评估这个估计是有偏估计还是无偏估计,无偏估计更为有效。
除以n所得到的样本方差虽然也是总体方差的估计量,但并不是无偏估计量,而除以n-1所得到的样本标准方差则是无偏估计量。
正因为除以n-1所得到的样本标准方差是总体的无偏估计,所以它更科学,误差更小。
若除以n-2或n-3的话,首先未必能保证这就是总体方差的估计量,即使是,也不会是无偏估计。
之所以选择n-1,这个不是巧合,而是数学推导下的结果。
更进一步说的话,若发现两个估计量都是无偏估计量,那就得评估这两个估计量的方差的大小,也就是有效性问题,谁的方差小,谁就更有效。
方差为什么要除以n-1
样本方差为什么是除以n‐1不要bs……话说这个问题从中学开始就困扰着我,可是课本上通常都是语焉不详一笔带过,似乎是很显然的样子,搞得我一度无限怀疑自己的智商。
最近仔细看了看书,整理了一下思路,终于把它推倒了。
赶紧记下来,请各位过路的大牛指教。
下面的推倒过程需要两个结论,在这里不加证明了,基本上概率书上都有。
(1)对于任意两个随机变量X,Y都有 E(X+Y) = E(X) + E(Y),和的期望等于期望的和 (2) V(X) = E(X^2) – E(X)^2,方差等于平方的期望减去期望的平方。
(3)若X,Y独立,有V(X+Y) = V(X) + V(Y)。
另外还有E(aX+b) = aE (X) + b, V(aX+b) = a^2*V(X)从头来说,有这么个随机变量X,我们不知道它的分布,但是我们可以获得很多个满足同样分布的样本Xi,现在我们要从这些样本里估计这个随机分布的一些信息,比如它的均值(所谓总体均值)和方差(所谓总体方差)。
当然我们想让我们的估计尽可能地准确,判断准确与否的一个标准(不是唯一标准)就是看它是不是“无偏估计”(unbiased estimation),所谓无偏估计就是说这个估计的期望值(每个样本都是一个随机变量,估计值是由这样样本算出来的,所以也是个随机变量,也有期望方差等等概念)就是真实值。
比如最简单的,样本均值 就是一个无偏估计,因为我们可以证明:这里第三个等号用到了结论(1)。
这个样本均值比较自然而符合直观,加起来一除自然是平均值。
但下面不太符合直观的来了,样本方差的无偏估计是这里的就是上面那个样本均值。
这里就比较别扭了,因为感觉上应该是除以n才对,怎么会冒出一个n1来?但是下面我们可以证明 .推倒前还需要一个东西,的方差:下面可以开始了:这里后面那个E分成了三部分,第一部分这里第二个等号利用结论(2)关于第二部分和第三部分,实际上有这个只要把代入展开就可以发现,所以后面两项就只剩下了,而代入起来就有。
总体方差与样本方差的计算方法
总体方差与样本方差的计算方法宝子,今天咱们来唠唠总体方差和样本方差的计算方法呀。
先说说总体方差。
总体方差呢,是用来描述整个总体数据的离散程度的。
假如我们有一组数据,比如说有n个数据,分别是x₁,x₂,x₃……一直到xₙ。
那总体方差的计算公式就是:先算出这组数据的平均数,设这个平均数是μ,μ=(x₁ + x₂ + x₃+……+xₙ)/n。
然后总体方差σ² = [(x₁ - μ)²+(x₂ - μ)²+(x₃ - μ)²+……+(xₙ - μ)²]/n。
简单来说呢,就是每个数据与平均数的差的平方和,再除以数据的个数。
这就像是看这组数据里的每个数偏离平均数有多远,总体方差越大,说明这些数据越分散,就像一群调皮的小娃娃,跑得特别开。
再讲讲样本方差。
样本方差和总体方差有点像,但又有点小区别。
为啥要有样本方差呢?有时候我们没办法获取整个总体的数据,只能抽取一部分作为样本呀。
假如我们抽取的样本有m个数据,y₁,y₂,y₃……一直到yₙ,样本的平均数设为xₙ,xₙ=(y₁ + y₂ + y₃+……+yₙ)/m。
样本方差s² = [(y₁ - xₙ)²+(y₂ - xₙ)²+(y₃ - xₙ)²+……+(yₙ - xₙ)²]/(m - 1)。
注意哦,这里是除以m - 1而不是m。
为啥呢?这就像是给样本数据一点小小的“惩罚”,让样本方差能更好地估计总体方差,就像让样本这个小代表更谨慎地反映总体的情况。
宝子,你看总体方差和样本方差的计算方法也不是特别难理解吧。
总体方差是针对整个总体的,样本方差是针对样本的,它们就像两个小工具,能帮助我们了解数据是集中在一起呢,还是分散得乱七八糟的。
要是你在处理数据的时候呀,就能用这两个方差来分析数据的特征啦,是不是感觉自己又掌握了一个超酷的小技能呢?。
样本变异数的公式为何是除以n-1?_详全文
樣本變異數的公式為何是除以n-1?淡江大學數學系 鄭惟厚教授高中數學課本中提到,假設母體數據n x x x ,,,21 的平均數等於µ,則母體變異數為()nx n i i ∑=−=122µσ,標準差為()nx n i i ∑=−=12µσ。
但是如果n x x x ,,,21 是抽自某一母體的樣本數據,則其樣本變異數等於 ()1122−−=∑=n x xs n i i ,標準差()1122−−==∑=n x x s s n i i 。
同樣都是在計算變異數,為何一個公式是除以n,另一個公式卻是除以n-1呢?除以n 很自然,因為通常求平均都是除以n 的,所以母體變異數的公式相當「正常」,相對來說,樣本變異數的分母n-1,就顯得怪怪的。
要了解n-1的背後原因,首先必須知道,母體和樣本的角色不同、「地位」也就不一樣。
母體是我們的關心對象,通常我們會想要知道有關它的資訊。
比如我們可能有興趣知道,全國成年民眾當中,贊成把集會遊行改成報備制的,占多少百分比。
但是就如同這個例子的「全國成年民眾」,母體通常都很龐大,幾乎不可能對它蒐集完整資訊,通常只能從其中抽取樣本,再從樣本裡面找相關資訊。
樣本變異數2s 的角色,除了可以提供我們有關樣本數據的散佈情況之外,還有一個重要功能,就是當作母體變異數2σ的估計。
當作估計的量,我們會希望它不要系統性的高估、或者系統性的低估,也就是要求估計量有「不偏」性質。
用秤體重來比喻的話,如果體重計有時把我們秤重了些、有時又秤輕了些,但是若秤了許許多多次之後,平均起來就等於我們的真實體重的話,就相當於有不偏性質。
但是假如我家體重計無法正確歸零,常常把我的體重「加碼」,量很多次下來,平均把我多秤了半公斤,這樣就叫做系統性高估,而非「不偏」了。
假設樣本變異數2s 公式的分母是用n 而非n-1的話,如果把它當作母體變異數2σ的估計,常常會低估,不符合「不偏」的條件,但是如果把n 改成n-1,樣本變異數就會是母體變異數的不偏估計,這件事實是可以用數學證明出來的。
标准误差为什么要除以n-1[精华]
「标准偏差」为什么要除以「n -1」印象中,在我的求学过程里并未接触到「标准偏差」的概念,师大毕业后在国中任教了十三年,也只有在「资料整理」中教学生画画统计图表而已;后来转进高中教学,才开始研讨「离差」及「相关系数」等教材(说白一点,第一次教高二数学时,我跟学生一样是个「初学者」)。
一晃又是十三年多,对统编本「∑=-=ni i X x n S 12)(1」的公式,无论正的、倒的、横的、竖的都可以跟学生解释得头头是道之时,ㄧ纲多本的数学教材中突然冒出了「∑=--=ni i X x n S 12)(11」这样一个「莫名其妙」的公式(即「样本标准偏差」)。
好长ㄧ段时间,心里既自责又彷徨更气愤,自责的是这十三年来被我教到的学生全被我「误」了;彷徨的是我该如何去解释这「n -1」?要学生死背吗?(这那是我的教学态度?)还是另编一套理论来「误人子弟」,硬是将公式说得清清楚楚?(那又该怎么说才好呢?)气愤的是为什么不继续沿用「∑=-=ni i X x n S 12)(1」呢?(新教材简直就是在整人吗?)……这个问题在很多的研讨会中被提出来讨论(原来我并不孤独,与我一样心路历程的人还真不少),勉强接受了「不偏估计」的说法,但会后讨论、抱怨声仍不断,多数人还是希望统一使用「∑=-=ni i X x n S 12)(1」这个公式,不要再分什么「母群体标准偏差」或「样本标准偏差」,徒增「教」、「学」之困扰。
(说的也对,您怎么分辨是「母群体」还是「样本」?题目是「求标准偏差」时,到底要算哪一个?总不会两个都要算吧?)抱怨归抱怨,心想新书既敢出版,表示「∑=--=ni i X x n S 12)(11」这样的定义应该是无庸置疑的,不妨先弄清楚它的理论根据再说吧。
没想到经过一段时间的摸索、学习之后,不但接受了这个说法,更认为「∑=--=ni i X x n S 12)(11」应该是「高中数学」中「标准偏差」的唯一定义,略举数项个人论点如下:(仅提供参考,非论教材之是非)一、 高中数学的「统计」教材,开宗明义就是「统计抽样」,其目的是想藉由抽取之「样本」所提供的信息来推估、了解「母群体」的状况。
样本方差的计算
样本方差的计算样本方差是描述一个样本数据离散程度的统计量,其计算过程包括多个步骤。
在计算样本方差时,需要了解一些基本的统计概念,例如平均数、离差、方差等。
本文将从以下几个方面进行讲解和解释。
1. 离差的概念离差是指每个测量值和平均数之间的差异。
在样本方差的计算中,需要对每个测量值和平均数之间的差异进行量化,以便进行方差计算。
离差的计算公式如下:离差 = 观测值 - 平均数例如,对于一个包含5个测量值的样本数据,如下所示:2, 4, 6, 8, 10平均数为:(2+4+6+8+10)/5 = 6对每个测量值和平均数之间的差异进行计算,如下所示:2 - 6 = -44 - 6 = -26 - 6 = 08 - 6 = 210 - 6 = 4因此,这组数据的离差为:-4, -2, 0, 2, 4。
2. 方差的概念方差是反映数据分散程度的一个统计量,是每个离差平方的平均数。
在样本方差的计算中,需要计算每个离差平方和的平均数,得到方差值。
方差的计算公式如下:方差= Σ(观测值 - 平均数)² / (n -1)其中,Σ表示求和符号,n表示样本数量。
在上面的例子中,样本数量n为5。
如果我们使用上面的数据,将每个离差平方计算出来,如下所示:(-4)² = 16(-2)² = 40² = 02² = 44² = 16将每个离差平方加起来,得到28。
然后将28除以(n-1),得到:28/(5-1) = 7因此,这组数据的样本方差为7。
3. 标准差的概念标准差是方差的平方根,用于衡量数据分散情况的一种统计指标。
标准差越大,表示数据越分散;反之,标准差越小,表示数据越集中。
在实际应用中,标准差通常比方差更容易理解和解释。
标准差的计算公式如下:标准差= √方差在上面的例子中,样本方差为7,因此标准差为√7 ≈ 2.65。
需要注意的是,样本方差的计算方法与总体方差的计算方法略有不同。
标准差 n-1
标准差 n-1标准差是一种衡量数据离散程度的统计量,它可以反映数据的波动程度和分布的广度。
在实际应用中,我们常常会遇到两种计算标准差的方法,一种是使用总体标准差公式,另一种是使用样本标准差公式。
而在计算样本标准差时,我们通常会选择使用 n-1 而不是 n 作为除数。
本文将详细介绍标准差 n-1 的计算方法及其在实际中的应用。
首先,我们来看一下为什么在计算样本标准差时要使用 n-1 作为除数。
这是因为在统计学中,我们通常使用样本来估计总体的参数。
而样本标准差是用来估计总体标准差的,为了使样本标准差能够更好地估计总体标准差,我们需要对计算过程进行修正。
使用 n-1 而不是 n 作为除数,可以使样本标准差的计算结果更接近总体标准差。
接下来,我们来看一下标准差 n-1 的计算公式。
样本标准差的计算公式为:s = √(Σ(xi x̄)² / (n-1))。
其中,s 代表样本标准差,Σ 表示求和,xi 表示每个数据点,x̄表示样本均值,n 表示样本容量。
可以看到,在计算样本标准差时,除数是 n-1 而不是 n。
在实际应用中,标准差 n-1 通常用于对样本数据的离散程度进行测量。
比如,在财务分析中,我们可以使用标准差 n-1 来衡量股票收益率的波动程度,从而评估投资风险。
在生产过程控制中,标准差 n-1 可以用来监控产品质量的稳定性,及时发现生产过程中的异常情况。
在医学研究中,标准差 n-1 可以用来评估药物疗效的稳定性,为临床治疗提供科学依据。
此外,标准差 n-1 还可以用于比较不同样本之间的离散程度。
通过比较样本标准差的大小,我们可以判断不同样本的数据分布情况,从而做出合理的决策。
比如,在市场调研中,我们可以使用标准差 n-1 来比较不同产品销售额的波动情况,为制定营销策略提供参考依据。
总之,标准差 n-1 在统计学和实际应用中都具有重要的作用。
通过对样本数据离散程度的测量,我们可以更好地理解数据的特征,从而做出科学的决策。
样本方差推导过程
样本方差推导过程在统计学中,样本方差是描述样本数据离散程度的重要统计量。
它帮助我们了解数据的分布情况以及数据相对于平均值的分散程度。
接下来,让我们逐步推导样本方差的公式。
首先,我们来明确一些基本概念。
假设我们有一个样本,包含$n$ 个数据点,分别记为$x_1, x_2, \cdots, x_n$ 。
样本的平均值记为$\bar{x}$,计算公式为:\\bar{x} =\frac{x_1 + x_2 +\cdots + x_n}{n} =\frac{1}{n}\sum_{i=1}^{n}x_i\我们的目标是找到一个能准确反映样本数据离散程度的量,这就是样本方差。
为了理解为什么要这样推导样本方差,我们先考虑一个简单的想法。
我们可能会想到用每个数据点与平均值的差的绝对值之和来衡量离散程度,即$\sum_{i=1}^{n}|x_i \bar{x}|$。
但是,绝对值在数学计算中不太方便,因为绝对值函数不是处处可导的,这给后续的数学处理带来了困难。
于是,我们改为考虑每个数据点与平均值的差的平方和,即$\sum_{i=1}^{n}(x_i \bar{x})^2$ 。
这样做有几个好处:一是平方运算保证了差值总是非负的,不会出现正负抵消的情况;二是平方运算在数学上处理起来更加方便。
接下来,我们正式推导样本方差的公式。
首先,计算$\sum_{i=1}^{n}(x_i \bar{x})^2$ :\\begin{align}\sum_{i=1}^{n}(x_i \bar{x})^2 &=\sum_{i=1}^{n}(x_i^2 2x_i\bar{x} +\bar{x}^2)\\&=\sum_{i=1}^{n}x_i^2 2\bar{x}\sum_{i=1}^{n}x_i +n\bar{x}^2\\\end{align}\因为$\bar{x} =\frac{1}{n}\sum_{i=1}^{n}x_i$ ,所以$n\bar{x} =\sum_{i=1}^{n}x_i$ 。
样本率的总体方差
样本率的总体方差
样本方差与总体方差的关系公式是样本方差等于总体方差除以n,总体方差的计算公
式分母是n,样本方差的计算公式分母是n-1。
先求出总体各单位变量值与其算术平均数
的离差的平方,然后再对此变量取平均数,就叫做样本方差。
样本方差用来表示一列数的
变异程度,样本均值又叫样本均数,即为样本的均值。
样本是从总体中抽出的部分个体,样本方差是总体方差中n个中的一个。
区别:
1、定义相同:总体方差就是一组资料中各数值与其算术平均数Matches平方和的平
均数。
样本方差就是样本关于给定点x在直线上散播的数字特征之一,其中的点x称作方
差中心。
样本方差数值上等同于形成样本的随机变量对线性中心x之方差的平方和。
2、准确性:总体方差有有限总体和无限总体,有自己的真实参数,这个均值是实实
在在的真值,在计算总体方差的时候,除以的是n。
样本方差是总体里随机抽出来的部分,用来估计总体(总体一般很难知道),由样本可以得到很多种类的统计量。
3、分母相同:总体方差的分母却是n。
样本方差的分母就是n-1。
总体方差和样本方差
总体方差和样本方差在统计学这个广阔的领域中,总体方差和样本方差是两个非常重要的概念。
它们就像是统计学大厦的基石,支撑着我们对数据的理解、分析和决策。
那什么是总体方差呢?想象一下,我们有一个完整的、包含了所有个体的集合,这个集合就被称为总体。
总体方差就是用来衡量这个总体中各个个体与总体均值之间差异程度的一个指标。
简单来说,它反映了总体数据的离散程度。
举个例子,假设我们要研究某个城市所有居民的收入情况。
这个城市里所有居民的收入构成了总体。
我们计算出总体的均值,也就是平均收入。
然后,对于每一个居民的收入,我们计算它与平均收入的差值,将这些差值平方后求平均,就得到了总体方差。
总体方差的计算公式是:总体方差=Σ(X μ)²/ N ,其中 X 代表总体中的每个个体,μ 是总体均值,N 是总体中的个体数量。
接下来,我们再看看样本方差。
在很多实际情况中,我们很难获取到整个总体的数据,这时候就需要通过抽取一部分个体来进行研究,这部分被抽取出来的个体就组成了样本。
样本方差就是基于样本数据来估计总体方差的一个指标。
比如说,我们想要了解一个大型工厂里所有工人的工作效率,但由于工人数量太多,我们只能随机抽取一部分工人进行观察和记录。
这部分被抽取的工人的工作效率数据就是样本。
通过计算样本中每个数据与样本均值的差值的平方的平均值,我们就得到了样本方差。
样本方差的计算公式是:样本方差=Σ(X x)²/(n 1),这里的 X 代表样本中的每个个体,x是样本均值,n 是样本中的个体数量。
那为什么样本方差的分母是(n 1)而不是 n 呢?这是因为在通过样本估计总体方差时,为了使样本方差能更好地估计总体方差,就采用了(n 1)作为分母,这被称为自由度的修正。
总体方差和样本方差在实际应用中有很多重要的作用。
比如在质量控制中,通过计算产品某些指标的方差,可以判断生产过程是否稳定,是否存在异常;在金融领域,对股票收益率的方差分析可以帮助投资者评估风险;在医学研究中,对药物疗效数据的方差分析能帮助判断不同治疗方法的效果差异。
林泽民统计学中算变异量为什么要除以n-1?什么是「自由度」?
林泽民统计学中算变异量为什么要除以n-1?什么是「自由度」?文献来源:Lin, T. (2017). 统计学中算变异量为什么要除以n-1?什么是「自由度」?[EB/OL]./nilnimest/92412101作者简介:林泽民(LIN, Tse-min),美国明尼苏达大学政治学博士,现任美国德克萨斯大学奥斯汀分校(University of Texas at Austin)政府系副教授,专长政治学方法论、形式理论、美国与比较政治行为研究,在American Political Science Review, American Journal of Political Science, Journal of Democracy, Journal of Politics, Political Analysis, World Politics等国际顶级期刊上发表论文多篇。
样本变异量是基本统计学一个很难懂也很难教的概念。
初学统计学的学生一开始就遇到这个概念,如果没学懂,很可能就对统计学丧失了信心或兴趣。
这个概念难懂之处并不只在于它的意义或用处,更在于它的公式:这个公式的分子是所谓「差方和」(sum of squared deviations) , 还不算太难懂。
真正难懂的地方是分母:如果要求「平均差方」(mean squared deviations),应该把差方和除以n,为什么要除以n-1?一般老师对这个问题通常会回答说因为分子使用了样本平均数,失去了一个「自由度」(degrees of freedom),所以除以n-1。
有的老师还会进一步说如果计算差方和使用的不是样本平均数而是母体平均数,则除以n即可。
至于为何使用样本平均数会失去一个「自由度」,有点耐心的老师会解释:样本平均数是原来n个数算出来的,有了样本平均数,原来n个数就被「限制」住了,只有n-1个是「自由」的。
学生听到这里常常满头雾水。
他们会想:原来n个数不是已经知道了吗,说他们是「自由」究竟是什么意思?而且就算「自由度」的概念懂了,又为什么要把差方和除以自由度,除以n得到平均差方不是更直接了当吗?如果学生那样反问,没有耐心的老师可能会干脆说:当n很大的时候,其实除以n和除以n-1是差不多的,照着公式做就对了。
样本方差的推导
样本方差的推导概率论中的方差表示方法:样本方差、无偏估计、无偏方差( )。
对于一组随机变量,从中随机抽取N 个样本,这组样本的方差是Xi^2的平方和除以N-1。
总体方差,也叫有偏估计,其实就是我们从初中和高中学到的标准定义的方差,除数为N。
统计中的方差表示:二、为什么样本方差的分母是n-1?为什么叫无偏估计?简单的答案是因为平均值,您使用了n 个数字的平均值进行估计。
在计算方差时,只有(n-1) 个数字和均值信息是不相关的。
而你的第n个数已经可以由第一个(n-1)数和均值唯一确定,其实没有多少信息量。
所以在计算方差的时候,只要除以(n-1) .更严格的证明呢?样本方差计算公式中分母的目的是n-1,使方差的估计无偏。
直观上,无偏估计( ) 优于有偏估计( ),尽管一些统计学家认为使平均误差或MSE 最小更有意义,我们在此不再讨论;违反直觉的是为什么分母必须是n-1 而不是n 才能使估计无偏。
首先,我们假设随机变量的数学期望是已知的,但是方差是未知的。
在这种情况下,根据方差的定义,我们有所以样本方差与总体方差这个结果是直观的并且在数学上是显而易见的。
现在,我们考虑随机变量样本方差与总体方差样本方差与总体方差样本方差与总体方差三、理论推导为了描述方便,这里解释一下数学符号:样本方差与总体方差如前所述,之所以将样本方差除以(n-1),是因为这样的方差估计量是关于总体方差的无偏估计量。
用公式来说,就是样本方差。
等于总体方差。
如下:但是没有修正方差公式,它的期望不等于总体方差也就是说,如果样本方差估计器使用未校正的方差公式来估计总方差,则它是有偏的下面让我们更好地理解公式推导过程:样本方差与总体方差也就是说,除非否则会有需要注意的是,不等式右边是方差的“正确”估计,但我们不知道真正的总体均值是什么,只能用样本均值代替总体均值。
因此,如果样本方差估计器使用未校正的方差公式来估计总方差,就会有偏差,会低估总体样本方差。
方差 n-1
方差 n-1
分母为n和n-1都是样本方差,这两种计算方法在统计学中都是被认可的,在大样本情况下这两者几乎是相等的。
除以n结果就是估计出来的方差平均来看比真实方差偏小,所以要进行修正,怎么修正呢?那就是把分母变小,变为多小呢,用n-1就比较好。
n-1在大部分统计学教材中会说成是“自由度”,个人认为,对于样本方差来说,自由度这个概念对它没什么用,为何?因为即使没有自由度这个概念也并不影响它的使用。
你希望样本方差是无偏估计量,则分母使用n-1。
你希望不要让小的方差影响你(比如金融风险,方差太小会让你忽视风险;精密仪器生产商不希望小方差让他们放松对产品质量的把控等),那么分母用n-1进行修正。
否则你把分母使用为n有什么问题吗?没有问题,因为分母是n的话,样本方差是渐进无偏的,并且从“均方误差(MSE)”的观点来看它比n-1有更小的“均方误差”。
统计学教材都把n-1说成是自由度,然后就出现了一个新问题,那就是“何为自由度”,于是一批批的学生被绕进了自由度概念中不能自拔。
把n-1说成是让样本方差成为无偏估计量不是更好吗?那么就直接跳过了“自由度”这个概念。
而在卡方分布,t分布和F分布的时候再提自由度是不是会更好,因为这三大分布本身就有自由度这个概念。
假设某个统计量符合t分布,那么我们就要确定t分布的自由度,然后就要确定自由度,我相信,大部分学生都会很好的理解自由度概念,从而“自由度”不再神秘,而是显得那么的自然和易懂。
样本方差与总体方差的区别
样本方差与总体方差的区别
之前一直对于样本方差与总体方差的概念区分不清,对于前者不仅多了“样本”
两个字,而且公式中除数是N-1,而不是N。
现在写下这么写东西,以能彻底把他们的区别搞清楚。
总体方差:
也叫做有偏估计,其实就是我们从初高中就学到的那个标准定义的方差,除数是N。
如“果实现已知期望值,比如测水的沸点,那么测量10次,测量值和期望值之间是独立的(期望值不依测量值而改变,随你怎么折腾,温度计坏了也好,看反了也好,总之,期望值应该是100度),那么E『(X-期望)^2』,就有10个自由度。
事实上,它等于(X-期望)的方差,减去(X-期望)的平方。
”所以叫做有偏估计,测量结果偏于那个”已知的期望值“。
样本方差:
无偏估计、无偏方差(unbiased variance)。
对于一组随机变量,从中随机抽取N个样本,这组样本的方差就是Xi^2平方和除以N-1。
这可以推导出来的。
如果现在往水里撒把盐,水的沸点未知了,那我该怎么办?我只能以样本的平均值,来代替原先那个期望100度。
同样的过程,但原先的(X-期望),被(X-均值)所代替。
设想一下(Xi-均值)的方差,它不在等于Xi的方差,而是有一个协方差,因为均值中,有一项Xi/n是和Xi相关的,这就是那个"偏"的由来
证明:
证毕~~。
方差的计算方法
方差的计算方法方差是描述数据分散程度的统计量,它衡量了每个数据点与数据集平均值之间的差异程度。
在实际应用中,方差的计算方法有多种,下面我们将介绍几种常用的计算方法。
一、样本方差的计算方法。
样本方差是用来估计总体方差的,计算公式如下:\[ s^2 = \frac{\sum_{i=1}^{n}(x_i \bar{x})^2}{n-1} \]其中,\( x_i \) 表示第i个数据点,\( \bar{x} \) 表示样本均值,n表示样本容量。
样本方差的计算方法比较简单,只需要计算每个数据点与样本均值的差的平方,然后求和并除以n-1即可得到样本方差。
二、总体方差的计算方法。
总体方差是用来描述整个总体数据分散程度的统计量,计算公式如下:\[ \sigma^2 = \frac{\sum_{i=1}^{N}(x_i \mu)^2}{N} \]其中,\( x_i \) 表示第i个数据点,\( \mu \) 表示总体均值,N表示总体容量。
总体方差的计算方法与样本方差类似,只是分母变为了总体容量N。
三、计算方法的选择。
在实际应用中,我们需要根据具体情况选择合适的方差计算方法。
如果我们只有样本数据,而且需要估计总体方差,那么就应该使用样本方差的计算方法。
如果我们已经有了整个总体的数据,那么就可以直接使用总体方差的计算方法。
四、方差计算方法的应用。
方差是统计学中非常重要的概念,它在各个领域都有着广泛的应用。
比如在财务分析中,方差可以用来衡量资产的风险程度;在生产过程中,方差可以用来衡量生产线的稳定性;在医学研究中,方差可以用来比较不同治疗方法的效果等等。
总之,方差的计算方法虽然简单,但是在实际应用中却有着广泛的用途。
我们需要根据具体情况选择合适的计算方法,并且结合实际问题加以应用,才能更好地理解和利用方差这一统计量。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
彻底理解样本方差为何除以n-1
设样本均值为,样本方差为,总体均值为,总体方差为,那么样本方差有如下公式:
很多人可能都会有疑问,为什么要除以n-1,而不是n,但是翻阅资料,发现很多都是交代到,如果除以n,对样本方差的估计不是无偏估计,比总体方差要小,要想是无偏估计就要调小分母,所以除以n-1,那么问题来了,为什么不是除以n-2、n-3等等。
所以在这里彻底总结一下,首先交代一下无偏估计。
无偏估计
以例子来说明,假如你想知道一所大学里学生的平均身高是多少,一个大学好几万人,全部统计有点不现实,但是你可以先随机挑选100个人,统计他们的身高,然后计算出他们的平均值,记为。
如果你只是把作为整体的身高平均值,误差肯定很大,因为你再随机挑选出100个人,身高平均值很可能就
跟刚才计算的不同,为了使得统计结果更加精确,你需要多抽取几次,然后分别计算出他们的平均值,分别记为:然后在把这些平均值,再做平均,记为:,这样的结果肯定比只计算一次更加精确,随着重复抽取的次数增多,这个期望值会越来越接近总体均值,如果满足,这就是一个无偏估计,其中统计的样本均值也是一个随机变量,就是的一个取值。
无偏估计的意义是:在多次重复下,它们的平均数接近所估计的参数真值。
介绍无偏估计的意义就是,我们计算的样本方差,希望它是总体方差的一个无偏估计,那么假如我们的样本方差是如下形式:
那么,我们根据无偏估计的定义可得:
由上式可以看出如果除以n,那么样本方差比总体方差的值偏小,那么该怎么修正,使得样本方差式总体方差的无偏估计呢?我们接着上式继续化简:
到这里得到如下式子,看到了什么?该怎修正似乎有点眉目。
如果让我们假设的样本方差乘以,即修正成如下形式,是不是可以得到样本方差是总体方差的无偏估计呢?
则:
因此修正之后的样本方差的期望是总体方差的一个无偏估计,这就是为什么分母为何要除以n-1。