数理统计中自由度的理解和应用

合集下载

统计学中f与df的关系

统计学中f与df的关系

统计学中f与df的关系

在统计学中,F和DF分别代表F统计量和自由度,它们有如下的关系:

1. F值是F检验的统计量,是组间与组内的离差平方和与自由度的比值。主要用于均数差别的显著性检验、分离各有关因素并估计其对总变异的作用、分析因素间的交互作用、方差齐性检验等情况。

2. 自由度(df)指的是计算某一统计量时其取值不受限制的变量个数。通常自由度为N与K的数值差,其中N为样本数量,而K为被限制的条件数或变量个数或计算某一统计量时用到其它独立统计量的个数。自由度通常用于抽样分布中。

因此,F和DF在统计学中具有特定的意义和用途,F值是用于衡量统计量的显著性水平,而自由度则是用于确定统计量的取值范围和样本数量之间的关系。

在实际应用中,F统计量和自由度在很多统计模型中都有重要的应用。例如,在回归分析中,F统计量用于检验回归方程的显著性,而自由度则影响样本的变异程度和估计误差的大小。在方差分析中,F统计量用于比较不同组间的离差大小,而自由度则影响各组内的变异程度和组间离差的比较。

此外,F统计量和自由度也常用于其他统计方法中,如因子分析、聚类分析等。在这些方法中,F统计量用于衡量不同变量或类别之间的相似性或差异性,而自由度则影响样本的代表性和统计量的准确性。

总之,F统计量和自由度是统计学中重要的概念,它们在不同的统计模型和方法中都有广泛的应用。正确理解和运用F统计量和自由度的关系,对于进行科学的统计分析具有重要的意义。

统计学中的自由度

统计学中的自由度

6Sigma的学习过程中会接触到大量的统计学的知识点。虽然大学期间学过《概率论与数理统计》以及《统计学》,但有些细枝末节的知识点仍然感到困惑。比如说自由度,很多统计量的计算公式中都有自由度的概念,可为什么同样是计算标准差,总体标准差的自由度是n,而样本标准差的自由度就是n-1?为什么其它公式中的自由度还有n-2、n-3呢? 它到底是什么含意? 翻看了以前的教材以及到网上查阅了大量相关资料,原来,不仅仅是统计学里有自由度的概念呀!下面把有关自由度的问题点简要归纳一下。 理论力学:确定物体的位置所需要的独立坐标数称作物体的自由度,当物体受到某些限制时——自由度减少。一个质点在空间自由运动,它的位置由三个独立坐标就可以确定,所以质点的运动有三个自由度。假如将质点限制在一个平面或一个曲面上运动,它有两个自由度。假如将质点限制在一条直线或一条曲线上运动,它只有一个自由度。刚体在空间的运动既有平动也有转动,其自由度有六个,即三个平动自由度x、y、z和三个转动自由度a、b、q。如果刚体运动存在某些限制条件,自由度会相应减少。 热力学中:分子运动自由度就是决定一个分子在空间的位置所需要的独立坐标数目。 统计学中:在统计模型中,自由度指样本中可以自由变动的变量的个数,当有约束条件时,自由度减少自由度计算公式:自由度=样本个数-样本数据受约束条件的个数,即df = n - k(df自由度,n样本个数,k约束条件个数) 我们当然最关心的还是统计学里面的自由度的概念。这里自由度的概念是怎么来的呢?据说: 一般总体方差(sigma^2),其实它是衡量所有数据对于中心位置(总体平均)平均差异的概念,所以也称为离散程度,通常表示为sum(Xi-Xbar)^1/2/N ,(有多少个数据就除多少)而样本方差(S^2),则是利用样本数据所计算出来估计总体变异用的(样本统计量的基本目的:少量资料估计总体).一般习惯上,总体怎么算,样本就怎么算,可是在统计上估计量(或叫样本统计量)必须符合一个特性--无偏性,也就是估计量的数学期望值要等于被估计的总体参数=> E(S^2)=sigma^2(无偏估计)。很不幸的,样本变异数E(S^2)并不会等于sigma^2所以必须做修正,而修正后即为sum(Xi-Xbar)^2/(N-1).才会继续带出后来的自由度概念。 网上一些文献的说法也是林林总总。 金志成实验设计书中的定义:能独立变化的数据数目。只要有n-1个数确定,第n个值就确定了,它不能自由变化。所以自由度就是n-1。自由度表示的是一组数据可以自由表化的数

数理统计基本知识

数理统计基本知识
X 2
2
i=1,2,3,4.
故 T 4( X 2)

i 1
4
Yi 2
Y i i 1 2
4
~ t (4)
4
由 P{| T | t 0 } 0.01. 查表得:
t 0 t / 2 (4) t 0.005 (4) 4.6041
24
(三)F分布
设U~2(n1), V~2(n2),且U 与V相互独立, 则称
U / n1 F V / n2 服从自由度为(n1, n2)的F分布,记为 F~F(n1,n2).
F~F(n1,n2)分布的概率密度函数为:
[(n1 n 2 ) / 2](n1 / n 2 ) n1 / 2 y ( n1 / 2)1 ) , ( n n ) / 2 1 2 ( y ) ( n1 / 2)( n 2 / 2)[1 ( n1 y / n 2 )] 0, y 0, y 0.
二、样本与样本值
1.样本 从总体X 中随机地抽取n 个个体X1, X2 ,…, Xn ,这样 取得的 X1, X2 ,…, Xn 称为来自总体X 的一个样本; 2.样本容量 3.样本值 样本中个体的数目 n ; X1, X2 ,…, Xn的一组观察值x1,x2,…,xn ;
4.简单随机样本 在总体中抽取样本的目的是为了对总体的分 布规律进行各种分析推断,这就要求抽取的样本能够反映总体

数理统计核心公式完全解读抽样分布与中心极限定理

数理统计核心公式完全解读抽样分布与中心极限定理

数理统计核心公式完全解读抽样分布与中心

极限定理

数理统计是统计学中的一项重要分支,旨在通过收集和分析数据来揭示现象背后的模式和规律。在数理统计中,抽样分布与中心极限定理是两个核心概念。本文将对这两个概念进行详细解读,并介绍其相关的公式及应用。

一、抽样分布

抽样分布是指从总体中抽取样本的统计量的分布。通过抽样分布,我们可以推断出总体参数的信息。在研究抽样分布时,我们使用了几个重要的公式。

1. 抽样平均数的分布

当从具有总体均值μ和总体标准差σ的总体中抽取容量为n的样本时,样本平均数的分布服从正态分布。其数学表达式为:

X ~ N(μ, σ/√n)

其中,X代表样本平均数,N表示正态分布。

2. 抽样比例的分布

当从总体中抽取容量为n的样本时,样本比例的分布服从近似正态分布,其数学表达式为:

P ~ N(p, √[p(1-p)/n])

其中,P代表样本比例,N表示正态分布,p代表总体比例。

3. 抽样差异的分布

当从具有总体均值μ和总体标准差σ的总体中抽取容量为n的样本时,样本差异的分布可以通过样本标准差来估计总体标准差,并服从自由度为n-1的t分布。其数学表达式为:

T(n-1) = √n(X - μ) / S

其中,T(n-1)表示自由度为n-1的t分布,S代表样本标准差。

二、中心极限定理

中心极限定理是数理统计中最为重要的定理之一,指出当大样本容量n趋近于无穷大时,样本平均数的分布趋近于正态分布。这意味着即使总体分布不是正态分布,抽取的样本平均数仍然具有近似正态分布的特性。

中心极限定理在实际应用中具有广泛的意义,尤其在假设检验和置信区间估计中起到了关键的作用。

spss的二元线性回归结果中自由度

spss的二元线性回归结果中自由度

spss的二元线性回归结果中自由度

回归平方和=自由度×均方

残差均方=残差平方和×残差df

残差F=回归均方÷残差均方

回归是方法,残差在数理统计中是指实际观察值与估计值(拟合值)之间的差,平方和有很多个,不同的平方和的意思不一样,与样本量及模型中自变量的个数有关,样本量越大,相应变异就越大。

df是自由度,是自由取值的变量个数;

均方指的是一组数的平方和的平均值,在统计学中,表示离差平方和与自由度之比;

自由度就是指独立的变量的个数,df=n—k。

在统计模型中,自由度指样本中可以自由变动的独立不相关的变量的个数,当有约束条件时,自由度减少。

自由度计算公式:自由度=样本个数—样本数据受约束条件的个数,即df=n—k(df自由度,n样本个数,k约束条件个数)

多元线性回归中残差平方和,其自由度为n—p—1,因为计算残差时用到回归方程,回归方程中有p+1个未知参数。

而这些参数需要p+1个约束条件予以确定,由此减去p+1,也即其自由度为n—p—1。

自由度怎么看?

自由度怎么看?

自由度怎么看?

自由度是怎么计算的

统计学中的自由度是什么意思

在统计学中,自由度指的是计算某一统计量时,取值不受限制的变量个数。通常df=n-k。其中n为样本含量,k为被限制的条件数或变量个数,或计算某一统计量时用到其它独立统计量的个数。自由度通常用于抽样分布中。

释义

统计学上的自由度是指当以样本的统计量来估计总体的参数时,样本中独立或能自由变化的自变量的个数,称为该统计量的自由度。

2应用

首先,在估计总体的平均数时,由于样本中的n 个数都是相互独立的,从其中抽出任何一个数都不影响其他数据,所以其自由度为n。

在估计总体的方差时,使用的是离差平方和。只要n-1个数的离差平方和确定了,方差也就确定了;因为在均值确定后,如果知道了其中n-1个数的值,第n个数的值也就确定了。这里,均值就相当于一个限制条件,由于加了这个限制条件,估计总体方差的自由度为n-1。

例如,有一个有4个数据(n=4)的样本,其平均值m等于5,即受到m=5的条件限制,在自由确定4、2、5三个数据后,第四个数据只能是9,否则m≠5。因而这里的自由度υ=n-1=4-1=3。推而广之,任何统计量的自由度υ=n-k(k为限制条件的个数)。

其次,统计模型的自由度等于可自由取值的自变量的个数。如在回归方程中,如果共有p个参数需要估计,则其中包括了p-1个自变量(与截距对应的自变量是常量1)。因此该回归方程的自由度为p-1。

这个解释,如果把“样本”二字换成“总体”二字也说得过去。

在一个包含n个个体的总体中,平均数为m。知道了n-1个个体时,剩下的一个个体不可以随意变化。为什么总体方差计算,是除以n

数理统计在工艺验证中的应用

数理统计在工艺验证中的应用
一条。
(3)回归线意义:


回归线是所有点子的中心线; 直线上方各点离线的距离之和与直线下方各点离线的 距离之和相等; 直线必定通过 x、y; a=0时,直线通过原点;
ŷ = a + bx b=1
45°
21


b=0时, ŷ = a ; b=1时, ŷ = a+ x
x、y 增加量相等,直线斜率45°
示例《3》
1)检验假设:µ1 = µ2 2)计算: t = | X1 – X2 |
S1² S2² + n2 n1
t = 2. 20
( X1=46.5 X2=52.8 S1=7.09 S2=6.95 n1=12 n2=12)
3) 确定概率:P
n´= n1 + n2 –2=22 t0.05(22)=2.07
5 23.9 6 25.6
7 28.1
8
26.0
19.4 15.9 20.1 18.7 16.5 19.3 18.9 17.4
9
10 11
12
13 14
15
28.1 26.2 30.7 26.6 25.0 24.8 27.7
x=400.2
y=275.2
19
3)计算:
x = 26.68
y =18.35 r =0.91 a = 2.76 b=0.58

关于不确定度评定中自由度的定义与估算

关于不确定度评定中自由度的定义与估算
依据二等活塞压力计 的检定证书知, 的准确度 为 00 它 .5
u x ()

() 4
级, 按压力计的上 限压力计算允许基本误差 =d .5 - 0% 0 ×. 06=± .0 3 P , 00 0 M a 置信 区间半宽 = .0 3 P , 00 0 M a
置信概率 P= 5 , 9 % 查正态积分表得包含 因子 k = .6 p 19 ,

如果有 / 7 , 个残差 之 间存在着 , 独立 的线性约 ( 个
束条件 , /个变量 中独立变量 的个数为 / k 则称平 即7 , 7 , , 一
性。
]际作也 ) 的可 , 工中把篆叫(估 不靠 实 计
() 1 式和( ) 2 式分别是 A类和 B类标准不确 定度的
准不确定度的 自由度为 : =r一1 l , 过数学推导可得公式为 :
() 1
理论上 , 测量次数 r l , 越大标准不确定度越可靠 , 但实
() 一 . . ]一 . L s ) 一 而 ( x
f 、
维普资讯 http://www.cqvip.com

式中 sx 是按 贝塞尔公式求得 的单次测量 的标准 ()
差 , A类标准不确定度 u x 就等于标准偏差 sx , 因 () ( ) 故
() 3 式又可表示为 :

数理统计的基本概念

数理统计的基本概念

推断 统计学
参数估计 (第7章) 假设检验 (第8章) 方差分析 (第9章) 回归分析 (第9章)
例如 某厂生产一型号的合金材料,用随机的方法选取 100个样品进行强度测试,于是面临下列几个问题:
1、估计这批合金材料的强度均值是多少? (参数的点估计问题) 2、强度均值在什么范围内? (参数的区间估计问题) 3、若规定强度均值不小于某个定值为合格,那么这 批材料是否合格? (参数的假设检验问题) 4、这批合金的强度是否服从正态分布? (分布检验问题) 5、若这批材料是由两种不同工艺生产的,那么不同 的工艺对合金强度有否影响?若有影响,那一种工艺 生产的强度较好? (方差分析问题)
若 X 有期望 EX= 和方差 DX = 2, 则
(1)
EX
1
n
n i 1
EX i
=DX,
1 n2
n
DXi
i 1
= 2/n ;
(2) E(S2) =? 2 ,
E(
S
2 n
)
?
n
n
1
2
;
n11n1
n
E[(Xi i 1
X)2]
n
E (Xi2 )
i 1
nE(X
2)
n
( DXi
i 1
E2Xi)
6.1 简单随机样本
一. 总体和样本 二. 统计量

数理统计的基本概念知识点

数理统计的基本概念知识点

10 06 数理统计的基本概念

知识网络图

正态总体下的四大分布统计量样本函数样本个体总体数理统计的基本概念→⎪⎪⎪⎭

⎪⎪⎪⎬⎫⎪⎪⎪⎩⎪⎪⎪⎨⎧

主要内容

一、样本

我们把从总体中抽取的部分样品n x x x ,,,21Λ称为样本。样本中所含的样品数称为样本容量,一般用n 表示。在一般情况下,总是把样本看成是n 个相互独立的且与总体有相同分布的随机变量,这样的样本称为简单随机样本。在泛指任一次抽取的结果时,n x x x ,,,21Λ表示n 个随机变量(样本);在具体的一次抽取之后,n x x x ,,,21Λ表示n 个具体的数值(样本值)。我们称之为样本的两重性。

二、.统计量

1.定义:称不含未知参数的样本的函数),,,(21n X X X f Λ为统计量

2.常用统计量

样本均值 .11

∑==n

i i x n x 样本方差

∑=--=n i i x x n S 122.)(11 样本标准差 .)(111

2∑=--=n

i i x x n S 样本k 阶原点矩

∑===n i k i k k x n A 1

.,2,1,1Λ 样本k 阶中心矩

∑==-=n

i k i k k x x n B 1

.,3,2,)(1Λ μ=)(X E ,n X D 2

)(σ=,

22)(σ=S E ,221)(σn

n B E -=, 其中∑=-=n

i i X X n B 1

22)(1,为二阶中心矩。 三、抽样分布

1.常用统计量分布

(1)设n X X X ,,,21Λ是相互独立的随机变量,且均服从与标准正态分布)1,0(N ,则222212n n X X X X Λ++=,服从自由度为n 的-2χ分布,记为()n 2~χχ.

概率t检验中的自由度

概率t检验中的自由度

概率t检验中的自由度

在概率t检验中,自由度是一个重要的概念。自由度指的是在数据分析过程中,可以自由变化的独立变量个数。在概率t检验中,自由度的计算公式为:自由度 = (组数 - 1) × (变量数 - 1)。例如,在两组数据的比较中,自由度为 (2-1) × (1-1) = 0。

一元回归和多元回归的自由度都是n-k-1,其中k是解释变量的个数。比如一元回归的自由度是n-1-1=n-2,二元回归的自由度就是n-2-1=n-3,以此类推。在数学方面,他们在技术上定义为一个随机向量域的维数。这是统计中的自由度的一种理念。

自由度通常被广泛地定义为“观测”(信息的片段)在估计统计参数时自由变化的数据的数量。举一个例子,比如两样本(如某班男生和女生)某变量(如身高)的均数并不相同,但这差别是否能推论至总体,代表总体的情况也是存在著差异呢?与统计学家建立的以「总体中没差别」作基础的随机变量t分布进行比较,看看在多少%的机会(亦即显著性sig值)下会得到目前的结果。若显著性sig值很少,比如<0.05(少於5%几率),亦是说,「如果」总体「真的」没有差别,那么就只有在机会很少(5%)、很罕有的情况下,才会出现目前这样本的情况。

数理统计主要知识点

数理统计主要知识点

《数理统计》的主要知识点 一.统计量及其抽样分布 (一)统计量的概念

1. 统计量的定义: 简单地说,统计量就是样本i x 的函数,它除i x 外不含其它未知参数。

2. 简单随机抽样:从总体中抽取样本n x x x 21,若它们相互独立同分布 ,且分布与总体 相同,则称其为简单随机抽样。

3. 常见的统计量:

(1)样本均值: ∑==n i i x n x 11 (2)样本方差:()

2

1

2

11∑=--=n i i x x n s (3)样本k 阶原点距: ∑==n i k i k x n a 11 (4)样本k 阶中心距: ()

∑=-=n

i k i k x x n b 1

1

(二)抽样分布的结构和性质

1. 2

χ分布: 若 n X X X ,,21 是来自总体X 的简单随机抽样,且X ~()1,0N ,则随机变量

2χ=22221n X X X +++ ,此时称其分布为自由度为n 的2χ分布,记2χ~()n 2χ

性质: ①()n E =2

χ

② ()n D 22

2.F 分布:若X ~()n 2

χ

,Y ~()m 2

χ,且Y X 与相互独立,记随机变量

F m

Y n X

=,称其分布为自

由度为n 与m 的F 分布,记 F ~F ()m n ,

性质:()()

n m F m n F ,1

,1αα-=

3.t 分布:

设随机变量Y X 与相互独立,且X ~()1,0N ,Y ~()n 2

χ

,则称 n

Y X t =

的分布为自由度为n 的

t 分布,记t ~t ()n

性质:①自由度为1的t 分布是标准柯西分布,它的均值不存在;

卡方分布及其在统计推断中的应用

卡方分布及其在统计推断中的应用

卡方分布及其在统计推断中的应用卡方分布是数理统计中常用的一种概率分布,它以统计学家皮尔逊(Karl Pearson)的名字命名。卡方分布在统计学中有着广泛的应用,

特别是在统计推断中。本文将介绍卡方分布的基本概念、性质以及统

计推断中的应用。

一、卡方分布的基本概念

卡方分布属于连续概率分布的一种,它的形状取决于自由度的大小。自由度是指用于确定和描述样本特征的独立观测信息的数量减去通过

模型估计的参数个数。

卡方分布的概率密度函数为:

f(x) = (1/(2^(v/2) * Γ(v/2))) * (x^(v/2-1) * e^(-x/2))

其中,v为自由度,Γ为伽玛函数。

二、卡方分布的性质

1.非负性:卡方分布的取值范围是非负实数。

2.右偏性:当自由度v增加时,卡方分布的形态向右倾斜。

3.均值和方差:卡方分布的均值为v,方差为2v。

三、卡方分布的应用

卡方分布在统计推断中有着重要的应用,特别是在假设检验和拟合

优度检验中。

1.假设检验

假设检验是统计学中常用的一种方法,用于对某个总体的一个或多

个参数做出推断。在假设检验中,我们通常会进行两个假设的对比,

分别为原假设和备择假设。通过计算卡方统计量并根据卡方分布进行

推断,可以判断原假设是否成立。

2.拟合优度检验

拟合优度检验用于检验观测值与某个理论模型是否拟合良好。其中,常用的方法是计算卡方统计量并进行假设检验。如果观测值与理论模

型拟合良好,则卡方统计量不会显著大于临界值。

3.分组数据的统计推断

在分组数据的统计推断中,卡方检验常用于判断观测频数与理论频

数是否存在显著差异。通过计算卡方值,并对其进行假设检验,可以

数理 统计

数理 统计

X / n
~
N (0,1) ;
n
(Xi )2
(3) 2 i1 2
~ 2 (n) ;
n
(4)
2
(n
1)S 2 2
(Xi X )2
i1
2
~ 2 (n 1) ;
(5) X / n
(n 1)S 2 2 (n 1)
X S/ n
~
t(n 1) .
13/20
例 6.3.1 已知 X ~ 2 (16) ,求满足式子 P{X 1} 0.01 及 P{X ≤ 2} 0.975 的 1 和 2 . 解 由 n 16 , 0.01 ,查表可得 1 32.000 . P{X ≤ 2} 0.975 无法直接查表得到,需转换形式
均值和样本方差,则有
(1) F
S12 S22
12
2 2
~ F (n1 1,n2 1) ;
(2)当 12
2 2
2
时, T
(X
Y) S
(1
11 n1 n2
2 )
~
t(n1
n2
2)

其中 S
(n1 1)S12 (n2 1)S22 . n1 n2 2
17/20
6.4 应用实例
某公司生产瓶装洗洁精,规定每瓶装 500 毫升,但是在实际灌装的过程中,总会出现一 定的误差,误差要求控制在一定范围内,假定灌装量的方差 2 1,如果每箱装 25 瓶这样的 洗洁精,试问 25 瓶洗洁精的平均灌装量与标准值 500 毫升相差不超过 0.3 毫升的概率是多少?

数理统计中的疑难问题

数理统计中的疑难问题

第六章 数理统计的基本概念

1.什么是简单随机样本?怎样抽样可以得到简单随机

样本?

答 设12,,,n X X X 是来自总体X 的样本,如果满足 (1)12,,,n X X X 与X 同分布; (2)12,,,n X X X 相互独立,

则称为简单随机样本. 此时,样本分布与总体分布的联系为

121

(,,,)()n

n n i

i F x x x F x ==

∏ ,

其中n F 是样本分布函数,F 是总体分布函数。

对总体进行随机地独立的重复观测即可得到简单随机样本. 随机性是指总体的每一个个体有相同的机会被抽到,因而样本对总体更具代表性. 独立性是指每次抽样的结果不受其它次抽样结果的影响。

2.为什么要引进统计量?为什么统计量中不能含有未

知参数?

答 引进统计量的目的是为了将杂乱无序的样本值归结为一个便于进行统计推断和研究分析的形式,集中样本所含信息,使之更易揭示问题实质,从而解决问题。 如果统计量中仍含有未知参数,就无法依靠样本观测值求出未知参数的估计值,因而失去利用统计量估计未知参数的意义,这是违背我们引进统计量的初衷的。 3.什么叫大样本与小样本?它们是以什么区分的? 答 在样本容量固定条件下,进行的统计推断、分析问题称为小样本问题。 因为样本容量固定,如果能得到有关统计量或样本函数的精确分布,就能较精确和较满意地讨论和分析各种统计问题。

在样本容量趋于无穷条件下,进行的统计推断、分析问题称为大样本问题。 此时若能求出有关统计量或样本函数的极限分布,也可以利用极限分布作为近似分布来作统计推断。

关于社会统计中_自由度_概念的解析

关于社会统计中_自由度_概念的解析

1“ 自由度”的概念
所谓自由度是指一组数据中可以自由取值的个数, 如当 一组数据的个数为 n 时, 当样本均值 x 确定后, 只有 n- 1 个
数据可以自由取值, 其中必有一个数据不能自由取值, 所以 这组数据的自由度为 n- 1。
在这里有三点需要说明:
第一, 自由度的产生是与抽样分布联系在一起的。因为
2005. [3]袁 荫 棠 编.概 率 论 与 数 理 统 计[M](第 二 版).北 京 : 中 国 人 民 大 学 出
版社, 1994. [4]李沛良.社会研究的统计应用[M]( 第二版) .北 京 : 社 会 科 学 文 献 出
版社, 2002.
144 统计与决策 2007 年 6 月( 理论版)
一 组 数 据 的“自 由 度 ”, 也 就 是 说 , 一 组 数 据 不 是 可 以 完 全 自
由 取 值 的 , 它 必 须 支 持“统 计 量 与 总 体 参 数 相 等 ”的 理 论 假
设 。 这 就 是“自 由 度 ”存 在 的 理 由 。
下面进一步举例来说明 “独立或能自由变动的数据”的
第二, 既然在理论上统计量被要求是确定的, 那么在实
际层面上, 计算统计量的那组数据就不是完全自由的。这一
点 很 重 要 , 因 为“自 由 度 ”中“自 由 ”的 含 义 就 是 相 对 这 个“确
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数理统计中自由度的理解和应用

摘要:数理统计是一门以概率论为基础的应用学科,应用于许多领域。文章对数理统计作出了一个深入浅出的介绍,并对数理统计中自由度的理解作了较为全面的阐述,并在此基础上给了自由度科学的定义。通过列举自由度在统计学中的应用,旨在全面认识自由度。

关键字:数理统计;自由度

数理统计是数学的一个分支学科,是一门以概率论为基础的应用学科。随着研究随机现象规律性的科学—概率论的发展,应用概率论的结果更深入地分析研究统计资料,通过对某些现象的频率的观察来发现该现象的内在规律性,并作出一定精确程度的判断和预测;将这些研究的某些结果加以归纳整理,逐步形成一定的数学概型,这些组成了数理统计的内容。

数理统计在自然科学、工程技术、管理科学及人文社会科学中得到越来越广泛和深刻的应用,其研究的内容也随着科学技术和政治、经济与社会的不断发展而逐步扩大,但概括地说可以分为两大类:⑴试验的设计和研究,即研究如何更合理更有效地获得观察资料的方法;⑵统计推断,即研究如何利用一定的资料对所关心的问题作出尽可能精确可靠的结论,当然这两部分内容有着密切的联系,在实际应用中更应前后兼顾。

它以随机现象的观察试验取得资料作为出发点,以概率论为理论基础来研究随机现象.根据资料为随机现象选择数学模型,且利用数学资料来验证数学模型是否合适,在合适的基础上再研究它的特点、性质和规律性。例如灯泡厂生产灯泡,将某天的产品中抽出几个进行试验,试验前不知道该天灯泡的寿命有多长,概率和其分布情况.试验后得到这几个灯泡的寿命作为资料,从中推测整批生产灯泡的使用寿命、合格率等。为了研究它的分布,利用概率论提供的数学模型进行指数分布,求出值,再利用几天的抽样试验来确定指数分布的合适性。

简而言之,数理统计以概率论为基础,根据试验或观察得到的数据,来研究随机现象统计规律性的学科。它的任务就是研究有效地收集数据,科学地整理与分析所获得的有限的资料,对所研究的问题,尽可能地作出精确而可靠的结论。

数理统计研究问题的方式,不是对所研究对象的全体(称为总体)进行观察,

而是抽取其中的部分(称为样本)进行观察获得数据(抽样),并通过这些数据对总体进行推断。数理统计方法具有“部分推断整体”的特征。

下面引入一些数理统计中的术语:抽样、抽样分布、总体与样本、统计量、自由度、几个常用的分布、正态总体统计量的分布……但是大多数数理统计教材中介绍自由度时,往往一笔带过,没有给出明确的定义或足够的解释,增加了自由度理解学习具有的难度,尢其对于初学者来说,自由度就像一个黑箱子,难以捉摸。

数学中的自由度一般是指能够自由取值的变量个数。数理统计中的自由度是指当以样本的统计量来估计总体的参数时,样本中独立或能自由变化的数据的个数,自由度通常记为df。数理统计上的这个定义可以从如下几个方面来理解:第一,“统计量”(如样本数据的平均数X、样本数据的标准差)是研究者通过调查样本的数据人为地计算出来的,而“参数”(如总体均值μ、总体标准差δ)是被调查的总体所客观存在的,这是两者的区别。在统计学的理论层面上,要求或者假定统计量是参数的无偏估计,认为二者是相等的(在实际研究中,由于抽样的偏差,可能导致两者不相等,但对于这种情况,研究者是无法知道的,知道就没有抽样调查的必要了)。在理论假设下,统计量也就和参数一样被看作是客观的、确定的。

第二,既然在理论上统计量被要求是确定的,那么在实际层面上,计算统计量的那组数据就不是完全自由的。这一点很重要,因为自由度中“自由”的含义就是相对这个“确定”条件而言的。正是统计量的这种“确定性”限制了与之相关的一组数据的自由度,也就是说,一组数据不是可以完全自由取值的,它必须支持“统计量与总体参数相等”的理论假设。这就是自由度存在的理由。

有必要举例来进一步说明“独立或能自由变化的数据”的含义。在心理、社会等领域的测量或者调查过程中,研究者设置了一些变量(如智商、收入等),这些变量是随机变量。所谓随机变量是指,在调查总体中,变量的取值范围及其所对应的频次(两者合起来称为变量的分布)是确定的,但在一次具体的抽样调查中,变量的取值及其所对应的频次则是不确定的,但在大样本的抽样调查中,变量的分布又是能体现总体的特征和规律的。

例如:研究者在调查某个城市在岗职女工的平均收入时,从总体40000万人中,研究者随机抽取了200人进行调查。在这个例子中,总体40000个在岗女工的收入的平均数是总体参数,是客观的、确定的,尽管研究者不知道。通过随机抽

样和问卷调查,研究者获得了200人的收入的数据。运用这组数据可以算出样本的平均数,它是统计量。由于在理论上要求统计量与参数相等,所以这200个数据中只有199个数据可以“自由”变动,所以,这组数据在求平均数这个统计量时的自由度就是:K=200-1=199。

第三,在上面的例子中,研究者只抽了一个200人的样本,而在实际层面,这200人的收入是确定的,因为每个被调查者只有一个确定的收入。既然这样,“199个数据可以自由变动”是什么意思呢?

这需要回到理论上去回答。在理论上,从20000人中随机抽取200人有种抽取方法,也就是说,在理论上研究者可以得到个不同的、样本容量均为200人的样本,这个数据量是很大的(没有必要确切知道它的值)。这样,在理论上就存在很多组调查数据(虽然研究者确实只调查了一个200人的样本,也只获得了一组数据),每组都有200个数据。每组数据在理论上都有对应的统计量,正是这些统计量的分布,构成了统计学中所说的抽样分布,它是基础统计学的核心内容。所以,仅仅在理论上,这200个数据中的199个数据是可以随不同样本而变化的、自由的。当然,话说回来,这种自由并非是绝对的,它们也只能在总体的取值范围内变动,例如,关于“收入”这个变量的取值就不可能为负值。

众所周知,很多统计量的计算公式中都有自由度的概念,可为什么同样是计算标准差,总体标准差的自由度是n,而样本标准差的自由度就是n-1?为什么其它公式中的自由度还有n-2、n-3呢?它到底是什么含意?

在统计模型中,自由度指样本中可以自由变动的变量的个数,当有约束条件时,自由度减少自由度计算公式:自由度=样本个数-样本数据受约束条件的个数,即df=n-k(df自由度,n样本个数,k约束条件个数),n-1是通常的计算方法,更准确的讲应该是n-k,n表示“处理”的数量,k表示实际需要计算的参数的数量。如需要计算2个参数,则数据里只有n-2个数据可以自由变化。例如,一组数据,平均数一定,则这组数据有n-1个数据可以自由变化;如一组数据平均数一定,标准差也一定,则有n-2个数据可以自由变化。

第四,自由度是谁的?从前面的分析中可以知道,自由度产生于这样的背景下:运用一组数据来求“统计量”。离开“一组数据”就不可能有“统计量”,不计算“统计量”,“一组数据”就失去了科学的价值。所以,“自由度”应该是“统计量”和“一组数据”所共同拥有的。当然,为了方便,我们说“统计量的自由度”或者“一组数据的自由度”也都是可以接受的。

相关文档
最新文档