第五章数据分析第二节推论统计
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 m Y Yj , m j1 令T
m 1 2 S2 (Y Y ) j Y m 1 j1
XY
2 (n 1)S2 (m 1)S 1 X Y 1 ( ) n m 2 n m
则当μ1=μ2时 T~t(n+m-2).
◆定义 3
χ(n1 ) ,Y~χ(n2 ) , 设 X~
j 1 j 1
n1
n1
( x1 j ) 2
j 1
n1
n1
2 2 SS 2 (n2 1) S 2 (x2 j x2 ) 2 x2 j j 1 j 1
n2
n2
( x2 j ) 2
j 1
n2
n2
举例 P228 例5.2
H0: μ1=μ2 H1:μ1≠μ2
2
2
X与Y独立,则称随机变量
X F Y
n1 n2
服从自由度为(n1,n2)的F分布,记作F~F(n1,n2)
一、抽样分析
●样本统计值(sample statistics):描述样本分布情况的特 性值。
●总体参数值(population parameter):描述总体分布情况 的特性值。
●样本统计值是否能代表总体参数值,怎样才能代表参数值, 这正是推论统计解决问题的出发点。 ●统计值和参数值两者的关系可以通过“抽样分布” (sampling distribution)这个概念连通起来。统计值的分布 情况就是抽样分布。 ●统计推论可分为参数估计(parameter estimation)和假 设检验。
O、预备知识
statistics)
正态分布与有关的分布
◆定义1 设连续型随机变量X的密度函数为
1 f(x) e 2π σ
(x μ) 2 2σ 2
x
称X服从正态分布,记作X~N(μ, σ2).
其中μ,σ均为常数,-∞< μ <+∞, σ >0.
◆当μ=0,
σ2=1时,我们称X服从标准正态分布,
2、区间估计
●估计偏差(bias)
ˆ (x ,x ,,x ) 是未知参 ●无偏估计:设 θ 1 2 n 数的一个估计量,若有
ˆ (x ,x , E(θ x n ))θ 1 2 ,
ˆ (x ,x ,,x ) 是θ的无偏估计量。 则称 θ 1 2 n
●抽样误差:每次估计值和长期估计的平均值 (long-run average value)之间的随机误差称作抽样 误差。 ●抽样误差的一个很有用的特点是它符合正态 分布。
乙种误差(type-Ⅱerror):把错误的对立假 设视为真实的可能性。“纳伪错误” (以假为真)
4、单边检验和双边检验 双边检验(two-tailed test):否定域预 设在正态分布的两端。 单边检验(one-tailed test):否定域 预设在正态分布的一端。 5、自由度 自由度(degree of freedom):自由度是指 可以自由变动数值的样本数目.
假设中的自变量和因变量之间有无关联?
这种关联的趋向和形式如何?
这种关联的强度如何?
这种关联是否是因果
★ 自变量的属性值变化引起因变量的属性值变 化,说明两变量间存在关联。 ★ 关联强度的判断则是指观测值中有多大比例 的因变量属性值可以从自变量的属性值来解释。
★ 统计技术用统计显著性来检验所观测到的关 联是随机性的还是系统性的原因。
● 定义 和
对于参数θ,如果有两个统计量
( x1 , x2 ,, xn )
( x1 , x2 ,, xn ),对给定的α∈(0,1),有
P( ) 1
则称 [ , ] 是θ的一个区间估计或置信区间,1- α为 置信水平(置信度)。 ● 一个正态总体的参数的区间估计 • • • 已知方差σ2,对均值μ的区间估计 未知方差σ2,对均值μ的区间估计 对方差的区间估计
⑵
非独立样本的t检验
如果样本经过某种形式的配对处理,则应用 非独立样本的t检验.非独立样本的t检验算式为:
t D
2 ( D ) 2 D N N ( N 1)
当μ1=μ2时,t~t(N-1)
例
P230
例5.3
五、F检验 方差分析法(analysis of variance)是用来处理 两组或两组以上样本的统计方法,目的在于判断所 发现的总误差主要是样本组内的误差还是各组之间 的误差。
i 1
k
SS B
i 1
k
1 1 ( xi ) 2 ( x ) 2 ni N
SSW SST SS B
在H 0 : 1 2 k 成立下 SSB F 当 SSW k - 1 ~F(k - 1, N - k)
独立样本的t检验计算公式为:
t x1 x 2 SS1 SS 2 1 1 n n n n 1 2 2 1 , x2 为两平均值,n1,n2表示样本组中样
式中分子
x1
本的个源自文库 ,SS1和SS2为两组样本各自离差平方和 。
SS1 (n1 1) S12 (x1 j x1 ) 2 x12j
i=1
服从自由度为n的 χ分布,记作Y~ χ (n).
2
2
◆定理 2 分布,记
设X1,X2,…,Xn独立,同N(μ,σ2)
n 1 n 1 2 2 X Xi , S (Xi X ) n i1 n 1 i1
σ2 则(1) X ~ N(μ, ) n
(2) ( n 1 )S ~ ( n 1 )
2、 显著性试验
否定域(critical region):一般说来,对于给定 的显著水平α,以及某一统计量η,若有 P{η∈区域G}= α 则称区域G为H0的否定域。
α—显著性水平(检验标准) 1-α—置信水平
直观意义:把概率不超过α的事件当作一 次观察不会发生的“小概率事件”。
3、 甲种误差和乙种误差(检验中的两类错误) 甲种误差(type-Ⅰ error):把正确的对立 假设推翻的可能性,其出现的可能性大小取决于 显著度α。 实际情况是H0成立,而检验的结果表明H0不成 立,即拒绝H0,这时称该检验犯了第一类错误或 “弃真错误”(以真为假)。显著水平α是犯第 一类错误的概率。
§2 推论统计
O、预备知识 一、抽样分析 二、参数估计 三、假设检验的基本概念 四、t检验 五、F检验 2 χ 检验 六、 七、示例
管理研究和社会研究绝大部分都采用 样本研究,从较大的研究对象总体中抽样 收集数据。最终目的是从样本来判断样本 所在的总体的特性。 统计推断是一套有清晰逻辑程序的统 计计算,对于从样本观测值得出的发现 (findings),作出是否适用于总体的判断。 发现亦即研究的结果,这些结果不外乎以 下几个方面的内容:
平均数方 方差和 自由度 差(MS) (平方和)
F值
SSB
k-1
SS B MS B MS B k 1 MSW
SSW MSW N k
组内(W)
总体(T)
SSW
SST
N-k
N-1
计算SST ,SSW ,SSB时,常按下列顺序进行
SST x
2
( x ) 2 N
,
其中 N ni
1 n X X i , n i 1
则
X T ~ t (n 1) S n
◆定理4 设X1,X2,…,Xn独立,同N(μ1,σ2) 分布,Y1,Y2,…Ym独立,同N(μ2,σ2)分布, 且它们相互独立,记
n 1 n 1 2 X X i , S2 (X X ) X i n i1 n 1 i1
★数据为定距和定比类型时对应的检验方法为 参数检验。
数据为定类和定序类型以及总体偏态分布或分 布情况不明的情况下,对应的检验方法为非参数检 验。 四、t检验
1、t分布定义
t分布常用于数理统计中正态总体均值的区间 估计和检验。
2、常用的两个定理(预备知识中定理3和定理4)
3、t检验
⑴ 独立样本的t检验
2 2 2
(3) χ 与S2 相互独立.
2
◆定义2
设X~N(0,1),Y~ (n),且X与Y
2
相互独立,记
Y T X n 则T服从自由度为n的t分布,又称为学生 (student)分布,记作T~t(n)
◆定理3 布,记
设X1,X2,…,Xn独立,同N(μ,σ2)分
n 1 2 S2 (X X ) i n 1 i 1
★ 自变量和因变量之间存在关联并非表明 自变量就是因,因变量就是果,因果辨析一 般属于实证研究之后机理分析的内容。 数据分析的主要内容主要围绕变量间关 联的存在性、趋向和形式、强度和统计显著 性四个方面。描述统计已涉及到存在性、趋 向和形式的内容,推论统计则主要回答统计 显著性问题。
§2 推论统计(inferential
6、参数检验和非参数检验
假设检验分为
参数检验(parametric statistical test)非参数 检验(nonparametric statistical test)。
★总体X的分布类型为已知,其中仅含有有限个未 知参数,我们要做的只是对这些参数进行检验,称 为参数假设检验。 在许多实际问题中,总体分布的类型往往不知 道,或者知之甚少。因此需要引进另一些统计方法, 要求这些方法不依赖于总体分布的具体形式,这些 方法称为非参数方法。
点估计值给出了参数的一个近似值且是 随机的,它跟随着样本的抽取而随机变化, 估计值本身既没有反映这种近似的精确度, 又没有给出误差范围。为了弥补这些不足, 人们希望估计出一个范围,并知道这个范围 包含参数真值的可靠程度。这样的范围通常 以区间的形式给出,同时还要给出该区间包 含参数真值的可靠程度。这种形式的估计称 为区间估计。
假设检验的步骤:
①提出假设H0;备选假设H1
②构造统计量,并由样本算出其具体值
③求出在H0下,统计量的分布,构造对H0 不利的小概率事件 ④给定显著性水平α,确定临界值,从而 得出H0的否定域。
⑤得出结论。若统计量∈否定域,则拒绝
H0, 承认备选假设H1;若统计量 否定域,则接 受H0.
1、对立假设 待研究的假设可分为两类: 研究假设—研究者希望验证的命题 对立假设(null hypothesis)—研究假设的逻辑对 立面
即X ~N(0, 1).
标准正态分布的密度和分布函数分别为:
1 (x) e 2π
x2 2
x
u2 2
x 1 与φ(x) e 2π
du
x
◆定理 1
设 X~N(μ, σ2),则
(X-μ)/σ~ N(0,1).
◆定义 设X1,X2,…,Xn为相互独立的随机 变量,它们都服从标准正态N(0,1)分布,则称 随机变量 n 2 Y= Xi
三、假设检验的基本概念 1、对立假设 2、显著性试验 3、甲种误差和乙种误差 4、单边检验和双边检验 5、自由度 6、参数检验和非参数检验
根据样本提供的信息判断总体是否具有预 先指定的特性。 进行假设检验的基本思想:某种带有概率 性质的反证法。基于的原则是:小概率事件在 一次观察中可以认为基本上不会发生。 小概率事件:通常把概率不超过0.05的事 件当作“小概率事件”,有时把概率不超过 0.01的事件当作“小概率事件”.
简单方差分析
方差分析法
方差因子分析
协方差分析
单因素方差分析数学模型
X ij ~ N ( i , 2 ) ( j 1,2,, ni ,i 1,2, r )
ij ~ N (0, 2 )
1、 F分布定义 2、 简单方差分析(单因素方差分析)
简单方差分析将总误差划分为两种来源:一种是组间, 由施加的试验处理形成;另一种是组内,由随机误差形成。 单因素方差分析表 变异源 (方差来源) 组间(B)
二、参数估计
参数估计分为点估计(point estimation)和区间估计
(interval estimation)
1、点估计 常用的点估计方法有矩法和极大似然估计(Maximum Likelihood Estimation)。 样本均值
1 X n
n
X
i1
i
n 1 2 2 S ( X X ) 样本方差 i n 1 i 1 参数是概率分布的特征值,各种概率分布有不同的特征 值,最常用到的参数有平均数μ和方差σ2。