最新多元统计分析第三章 假设检验与方差分析

合集下载

多元课件第三章

多元课件第三章

H H D D ' ' ' 11 1 2 rO rO AB B O H H O O O O 21 2 2
22
第三章 多元正态总体参数的假设检验
§3.1 几个重要统计量的分布--一般p维正态变量的二次型
结论2 当μi≠0(i=1,„,n),σ2 =1时,X′X的 分布常称为非中心χ2分布. 定义3.1.1 设n维随机向量X~Nn(μ,In)
(μ≠0),则称随机变量ξ=X'X为服从 n n个自由度,非中心参数 i2 i 1` 2 的χ 分布,记为
2 2 n
X X ~ ( n , ), X X ~ ( )
第三章 多元正态总体参数的假设检验
一元统计中,参数μ ,σ 2的检验 涉及到一个总体、二个总体,乃至 多个总体的检验问题; 推广到p元统计分析中,类似地 对参数向量μ 和参数矩阵Σ 涉及 到的检验也有一个总体、二个总体 ,乃至多个总体的检验问题。
3
第三章 多元正态总体参数的假设检验
在一元统计中,用于检验μ, σ2的抽 样分布有χ2分布,t 分布,F分布等,它们都 是由来自总体N(μ, σ2)的样本导出的检验 统计量. 推广到多元统计分析后,也有相应于 以上三个常用分布的统计量: Wishart, Hotelling T 2,Wilks Λ统计 量,讨论这些统计量的分布是多元统计分 析所涉及的假设检验问题的基础.
6
第三章 多元正态总体参数的假设检验
§3.1 几个重要统计量的分布--分量独立的正态变量二次型
1 1 2 则Y Y X X ~ ( n , ), 其中 2 2


结论3 设X~Nn(0 ,σ2In), A为n阶对称方阵, rk(A)= r,则 二次型 X'AX/σ2~χ2(r) A2=A(A为对称幂等阵). 2 2 2 特例:当A=In时, X I X / X X / ~ ( n ) n

第3章 多元假设检验

第3章 多元假设检验

第三章 多元假设检验3.1 实例从本节开始,我们转入多元统计的实际应用。

在实际问题中,有时要同时考虑多个随机性的指标,而且这些指标之间还存在着一定的联系。

例如,检查某人的健康情况,就得检查这个人的体重、体温、血压、心脏等多项指标。

一般仅是单项指标异常还不能立即诊断是什么原因,而必须对各项指标综合分析,才能作出结论。

多元统计分析的精髓之一就是必须对p 个相关变量同时进行分析。

首先让我们看2个例子:例3.1测量20名健康女性排汗量1x 、钠含量2x 、钾含量3x 得表3.1。

问健康女性1x 、2x 、3x 的均值是不是4、50、10?表3.1 20名健康女性排汗量1x 、钠含量2x 、钾含量3x 数据例 3.2 为了研究日美两国在华企业对中国经营环境的评价是否存在差异,从两国在华企业对中国的政治、经济、法律、文化等环境打分,得表3.2。

试分析日美两国在华企业对中国经营环境的评价是否存在差异?表3.2这些问题涉及多个项目同时比较,例如例3.1要检验3个指标(1x )=4,E(2x )=50,E(3x )=10是否同时成立?例3.2要检验美日两国企业四个评价指标是否相同?Ey1=Ex1,Ey2=Ex2,Ey3=Ex3,Ey4=Ex4是否同时成立?本章总作多元正态假设:设)',...,(21p x x x x =服从),(∑μN 。

例3.1和例3.2即是要做复合检验⎥⎥⎦⎤⎢⎢⎣⎡=⎥⎥⎦⎤⎢⎢⎣⎡10504321μμμ和⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡43214321y y y y x x x x μμμμμμμμ 按照概率论基础知识的方法,我们可以对每个指标进行t 检验或F 检验。

例如对例1先检验E(1x )=4, 再检验E(2x )=50,然后再检验E(3x )=10。

但是可能会遇到这样的情况:单独检验E(1x )=4不否定原命题(例如接受概率P(A)=0.4),再单独检验E(2x )=50也不否定原命题(例如接受概率P(B)=0.5);而单独检验E(3x )=10也不否定原命题(例如接受概率P(C)=0.6);但是联合起来检验E(1x )=4,E(2x )=50,E(3x )=10,接受域概率P(ABC)是0与0.4间的不定数,依A 、B 、C 的关系而定:若A 、B 、C 重合,则P(ABC)=0.4;若A 和B 互斥,则P(ABC)=0。

多元统计分析和假设检验

多元统计分析和假设检验

相关分析步骤:
相关分析
回归分析
把存在相关关系的两个或多个变量,一个或几个作为自变量, 另一个作为因变量,把它们之间不十分准确、稳定的关系 用数学方程式来表达,用自变量的值来估计、预测因变量 的值,这个过程称为回归分析。变量之间相互关联的规律 或关系称为回归关系,表达回归关系的数学方程称为回归 方程。
聚类分析在市场营销中有着广泛的应用:
市场细分; 购买者行为研究,可以用聚类分析确定同质的消费群,然后分
别研究不同消费群的购买行为; 新产品开发,对品牌和产品聚类,可以识别市场中相互竞争的
一组品牌和产品; 试销市场选择,通过将城市分为同质的组,可以选择可比的城
市,对不同的营销策略进行测试; 数据缩减,聚类分析可以作为一种通用的数据缩减工具,可用
回归分析在市场研究中的应用,如:
销售额的变差是否可以用广告支出、价格、和分销水平的变差 来解释?
市场分额的变差是否能够以销售人员的数量、广告支出和销售 促进预算来解释?
消费者对质量的认知是否有他们对价格、品牌形象和品牌属性 的认知决定?
此外,多元回归还可以解释变量变化的幅度。
回归分析步骤:
是检验观测数据的分布情况是否和已知分布一致, 推测总体可能服从某种分布函数。
二项分布检验
二项分布检验是一种用来检验在给定的落入二项式 中第一项概率值的前提下数据来源于二项分布的 无效假设的方法。
游程检验
游程检验是指根据游程书所作的二分变量的随机性 检验,也可以检验任何序列的随机性,而不管序 列是怎样产生的。
是检验来自两个彼此独立的总体的样本均值是否 存在显著性差异;
两个样本方差相等于不等式使用的计算t值的公式 不同,因此要先对方差进行齐次性检验。SPSS的 输出,给出了方差齐次与不齐两种计算结果的t值, 和t检验显著性概率的同时,还给出了对方差齐次 性检验的F值和F检验的显著性概率。

多元统计分析第三章课件

多元统计分析第三章课件

查表得F0.01(3,3)=29.5,于是
T 2 0.01
35 3
F0.01
3, 3
147.5
故在显著性水平α=0.01下,拒绝原假设H0,即认为农村
与城市的2周岁男婴上述三个指标的均值有显著差异
(p=0.002)。
三、置信区域
T 2 n X μ S1 X μ
Q
n p
p n 1
称之为霍特林(Hotelling)T2 统计量。
当 H0 为真时,
n p
p n 1
T
2
服从F(p,n−p)
,对给定的显著
性水平α,拒绝规则为:
若T 2 T2,则拒绝H0.
其中T2
pn 1
n p
F
p,
n
p 。
这里需要解释的是,当 Σ 未知时,自然想到要用样本协差阵 1 S 取代 n 1
替 Σ ,因 (n 1)S1 是 Σ1 的无偏估计量,而样本离差阵
这里我们应该注意到,(3.3)式可以表示为
t2
n(X )2
S2
n( X
)(S 2 )1( X
)
对于多元变量而言,可以将 t 分布推广为下面将要介绍的
HotellingT 2 分布。
定义 设 X ~ N p (μ ,Σ ,) S ~ Wp (n ,Σ 且) X 与 S 相互独立,n p ,则称统计量T 2 nX S - X1 的分布
当 2 未知时,用
S 2
1 n 1
n i 1
(Xi
X )2
作为 2 的估计量,用统计量:
t (X 0) n
S
来做检验。当假设成立时,统计量 t 服从自由度为 n 1的 t 分布,

统计建模(假设检验、方差分析、协方

统计建模(假设检验、方差分析、协方
华中农业大学数学建模基地
两个总体均值和方差的检验 解 性状是否已达到稳定要取决于第5代和第6代株高的 方差和均值是否相等。编写SAS程序并输入在程序编 辑窗口; data ex;input c$ x@@; cards; a 66 a 65 a 66 a 68 a 62 a 65 a 63 a 66 a 68 a 62 b 64 b 61 b 57 b 65 b 65 b 63 b 62 b 63 b 64 b 60 ; proc ttest;class c;var x; run;
华中农业大学数学建模基地
单因素方差分析--计算 例1.2《药剂处理》用4种不同的药剂处理 水稻种子,发芽后观测到苗高(单位:cm)如下:
处理 1 2 3 4

苗 高 19, 23, 21, 21, 24, 27, 20, 18, 19, 22, 25, 27,
13 20 15 22

华中农业大学数学建模基地
双因素方差分析-不考虑交互作用-计算

华中农业大学数学建模基地
双因素方差分析-不考虑交互作用-计算
data ex;do a=1 to 4;do b=1 to 5; input x @@;output;end;end; cards; 53 56 45 52 49 47 50 47 47 53 57 63 54 57 58 45 52 42 41 48 ; proc anova;class a b;model x=a b; means a b/duncan cldiff;run;
单因素方差分析—理论

1 xi ni
x ,
j 1 ij
ni
1 1 x x ij ni x i n i 1 j 1 n i 1

应用多元统计分析课后习题答案详解北大高惠璇(第三章部分习题解答).ppt

应用多元统计分析课后习题答案详解北大高惠璇(第三章部分习题解答).ppt
ΣAΣBΣ=0p×p.
(记
1
2
1 2
1 )
10
第三章 多元正态总体参数的检验
由“1.结论6”知ξ与η相互独立
1 11 1
CD O 2 A2 2 B2 O AB O
11
第三章 多元正态总体参数的检验
3-4 试证明Wishart分布的性质(4)和T2分布的性质(5).
性质4 分块Wishart矩阵的分布:设X(α) ~ Np(0,Σ) (α
X~Np(μ,Σ)(Σ>0),X(α) (α=1,…,n)(n>p)为 来自p维正态总体X的样本,记μ=(μ1,…,μp)′.C 为k×p常数(k<p),rank(C)=k,r为已知k维向量.试给出 检验H0:Cμ=r的检验统计量及分布.
解:令 Y( ) CX ( ) ( 1,2, , n)
则Y(α)(α=1,…,n) 为来自k维正态总体Y 的样本,且

r
由AB=O可得DrH11=O , DrH12=O . 因Dr为满秩阵,故有H11=Or×r,H12=Or×(n-r) .
由于H为对称阵,所以H21=O(n-r)×r .于是
8
第三章 多元正态总体参数的检验
H ΓBΓ
令Y=Γ′X,则Y~ Nn(Γ′μ,σ2In), 且 r
X AX (ΓY )AΓΓ Y Γ AΓΓ iYi2
所以 Tx2 Ty2
16
第三章 多元正态总体参数的检验
3-5 对单个p维正态总体Np(μ,Σ)均值向量的检验问题, 试用似然比原理导出检验H0:μ=μ0(Σ=Σ0已知)的似然比
统解计:总量体及X分~布Np.(μ,Σ0)(ΣP06>6当0)Σ,设=ΣX0(已α)(知α=μ1的,…检,验n)

《多元统计分析》ch3方差分析

《多元统计分析》ch3方差分析

2 Xi ~ N ( i , )
1, , ni , i 1, 2, 3, 4) 相互 定这四个样本相互独立,即所有的 X ij ( j
独立,因此问题归结为对假设
Ho : 1 = 2 = 3 = 4
作显著性检验。 二. 数学模型 设因素 A 取 r 个不同水平 A1 , A2 , …, Ar , 即有 r 个总体 X1 , X2 , … Xr,
数学教研室
E (SA ) [ E ( X i2) ni E ( X ) 2 ] E[( X i X ) ]
2 i 1 j 1 i 1 j 1 2 2 2 2 ni E( X ) nE( X ) ni ( n( ) i ) n n i 1 i 1 i r 2 i 2 r
2 i 1 j 1
ni
r
ni
r
ni
i 1 j 1
( X ij Xi) (Xi X) 2 ( X ij X i )( X i X)
2 2 i 1 j 1 i 1 j 1 i 1 j 1
r
r
ni
r
ni

(X
i 1 j 1
r
ni
ij
成立。 Cochran 定理的用法:
7
中国地质大学• 北京
这是一个单因素四水平试验,用 X1,X2,X3 及 X4 分别表示这四 种灯泡的使用寿命,即四个总体 ,假定
1
中国地质大学• 北京
数学教研室
(i 1, 2,3, 4) 1, 2,3, 4) 假 现从总体 Xi 中抽取容量为 ni 的样本: X i1 , X i 2 , , X ini (i
模型(3)称为单向分类模型或称一种方式分组模型。 假设(2)等价于

多元统计分析 第3章 假设检验

多元统计分析  第3章 假设检验
S x (X( a ) X)(X( a ) X) , S y (Y( a ) Y)(Y( a ) Y) ,
a 1 a 1 n n
X (X1, X2 ,, X p ) Y (Y 1, Y 2 ,, Yp )
给定检验水平 ,查 F 分布表,使 p F F ,可确定 出临界值 F ,再用样本值计算出 F ,若 F F ,则否定 H 0 , 否则接受 H 0 。
一个正态总体均值向量的检验-已知
设 X (1) , X (2) ,, X ( n) 是 来 自 p 维 正 态 总体 N p ( μ , Σ ) 的 样
n 1 n 本,且 X X ( ) , S ( X ( a ) X )( X ( a ) X ) . n 1 a 1
( X 0 ) 2 z n 已知时,用统计量

当假设成立时,该统计量服从标准正态分布,从 而否定域为 | z | z /2 ,z / 2 为 N (0,1) 的 / 2 上分位 点 z 2 n( X 0 )( 2 )1 ( X 0 ) ~ (1)
注意到,上式 t 统计量可以表示为:
2 ( X ) /1 2 2 1 t n ( X ) ( s ) ( X ) 2 s /n 2 对于多元变量而言,可以将 t 分布推广为 Hotelling T 分布。
Hotelling T2 分布
定义 3.1 设 X ~ N p ( μ , Σ ) , W ~ Wp (n, Σ ) 且 X 与 W 相互独立,n p , 则称统计量 T nX W X 的 分 布 为 非 中 心 HotellingT2 分 布 , 记 为
否则接受 H 0 .
一个正态总体均值向量的检验-已知

《应用多元统计分析》各章作业题及部分参考答案

《应用多元统计分析》各章作业题及部分参考答案

60.6
16.5
2 76
58.1
12.5
3 92
63.2
14.5
4 81
59.0
14.0
5 81
60.8
15.5
6 84
59.5
14.0
解:作如下假设 H0 : μ = μ0 , H1 : μ ≠ μ0
经计算,求的样本均值向量 x = (82.0, 60.2,14.5) ' ,x − μ0 = (−8, 2.2, −1.5) ' ,样本协差阵
x2
+
1 2
x3
+
1 2
x4 。
(2)第一主成分的贡献率为
λ1
+
λ2
λ1 +
λ3
+ λ4
= 1+ 3ρ 4
≥ 95% ,得 ρ
≥ 0.933 。
第 7 章 因子分析
1、设 x = (x1, x2 , x3 )′ 的相关系数矩阵通过因子分析分解为
⎛ ⎜
1

R
=
⎜ ⎜
−1 3
⎜ ⎜⎜⎝
2 3
−1 3 1
54.58
11.67
产品净值率 10.7
6.2
21.41
11.67
7.90
2、 设 G1, G2 , G3 三个组,欲判别某样品 x0 属于何组,已知 p1 = 0.05, p2 = 0.65, p3 = 0.3,
应用多元统计分析
pofeel@
3
f1 (x0 ) = 0.10, f2 (x0 ) = 0.63, f3 (x0 ) = 2.4 ,假定误判代价矩阵为:
⎢⎣ 4.5 ⎥⎦

7.假设检验方法----方差齐性检验、方差分析ppt课件

7.假设检验方法----方差齐性检验、方差分析ppt课件

精选2021版课件
1
一、 F检验
F分布是一种小样本分布,计算公式为
1、F分布的形成
从两正态总体中随机抽取两独立样本,容量分
别为
,求出两个样本的方差及比值—F值;
然后将两样本数据放回,再随机抽取同样容量两样
本,计算两个样本的方差及比值—F值;若干次便
可求出若干个F值,所有F值形成的分布是自由度为
( , )的F分布。
空中交通管制员压力测试的随机区组设计
管制员
A 系统
处理 B 系统
C 系统
1
15
15
18
2
14
14
14
区组
3
4
10
11
15
13
12
17
5
16
13
16
6
13
13
13
实验中不同管制员之间的差异是很大的,每个管制员作为
一个区组。组内方差=随机误差+管制员个人差异导致的误差。 需要将个人差异从误差项中分离出来,以提高 F检验的效率。
• 5、组内均方和组间均方
精选2021版课件
12
方差分析的一般步骤
• 检验公式:由于组间均方与组内均方是互为独立的, 可用F值检验组间均方与组内均方是否差异显著,公式 为
• • 因此,多个平均数之间差异显著性检验的原假设为:
各样本所来自的总体平均数相等。备择假设为:其中 至少有一对平均数不等。检验时,按组间自由度和组 内自由度查F分布表,查出临界值,然后将计算的F值 与临界值进行比较,进而作出决断。


精选2021版课件
13
方差分析的一般步骤
• 1、提出假设 • 原假设:各样本所来自总体平均数相等;

多元统计分析1-3章

多元统计分析1-3章

第一章绪论§1.1 什么是多元统计分析在工业、农业、医学、气象、环境以及经济、管理等诸多领域中,常常需要同时观测多个指标。

例如,要衡量一个地区的经济发展,需要观测的指标有:总产值、利润、效益、劳动生产率、万元生产值能耗、固定资产、流动资金周转率、物价、信贷、税收等等;要了解一种岩石,需观测或化验的指标也很多,如:颜色、硬度、含碳量、含硫量等等;要了解一个国家经济发展的类型也需观测很多指标,如:人均国民收入,人均工农业产值、人均消费水平等等。

在医学诊断中,要判断某人是有病还是无病,也需要做多项指标的体检,如:血压、心脏脉搏跳动的次数、白血球、体温等等。

总之,在科研、生产和日常生活中,受多种指标共同作用和影响的现象是大量存在的,举不胜举。

上述指标,在数学上通常称为变量,由于每次观测的指标值是不能预先确定的,因此每个指标可用随机变量来表示。

如何同时对多个随机变量的观测数据进行有效的统计分析和研究呢?一种做法是把多个随机变量分开分析,一次处理一个去分析研究;另一种做法是同时进行分析研究。

显然前者做法有时是有效的,但一般来说,由于变量多,避免不了变量之间有相关性,如果分开处理不仅会丢失很多信息,往往也不容易取得好的研究结果。

而后一种做法通常可以用多元统计分析方法来解决,通过对多个随机变量观测数据的分析,来研究变量之间的相互关系以及揭示这些变量内在的变化规律,如果说一元统计分析是研究一个随机变量统计规律的学科,那么多元统计分析则是研究多个随机变量之间相互依赖关系以及内在统计规律性的一门统计学科,同时,利用多元分析中不同的方法还可以对研究对象进行分类(如指标分类或样品分类)和简化(如把相互依赖的变量变成独立的或降低复杂集合的维数等等)。

在当前科技和经济迅速发展的今天,在国民经济许多领域中特别对社会经济现象的分析,只停留在定性分析上往往是不够的。

为提高科学性、可靠性,通常需要定性与定量分析相结合。

实践证明,多元分析是实现做定量分析的有效工具。

第3章 多元正态总体参数的假设检验_1

第3章 多元正态总体参数的假设检验_1
' 2 变量 X ' X 为服从 n 个自由度、非中心参数 i n


2
分布,记为 X X ~
2
'
(n, ) 或 X X ~ ( ).
2 ' 2 n
i 1
当X~Nn( , In ),≠0,且
2 1时,令
Yi
显然
1
i Yi ~ N , 1 (i 1,2,, n) ,
类似地,非中心 和非中心 F 分布在一元统计的相应检验
2
中,将应用非中心分布来计算第二类错误。
二、威沙特(Wishart)分布
1. 威沙特分布的定义 定义3.1.4 设 X(a) ~ Np( 0,∑ ) (a=1,…,n)相互独立,记 X ( X (1) ,, X ( n ) )'
为 n×p 矩阵,则称随机阵
2
) 的均值检
T
X 0
2
H 0下
~ t (n 1) ,
S n 否定域为{|T|>},其中满足:P{|T|>}= (显著性水平).
当否定H0时,可能犯第一类错误,且 第一类错误的概率=P{“以真当假”}=P{|T|>| = 0}|} =显著性水平 ;
当H0相容时,可能犯第二类错误,且
X ' AX 与 X ' BX 相互独立 AB O .
三、霍特林(Hotelling) T 2 分布 1. 霍特林 T 2 分布的定义
定义3.1.5 设 X~Np( 0 ,∑ ),随机阵W~Wp( n,∑ )(∑ > 0 , n ≥ p ), 且 X 与 W 相互独立,则称统计量 T 2 nX 'W 1 X为霍特林 T 2

第三章方差分析(11.18)

第三章方差分析(11.18)

第三章⽅差分析(11.18)第三章⽅差分析在⽣产、研究等⼯作中经常要对在不同条件下进⾏观察或试验得到的数据进⾏分析,以判断不同条件对结果有⽆影响。

这时,就需要进⾏⽅差分析。

第⼀节⽅差分析的基本问题⼀、⽅差分析研究的问题⽅差分析是检验若⼲个具有相同⽅差的正态总体的均值是否相等的⼀种假设检验⽅法。

例如,我们要研究不同化肥品种(甲种、⼄种)与某农作物的关系,测定是否不同化肥的增产效果也不同。

则通过⽐较不同品种组的平均数的差异来反映分组变量(如化肥)对因变量(如农作物产量)的影响和作⽤,这就是⽅差分析要解决的内容。

在⽅差分析中,常常⽤到以下术语:响应,是指观察指标的结果或试验结果为响应。

如农作物的产量为响应。

因⼦(因素),是指在观察中或在试验中改变其状态时对响应产⽣影响的因素,也称为因⼦。

如⽤来进⾏分组研究的变量化肥就是因素或因⼦。

⽔平,是指因⼦(因素)在观察或试验中所取的状态称为因⼦(因素)的⽔平。

如化肥的种类甲种、⼄种就是因素的⽔平。

⽅差分析主要有两种。

如果⽅差分析只针对⼀个因素进⾏,称为单因素⽅差分析。

如果同时对多个因素进⾏,称为多因素分析。

在⽅差分析中,通常假定在同⼀条件下的试验结果是来⾃正态总体的⼀个样本;不同条件下的正态总体是相互独⽴的,它们的期望可能不同,但⽅差相同。

要判断不同条件对响应有⽆影响就是要检验各个正态总体的均值是否相等。

在实际应⽤时,⼀般应近似地符合上述要求。

⼆、⽅差分析的基本思想从⽅差分析的⽬的看,是要检验各个正态总体的均值是否相等,⽽实现这个⽬的的⼿段是通过⽅差的⽐较。

我们知道,观察值之间存在着差异,差异的产⽣来⾃于两个⽅⾯,⼀⽅⾯是由因素中的不同⽔平造成的,称为系统性差异;另⼀个⽅⾯是由于抽选样本的随机性⽽产⽣的差异。

两个⽅⾯产⽣的差异可以⽤两个⽅差来计量,⼀个称为⽔平之间的⽅差,⼀个称为⽔平内部的⽅差。

前者既包括系统性因素,也包括随机性因素。

后者仅包括随机性因素。

如果不同⽔平对结果没有影响,那么在⽔平之间的⽅差中,就仅仅有随机因素的差异,⽽没有系统性差异,它与⽔平内部⽅差就应该近似,两个⽅差的⽐值就会接近于1;反之,如果不同的⽔平对结果产⽣影响,在⽔平之间的⽅差中就不仅包括了随机性差异,也包括了系统性差异。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

多元统计分析第三章假设检验与方差分析第3章 多元正态总体的假设检验与方差分析从本章开始,我们开始转入多元统计方法和统计模型的学习。

统计学分析处理的对象是带有随机性的数据。

按照随机排列、重复、局部控制、正交等原则设计一个试验,通过试验结果形成样本信息(通常以数据的形式),再根据样本进行统计推断,是自然科学和工程技术领域常用的一种研究方法。

由于试验指标常为多个数量指标,故常设试验结果所形成的总体为多元正态总体,这是本章理论方法研究的出发点。

所谓统计推断就是根据从总体中观测到的部分数据对总体中我们感兴趣的未知部分作出推测,这种推测必然伴有某种程度的不确定性,需要用概率来表明其可靠程度。

统计推断的任务是“观察现象,提取信息,建立模型,作出推断”。

统计推断有参数估计和假设检验两大类问题,其统计推断目的不同。

参数估计问题回答诸如“未知参数θ的值有多大?”之类的问题,而假设检验回答诸如“未知参数θ的值是0θ吗?”之类的问题。

本章主要讨论多元正态总体的假设检验方法及其实际应用,我们将对一元正态总体情形作一简单回顾,然后将介绍单个总体均值的推断, 两个总体均值的比较推断,多个总体均值的比较检验和协方差阵的推断等。

3.1一元正态总体情形的回顾一、 假设检验在假设检验问题中通常有两个统计假设(简称假设),一个作为原假设(或称零假设),另一个作为备择假设(或称对立假设),分别记为0H 和1H 。

1、显著性检验为便于表述,假定考虑假设检验问题:设1X ,2X ,…,n X 来自总体),(2σμN 的样本,我们要检验假设100:,:μμμμ≠=H H (3.1)原假设0H 与备择假设1H 应相互排斥,两者有且只有一个正确。

备择假设的意思是,一旦否定原假设0H ,我们就选择已准备的假设1H 。

当2σ已知时,用统计量nX z σμ-=在原假设0H 成立下,统计量z 服从正态分布z )1,0(~N ,通过查表,查得)1,0(N 的上分位点2αz 。

对于检验问题(3.1.1),我们制定这样一个检验规则(简称检验): 当2αz z >时,拒绝0H ;当2αz z ≤时,接受0H 。

(3.2) 我们称2αz 为临界值,是)1,0(N 的上分位点,不同的临界值代表不同的检验。

称拒绝原假设0H 的统计量z 的范围为拒绝域,称接受0H 的统计量z 的范围为接受域,因此给出一个检验,就是给出一个拒绝域。

2、两类错误由于样本具有随机性,因此在根据样本进行判断时,有可能犯两种类型的错误。

一类错误是,原假设0H 本来正确,但按检验规则却作出了拒绝0H 的判断,这类错误称为第一类错误(弃真错误),其发生的概率{}αα=>2z z P 称为犯第一类错误的概率;另一类错误时,原假设0H 本来不正确,但按检验规则却作出了接收0H 的判断,这类错误称为第二类错误(存伪错误),其发生的概率称为犯第二类错误的概率,记为β。

同时控制这两类错误是困难的,当时在样本容量n 固定的条件下,要使α和β同时减小,通常是不可能的。

在假设检验的应用中,由奈曼(NEYMAN)与皮尔逊(PEARSON)提出了一个原则,即在控制犯第一类错误的概率α条件下,尽量使犯第二类错误的概率β小,这种检验问题, 称为显著性检验问题。

根据这一原则,原假设受到保护,不至于被轻易拒绝,一旦检验结果拒绝了原假设,则表明拒绝的理由是充分的,如果接受了原假设,则只是表明拒绝的理由还不充分,未必意味着原假设就是正确的。

所以,在实际问题中,为了通过样本观测值对某一猜测取得强有力的支持,通称我们把这一猜测的否定作为原假设,而把猜测本身作为备择假设。

3、关于检验的p 值下面,我们再介绍进行检验的另一种方式——p 值,我们就以(3.1.1)的检验问题为例来加以说明,对于样本,我们通过统计量,计算出nx z σμ00-=,是一确定值,这里的x 是样本观测值的均值,再由统计量z 服从正态分布z )1,0(~N ,计算}{0z z P >为检验的p 值。

由于αz z >等价于p =}{0z z P >{}αα=>≤2z z P ,所以检验规则可以表述为: 当α≤p 时,拒绝0H ;当α>p 时,接受0H 。

接受0H 。

(3.3) 上述p 值的检验规则与(3.1.2)的检验结果相比含有更丰富的信息,p 值越小,拒绝原假设的理由就充分。

通常SAS 等软件的计算机输出一般只给出p 值,由你自己给定的α值来判断检验结果二、单一变量假设检验的回顾 1、 单个正态总体均值的检验考虑假设检验问题:设1X ,2X ,…,n X 来自总体),(2σμN 的样本,我们要检验假设100:,:μμμμ≠=H H(1) 总体方差2σ已知构造统计量nX z σμ-=在原假设H 成立下, z 服从正态分布z )1,0(~N ,可得这样一个检验规则: 当2αz z >时,拒绝0H ; 当αz z ≤时,接受H 。

(2) 总体方差2σ未知构造统计量nsX t μ-=在原假设0H 成立下,t 服从自由度为1-n 的t 分布t )1(~-n t 可得这样一个检验规则:当)1(2->n t t α时,拒绝H ;当)1(-≤n t t α时,接受0H 。

(3.1.4)2、 两个正态总体均值的比较检验 考虑假设检验问题 211210:,:μμμμ≠=H H (3.1.5)设121,,,n X X X 是取自总体),(211σμN 的容量为1n 的样本,221,,,n Y Y Y 是取自),(222σμN 的容量为2n 的样本,给定显著性水平α。

(1) 两个总体方差21σ和22σ已知 构造检验统计量222121n n YX z σσ+-=(3.1.6)在原假设H 成立下, z 服从正态分布z )1,0(~N ,检验规则为:当2αz z >时,拒绝0H ; 当αz z ≤时,接受H 。

(2) 两个总体方差21σ和22σ都未知,但21σ=22σ=2σ 用样本方差s 代替σ,构造检验统计量2111n n s YX t +-=在原假设H 成立下,t 服从正态分布t )2(~21-+n n t ,检验规则为:当)2(212-+>n n t t α时,拒绝0H ;当)2(212-+≤n n t t α时,接受H 。

3、多个正态总体均值的比较检验(方差分析)设k 个正态总体分别为),(21σμN ,),(22σμN ,…, ),(2σμk N 从k 个总体取i n 个独立样本如下:)()(2)(1)1(1)1(2)1(1k nkk k n X X X X X X考虑假设检验问题,:210k H μμμ=== j i j i H μμ≠≠使至少存在,:1假设0H 成立条件下,构造检验统计量为:)/()1/(k n SSE k SSA F --=),1(~k n k F -- 这里∑=-=ki ii X Xn SSA 12)(称为组间平方和;∑∑==-=k i i i j n j X X SSE i12)(1)(称为组内平方和;∑∑==-=ki i jn j X XSST i12)(1)(称为总平方和。

其中=i X ∑=nj i jiXn 1)(1,=X ∑∑==k i n j i j X n 11)(1 k n n n n ++=21给定检验水平α,查F 分布表,使{}αα=>F F P ,可确定出临界值αF ,再利用样本值计算出F 值,若>F αF ,则拒绝0H ,否则不能拒绝0H 。

附注:多元假设检验与SAS 过程本章的主要内容是多元假设检验和方差分析,其中的计算一般都很复杂,可用国际上著名的专业软件——SAS 软件计算。

SAS 中有GLM ,ANOVA 和NESTED 等过程可用方差分析。

其中GLM 过程最常用。

SAS 的GLM 过程采用了一般线性模型: ε++++=m m x b x b b y (110)在方差分析问题中,变量 m x x ...1是示性变量,即只取0或1的变量。

GLM 过程对每一因子的每一水平,通过CLASS 语句产生1个示性变量,也称分类变量。

GLM 过程主要有四个语句:PROC GLM ,CLASS ,MODEL 和LSMEANS 语句。

PROC GLM 语句 用以调用GLM 过程,有许多选项,一般形式是: Proc glm [data=数据集名称] [outstat=输出的统计量][order=formatted|freq|data|internal];CLASS 语句 说明哪些变量是分类变量。

方差分析中的因素都是分类变量,如:Class V1 V2 V3;此语句指示计算机把因子V1,V2 ,V3作为分类变量,可以是字符型变量或数字型变量。

如果是字符型变量,长度限于10个字符以内。

MODEL 语句 语句中等号前是响应变量,如: Model Y=A ; 单因子ANOVA Model Y=A B C ; 主效应模型Model Y=A B A*B ; 含交互效应的因子模型 Model Y1 Y2=A B ; 多因子方差模型MANOVA LSMEANS 语句 用以求待估参数的最小二乘估计。

Lsmeans A B A*B ;MANOVA 语句 用以说明是做多元方差分析。

3.2 均值等于常数向量的检验在经济生产、管理决策中的很多实际问题,通常要选取多个指标进行考察,根据历史数据,将p 项指标的历史平均水平记作0 ,考虑新的p 项指标平均值是否与历史数据记载的平均值有明显差异?若有差异,进一步分析差异主要在哪些指标上,先看下面的实例:例3.1测量20名健康女性排汗量1x 、钠含量2x 、钾含量3x 得表3.1。

问健康女性1x 、2x 、3x 的均值是不是4、50、10?表3-1 20名健康女性排汗量1x 、钠含量2x 、钾含量3x 数据例3.1的数学模型就是:)',,(321x x x x =服从),(∑μN 要根据20个样品做复合检验:⎥⎥⎦⎤⎢⎢⎣⎡≠⎥⎥⎦⎤⎢⎢⎣⎡⎥⎥⎦⎤⎢⎢⎣⎡=⎥⎥⎦⎤⎢⎢⎣⎡10504:,10504:32113210μμμμμμH H一般的,我们考虑p 维正态分布均值等于常数的检验问题:n X X X ,,,21 为取自p 维正态总体),(1∑μp N 的一个样本,要检验:0100:;:μμμμ≠=H H , (3.4)其中0μ为已知p 维向量。

对于这样一个检验问题,分为以下两种情形: 一、协方差阵∑已知条件下,均值μ的检验作出假设后,需要构造一个合适的统计量。

要检验的假设在形式上同一维情形是一样的。

0100:;:μμμμ≠=H H在一维时构造的统计量为n X U 0σμ-=且在0H 成立时,U 服从正态分布)1,0(N 。

相关文档
最新文档