多元统计分析第二章均值、方差检验
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2012-3-1
26 cxt
从图3(t分布图)可以看出,右边的尾概率 不能说是小概率。如果要是拒绝零假设的话, 犯错误的概率就多于 12 %( 0.1243 )了, 因此没有足够证据来拒绝零假设。
2012-3-1
27 cxt
(2)根据来自两个总体的独立样本对其总体均值的 检验 目的是推断两个样本分别代表的总体均数是否相等。 目的是 其检验过程与上述两种t检验也没有大的差别,只是 假设的表达和t值的计算公式不同。 两样本均数比较的t检验,其假设一般为: H0:µ 1=µ 2,即两样本来自的总体均数相等. H1:µ 1>µ 2或µ 1<µ 2,即两样本来自的总体均数不相等, 检验水准为0.05。 计算t统计量时是用两样本均数差值的绝对值除以两 样本均数差值的标准误。
2012-3-1 10 cxt
2.1 均值向量的检验
1、正态总体均值检验的类型 根据样本对其总体均值大小进行检验( One根据样本对其总体均值大小进行检验( OneSample T Test ) 如妇女身高的检验。 根据来自两个总体的独立样本对其总体均值的检验 ( Indepent Two-Sample T Test ) 如两个班平均成绩的检验。 配对样本的检验( Pair配对样本的检验( Pair-Sample T Test ) 如减肥效果的检验。 多个总体均值的检验
2012-3-1 24 cxt
用 SPSS 处理数据: Spss 选项:Analyze—Compare mean— Analyze— mean— Analyze OneOne-Sample T Test Spss 输出结果:
2012-3-1
25 cxt
输出结果中:p - 值为 0.1243 (计算机输 出的双尾检验的 p - 值除以 2 ),因此, 没有证据否定零假设。 t分布图:
2012-3-1 9 cxt
3 .关于 “ 临界值 ” 的问题: 过去的统计教科书中,使用临界值的概念进行假设 检验,不计算p - 值。只比较统计量的取值和临界 值的大小。使用临界值而不是p - 值来判断拒绝与 否是前计算机时代的产物。当时计算p - 值不易, 只采用临界值的概念。 现在计算机软件一般都不给出α和临界值,但都给 出p - 值和统计量的实现值,让用户自己决定显著 性水平是多少。
第二章
均值向量和协方差阵的检验
zf
假设检验的基本问题
1、假设检验的基本原理 小概率事件原理 小概率思想是指小概率事件(P<0.01或 小概率思想是指小概率事件(P<0.01或 P<0.05等 在一次试验中基本上不会发生。 P<0.05等)在一次试验中基本上不会发生。 反证法思想是先提出假设(检验假设H 反证法思想是先提出假设(检验假设H0),再 用适当的统计方法确定假设成立的可能性大 如可能性小,则认为假设不成立;反之, 小,如可能性小,则认为假设不成立;反之, 则认为假设成立。 则认为假设成立。
2012-3-1
22 cxt
见图2的t分布图,在直观上看这也的确是个 小概率事件。
2012-3-1
23 cxt
例2:某汽车厂商声称其发动机排放标准的 一个指标平均低于 20 个单位。在抽查了 10 台发动机之后,得到下面的排放数据: 17.0 、 21.7 、 17.9 、 22.9 、 20.7 、 22.4 、 17.3 、 21.8 、 24.2 、 25.4 。 该样本均值为 21.13 。究竟能否由此认为 该指标均值超过 20 ? 假设检验问题就是: H0=20 H1大于20
2012-3-1 19 cxt
确定统计量 检验统计量就是作为对均值的标准化 见书: 21页 2.1)(2.2) )(2.2 见书:第21页(2.1)(2.2) 处理数据: 用 SPSS 处理数据: 命令:Analyze— mean— 命令:Analyze—Compare mean—One Sample T Test
2012-3-1
15 cxt
a. 建立假设 H0:µ =µ 0=72次/分,H0:µ>µ 0,检验水准为单侧0.05。 b. 计算统计量 进行样本均数与总体均数比较的t检验时t值为样本均数与 总体均数差值的绝对值除以标准误的商,其中标准误为标 准差除以样本含量算术平方根的商 3. 确定概率,作出判断 以自由度v(样本含量n减1)查t界值表,0.025<P<0.05,拒 绝H0,接受H1,可认为该山区成年男性的脉搏均数高于一 般成年男性。
2012-3-1 11 cxt
(1)根据样本对其总体均值大小进行检验 设取出一容量为n的样本, 设取出一容量为n的样本,得到均值 X 和标 准差s 准差s,现要透过样本推断总体均值 µ 是否 与某给定值(理论值或标准值) 与某给定值(理论值或标准值)µ0 有无差 别进行检验. 别进行检验.记 H0 : µ = µ0 H1 : µ ≠ µ0 为原假设, 为备择假设, 两者择其一: 称 H0 为原假设 , H1 为备择假设 , 两者择其一 : 接受H 拒绝H 即接受H 接受H0;拒绝H0,即接受H1
2012-3-1 28 cxt
2 σ12 与 σ2 已知时 A、
构造统计量
z=
X −Y
σ 12
n1
+
σ 22
n2
2 σ12 与 σ2 未知但相等时 B、
构造统计量
t=
2012-3-1
X −Y
2 2 (n1 −1)s1 +(n2 −1)s2
29 cxt
nn2(n1 +n2 −2) 1 n1 +n2
H0
2012-3-1 4 cxt
H1: u不等于160cm的假设称为双尾检验 ; 的假设称为双尾检验 如果备选假设为H1: 如果备选假设为 u大于160cm 或 u小于160cm 则称为单尾检验。 则称为单尾检验。 实际中选择何种备选假设,需根据检验的需要决定。 实际中选择何种备选假设,需根据检验的需要决定。 需要注意的是: 需要注意的是:计算机输出结果中的 p 值是双尾 检验的概率。 检验的概率。 如果备选假设选择的是单尾检验, 如果备选假设选择的是单尾检验,则要将计算机给 值的一半。 的 p 值除以 2 ,即取 p 值的一半。
总体方差σ 已知
2
H0
H1
统计量 z=
X − µ0
总体方差σ 未知
2
σ
统计量 t =
X − µ0 s n
在显著水平α 下拒绝 H0,若 Ⅰ Ⅱ Ⅲ
n
µ = µ0
µ = µ0
µ ≠ µ0 µ > µ0 µ < µ0
z >u
1−
α
2
t >t
1−
α
2
(n − 1)
z > u1−α z < −u1−α
t > t1−α (n − 1) t < −t1−α (n − 1)
2012-3-1
3 cxt
与此同时必须提出对立假设,如妇女身高均 ≠ 值不等于 160 cm 。对立假设又称为备选假 设或备择假设( alternative hypothesis ) 记为 H 1 。 形式上,上面的关于总体均值的 H 0 相对 于 H 1 的检验记为: H0: u=160cm H1: u不等于160cm
2012-3-1
7 cxt
(4)计算检验统计量的值并进行判断 根据样本观测值计算统计量的观测值,并与临 界值进行比较,从而在检验水平条件下对拒绝 或接受原假设H0作出判断. 根据数据计算检验统计量的实现值( t 值或F 值)和根据这个实现值计算 p值 如果p - 值小于或等于α,就拒绝零假设,这 时犯错误的概率最多为α;如果p - 值大于α, 就不拒绝零假设,因为证据不足。
2012-3-1 8 cxt
实际上,多数计算机软件仅仅给出 p - 值,而不 给出 α 。这有很多方便之处。比如 α= 0.05 , 而假定所得到的 p - 值等于 0.001 。这时如果采 用 p - 值作为新的显著性水平,即新的 α= 0.001 ;于是就可以说,在显著性水平为 0.001 时,拒绝零假设。这样,拒绝零假设时犯错误的概 率实际只是千分之一而不是旧的 α 所表明的百分 之五。 在这个意义上, p - 值又称为观测的显著性水平 ( observed significant level )。在统计软件 输出 p - 值的位置,有的用 “ p-value ” ,有 的用 significant 的缩写 “Sig”
2012-3-1 5 cxt
(2)确定检验统计量 1 有了两个假设,就要根据数据来对它们进行判断: 选择适当的统计量,并在原假设H0成立的条件下确 定该统计量的分布。 (3)确定显著性水平α 根据样本所得的数据来拒绝零假设的概率应小于 0.05 ,当然也可能是 0.01 , 0.005 , 0.001 等等。 根据统计量的分布查表,确定对应于α的临界值.
2012-3-1
16 cxt
500g 例1:如果你买了一包标有 500g 重的一包 红糖,你觉得份量不足。 红糖,你觉得份量不足。于是你找到监督部 门;当然他们会觉得一包份量不够可能是随 机的。 机的。于是监督部门就去商店称了 50 包红 );其中均值 其中均值( 糖(数据在 sugar.sav );其中均值(平 均重量) 498.35g 500g 均重量)是 498.35g ;这的确比 500g 少, 但这是否能够说明厂家生产的这批红糖平均 起来不够份量呢?于是需要统计检验。 起来不够份量呢?于是需要统计检验。
H1
2 方差 σ 12 , σ 2 已知 统计量 z
2 方差σ 12 , σ 2 未知但相等 统计量t
在显著水平α 下拒绝 H0,若 Ⅰ Ⅱ Ⅲ
µ1 = µ 2 µ1 = µ 2 µ1 = µ 2
µ1 ≠ µ 2 µ1 > µ 2 µ来自百度文库 < µ 2
2012-3-1 6 cxt
显著性水平就是小概率水平,但小概率并不 能说明不会发生,仅仅是发生的概率很小罢 了。拒绝正确零假设的错误常被称为第一类 第一类 错误( 错误( type I error )。 有第一类错误,就有第二类错误:那是备选 假设正确时反而说零假设正确的错误,称为 第二类错误( 第二类错误( type II error )。
µ = µ0
2012-3-1
14 cxt
如根据大量调查,已知健康成年男性的脉搏 均数为72次/分,某医生在一山区随即抽查 了25名健康男性,求得其脉搏均数为74.2次 /分,标准差为6.0次/分,问是否能据此认 为该山区成年男性的脉搏均数高于一般成年 男性。
上述两个均数不等既可能是抽样误差所致,也有可能真是环境差 异的影响,为此,可用t检验进行判断,检验过程如下:
2012-3-1 2 cxt
2、假设检验的步骤 (1)提出一个原假设和备择假设 例如:要对妇女的平均身高进行检验, 例如:要对妇女的平均身高进行检验,可以 先假设妇女身高的均值等于 160 cm )。这种原假设也称为零假设 (u=160cm )。这种原假设也称为零假设 ),记为 ( null hypothesis ),记为 H 0 。
2012-3-1 12 cxt
A、总体方差已知 用u检验 u检验,检验的拒绝域为 W ={ z > u α } 即 W = {z < −u1−α 或z > u1−α } 1−
2
2 2
B、总体方差未知 用样本方差 2 代替总体方差 σ 2 ,这种检验 s 叫t检验 t检验.
2012-3-1 13 cxt
2012-3-1 17 cxt
首先,可以画出这些重量的直方图(图1)
判断样本是否服从正态分布
2012-3-1 18 cxt
提出假设 由于厂家声称每袋 500g (标明重量),因 此零假设为总体均值等于 500g (被怀疑对 被怀疑对 象总是放在零假设);而且由于样本均值少 象总是放在零假设 于 500g (这是怀疑的根据),把备选假设 定为总体均值少于 500g (这种备选假设为 单向不等式的检验为单尾检验,)。 即,H0:u=500 H1: u小于500
2012-3-1
20 cxt
Spss 输出结果 :t=-2.696 (也称为 t 值) , 同时得到 p- 值为 0.005 (由于计 算机输出的为双尾检验的 p- 值,比单尾的 大一倍,应该0.010除以 2 )
2012-3-1 21 cxt
在0.5%的条件下,红糖标记重量为 500g 是不能接受的,实际上平均起来要少于 500g 。