t分布与检验知识讲解
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
练习1:
上例中其他条件不变,现假定15天 内出售面包的平均数量为72条,求获得 此数量的概率。
按照上述步骤,首先运用t变量公式,求出 t变量。
t 72701.936 4/ 15
查t分布表,当自由度为14时,t值大于等于 1.761的概率为0.05,大于等于2.145的概率为 0.025,因此,t值取1.936的概率介于0.025与 0.05之间。
例:变量X表示面包房每日出售的面包量,假 定它服从均值为70、方差为9的正态分布,即 X~N(70,9),求任给一天,出售面包数量大于 75条的概率。
首先,定义变量Z,Z=(75-70)/3≈1.67
求:P(Z>1.67)
查正态分布表得:
P(0≦Z≦1.67)=0.4525
则:P(Z>1.67)=0.5-0.4525=0.0475
0 不同自由度下的分布
t分布的性质
⑴ t分布与正态分布相类似,具有对称性。 ⑵ t分布的均值与标准正态分布均值相同,
为0,但方差为k/(k-2)。由此,在求t分布的 方差时定义自由度必须大于2。 标准正态分布的方差等于1,因此,t分布方 差总大于标准分布的方差,也就是说,t分布 比正态分布略“胖”些。
P/E
频数
6
2
7
2
8
5
均值=11.5
9
6
样本方差=9.2755
10
5
11
7
样本标准差=3.0456
12
5
13
4
14
3
15
4
16
6
18
1
总计:50
假设的样本(50支股票的P/E值)
假设检验
假设真实的x 取某一特定值,如x =13。 然后去检验这个假设,检验结果是接受或 拒绝该假设?下面以此为例说明。
置信区间提供了在某一置信度下(如95%)真实 的x 的取值范围。因此,如果这个区间不包括零 假设中的值,如x =13,则拒绝零假设,即我们 以95%的置信度拒绝零假设。反之,接受零假设。
接受区域:上述不等式所描述的置信区间称为 接受区域。
零假设的临界区域(或拒绝区域):接受区域 以外的称为零假设的临界区域或拒绝区域。
⑶ 正态曲线下的面积约有68%位于± 两 值之间;约有95%面积位于±2之间;约有 99.7%的面积位于± 3之间。这些区域可用 作概率的度量。
⑷ 正态分布可由两个参数,²来描 述,即一旦知道,²的值,就可以根 据附录表查到随机变量X落于某一区 间的概率值。
⑸ 两个(或多个)正态分布随机变量 的线性组合仍服从正态分布。该性质 很重要,解释如下:
分析:令X代表坛子中花生的重量,因此, X~N(x ,²),两个参数x 和²均是未知的。 由于知道样本方差,故设计t变量,它服从自由 度为19的t分布。
t
(X
X
)
ቤተ መጻሕፍቲ ባይዱ
~t
S 20 19
查t分布表得:当自由度为19时, P(-2.861≦t≦2.861)=0.99
整理得出:
P X2 .8S 6 1X2 .8S 6 1 0 .99
t分布与检验
正态曲线下的区域示意图
-3 -2
- 68%(近似) 95%(近似) 99.7%(近似)
2 3
1.2 正态分布的性质:
⑴ 正态分布曲线以均值为中心,对称分布。
⑵ 正态分布的概率密度函数呈中间高、两边 低,在均值处达到最高,向两边逐渐降低, 即随机变量在远离均值处取值的概率逐渐变 小。
根据以下公式可知:
(X )
t
X
Sn
服从自由度为(n-1)的t分布。在具体应用中,、 S、n已知, x 未知。
在零假设下设定x 为一给定值,从而求出t 值。由于该式中的t值服从自由度为(n-1)的t分 布,根据t分布很容易求出获此t值的概率。
显著性检验方法的关键之处是检验统计量(t 统计量)以及在假定x 为一给定值下该t统计 量的概率分布。
即每天出售面包的数量超过75条的概率为 0.0475。
f(Z)
0.4525
0.0475
0
1.67
标准正态变量概率密度函数
t分布
_
回忆:若样本均值 X~N(,2 n),则
变量Z服从标准正态分布。
_
即: Z X ~N(0,1) n
假定已知和²的估计量S²,则可以 用样本标准差(S)代替总体标准差 (),得到一个新的变量t。
t分布表的使用:
例:自由度为10,P(t>1.812)=P(t<-1.812)=0.05 P(︱t︱>1.812)=P(t>1.812)+P(t<-1.812)=0.1
0.05 0.05
-1.812
0
1.812
t分布表举例:
例:变量X表示面包房每日出售的面包量, 在15天内,出售面包的样本方差为16。假 定真实的出售量为70条,求任意15天内出 售面包平均数量为74条的概率。
此课件下载可自行编辑修改,仅供参考! 感谢您的支持,我们努力做得更好!谢谢
nX
n
将已知条件代入,得:
5.22≦ x ≦7.78 (近似值) 由于该区间包括了零假设值7.5,因此,我 们不拒绝零假设:真实的x =7.5。
H0:x =7.5
0.5%
5.22
99% 0.5%
7.5 7.78
a) x的99%的置信区间
4.3 显著性检验
显著性检验是一种两者择一的假设检验,现通 过P/E一例加以说明。
分析:本例中已知样本方差S²=16,则S=4, 总体均值(真实的出售量)=70,运用t变量 公式得:
t 74703.873 4 15
查t分布表,自由度为(n-1)=15-1=14
当自由度为14时,查表得,t值大于等于 2.977的概率为0.005,大于等于4.140的概 率为0.0005,所以,t值大于等于3.873的 概率介于0.0005~0.005之间。
临界值:接受区域的上界和下界称为临界值。 它们是接受或拒绝零假设的分界线。
归纳:如果参数值在零假设下位于接受区域内, 则不拒绝零假设,若落在接受区域以外(即落 在拒绝区域内),则拒绝零假设。
10.63
12.36
P/E总体均值的95%的置信区间
P/E值
例:坛子里的花生的重量服从正态分布,但均 值和方差是未知的。随机选取20个坛子,发现 其样本均值和样本方差分别为6.5和4。检验零 假设:真实均值为7.5;备则假设:真实均值不 是7.5。给定显著水平1%。
1
2
不同均值,同方差的两个正态分布图
不同均值,不 同方差
1
2
相同均值,不 同方差
1=2
标准正态分布
如果变量X的均值为,方差为,定义一个
新的变量Z, Z X
则根据性质5,变量Z的均值为0,方差为1。 在统计学中,我们称之为单位或标准正态 变量,用符号表示为:
Z ~N(0,1)
任一给定均值和方差的正态变量都可转化为标准正 态变量,将其标准化可以大大简化计算。
建立判定规则有两种方法:置信区间法、显著性 检验法。
4.1 置信区间法
在上述例子中,我们知道样本均值服从均值为x , 方差为²/n的正态分布,由于真实的方差未知, 以样本方差代替。在这种情况下,样本均值服从 t分布,从而得到x 的一个95%的置信区间: 10.63≦ x ≦12.36 (近似值)
t分布与正态分布: 当k增大时,t分布的方差接近于标准正态分布方差值1。 例如:当k=10时,t分布的方差为10/8=1.25;
当k=30时,t分布的方差为30/28=1.07; 当k=100时,t分布的方差为100/98=1.02; 结论:随着自由度的逐渐增大,t分布近似于正态分布。 注意:对于t分布,不要求其样本容量很大,k=30时,t 分布与正态分布已很近似。
令:
X
~
N(X
,
2 X
)
Y ~ N(Y ,Y2 )
假定X和Y相互独立,设a、b为常数, 考虑线性组合:W=aX+bY 则有:
W~N(w,w 2)
其中,w ax b y
2 w
a2
2 x
b2
2 y
1.3 标准正态分布
由于期望和方差的不同,正态分布之间会存在一定 的区别(见下图),如何将其简单化,从而引入标 准正态分布。
_
X
t Sn
根据统计理论得知:变量t服从自由度为(n-1)的 t分布。
注意:在这里,自由度为(n-1),而不是n。
结论:从正态总体中抽取随机样本,若该正态 总体的均值为,但方差²用其估计量S²来代替, 则其样本均值服从t分布。通常用符号tk表示, 其中k表示自由度。
k=120(正态) K=20 K=5
查t分布表的注意事项:
⑴ 自由度为(n-1),而不是n。
⑵ t分布表具有对称性,t值大于等于 某一特定值的概率与t值小于等于该特 定值相反数的概率相等。
关注某一总体,如纽约股票交易市场的 1758支(90年9月4日)股票,想要研究该 总体某一方面的统计特征,比如说股票价 格与收入比(P/E)的平均值。在总体中抽 取随机样本,如50支股票,求样本中每一 支股票的P/E值,然后再计算平均P/E值, 就称为总体平均P/E的估计量
在P/E例子中, =11.5,S=3.0456,n=50。
令H0: x =13,H1: x ≠13,则有:
t =(11.5-13)/(3.0456/√50)=-3.4826
根据该t值能否拒绝零假设呢?在没有设 定置信水平之前,无法回答这个问题。 现假定置信水平为5%,即 =5%。
当自由度为49时,在5%的显著水平下,查表 得临界的t值为-2.0096和2.0096 (见下图) , 获此t值小于或等于-2.0096的概率为2.5%,获 得此t值大于或等于2.0096的概率也为2.5%。
95% t =-3.5
=2.5%
=2.5%
-2.0096
0
2.0096
t检验的显著性:双边检验
显然,t值位于t分布的左侧拒绝区域。因此, 拒绝零假设。
零H0
x= 0
t检验小结 备择假设
临界区域,拒绝H0,若
x>0
x= 0
x<0
x= 0
x≠0
最后一列给出了t临界值,第一个下标表示显著水平,d.t代表自由度。
用假设的语言,将x =13称为零假设,用符号H0 表示。即,H0: x =13
与备零 择假假设设相有对以应下的 几是 种形备式择:假设,用符号H1表示,
H1: x>13 称为单边备择假设;
H1: x<13 称为单边备择假设;
H1: x≠13 称为双边备择假设。
为了检验零假设(和备择假设),根据样本数据及 统计理论建立判定规则来判断样本信息是否支持 零假设。若支持,不拒绝零假设,反之拒绝零假 设,接受备择假设。
上例中其他条件不变,现假定15天 内出售面包的平均数量为72条,求获得 此数量的概率。
按照上述步骤,首先运用t变量公式,求出 t变量。
t 72701.936 4/ 15
查t分布表,当自由度为14时,t值大于等于 1.761的概率为0.05,大于等于2.145的概率为 0.025,因此,t值取1.936的概率介于0.025与 0.05之间。
例:变量X表示面包房每日出售的面包量,假 定它服从均值为70、方差为9的正态分布,即 X~N(70,9),求任给一天,出售面包数量大于 75条的概率。
首先,定义变量Z,Z=(75-70)/3≈1.67
求:P(Z>1.67)
查正态分布表得:
P(0≦Z≦1.67)=0.4525
则:P(Z>1.67)=0.5-0.4525=0.0475
0 不同自由度下的分布
t分布的性质
⑴ t分布与正态分布相类似,具有对称性。 ⑵ t分布的均值与标准正态分布均值相同,
为0,但方差为k/(k-2)。由此,在求t分布的 方差时定义自由度必须大于2。 标准正态分布的方差等于1,因此,t分布方 差总大于标准分布的方差,也就是说,t分布 比正态分布略“胖”些。
P/E
频数
6
2
7
2
8
5
均值=11.5
9
6
样本方差=9.2755
10
5
11
7
样本标准差=3.0456
12
5
13
4
14
3
15
4
16
6
18
1
总计:50
假设的样本(50支股票的P/E值)
假设检验
假设真实的x 取某一特定值,如x =13。 然后去检验这个假设,检验结果是接受或 拒绝该假设?下面以此为例说明。
置信区间提供了在某一置信度下(如95%)真实 的x 的取值范围。因此,如果这个区间不包括零 假设中的值,如x =13,则拒绝零假设,即我们 以95%的置信度拒绝零假设。反之,接受零假设。
接受区域:上述不等式所描述的置信区间称为 接受区域。
零假设的临界区域(或拒绝区域):接受区域 以外的称为零假设的临界区域或拒绝区域。
⑶ 正态曲线下的面积约有68%位于± 两 值之间;约有95%面积位于±2之间;约有 99.7%的面积位于± 3之间。这些区域可用 作概率的度量。
⑷ 正态分布可由两个参数,²来描 述,即一旦知道,²的值,就可以根 据附录表查到随机变量X落于某一区 间的概率值。
⑸ 两个(或多个)正态分布随机变量 的线性组合仍服从正态分布。该性质 很重要,解释如下:
分析:令X代表坛子中花生的重量,因此, X~N(x ,²),两个参数x 和²均是未知的。 由于知道样本方差,故设计t变量,它服从自由 度为19的t分布。
t
(X
X
)
ቤተ መጻሕፍቲ ባይዱ
~t
S 20 19
查t分布表得:当自由度为19时, P(-2.861≦t≦2.861)=0.99
整理得出:
P X2 .8S 6 1X2 .8S 6 1 0 .99
t分布与检验
正态曲线下的区域示意图
-3 -2
- 68%(近似) 95%(近似) 99.7%(近似)
2 3
1.2 正态分布的性质:
⑴ 正态分布曲线以均值为中心,对称分布。
⑵ 正态分布的概率密度函数呈中间高、两边 低,在均值处达到最高,向两边逐渐降低, 即随机变量在远离均值处取值的概率逐渐变 小。
根据以下公式可知:
(X )
t
X
Sn
服从自由度为(n-1)的t分布。在具体应用中,、 S、n已知, x 未知。
在零假设下设定x 为一给定值,从而求出t 值。由于该式中的t值服从自由度为(n-1)的t分 布,根据t分布很容易求出获此t值的概率。
显著性检验方法的关键之处是检验统计量(t 统计量)以及在假定x 为一给定值下该t统计 量的概率分布。
即每天出售面包的数量超过75条的概率为 0.0475。
f(Z)
0.4525
0.0475
0
1.67
标准正态变量概率密度函数
t分布
_
回忆:若样本均值 X~N(,2 n),则
变量Z服从标准正态分布。
_
即: Z X ~N(0,1) n
假定已知和²的估计量S²,则可以 用样本标准差(S)代替总体标准差 (),得到一个新的变量t。
t分布表的使用:
例:自由度为10,P(t>1.812)=P(t<-1.812)=0.05 P(︱t︱>1.812)=P(t>1.812)+P(t<-1.812)=0.1
0.05 0.05
-1.812
0
1.812
t分布表举例:
例:变量X表示面包房每日出售的面包量, 在15天内,出售面包的样本方差为16。假 定真实的出售量为70条,求任意15天内出 售面包平均数量为74条的概率。
此课件下载可自行编辑修改,仅供参考! 感谢您的支持,我们努力做得更好!谢谢
nX
n
将已知条件代入,得:
5.22≦ x ≦7.78 (近似值) 由于该区间包括了零假设值7.5,因此,我 们不拒绝零假设:真实的x =7.5。
H0:x =7.5
0.5%
5.22
99% 0.5%
7.5 7.78
a) x的99%的置信区间
4.3 显著性检验
显著性检验是一种两者择一的假设检验,现通 过P/E一例加以说明。
分析:本例中已知样本方差S²=16,则S=4, 总体均值(真实的出售量)=70,运用t变量 公式得:
t 74703.873 4 15
查t分布表,自由度为(n-1)=15-1=14
当自由度为14时,查表得,t值大于等于 2.977的概率为0.005,大于等于4.140的概 率为0.0005,所以,t值大于等于3.873的 概率介于0.0005~0.005之间。
临界值:接受区域的上界和下界称为临界值。 它们是接受或拒绝零假设的分界线。
归纳:如果参数值在零假设下位于接受区域内, 则不拒绝零假设,若落在接受区域以外(即落 在拒绝区域内),则拒绝零假设。
10.63
12.36
P/E总体均值的95%的置信区间
P/E值
例:坛子里的花生的重量服从正态分布,但均 值和方差是未知的。随机选取20个坛子,发现 其样本均值和样本方差分别为6.5和4。检验零 假设:真实均值为7.5;备则假设:真实均值不 是7.5。给定显著水平1%。
1
2
不同均值,同方差的两个正态分布图
不同均值,不 同方差
1
2
相同均值,不 同方差
1=2
标准正态分布
如果变量X的均值为,方差为,定义一个
新的变量Z, Z X
则根据性质5,变量Z的均值为0,方差为1。 在统计学中,我们称之为单位或标准正态 变量,用符号表示为:
Z ~N(0,1)
任一给定均值和方差的正态变量都可转化为标准正 态变量,将其标准化可以大大简化计算。
建立判定规则有两种方法:置信区间法、显著性 检验法。
4.1 置信区间法
在上述例子中,我们知道样本均值服从均值为x , 方差为²/n的正态分布,由于真实的方差未知, 以样本方差代替。在这种情况下,样本均值服从 t分布,从而得到x 的一个95%的置信区间: 10.63≦ x ≦12.36 (近似值)
t分布与正态分布: 当k增大时,t分布的方差接近于标准正态分布方差值1。 例如:当k=10时,t分布的方差为10/8=1.25;
当k=30时,t分布的方差为30/28=1.07; 当k=100时,t分布的方差为100/98=1.02; 结论:随着自由度的逐渐增大,t分布近似于正态分布。 注意:对于t分布,不要求其样本容量很大,k=30时,t 分布与正态分布已很近似。
令:
X
~
N(X
,
2 X
)
Y ~ N(Y ,Y2 )
假定X和Y相互独立,设a、b为常数, 考虑线性组合:W=aX+bY 则有:
W~N(w,w 2)
其中,w ax b y
2 w
a2
2 x
b2
2 y
1.3 标准正态分布
由于期望和方差的不同,正态分布之间会存在一定 的区别(见下图),如何将其简单化,从而引入标 准正态分布。
_
X
t Sn
根据统计理论得知:变量t服从自由度为(n-1)的 t分布。
注意:在这里,自由度为(n-1),而不是n。
结论:从正态总体中抽取随机样本,若该正态 总体的均值为,但方差²用其估计量S²来代替, 则其样本均值服从t分布。通常用符号tk表示, 其中k表示自由度。
k=120(正态) K=20 K=5
查t分布表的注意事项:
⑴ 自由度为(n-1),而不是n。
⑵ t分布表具有对称性,t值大于等于 某一特定值的概率与t值小于等于该特 定值相反数的概率相等。
关注某一总体,如纽约股票交易市场的 1758支(90年9月4日)股票,想要研究该 总体某一方面的统计特征,比如说股票价 格与收入比(P/E)的平均值。在总体中抽 取随机样本,如50支股票,求样本中每一 支股票的P/E值,然后再计算平均P/E值, 就称为总体平均P/E的估计量
在P/E例子中, =11.5,S=3.0456,n=50。
令H0: x =13,H1: x ≠13,则有:
t =(11.5-13)/(3.0456/√50)=-3.4826
根据该t值能否拒绝零假设呢?在没有设 定置信水平之前,无法回答这个问题。 现假定置信水平为5%,即 =5%。
当自由度为49时,在5%的显著水平下,查表 得临界的t值为-2.0096和2.0096 (见下图) , 获此t值小于或等于-2.0096的概率为2.5%,获 得此t值大于或等于2.0096的概率也为2.5%。
95% t =-3.5
=2.5%
=2.5%
-2.0096
0
2.0096
t检验的显著性:双边检验
显然,t值位于t分布的左侧拒绝区域。因此, 拒绝零假设。
零H0
x= 0
t检验小结 备择假设
临界区域,拒绝H0,若
x>0
x= 0
x<0
x= 0
x≠0
最后一列给出了t临界值,第一个下标表示显著水平,d.t代表自由度。
用假设的语言,将x =13称为零假设,用符号H0 表示。即,H0: x =13
与备零 择假假设设相有对以应下的 几是 种形备式择:假设,用符号H1表示,
H1: x>13 称为单边备择假设;
H1: x<13 称为单边备择假设;
H1: x≠13 称为双边备择假设。
为了检验零假设(和备择假设),根据样本数据及 统计理论建立判定规则来判断样本信息是否支持 零假设。若支持,不拒绝零假设,反之拒绝零假 设,接受备择假设。