数理统计上机报告----苏宏健

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数理统计上机报告
姓名: 苏宏健 班级: 信计11-1 组别: 成绩: .
合作者: 指导教师: 实验日期: 2013.11.24 .
上机实验一:假设检验
一、上机目的:
1. 进一步理解假设检验的基本思想,学会使用检验和进行统计推断。

2. 学会使用R 软件进行假设检验的方法。

二、上机实验的内容和实例
这一部分讲述2种利用R 实现的假设检验方法,F 检验、t 检验。

1. F 检验
如果想知道两组样本的方差是否相等。

可以用两个样本方差相等的F 检验。

设两个正态总体的方差分别为21σ和2
2σ ,如果在两总体中随机选取容量为1n 和2n 个独
立样本,那么统计量2
122
S F S =服从自由度为1n -1和2n -1的F 分布。

假设检验问题:2222
012112:; :H H σσσσ=≠,给定显著性水平α,则拒绝域为:
121212121212
2
{(,,
,;,,,)|(1,1)(1,1)}n n W x x x y y y F F n n F F
n n αα-
=<-->--或。

下面以一例介绍两个正态总体方差的F 检验。

例1、有甲、乙两个实验员,对同一实验的同一指标进行测定,两个测定的结果如下: 试验号 1 2 3 4 5 6 7 8 甲 4.3 3.2 3.8 3.5 3.5 4.8 3.3 3.9 乙
3.7
4.1
3.8
3.5
4.6
3.9
2.8
4.4
试问:甲乙的测定有无显著差异?取显著性水平α=0.05. 实验程序:
x<-c(4.3,3.2,3.8,3.5,3.5,4.8,3.3,3.9) y<-c(3.7,4.1,3.8,3.8,4.6,3.9,2.8,4.4) sq1<-var(x) sq2<-var(y) F<-sq1/sq2 n1<-length(x) n2<-length(y) alpha<-0.05
F1<-qf(alpha/2,n1-1,n2-1) F2<-qf(1-alpha/2,n1-1,n2-1) jieguo<-list(F,F1,F2)
实验结果:
有实验结果可以看出F1<F<F2,接受原假设,甲乙没有显著差异。

t 检验
2.1 单个总体方差未知时均值的t 检验
设单个正态总体方差2
σ未知时,如果在总体中随机选取容量为n 样本,则统计量
/x t s n
μ-=
服从自由度为1n -的t 分布。

假设检验:0010: :H H μμμμ=≠的拒绝域为:
0122
{(,,,):|||
|(1)}/n x W x x x t t n s n
αμ-==>-。

下面以一例介绍单个正态总体方差未知时均值的t 检验。

例2、某型号玻璃纸的横向延伸率要求不低于65%,且其服从正态分布,现对一批该型号的玻璃纸测得100个数据如下: x%(横向延伸
35.5
37.5
39.5
41.5
43.5
45.5
47.5
49.5
51.5
53.5
55.5
57.5
59.5
61.5
63.5
频数
7
8
11
9
9
12
17
14
5
3
2
2
1
试问:该批玻璃纸的横向延伸率是否符合要求?(取显著性水平为α=0.05) 实验程序: alpha<-0.05; x<-rep(c
(35.5,37.5,39.5,41.5,43.5,45.5,47.5,49.5,51.5,53.5,55.5,57.5,59.5,61.5,63.5),c(7,8,11,9,9,12,17,14,5,3,2,0,2,0,1)); n<-100; sd1<-sd(x); xbar<-mean(x);
t<-(xbar-65)/(sd1/sqrt(n)); tvalue<-qt(alpha,n-1); 实验结果:
有以上结果可以知道,t<tvalue 拒绝原假设,认为该批玻璃纸的横向延伸率不符合要求。

2.2 两个总体方差相等未知时均值差的t 检验
设两个正态总体的方差分别为21σ和2
2σ 未知,但22212σσσ==(如果验证两组样本的
对应总体方差相等。

可以用两个样本方差相等的F 检验), 如果在两总体中随机选取容量为
1n 和2n 个独立样本,那么统计量1212
()()
11w x y t s n n μμ---=
+
服从自由度为122n n +-的t 分布。

假设检验问题: 012112:; :H c H c μμμμ-=-≠(c 已知常数)
给定显著性水平α,则拒绝域为:
12122
12
(){(,,,):|||
|(2)}11/n w x y c
W x x x t t n n s n n α--==>+-+。

例子如例1; 实验程序: alpha<-0.05; n1<-8; n2<-8;
x<-c(4.3,3.2,3.8,3.5,3.5,4.8,3.3,3.9); y<-c(3.7,4.1,3.8,3.8,4.6,3.9,2.8,4.4); var1<-var(x); xbar<-mean(x); var2<-var(y); ybar<-mean(y);
Sw2<-((n1-1)*var1+(n2-1)*var2)/(n1+n2-2) t<-(xbar-ybar)/(sqrt(Sw2)*sqrt(1/n1+1/n2)); t
n<-16;
linjie<-qt(1-alpha/2,n-2) linjie
实验结果:
实验结果t<linjie,我们接受其假设,也就说明甲乙没有显著差异。

三、实验小结:
上机实验一我们可以加深对假设检验的认识,同时了掌握常见假设检验方法的R解法。

本实验重点涉及到假设检验的各个方面内容,使我们:
(1)进一步了解F检验、t检验统计量的含义;
(2)掌握F检验的R解法以及在实际问题中的应用;
(3)了解2种类型t检验R解法以及多种应用;
上机实验二:区间估计
一、上机目的:
1.更深层理解数学期望和方差的置信区间的概念和思想,学习求正态总体的均值和方差的置信区间。

2.了解常用统计函数在R中的表示方法,运用在R中求出这些统计函数值,计算参数的置信区间。

二、上机实验的内容和实例
1、单个总体方差已知时均值的区间估计
根据统计学原理,当总体呈正态分布,抽取的样本的平均值也呈正态分布.其平均数为
σ。

当总体不是正态分布,平均数的抽总体平均数μ,方差为总体方差除以样本数,即2/n
样分布也不是正态分布。

但是根据统计学中的中心极限定理可知.如果从平均数为μ和方差为2
σ的总体中随机抽样,当样本容量大时,平均数的抽样分布接近正态分布N(μ,
2/n σ).
在实际应用中,如果样本数大于25,一般认为样本数足够大,样本平均数的抽样分布非常接近正态分布N(μ,2
/n σ). 这里为了进行区间估计,设12,,
,n x x x 来自正态总体
2(,)N μσ样本,其中2σ已知。

因为统计量
/x n
μ
σ-服从标准正态分布,所以
ασμ
αα-=<-<
---1}/{2/12/1u n
x u P ,从而得出均值μ的置信度1α-的置信区间为
],[2
/12
/1n
u x n
u x σ
σ
αα--+-。

2、单个总体方差未知时均值的区间估计
在现实的抽样调查中,通常不知道总体的方差是多少。

如果方差不知道,上面的估计区间就不能用于总体平均数置信区间的估计。

在统计学中,如果总体方差未知,用样本方差代替。

此时即使总体是正态分布,样本平均数的抽样分布也不再是正态分布,而是自由度1n -的t 分布。

设12,,
,n x x x 来自正态总体2(,)N μσ样本,其中2σ未知。

因为统计量
/x s n
μ
-服从自由度1n -的t 分布,所以 αμαα-=-<-<
----1)}1(/)1({2/12/1n t n
s x n t P ,从而得出均值μ
的置信度1α-的置信区间为])
1( ,)
1([2/12/12/1n
n t x u n
n t x σ
σ
ααα-+-----。

下面以一例介绍R 下单个正态总体方差已知与未知时均值的区间估计的求法 例1、随机的从一批钉子中抽取16枚,测得其长度为(单位:cm )
2.14 2.10 2.13 2.15 2.13 2.12 2.13 2.10 2.15 2.12 2.14 2.10 2.13 2.11 2.14 2.11 设钉子的分布为正态分布,分别对下列两种情况求出总体均值μ的90%置信度的置信区间。

(1)已知σ=0.01cm ;(2)σ未知。

(1)
实验程序: alpha<-0.1
sigma<-0.01
x<-c(2.14,2.10,2.13,2.15,2.13,2.12,2.13,2.10,2.15,2.12,2.14,2.10,2.13,2.11,2.14,2.11) n<-length(x) xbar<-mean(x)
fws<-qnorm(1-alpha/2,0,1,lower.tail = TRUE)
left<-xbar-fws*sigma/sqrt(n)
right<-xbar+fws*sigma/sqrt(n)
实验结果:
其置信区间为(2.120888,2.129112)
(2)
实验程序:
alpha<-0.1
x<-c(2.14,2.10,2.13,2.15,2.13,2.12,2.13,2.10,2.15,2.12,2.14,2.10,2.13,2.11,2.14,2.11) n<-length(x)
xbar<-mean(x)
s<-sd(x)
fws<-qt(1-alpha/2,n-1,lower.tail = TRUE)
left<-xbar-fws*s/sqrt(n)
right<-xbar+fws*s/sqrt(n)
实验结果:
其置信区间(2.117494,2.132506)
2、方差已知情况下,两总体平均数差值的区间估计方法
两总体均值方差μ1-μ2的置信区间 (1)σ1=σ2=σ未知 取估计函数:
2)1()1(),2(1
1)()(U 212
*2
22*11212
121-+-+-=
-+→+
---=n n S n S n S n n t n n S u y x W W μ其置信区间:
))2(1
1)(()(212
12121-++±-∈--n n t n n S y x u W
αμ (2)σ1=σ2=σ已知
))(()(),1,0()
()(U 2
12
22
1
2
1212
22
1
21
21α
σσμσ
σ
μ-
+
±
-∈-→+
---=
u
n n y x u N n n u y x
下面以一例介绍R下单个正态总体方差相等未知时均值之差的区间估计的求法
例2、为了在正常条件下检验一种杂交作物的两种新处理方案,在同一地区随机的挑选8块地,在每块试验地上按两种方案种植植物,这8块地的单位面积产量分别是:
1 号方案产量 86 87 56 93 84 93 75 79
2 号方案产量 80 79 58 91 77 82 74 66
假设两种方案的产量都服从正态分布。

试求这两个平均产量之差的置信度为95%的一个置信区间。

实验程序:
alpha<-0.05
n1<-8
n2<-8
x<-c(86,87,56,93,84,93,75,79)
y<-c(80,79,58,91,77,82,74,66)
var1<-var(x)
xbar<-mean(x)
var2<-var(y)
ybar<-mean(y)
Sw2<-((n1-1)*var1+(n2-1)*var2)/(n1+n2-2)
fws<-qt(1-alpha/2,n1+n2-2)
left<-(xbar-ybar)-fws*sqrt(Sw2)*sqrt(1/n1+1/n2)
right<-(xbar-ybar)+fws*sqrt(Sw2)*sqrt(1/n1+1/n2)
实验结果:
其置信区间为(-6.187367,17.68737)
三、实验小结
通过本次上机,我们掌握了几种常见的总体平均数和方差的区间估计以及两个总体的差值和比值的区间估计,具体包括:
1、总体方差已知情况下,总体均值的区间估计以及R的计算方法;
2、总体方差未知情况下,总体均值的区间估计以及R的计算方法;
3、总体方差已知情况下,两总体平均数差值的区间估计方法,以及R的计算方法。

上机实验三:方差分析
一、上机目的:
1、进一步理解方差分析的统计思想,学会使用方差分析进行统计推断。

2、学会利用R进行方差分析的方法。

二、上机实验的内容和实例
R软件提供了方差分析方法:包括单因素方差分析、可重复双因素分析、无重复双因素分析。

本次试验介绍两种。

1、单因素方差分析
单因素方差分析可用于检验两个或两个以上总体平均值相等的零假设。

检验假设总体是正态分布,总体方差是相等的,并且随机样本是独立的。

下面以一例介绍R中“单因素方差分析”工具的使用
例1、在入户推销上有5种方法,某大公司想比较这5种方法的效果有无显著差异,设计了一项实验:从应聘的且无推销经验的人员中挑选一部分人,将他们随机地分为5个组,每组用一种推销方法进行培训,培训相同时间后观察他们在一个月的推销额,数据如下表所示。

(单位:千元)
组别推销额
第1组20.0 16.8 17.9 21.2 23.9 26.8 22.4
第2组24.9 21.3 22.6 30.2 29.9 22.5 20.7
第3组16.0 20.1 17.3 20.9 22.0 26.8 20.8
第4组17.5 18.2 20.2 17.7 19.1 18.4 16.5
第5组25.2 26.2 26.9 29.3 30.4 29.7 28.2
试求:这5种方法的平均推销额有无显著差异。

(α=0.05)
实验程序:
alpha<-0.05
Y=matrix(data =0, nrow = 5, ncol = 7)
Y[1,]<-c(20.0,16.8,17.9,21.2,23.9,26.8,22.4)
Y[2,]<-c(24.9,21.3,22.6,30.2,29.9,22.5,20.7)
Y[3,]<-c(16.0,20.1,17.3,20.9,22.0,26.8,20.8)
Y[4,]<-c(17.5,18.2,20.2,17.7,19.1,18.4,16.5)
Y[5,]<-c(25.2,26.2,26.9,29.3,30.4,29.7,28.2)
r<-5
t<-7
n<-35
ybar<-mean(Y)
ST<-sum(Y^2)-n*ybar^2
h_sum<-rowSums(Y)
SA<-sum(h_sum^2)/t-n*ybar^2
Se<-ST-SA
Fvalue<-(SA/(r-1))/(Se/(n-r))
Fvalue
linjie<-qf(1-alpha,r-1,n-r)
linjie
实验结果:
因为F>linjie,我们知道这5种方法有显著差异
2、可重复双因素分析
单因素试验是最简单的因素试验。

在很多实际问题中,两个或者更多因素都可能对响应变量产生影响。

为了方便起见,这里我们只考虑两个因素的完全平衡试验,两个以上的因素分析,原理与方法与两个因素分析基本一样。

下面以一例介绍R中重复双因素方差分析的R实现
例2、下面记录了3位操作工分别在4台不同的机器上操作3天的日产量:
机器操作工
甲乙丙
A1 15 15 17 19 19 16 16 18 21
A2 17 17 17 15 15 15 19 22 22
A3 15 17 16 18 17 16 18 18 18
A4 18 20 22 15 16 17 17 17 17
假设个操作工在每台机器上的产量服从同方差正态分布,试在显著性水平0.05下检验; (1)操作工之间的差异是否显著?
(2)机器之间的差异是否显著?
(3)操作工与机器之间的交互作用是否显著?
实验程序:
chanliang<-array(0, c(4,3,3),dimnames = NULL)
chanliang[,,1][1,]<-c(15,19,16)
chanliang[,,1][2,]<-c(17,15,19)
chanliang[,,1][3,]<-c(15,18,18)
chanliang[,,1][4,]<-c(18,15,17)
chanliang[,,2][1,]<-c(15,19,18)
chanliang[,,2][2,]<-c(17,15,22)
chanliang[,,2][3,]<-c(17,17,18)
chanliang[,,2][4,]<-c(20,16,17)
chanliang[,,3][1,]<-c(17,16,21)
chanliang[,,3][2,]<-c(17,15,22)
chanliang[,,3][3,]<-c(16,16,18)
chanliang[,,3][4,]<-c(22,17,17)
y<-chanliang
r<-4
s<-3
t<-3
n<-r*s*t
ST2<-sum(y^2)-n*(mean(y))^2
SA<-(sum(y[1,,])^2+sum(y[2,,])^2+sum(y[3,,])^2+sum(y[4,,])^2)/(s*t)-n*(mean(y))^2 SB<-(sum(y[,1,])^2+sum(y[,2,])^2+sum(y[,3,])^2)/(r*t)-n*(mean(y))^2
y..<-y[,,1]+y[,,2]+y[,,3]
SAB<-sum(y..^2)/t-n*(mean(y))^2-SA-SB
Se<-ST2-SA-SB-SAB
FA<-(SA/(r-1))/(Se/(r*s*(t-1)))
qFA<-qf(0.95,r-1,r*s*(t-1))
FA
qFA
FB<-(SB/(s-1))/(Se/(r*s*(t-1)))
qFB<-qf(0.95,s-1,r*s*(t-1))
FB
qFB
FAB<-(SAB/((r-1)*(s-1)))/(Se/(r*s*(t-1)))
qFAB<-qf(0.95,(r-1)*(s-1),r*s*(t-1))
FAB
qFAB
实验结果:
有实验结果可以看出:操作工之间有显著差异,机器之间没有显著差异,操作工之间和机器之间的交互作用有显著差异
三、实验小结
在这一实验中,我们进一步了解方差分析的理论、方法。

同时让我们熟悉了:
1、单因素方差分析以及R的计算方法;
2、可重复双因素方差分析以及R的计算方法;
上机实验四:回归分析
一、上机目的:
1、进一步理解线性回归的概念;理解相关系数、协方差、回归直线斜率、回归直线截距等统计概念;熟悉一元回归直线拟合函数;
2、学会对统计数据进行直线拟合并对拟合结果进行显著性检验;
3、学会利用R回归分析的方法;
4、本实验综合了多个知识点:线性回归模型;最小二乘估计法、极大似然估计法;参数假设检验等;
二、上机实验的内容和实例
一元线性回归分析,通过对变量x和y的一组观测数据求线性回归方程,并对x和y线性回归关系进行检验。

而多元线性回归是随机变量y与多个x之间存在着某种相关关系。

下面以一例介绍R下多元线性回归的求法
例、研究同一地区土壤内所含植物可给态磷的情况,得到18组数据如下,其中
x1----土壤内所含无机磷浓度
x2----土壤内溶于K2CO3溶液并受溴化物水解的有机磷的浓度 x3----土壤内溶于K2CO3溶液但不溶溴化物水解的有机磷的浓度 y ----栽在20°C 土壤内的玉米中可给态磷的浓度 已知y 和x1、x2、x3之间有以下关系:
i i i i i x x x y εββββ++++=3322110
i=1,2,3……,18
各ε相互独立,均服从N(μ,2
σ)分布,是求出回归方程,并对方程及各个变量的显著性进
行检验。

土壤样本 x1 x2
x3 y 1 0.4 53 158 64 2 0.4 23 163 60 3 3.1 19 37 71 4 0.6 34 157 61 5 4.7 24 59 54 6 1.7 65 123 77 7 9.4 44 46 81 8 10.1 31 117 93 9 11.6 29 173 93 10 12.6 58 112 51 11 10.6 37 111 76 12 23.1 46 114 96 13 23.1 50 134 77 14 21.6 44 73 93 15 23.1 56 168 95 16 1.9 36 143 54 17 26.8 58 202 168 18 29.9 51 124 99
实验程序:
## 1)回归方程及sigma2的估计 rd<-read.csv("H:/数理统计/zhiwu.csv") y<-rd$y x1<-rd$x1 x2<-rd$x2 x3<-rd$x3
X<-matrix(0, nrow = 18, ncol = 4) X[,1]<-rep(1,18) X[,2]<-x1 X[,3]<-x2 X[,4]<-x3
beta<-solve(t(X)%*%X)%*%t(X)%*%y yhat<-X%*%beta
ytidle<-y-yhat
n<-18
m<-3
sigma2_hat<-sum(ytidle^2)/(n-m-1)
## 2)回归效果是否显著
alpha<-0.01
alpha<-0.1
ST<-sum((y-mean(y))^2)
y_hat<-X%*%beta
SE<-sum((y-y_hat)^2)
SR<-ST-SE
F<-(SR/m)/(SE/(n-m-1))
qvalue<-qf(1-alpha/2,m,n-m-1)
## 3)回归系数的的检验
C<-solve(t(X)%*%X)
t1<-beta[2]/sqrt(C[2,2]*sigma2_hat)
t2<-beta[3]/sqrt(C[3,3]*sigma2_hat)
t3<-beta[4]/sqrt(C[4,4]*sigma2_hat) tvalue<-qt(1-alpha/2,n-m-1)
tvalue
beta
F
qvalue
t1
t2
t3
实验结果:
有结果可以看出:β0=43.7286 β1=1.7853 β2=-0.0843 β3=0.1610
故方程很容易得出:y=43.7286+1.7853x1-0.0843x2+0.1610x3
因为F>qvalue,即:回归方程的回归效果显著
而且很容易看出只有β1的回归效果显著
三、实验小结
这次试验在我们的学习中有很重大的意义,无论是我们以后的教学还是研究都很有意义,我个人认为这次试验对我们的科学研究都起着不可估量的作用,回归试验让我们的方程有着更直观的认识,还有各种检验问题求解都有着极大的作用。

相关文档
最新文档