非参数统计参考答案
非参数统计部分课后习题参考答案
课后习题参考答案第一章p23-252、(2)有两组学生,第一组八名学生的成绩分别为x 1:100,99,99,100,99,100,99,99;第二组三名学生的成绩分别为x 2:75,87,60。
我们对这两组数据作同样水平a=0.05的t检验(假设总体均值为u ):H 0:u=100 H 1:u<100。
第一组数据的检验结果为:df=7,t 值为3.4157,单边p 值为0.0056,结论为“拒绝H 0:u=100。
”(注意:该组均值为99.3750);第二组数据的检验结果为:df=2,t 值为3.3290,单边p值为0.0398;结论为“接受H 0:u=100。
”(注意:该组均值为74.000)。
你认为该问题的结论合理吗?说出你的理由,并提出该如何解决这一类问题。
答:这个结论不合理(6分)。
因为,第一组数据的结论是由于p-值太小拒绝零假设,这时可能犯第一类错误的概率较小,且我们容易把握;而第二组数据虽不能拒绝零假设,但要做出“在水平a时,接受零假设”的说法时,还必须涉及到犯第二类错误的概率。
(4分)然而,在实践中,犯第二类错误的概率多不易得到,这时说接受零假设就容易产生误导。
实际上不能拒绝零假设的原因很多,可能是证据不足(样本数据太少),也可能是检验效率低,换一个更有效的检验之后就可以拒绝了,当然也可能是零假设本身就是对的。
本题第二组数据明显是由于证据不足,所以解决的方法只有增大样本容量。
(4分)第三章p68-713、在某保险种类中,一次关于1998年的索赔数额(单位:元)的随机抽样为(按升幂排列): 4632,4728,5052,5064,5484,6972,7596,9480,14760,15012,18720,21240,22836,52788,67200。
已知1997年的索赔数额的中位数为5064元。
(1)是否1998年索赔的中位数比前一年有所变化?能否用单边检验来回答这个问题?(4分) (2)利用符号检验来回答(1)的问题(利用精确的和正态近似两种方法)。
非参数统计答案范文
非参数统计答案范文1. 考察Mann-Whitney U检验:问题:对两组数据进行比较,数据不符合正态分布,要判断两组数据是否有显著差异。
如何选择合适的非参数检验方法?答案:Mann-Whitney U检验是一种适用于比较两组独立样本的非参数检验方法,适用于数据不符合正态分布的情况。
2. 考察Wilcoxon符号秩和检验:问题:对同一组数据进行配对比较,数据不符合正态分布,如何选择合适的非参数检验方法?答案:Wilcoxon符号秩和检验是一种适用于配对样本的非参数检验方法,适用于数据不符合正态分布的情况。
3. 考察Kruskal-Wallis检验:问题:有三组数据需要比较,但数据不符合正态分布,如何选择合适的非参数检验方法?答案:Kruskal-Wallis检验是一种适用于比较多组独立样本的非参数检验方法,适用于数据不符合正态分布的情况。
4. 考察Friedman检验:问题:有三组配对数据需要比较,但数据不符合正态分布,如何选择合适的非参数检验方法?答案:Friedman检验是一种适用于比较多组配对样本的非参数检验方法,适用于数据不符合正态分布的情况。
5. 考察Mood's中位数差异检验:问题:有两组独立样本数据需要比较,数据不符合正态分布,如何选择合适的非参数检验方法?答案:Mood's中位数差异检验是一种适用于比较两组独立样本的非参数检验方法,适用于数据不符合正态分布的情况。
6.考察符号检验:问题:对一组配对数据进行比较,但数据不符合正态分布,如何选择合适的非参数检验方法?答案:符号检验是一种适用于配对样本的非参数检验方法,适用于数据不符合正态分布的情况。
7.考察秩和检验:问题:有两组独立样本数据需要比较,如何选择合适的非参数检验方法?答案:秩和检验是一种适用于比较两组独立样本的非参数检验方法。
8. 考察Kolmogorov-Smirnov检验:问题:有一组数据需要验证其服从一些特定分布,如何进行检验?答案:Kolmogorov-Smirnov检验是一种非参数检验方法,可以用于验证数据是否符合一些特定分布。
非参数统计题目及答案
1.人们在研究肺病患者的生理性质时发现,患者的肺活量与他早在儿童时期是否接受过某种治疗有关,观察3组病人,第一组早在儿童时期接受过肺部辐射,第二组接受过胸外科手术,第三组没有治疗过,现观察到其肺活量占其正常值的百分比如下:以往的经验告诉我们,这三组病人的肺活量有如下关系:第二组≤第一组≤第三组,试判断这一经验是否可靠。
解:H 0:θ2≤θ1≤θ3H1:至少有一个不等式成立可得到 N=15由统计量H=)112+N N (∑=Kii N R 1i 2-3(N+1)=)(1151512+(32×+29×+59×-3×(15+1)= 查表(5,5,5)在P(H ≥= P(H ≥= 即P (H ≥)﹥ 故取α=, P ﹥α ,故接受零假设即这一检验可靠。
2.关于生产计算机公司在一年中的生产力的改进(度量为从0到100)与它们在过去三年中在智力投资(度量为:低,中等,高)之间的关系的研究结果列在下表中: 是否智力投资对改进生产力有帮助说明检验的步骤,包括零假设,备选假设,统计量,P 值等等及你的结果。
(利用Jonkheere-Terpstra 检验) 解:H 0:M 低=M 中=M 高 H 1:M 低﹤M 中﹤M 高U 12=0+9+2+8+10+9+10+2+10+10+8++3= U 13=10×8=80U 23=12+9+12+12+12+11+12+11=89 J=∑≤jij U i =+80+89=大样本近似 Z=[]72)32()324121i 222∑∑==+-+--ki i i ki n n N N n N J ()(~N (0,1)求得 Z= Ф=取α= , P >α, 故接受原假设,认为智力投资对改进生产力有帮助。
非参数统计题目及答案
1.人们在研究肺病患者的生理性质时发现,患者的肺活量与他早在儿童时期是否接受过某种治疗有关,观察3组病人,第一组早在儿童时期接受过肺部辐射,第二组接受过胸外科手术,第三组没有治疗过,现观察到其肺活量占其正常值的百分比如下:这一经验是否可靠。
解:H 0:θ2≤θ1≤θ3 H 1:至少有一个不等式成立可得到 N=15由统计量H=)112+N N (∑=Ki i N R 1i 2-3(N+1)=)(1151512+(32×6.4+29×5.8+59×11.8)-3×(15+1)=5.46查表(5,5,5)在P(H ≥4.56)=0.100 P(H ≥5.66)=0.0509 即P (H ≥5.46)﹥0.05 故取α=0.05, P ﹥α ,故接受零假设即这一检验可靠。
2.关于生产计算机公司在一年中的生产力的改进(度量为从0到100)与它们在过去三年中在智力投资(度量为:低,中等,高)之间的关系的研究结果列在下表中:值等等及你的结果。
(利用Jonkheere-Terpstra 检验) 解:H 0:M 低=M 中=M 高 H 1:M 低﹤M 中﹤M 高U 12=0+9+2+8+10+9+10+2+10+10+8+0.5+3=82.5 U 13=10×8=80U 23=12+9+12+12+12+11+12+11=89 J=∑≤jijUi =82.5+80+89=251.5大样本近似 Z=[]72)32()324121i 222∑∑==+-+--ki i i ki n n N N n N J ()(~N (0,1)求得 Z=3.956 Ф(3.956)=0.9451取α=0.05 , P >α,故接受原假设,认为智力投资对改进生产力有帮助。
非参数统计答案
1.4 对一批电器元件,抽取24个做加速寿命实验,测得其寿命数据为(单位:h):575,778,880,969,984,1003,1008,1021,1031,1034,1053,1054,1226,1393,1493,1480,1513,1611,1612,1612,1624,1627,1631,1768,求这批元件寿命分布的中位数的置信水平为0.95的置信区间。
解:a<-function(x,p=0.5,conf.level=0.95){d<-(max(x)-min(x))/1e10xgrid<-c(x,x+d,x-d)value.in.ci<-rep(NA,length(xgrid))for(fff in 1:length(xgrid)){x1<-c(sum(x<xgrid[fff]),sum(x>xgrid[fff]));n<-sum(x1)value.in.ci[fff]<-binom.test(x1,n,p,alternative="two.sided",conf.level)$p.value>=1-conf.level}ci<-c(min(xgrid[value.in.ci]),max(xgrid[value.in.ci]))result<-as.data.frame(list(percentile=p,lower=ci[1],upper=ci[2]))class(result)<-"table"result}x<-c(575,778,880,969,984,1003,1008,1021,1031,1034,1053,1054,1226,1393,1439,1480,1513,161 1,1612,1612,1624,1627,1631,1768)a(x)percentile lower upper0.5 1008 1611例1.5.2 从某工厂的产品仓库中随机取16个零件,测得它们的长度(单位:cm)为:2.14,2.10,2.13,2.15,2.13,2.12,2.13,2.10,2.15,2.12,2.14,2.10,2.13,2.11,2.14,2.11,求该零件长度分布的中位数的置信区间为0.95的置信区间。
非参数统计题目及答案
非参数统计题目及答案标准化管理处编码[BBX968T-XBB8968-NNJ668-MM9N]1.人们在研究肺病患者的生理性质时发现,患者的肺活量与他早在儿童时期是否接受过某种治疗有关,观察3组病人,第一组早在儿童时期接受过肺部辐射,第二组接受过胸外科手术,第三组没有治疗过,现观察到其肺活量占其正常值的百分比如下:以往的经验告诉我们,这三组病人的肺活量有如下关系:第二组≤第一组≤第三组,试判断这一经验是否可靠。
解:H 0:θ2≤θ1≤θ3 H 1:至少有一个不等式成立可得到 N=15由统计量H=)112+N N (∑=Ki i N R 1i 2-3(N+1)=)(1151512+(32×+29×+59×-3×(15+1)= 查表(5,5,5)在P(H ≥= P(H ≥= 即P (H ≥)﹥故取α=, P ﹥α ,故接受零假设即这一检验可靠。
2.关于生产计算机公司在一年中的生产力的改进(度量为从0到100)与它们在过去三年中在智力投资(度量为:低,中等,高)之间的关系的研究结果列在下表中:是否智力投资对改进生产力有帮助说明检验的步骤,包括零假设,备选假设,统计量,P值等等及你的结果。
(利用Jonkheere-Terpstra检验)解:H0:M低=M中=M高H1:M低﹤M中﹤M高U 12=0+9+2+8+10+9+10+2+10+10+8++3=U 13=10×8=80U 23=12+9+12+12+12+11+12+11=89J=∑≤jij U i =+80+89=大样本近似 Z=[]72)32()324121i 222∑∑==+-+--k i i i k i n n N N n N J ()(~N (0,1)求得 Z= Ф=取α= , P >α, 故接受原假设,认为智力投资对改进生产力有帮助。
非参数统计参考答案
非参数统计是一种不依赖于总体分布假设的统计方法,它基于样本数据进行推断和分析。
以下是非参数统计中常见问题的一些参考答案:
秩和检验(Mann-Whitney U检验):
假设检验问题:用于比较两个独立样本的中位数是否相等。
参考答案:通过计算样本的秩和,然后使用Mann-Whitney U检验来比较两组样本的秩和,从而得出结论。
Kruskal-Wallis检验:
假设检验问题:用于比较三个或更多独立样本的总体分布是否相同。
参考答案:将各组样本合并,并对所有数据进行排序。
然后,使用秩和来计算每组的秩和总和,并使用Kruskal-Wallis检验来比较秩和之间的差异。
Wilcoxon符号秩检验:
假设检验问题:用于比较两个相关样本的中位数是否相等。
参考答案:对两组相关样本的差异取绝对值,并对其进行排序以获得符号秩。
然后,使用Wilcoxon符号秩检验来比较秩和之间的差异。
Friedmann检验:
假设检验问题:用于比较三个或更多相关样本的总体分布是否相同。
参考答案:将各组样本的差异取绝对值,并对其进行排序以获得符号秩。
然后,使用Friedmann 检验来比较秩和之间的差异。
Kendall秩相关系数:
相关性问题:用于衡量两个变量之间的非线性相关性。
参考答案:将变量的观察值转换为秩次,然后计算秩次之间的Kendall秩相关系数。
请注意,以上是非参数统计中常见问题的一些参考答案。
具体问题的回答可能会根据具体的研究设计、数据类型和分析目的而有所不同。
在实际应用中,建议根据具体情况选择适当的非参数统计方法,并根据具体数据进行分析和解释。
最新非参数统计部分课后习题参考答案
课后习题参考答案第一章p23-252、(2)有两组学生,第一组八名学生的成绩分别为x 1:100,99,99,100,99,100,99,99;第二组三名学生的成绩分别为x 2:75,87,60。
我们对这两组数据作同样水平a=0.05的t检验(假设总体均值为u ):H 0:u=100 H 1:u<100。
第一组数据的检验结果为:df=7,t 值为3.4157,单边p 值为0.0056,结论为“拒绝H 0:u=100。
”(注意:该组均值为99.3750);第二组数据的检验结果为:df=2,t 值为3.3290,单边p值为0.0398;结论为“接受H 0:u=100。
”(注意:该组均值为74.000)。
你认为该问题的结论合理吗?说出你的理由,并提出该如何解决这一类问题。
答:这个结论不合理(6分)。
因为,第一组数据的结论是由于p-值太小拒绝零假设,这时可能犯第一类错误的概率较小,且我们容易把握;而第二组数据虽不能拒绝零假设,但要做出“在水平a时,接受零假设”的说法时,还必须涉及到犯第二类错误的概率。
(4分)然而,在实践中,犯第二类错误的概率多不易得到,这时说接受零假设就容易产生误导。
实际上不能拒绝零假设的原因很多,可能是证据不足(样本数据太少),也可能是检验效率低,换一个更有效的检验之后就可以拒绝了,当然也可能是零假设本身就是对的。
本题第二组数据明显是由于证据不足,所以解决的方法只有增大样本容量。
(4分)第三章p68-713、在某保险种类中,一次关于1998年的索赔数额(单位:元)的随机抽样为(按升幂排列): 4632,4728,5052,5064,5484,6972,7596,9480,14760,15012,18720,21240,22836,52788,67200。
已知1997年的索赔数额的中位数为5064元。
(1)是否1998年索赔的中位数比前一年有所变化?能否用单边检验来回答这个问题?(4分) (2)利用符号检验来回答(1)的问题(利用精确的和正态近似两种方法)。
非参数统计题目及答案
种治疗有关,观察3组病人,第一组早在儿童时期接受过肺部辐射,第二组接受过胸外科 手术,第三组没有治疗过,现观察到其肺活量占其正常值的百分比如下:
第一组
71
57
85
67
66
第二组
76
94
61
36
42
第三组
80
104
81
90
故取a=0.05,P>a,故接受零假设即这一检验可靠
2.关于生产计算机公司在一年中的生产力的改进(度量为从0到100)与它们在过去三年中
在智力投资(度量为:低,中等,高)之间的关系的研究结果列在下表中:
智
力 投 资
生产力改进
低
9.1
7.0
6.4
8.0
7.3
6.1
7.5
7.3
6.8
7.8
中
5.1
8.7
6.6
7.9
10.1
8.5
9.8
6.6
9.5
9.9
8.1
7.0
高
10.4
9.2
10.6
10.9
10.7
10.0
10.1
10.0
力
资
改
生
力
帮
?
明
验
步
骤, 括零假设,备选假设,统计量,P值等等及你的结果。(利用Jonkheere-Terpstra佥验)
解:
H0:M低=M中=M高Hi:M低vM中<M高
智力投资
36(1)
67(6)
90(12)
42(2)
66(5)
非参数统计题目及答案
非参数统计题目及答案 Document number:WTWYT-WYWY-BTGTT-YTTYU-2018GT1.人们在研究肺病患者的生理性质时发现,患者的肺活量与他早在儿童时期是否接受过某种治疗有关,观察3组病人,第一组早在儿童时期接受过肺部辐射,第二组接受过胸外科手术,第三组没有治疗过,现观察到其肺活量占其正常值的百分比如下:以往的经验告诉我们,这三组病人的肺活量有如下关系:第二组≤第一组≤第三组,试判断这一经验是否可靠。
解:H 0:θ2≤θ1≤θ3 H 1:至少有一个不等式成立可得到 N=15由统计量H=)112+N N (∑=Ki i N R 1i 2-3(N+1)=)(1151512+(32×+29×+59×-3×(15+1)= 查表(5,5,5)在P(H ≥= P(H ≥= 即P (H ≥)﹥ 故取α=, P ﹥α ,故接受零假设即这一检验可靠。
2.关于生产计算机公司在一年中的生产力的改进(度量为从0到100)与它们在过去三年中在智力投资(度量为:低,中等,高)之间的关系的研究结果列在下表中:是否智力投资对改进生产力有帮助说明检验的步骤,包括零假设,备选假设,统计量,P 值等等及你的结果。
(利用Jonkheere-Terpstra 检验) 解:H 0:M 低=M 中=M 高 H 1:M 低﹤M 中﹤M 高U 12U 13=10×8=80U 23=12+9+12+12+12+11+12+11=89 J=∑≤jij U i =+80+89=大样本近似 Z=[]72)32()324121i 222∑∑==+-+--ki i i ki n n N N n N J ()(~N (0,1)求得 Z= Ф=取α= , P >α, 故接受原假设,认为智力投资对改进生产力有帮助。
非参数统计题目及答案
非参数统计题目及答案 Prepared on 22 November 20201.人们在研究肺病患者的生理性质时发现,患者的肺活量与他早在儿童时期是否接受过某种治疗有关,观察3组病人,第一组早在儿童时期接受过肺部辐射,第二组接受过胸外科手术,第三组没有治疗过,现观察到其肺活量占其正常值的百分比如下:以往的经验告诉我们,这三组病人的肺活量有如下关系:第二组≤第一组≤第三组,试判断这一经验是否可靠。
解:H 0:θ2≤θ1≤θ3 H 1:至少有一个不等式成立可得到 N=15由统计量H=)112+N N (∑=Ki i N R 1i 2-3(N+1)=)(1151512+(32×+29×+59×-3×(15+1)= 查表(5,5,5)在P(H ≥= P(H ≥= 即P (H ≥)﹥ 故取α=, P ﹥α ,故接受零假设即这一检验可靠。
2.关于生产计算机公司在一年中的生产力的改进(度量为从0到100)与它们在过去三年中在智力投资(度量为:低,中等,高)之间的关系的研究结果列在下表中:是否智力投资对改进生产力有帮助说明检验的步骤,包括零假设,备选假设,统计量,P 值等等及你的结果。
(利用Jonkheere-Terpstra 检验) 解:H 0:M 低=M 中=M 高 H 1:M 低﹤M 中﹤M 高U 12U 13=10×8=80U 23=12+9+12+12+12+11+12+11=89 J=∑≤jij U i =+80+89=大样本近似 Z=[]72)32()324121i 222∑∑==+-+--ki i i ki n n N N n N J ()(~N (0,1)求得 Z= Ф=取α= , P >α, 故接受原假设,认为智力投资对改进生产力有帮助。
《非参数统计分析》课后计算题参考答案
王静龙《非参数统计分析》课后习题计算题参考答案习题一1.One Sample t-test for a MeanSample Statistics for xN Mean Std. Dev. Std. Error-------------------------------------------------26 1.38 8.20 1.61Hypothesis TestNull hypothesis: Mean of x = 0Alternative: Mean of x ^= 0t Statistic Df Prob > t---------------------------------0.861 25 0.397695 % Confidence Interval for the MeanLower Limit: -1.93Upper Limit: 4.70则接受原假设认为一样习题二1.描述性统计习题三1.1{}+01=1339:6500:650013=BINOMDIST(13,39,0.5,1)=0.026625957S n H me H me P S +==<≤另外:在excel2010中有公式 BINOM.INV(n,p,a) 返回一个数值,它使得累计二项式分布的函数值大于或等于临界值a 的最小整数***0*0+1inf :2BINOM.INV(39,0.5,0.05)=141sup :1132S 1313n m i n d i n m m i n d d m i d αα==⎧⎫⎛⎫⎪⎪⎛⎫=≥⎨⎬⎪ ⎪⎝⎭⎝⎭⎪⎪⎩⎭⎧⎫⎛⎫⎪⎪⎛⎫≤=-=⎨⎬ ⎪ ⎪⎝⎭⎝⎭⎪⎪⎩⎭=≤=∑∑= 以上两种都拒绝原假设,即中位数低于65001.2****01426201inf :221inf :122BINOM.INV(40,0.5,1-0.025)=26d=n-c=40-26=14580064006200nn i c n m i n c c i n m m i x x me x αα==⎧⎫⎛⎫⎪⎪⎛⎫=≤⎨⎬⎪ ⎪⎝⎭⎝⎭⎪⎪⎩⎭⎧⎫⎛⎫⎪⎪⎛⎫=≥-⎨⎬⎪ ⎪⎝⎭⎝⎭⎪⎪⎩⎭====∑∑2.{}+01=4070:6500:65002402*(1-BINOMDIST(39,70,0.5,1))=0.281978922S n H me H me P S +==≠≥=则接受原假设,即房价中位数是65003.1{}+01=15521552527207911::22n 1552=5.33E-112S n H p H p P S φ+=+==>⎛≥≈ ⎝比较大,则用正态分布近似**+**0:=1552155252720791inf :221inf :122m=BINOM.INV(2079,0.5,0.975)=1084nn i c n m i S n n c c i n m m i αα===+=⎧⎫⎛⎫⎪⎪⎛⎫=≤⎨⎬⎪ ⎪⎝⎭⎝⎭⎪⎪⎩⎭⎧⎫⎛⎫⎪⎪⎛⎫=≥-⎨⎬⎪ ⎪⎝⎭⎝⎭⎪⎪⎩⎭∑∑另外则拒绝原假设,即相信孩子会过得更好的人多3.2P 为认为生活更好的成年人的比例,则1522=0.7465132079p 的比估计是:4.{}00.90610.90618154157860:65:6510.9060.094~(,)181541BINOMDIST(18153,157860,0.094,1)=0S n H P H P p S b n p P S +++===>=-=≥=-因为0〈0.05则拒绝原假设习题四1.()()++0.025+W =6+8+10+1+4+12+9+11+2+7=70p 2P W 70n=12c =65p 2P W 65=0.05≥≥符号秩和检验统计量:值为,当得所以值小于即拒绝原假设2.()()++0.025+W =2.5+2.5+7+7+7+7+10.5+14+14+14+14+14+17.5+17.5+19+20+23+24=234.5p 2P W 234.5n=25 c =236p 2P W 236=0.05≥≥符号秩和检验统计量:值为,当得所以值小于即接受原假设{}011826:0:02182*(1-BINOMDIST(17,25,0.5,1))=0.043285251S n H me H me P S +===≠≥=+符号检验:则拒绝原假设t t =0.861df=25 p=0.3976检验:统计量接受原假设3.(1)+0.0250.0250.025++=5+2+2=9833(1)322(3)0.052(9)0.05W n c n n d c P W P W ==+=-=≤=≤>查表可得:则 接受原假设(2)Walsh 平均由小到大排列:50 55 60 65 65 70 70 70 75 75 75 80 80 80 80 80 80 80 85 85 85 85 85 90 90 90 90 90 90 95 95 95 95 95 95 100 100 100 100 100 100 100 105 105105 105 105 110 110 110 110 110 115 115 120 N=55 则对称中心为()()^281/290N W W θ+===()()1/1/1/40.527.50.5 1.967.771011461/40.527.50.5 1.9647.22898853d n n U c n n U αα--=+--=--==+++++=因为c 不是整数,则^+1k d L k k w w θ()()介于与之间,其中表示比大的最小整数即为8 ^L θ为70与75之间,即为72.5 []-%72.5,105H L 则的点估计为90 95的区间估计为习题五1.171(,24,25,50)0.005060988i p P i p ===∑值很小,则拒绝原假设即认为女职工的收入比男职工的低。
非参数统计试题及答案
非参数统计试题及答案一、选择题1. 非参数统计方法是指在统计分析中不依赖于数据的分布形态的统计方法。
以下哪项不是非参数统计方法的特点?A. 不需要预先假定总体分布B. 对数据的分布形态要求严格C. 适用于小样本数据D. 可用于顺序变量和计数数据答案:B2. 以下哪个统计量是用来检验两个独立样本的中位数是否有显著差异的?A. t检验B. 方差分析C. Wilcoxon秩和检验D. 卡方检验答案:C3. 在非参数统计中,如果样本量很小,以下哪个方法可以用来估计总体分布?A. 直方图B. 箱线图C. 核密度估计D. 以上都是答案:D二、简答题1. 请简述非参数统计方法相对于参数统计方法的优势。
答案:非参数统计方法的优势在于它们不依赖于数据的分布形态,因此对于不符合正态分布的数据集也能适用。
此外,非参数方法通常对异常值不敏感,适用于小样本数据,并且可以处理顺序变量和计数数据。
2. 描述一下Kruskal-Wallis H检验的基本原理及其适用场景。
答案:Kruskal-Wallis H检验是一种非参数方法,用于比较三个或更多个独立样本的中位数是否存在显著差异。
其基本原理是将所有数据合并并进行秩次排序,然后比较各组的秩和。
如果所有组的中位数相同,则各组的秩和应该大致相等。
如果发现某个组的秩和显著高于或低于其他组,则该组的中位数可能与其他组存在显著差异。
该检验适用于样本量不均等、数据不满足正态分布或未知分布的情况。
三、计算题1. 假设有四个独立样本的数据如下,使用Kruskal-Wallis H检验来检验这四个样本的中位数是否有显著差异。
样本1: 10, 12, 8样本2: 15, 18, 20, 17样本3: 22, 25, 23, 24, 21样本4: 30, 28, 29, 27, 26答案:首先,将所有数据合并并进行秩次排序。
然后计算每个样本的秩和,接着使用Kruskal-Wallis H检验的公式计算H值。
非参数统计部分课后练习习题参考答案.docx
课后习题参考答案第一章 p23-252、( 2)有两组学生,第一组八名学生的成绩分别为x1: 100, 99,99,100,99, 100, 99,99;第二组三名学生的成绩分别为x2:75,87,60 。
我们对这两组数据作同样水平a=的t检验(假设总体均值为u): H0: u=100 H 1:u<100。
第一组数据的检验结果为:df=7 , t 值为,单边p 值为,结论为“拒绝H0:u=100。
”(注意:该组均值为);第二组数据的检验结果为:df=2 , t值为,单边p值为; 结论为“接受H0: u=100。
”(注意:该组均值为)。
你认为该问题的结论合理吗说出你的理由,并提出该如何解决这一类问题。
答:这个结论不合理( 6 分)。
因为,第一组数据的结论是由于p-值太小拒绝零假设,这时可能犯第一类错误的概率较小,且我们容易把握;而第二组数据虽不能拒绝零假设,但要做出“在水平a时,接受零假设”的说法时,还必须涉及到犯第二类错误的概率。
( 4 分)然而,在实践中,犯第二类错误的概率多不易得到,这时说接受零假设就容易产生误导。
实际上不能拒绝零假设的原因很多,可能是证据不足(样本数据太少),也可能是检验效率低,换一个更有效的检验之后就可以拒绝了,当然也可能是零假设本身就是对的。
本题第二组数据明显是由于证据不足,所以解决的方法只有增大样本容量。
(4 分)第三章 p68-713、在某保险种类中,一次关于1998 年的索赔数额(单位:元)的随机抽样为(按升幂排列):4632 ,4728, 5052, 5064, 5484, 6972, 7596, 9480 ,14760,15012, 18720, 21240, 22836, 52788,67200。
已知 1997 年的索赔数额的中位数为5064 元。
( 1)是否 1998 年索赔的中位数比前一年有所变化能否用单边检验来回答这个问题(4分)( 2)利用符号检验来回答(1)的问题(利用精确的和正态近似两种方法)。
非参数统计参考答案
内容:, ,上机实践:将MASS数据包用命令library(MASS)加载到R中,调用自带“老忠实”喷泉数据集geyer,它有两个变量:等待时间waiting和喷涌时间duration,其中…(1) 将等待时间70min以下的数据挑选出来;(2) 将等待时间70min以下,且等待时间不等于57min的数据挑选出来;(3) 将等待时间70min以下喷泉的喷涌时间挑选出来;(4) 将喷涌时间大于70min喷泉的等待时间挑选出来。
解:读取数据的R命令:library(MASS);#加载MASS包data(geyser);#加载数据集geyserattach(geyser);#将数据集geyser的变量置为内存变量(1) 依题意编定R程序如下:sub1geyser=geyser[which(waiting<70),1];#提取满足条件(waiting<70)的数据,which(),读取下标sub1geyser[1:5];#显示子数据集sub1geyser的前5行[1] 57 60 56 50 54(2) 依题意编定R程序如下:Sub2geyser=geyser[which((waiting<70)&(waiting!=57)),1];#提取满足条件(waiting<70& (waiting!=57)的数据.Sub2geyser[1:5];#显示子数据集sub1geyser的前5行[1] 60 56 50 54 60 ……原数据集的第1列为waiting喷涌时间,所以用[which(waiting<70),2](3)Sub3geyser=geyser[which(waiting<70),2];#提取满足条件(waiting<70)的数据,which(),读取下标Sub3geyser[1:5];#显示子数据集sub1geyser的前5行[1] ……原数据集的第2列为喷涌时间,所以用[which(waiting<70),2](4)Sub4geyser=geyser[which(waiting>70),1];#提取满足条件(waiting<70)的数据,which(),读取下标Sub4geyser[1:5];#显示子数据集sub1geyser的前5行[1] 80 71 80 75 77…….如光盘文件中的数据,一个班有30名学生,每名学生有5门课程的成绩,编写函数实现下述要求:(1) 以的格式保存上述数据;(2) 计算每个学生各科平均分,并将该数据加入(1)数据集的最后一列;(3) 找出各科平均分的最高分所对应的学生和他所修课程的成绩;(4) 找出至少两门课程不及格的学生,输出他们的全部成绩和平均成绩;(5) 比较具有(4)特点学生的各科平均分与其余学生平均分之间是否存在差异。
非参数统计部分课后习题参考答案
课后习题参考答案第一章p23-252、(2)有两组学生,第一组八名学生的成绩分别为x 1:100,99,99,100,99,100,99,99;第二组三名学生的成绩分别为x 2:75,87,60。
我们对这两组数据作同样水平a=0.05的t检验(假设总体均值为u ):H 0:u=100 H 1:u<100。
第一组数据的检验结果为:df=7,t 值为3.4157,单边p 值为0.0056,结论为“拒绝H 0:u=100。
”(注意:该组均值为99.3750);第二组数据的检验结果为:df=2,t 值为3.3290,单边p值为0.0398;结论为“接受H 0:u=100。
”(注意:该组均值为74.000)。
你认为该问题的结论合理吗?说出你的理由,并提出该如何解决这一类问题。
答:这个结论不合理(6分)。
因为,第一组数据的结论是由于p-值太小拒绝零假设,这时可能犯第一类错误的概率较小,且我们容易把握;而第二组数据虽不能拒绝零假设,但要做出“在水平a时,接受零假设”的说法时,还必须涉及到犯第二类错误的概率。
(4分)然而,在实践中,犯第二类错误的概率多不易得到,这时说接受零假设就容易产生误导。
实际上不能拒绝零假设的原因很多,可能是证据不足(样本数据太少),也可能是检验效率低,换一个更有效的检验之后就可以拒绝了,当然也可能是零假设本身就是对的。
本题第二组数据明显是由于证据不足,所以解决的方法只有增大样本容量。
(4分)第三章p68-713、在某保险种类中,一次关于1998年的索赔数额(单位:元)的随机抽样为(按升幂排列): 4632,4728,5052,5064,5484,6972,7596,9480,14760,15012,18720,21240,22836,52788,67200。
已知1997年的索赔数额的中位数为5064元。
(1)是否1998年索赔的中位数比前一年有所变化?能否用单边检验来回答这个问题?(4分) (2)利用符号检验来回答(1)的问题(利用精确的和正态近似两种方法)。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
内容:, ,上机实践:将MASS数据包用命令library(MASS)加载到R中,调用自带“老忠实”喷泉数据集geyer,它有两个变量:等待时间waiting和喷涌时间duration,其中…(1) 将等待时间70min以下的数据挑选出来;(2) 将等待时间70min以下,且等待时间不等于57min的数据挑选出来;(3) 将等待时间70min以下喷泉的喷涌时间挑选出来;(4) 将喷涌时间大于70min喷泉的等待时间挑选出来。
解:读取数据的R命令:library(MASS);#加载MASS包data(geyser);#加载数据集geyserattach(geyser);#将数据集geyser的变量置为内存变量(1) 依题意编定R程序如下:sub1geyser=geyser[which(waiting<70),1];#提取满足条件(waiting<70)的数据,which(),读取下标sub1geyser[1:5];#显示子数据集sub1geyser的前5行[1] 57 60 56 50 54(2) 依题意编定R程序如下:Sub2geyser=geyser[which((waiting<70)&(waiting!=57)),1];#提取满足条件(waiting<70& (waiting!=57)的数据.Sub2geyser[1:5];#显示子数据集sub1geyser的前5行[1] 60 56 50 54 60 ……原数据集的第1列为waiting喷涌时间,所以用[which(waiting<70),2](3)Sub3geyser=geyser[which(waiting<70),2];#提取满足条件(waiting<70)的数据,which(),读取下标Sub3geyser[1:5];#显示子数据集sub1geyser的前5行[1] ……原数据集的第2列为喷涌时间,所以用[which(waiting<70),2](4)Sub4geyser=geyser[which(waiting>70),1];#提取满足条件(waiting<70)的数据,which(),读取下标Sub4geyser[1:5];#显示子数据集sub1geyser的前5行[1] 80 71 80 75 77…….如光盘文件中的数据,一个班有30名学生,每名学生有5门课程的成绩,编写函数实现下述要求:(1) 以的格式保存上述数据;(2) 计算每个学生各科平均分,并将该数据加入(1)数据集的最后一列;(3) 找出各科平均分的最高分所对应的学生和他所修课程的成绩;(4) 找出至少两门课程不及格的学生,输出他们的全部成绩和平均成绩;(5) 比较具有(4)特点学生的各科平均分与其余学生平均分之间是否存在差异。
先将数据集读入R系统student=("…",header=T)class(student):#显示数据集student的类型,[1] ""#student是数据框names(student);#显示数据框student的变量[1] "name" "math" "physics" "chem" "literat" "english" "mean"#输出显示,数据框student有7个变量,第7个变量是平均值mean。
(1)(student,"F:\\gzmu非参数统计\\data2014\\各章数据\\附录A\\",=T)打开"name" "math" "physics" "chem" "literat" "english""1" "Katty" 65 61 72 84 79"2" "Leo" 77 77 76 64 55……(2) 依题意,要为原始数据集添加一个变量,即添加一列在最后。
?[,6]=?me=rep(0,30);for(i in 1:30){x=(student[i,2:6]);me[i]=mean(x);}student$mean=me;#上面程序的最后一行也可以如此:student[,7]=menames(student);[1] "name" "math" "physics" "chem" "literat" "english" "mean"#如上显示,程序运行后数据框student添加了第7列mean.(3) 依题意,在(2)的程序运行后做,要用到which(mean==max(mean)),如同。
attach(student);maxme=student[which(mean==max(mean)),];#找出最高平均分的记录,并赋予maxme;maxme;name math physics chem literat english mean15 Liggle 78 96 81 80 76(4) 依题意,要用到二重的for和if. 由原数据框geyser给data1赋值时要用到数据转换:#x=(student[i,2:6]);#读取student第i行2:6列的数据,#data1[k,]=x;#将x赋给data4#的第k行。
sum(x<60)是不及格门数。
Data1=student[1,];#赋初值k=0;for(i in 1:30){x=(student[i,2:6]);if (sum(x<60)>1){k=k+1;data1[k,]=student[i,];}}data1name math physics chem literat english mean1 Ricky 67 63 49 65 577 Simon 66 71 67 52 579 Jed 83 100 79 41 5010 Jack 86 94 97 51 5512 Jetty 67 84 53 58 5613 Corner 81 62 69 56 5214 Osten 71 64 94 52 5225 Amon 74 79 95 59 59(5) 依题意,要创造两个子集data4和data2, 用两样本的比较方法比较他们的平均成绩是否有显著差异。
类似创造data1的方法,创造data2。
并设x=data1$mean,y=data2$mean,比较二样本x,y 是否有显著差异,由于还没有学非参数检验,试用t 检验检验之(R 的t 检验函数为(x,y),原假设H 0是两样本的均值相等,备择假设H 1是两样本不等)。
如果P 值p-value<,则拒绝原假设。
data2=student[1,];k=0;for(i in 1:30){x=(student[i,2:6]);if (sum(x<60)<2){k=k+1;data2[k,]=student[i,];} };下面做t 检验x=data1$mean;y=data2$mean; (x,y)Welch Two Sample t-test data: x and yt = , df = , p-value =alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval:sample estimates: mean of x mean of y :结论:p-value = <,拒绝原假设,即认为两样本的平均成绩有显著差异。
在一张图上,用取值(-10,10)之间间隔均等的1000个点,采用不同的线型一颜色给制sin(),cos(),sin()+cos()的函数图形,图形要求有主标题和副标题,标示出从坐标 x=seq(-10,10,length=50);#构造向量x, x[1:5];#显示x 的前5个数据 [1]sin=sin(x);#计算sin 函数值 cos=cos(x);sc=sin(x)+cos(x);plot(sin~x,xlab="x",ylab="y",ylim=c,,type="l",col=1); lines(cos~x,type="b", col=2);#点线图 lines(sc~x,type="o", col=1); title("三角函数图");所得图形如下图,sin 为黑色,cos 为红色,sin+cos 为绿色:内容:; ; ;(附加题:; ; 有能力的可做附加题)某批发市场从厂家购置一批灯泡,根据合同的规定,灯泡的使用的寿命平均不低于1000h 。
已知灯泡的使用寿命服从正态分布,标准差是20h ,从总体中随机抽取了100只灯泡,得知样本均值为996h ,问题是:批发商是否应该购买该批灯泡?(1) 零假设和备择假设应该如何设置?给出你的理由。
(2)在零假设1000<μ之下,给出检验的过程并做出决策,如果不能拒绝零假设,可能是哪里出了问题。
解:(1) 根据题意,问题的假设为1000:1000:10<↔≥μμH H理由:1000≥μ是批发商的意愿,违背这个意愿,也就是拒绝原假设H 0,他就购这批灯泡了。
不能轻易否定的事情应置于被保护地位H 0。
这个问题的检验统计量为nX Z /201000-=,z=(996-1000)/2=-2P 值pvalue=pnorm(z,0,1)= , 在alpha=时拒绝原假设,根据合同,不购这批灯泡。
(2) 假设检验问题:0:0:10≥↔<μμH H 。
这样的假设是有问题的。
假设检验是一种这样哲学:不轻易否定旧过程,置旧过程为H 0于被保护的位置,而以小概率否定之。
而一但被拒绝,以小概率事件原理,拒绝域不是小概率。
反证H 0不真。
所谓“天欲报之,必先厚之”也,以显我为人之厚道,虽如此也不能保护H 0,怪不得我也。
面此假设违返旧过程,这样的假设毫无意义。
如果按照这个检验问题,检验的P 值是pvalue=1- pnorm(z,0,1)= , 没有充分的理由拒绝原假设,结论也是不购进这批灯泡。