4. T检验与非参数检验
实验室常用统计方法

实验室常用统计方法1.描述统计方法:描述统计方法是通过汇总和整理实验数据的相关特征来进行分析的方法。
包括计算数据的均值、标准差、中位数等,以对数据的集中趋势、离散程度、分布情况等进行描述。
2.参数检验方法:参数检验方法用于比较两个或多个样本之间的差异,并判断这些差异是否显著。
常见的参数检验方法包括t检验、方差分析等。
t检验用于比较两个样本均值之间的差异,方差分析则用于比较多个样本均值之间的差异。
3. 非参数检验方法:非参数检验方法是针对无法满足参数检验假设的实验数据而设计的。
常见的非参数检验方法包括Wilcoxon秩和检验、Kruskal-Wallis检验等。
Wilcoxon秩和检验用于比较两个相关样本之间的差异,Kruskal-Wallis检验则用于比较多个独立样本之间的差异。
4.回归分析:回归分析用于研究自变量和因变量之间的关系,并建立预测模型。
在实验室中,回归分析常用于研究因变量与多个自变量之间的线性关系。
通过回归分析可以确定自变量对因变量的贡献程度,以及预测因变量的可能取值。
5. 生存分析:生存分析是用于研究事件发生的时间和相关因素之间的关系的统计方法。
在实验室中,生存分析常用于研究生物学实验中事件发生的概率和时间。
生存分析的常见方法包括Kaplan-Meier生存曲线分析和Cox比例风险模型分析。
6.方差分析:方差分析是用于比较多个样本均值差异的统计方法。
在实验室中,方差分析常用于比较多个处理组之间的差异,并确定是否存在显著差异。
方差分析可分为单因素方差分析和多因素方差分析,用于比较不同因素对实验结果的影响。
7.聚类分析:聚类分析是将样本按照相似性分为不同的组别的统计方法。
在实验室中,聚类分析常用于将实验数据按照其特征进行分类,以寻找样本之间的相似性和差异性。
综上所述,实验室常用的统计方法涵盖了描述统计、参数检验、非参数检验、回归分析、生存分析、方差分析和聚类分析。
通过运用这些统计方法,实验室可以更好地处理和分析实验数据,为科研工作提供有力的支持。
两独立样本t检验和非参数检验的实证分析

两独立样本t检验和非参数检验的实证分析摘要:教学质量是靠具体课程完成,课程的建设是教学质量提升的重要环节和基本保证。
本文简述了概率论与数理统计重点课程建设的必要性,重点在于对课程建设前后分层随机抽样得来的样本进行实证分析。
实证分析主要从基本统计分析、参数检验、非参数检验三个大的方面进行,尤其是非参数检验方面,又具体利用了三种不同的检验法进行分析推断。
关键词:t检验;非参数检验;显著性水平;频数分析概率论与数理统计是我国高等院校理工类、经济类、管理类各专业的一门重要公共课程,同时也是一门应用广泛,适用性强的工具课。
此门课程的教学为学生的其他专业课及其将来毕业后的工作、继续深造等方面奠定必要的数学,而且对培养学生的逻辑思维能力、分析判断问题能力、统计观点、应用能力和创新能力均有着特殊而又重要的作用,是培养高素质综合型人才的重要保证。
笔者本身是东华理工大学理学院的一线教师,这两年来,同时在江西财经大学统计学院读研究生。
在此期间,笔者主持的“概率论与数理统计”重点课程建设项目小组一直在努力的探索和研究,收获了一些成果。
本文的主要目的是针对进行重点课程建设这几年来,对搜集到的学生该门课程的考试成绩从统计学的角度进行实证分析。
尤其是从参数检验和非参数统计两个重要角度进行探究,论证这几年来进行课程建设是否让学生成绩取得了明显的提高。
一、基本统计分析对数据的分析首先从基本统计分析入手。
通过基本统计分析,掌握数据的基本统计特征,同时迅速把握数据的总体分布形态。
而基本统计分析往往先从频数分析开始,由于成绩数据均为定距型数据,直接采用频数分析不利于对其分布形态的把握,因此先对数据分组后再进行频数分析。
SPSS频数分析的操作如下:选择菜单【Analyze】→【Decriptive】→【Frequencie】,结果如下:从上面的统计表中可以看出,进行重点课程建设后,平均分有了明显的提高,而且从频数分布表可以看出,第3组第4组即中高分数段百分数有了明显提升。
【统计分析】非参数检验

3. 查表与结论 查T界值表,T0.05(11)=10~56,T=3.5,在界 值范围外,P<0.05,拒绝H0。
符号检验(Sign test)
z n n 1 n
二、两样本比较的秩和检验 (Wilcoxon法)
适用条件:完全随机设计的两个样本比较,若不满足参数 检验的应用条件,则用本法;两个等级资料比较。
-0.45
-1
13
15.20
5.50
9.70
11
14
16.50
9.00
7.50
8.5
步骤
1. 建立假设:H0:差值的总体中位数=0, H1:差值的总体中位数0;
=0.05 2. 计算统计量
计算差值d,由小到大的顺序编秩次,并冠以原d 的正负号,然后分别求正负秩和,得到T+=73, T-=5,取秩和较小者作为检验统计量T=5 3. 查表及结论
1.0
2.5
4
17.00
6.50
10.50
12
5
13.00
5.50
7.50
8.5
6
18.00
13.50
4.50
5
7
17.50
10.00
7.50
8.5
8
10.20
10.20
0.00
-
9
10.00
10.00
0.00
-
10
10.50
9.50
1.00
2.5
11
13.80
6.80
7.00
6
12
3.03
3.48
研究生统计与科研方法复习补

一、 选择题略二、 简答题1. 医学参考值范围与区间估计的区别与作用分别是什么?2. 以样本均数与总体均数比较为例说明区间估计与假设检验区别与联系。
3. 线性相关与回归的区别与联系。
4. t 检验与方差分析的区别与联系?5. 某医生在一个有1000名员工的企业,随机调查了200名员工,其中50人患有职业病,其中男40人、女10人,得相对数是80%与20%,由此得结论男性更易患职业病。
此结论是否正确?请陈述理由。
6. 参数检验与非参数检验的区别?7. 计算相对数的注意事项是什么?8. 两样本均数比较时为什么要做统计检验?9. 假设检验的两类错误是什么?其含义是什么?如何控制?10. 将18名原发性血小板减少症患者按年龄相近的原则配为6个区组,每个区组中的3名患者随机分配到A 、B 、C 三个治疗组中,治疗后测定血小板变化量。
经初步计算,180SS =总,120SS =治疗组,10SS =误差。
试列出该实验数据的方差分析表。
11. 以 t 检验和秩和检验为例,说明参数检验与非参数检验的优缺点。
12. 某研究者调查了40名腔隙性脑梗塞患者,其中20例单发,20例多发,记录了与脑梗塞是否多发的可能有关的危险因素情况,其中吸烟量定义如下;不吸烟=0,<10支/天=1,>=10支=3。
数据见下表40名腔隙性脑梗塞患者的调查数据性别1x吸烟量 2x患糖尿病3x胆固醇4x甘油三脂 5x低密脂蛋白 6x高密脂蛋白 7x单发多发y0 1 1 5.65 2.34 3.61 1.98 0 136.233.892.11.99┇┇┇┇┇┇┇┇┇┇┇┇┇┇┇┇1 2 1 4.14 .92 2.61 1.23 10 0 0 5.09 2.41 2.96 1.03 1问:1)说明吸烟量、低密脂蛋白、单发多发、胆固醇、患糖尿病等指标的变量类型?2)假设低密脂蛋白、高密脂蛋白服从正态分布,胆固醇、甘油三脂服从偏态分布,问用什么方法检验单发与多发在高密脂蛋白、吸烟量、性别三个指标上的差异?3)用什么方法分析脑梗塞是否是影响多发的可能有关因素?4)用什么方法分析影响低密脂蛋白多少的有关因素?5)用什么方法分析低密脂蛋白与甘油三脂之间的关联?13.某研究者调查了80名65岁以上的老人,调查数据资料如下表,其中吸烟量定义如下;不吸烟=0,<10支/天=1,>=10支=2。
假设检验——非参数检验

假设检验(二)——非参数检验假设检验的统计方法,从其统计假设的角度可分为两类:参数检验与非参数检验。
上一节我们所介绍的Z 检验、t 检验,都是参数检验。
它们的共同特点是总体分布正态,并满足某些总体参数的假定条件。
参数检验就是要通过样本统计量去推断或估计总体参数。
然而,在实践中我们常常会遇到一些问题的总体分布并不明确,或者总体参数的假设条件不成立,不能使用参数检验。
这一类问题的检验应该采用统计学中的另一类方法,即非参数检验。
非参数检验是通过检验总体分布情况来实现对总体参数的推断。
非参数检验法与参数检验法相比,特点可以归纳如下:(1)非参数检验一般不需要严格的前提假设;(2)非参数检验特别适用于顺序资料;(3)非参数检验很适用于小样本,并且计算简单;(4)非参数检验法最大的不足是没能充分利用数据资料的全部信息;(5 )非参数检验法目前还不能用于处理因素间的交互作用。
非参数检验的方法很多,分别适用于各种特点的资料。
本节将介绍几种常用的非参数检验方法。
一.2检验2检验主要用于对按属性分类的计数资料的分析,对于数据资料本身的分布形态不作任何假设,所以从一定的意义上来讲,它是一种检验计数数据分布状态的最常用的非参数检验方法。
22检验的方法主要包括适合性检验和独立性检验。
(一)2检验概述2是实得数据与理论数据偏离程度的指标。
其基本公式为:2 ( f0 f e)(公式11—9)fe式中,f0 为实际观察次数,f e 为理论次数。
分析公式可知,把实际观测次数和依据某种假设所期望的次数(或理论次数)的差数平方,除以理论次数,求出比值,再将n 个比值相加,其和就是2。
观察公式可发现,如果实际观察次数与理论次数的差异越小, 2值也就越小。
当 f 0 与 f e 完全相同时,2值为零。
际次数与理论次数之差的大小而变化利用2值去检验实际观察次数与理论次数的差异是否显著的方法称为2检验有两个主要的作第一,可以用来检验各种实际次数与理论次数是否吻合的这类问题统称为适合性检验; 第二, 判断计数的两组或多组资料是否相互关联还是相互独立的问 题,这类问题统称为独立性检验。
参数检验与非参数检验的区别与应用

参数检验与非参数检验的区别与应用统计学中的参数检验和非参数检验是两种常用的假设检验方法。
本文将详细介绍参数检验和非参数检验的区别以及它们在实际应用中的具体场景。
一、参数检验参数检验是建立在对总体分布形态有所假定的基础上,通过对样本数据进行统计推断,来对总体参数进行假设检验。
它通常要求总体分布服从特定的概率分布,如正态分布。
参数检验的常见方法有:1. 单样本t检验:用于检验样本均值是否与已知总体均值有显著差异。
2. 独立样本t检验:用于比较两个独立样本的均值是否存在显著差异。
3. 配对样本t检验:用于比较同一组样本在不同条件下的均值是否存在显著差异。
4. 方差分析:用于比较多个样本组之间的均值是否存在显著差异。
参数检验的优势在于其具有较高的效率和灵敏度,适用于对总体分布形态有所了解的情况。
但它也有一些限制,如对分布形态的假设可能不成立,以及对样本量和数据类型的要求较高。
二、非参数检验非参数检验是对总体分布形态没有具体假设的情况下,通过对样本数据进行统计推断,来对总体参数进行假设检验。
非参数检验不少于参数检验的分析方法,常见的包括:1. Wilcoxon符号秩检验:用于比较两个相关样本的差异是否存在显著差异。
2. Mann-Whitney U检验:用于比较两个独立样本的中位数是否存在显著差异。
3. Kruskal-Wallis检验:用于比较多个样本组的中位数是否存在显著差异。
非参数检验的优势在于对总体分布形态没有具体要求,适用于对总体分布了解较少或不了解的情况。
它相对于参数检验来说更具广泛的适用性,但由于其推断效果较差,需要更大的样本量才能达到相同的检验效果。
三、参数检验与非参数检验的区别1. 假设要求:参数检验对总体分布形态有假设要求,如正态分布假设,而非参数检验对总体分布形态没有具体要求。
2. 统计量选择:参数检验基于已知概率分布,可以选择特定的统计量如t值、F值等;而非参数检验使用秩次统计量,如秩和、秩和秩二样序差等。
几种常见的显著性检验方法

几种常见的显著性检验方法显著性检验是统计学中常用的一种方法,用于判断样本数据是否由一个总体生成,或者判断两个或多个样本数据是否来自同一个总体。
它的主要目的是通过计算样本数据之间的差异,并基于概率理论判断这些差异是否由随机因素引起,从而得出结论。
下面将介绍几种常见的显著性检验方法:1.t检验:t检验是一种常用的参数检验方法,用于判断两个样本均值是否有显著差异。
当总体的方差未知时,可以使用独立样本t检验;当总体的方差已知时,可以使用配对样本t检验。
2.方差分析:方差分析是一种用于比较两个或多个样本均值是否有显著差异的方法。
它通过比较组间变异与组内变异来判断均值的差异是否有统计学意义。
常用的方差分析方法包括单因素方差分析和多因素方差分析。
3.卡方检验:卡方检验是一种用于比较观察值与期望值之间的差异是否有显著性的非参数检验方法。
它适用于分类数据的分析,常用于分析两个或多个分类变量之间的关联性。
4.相关分析:相关分析是一种用于衡量两个变量之间相关关系的方法,常用于测量变量之间的线性相关性。
通过计算相关系数来判断两个变量是否存在显著的相关关系。
5.回归分析:回归分析是一种用于研究自变量与因变量之间关系的方法。
通过拟合回归模型并进行参数估计,可以判断自变量对因变量的影响是否显著。
除了上述几种常见的显著性检验方法外,还有其他一些方法,如非参数检验方法(如Wilcoxon秩和检验和Mann-Whitney U检验)、生存分析中的log-rank检验等。
在实际应用中,应根据具体问题选择适当的检验方法,并进行合理的假设设置和数据分析,以得出准确的结论。
参数检验与非参数检验的区别及优缺点.(课堂PPT)

别 对总体参数进行区间 和检验分布(如位置)是否
估计或假设检验
相同
优 符合条件时,检验效 应用范围广、简便、易掌握 点 能高
对资料要求严格
缺
若对符合参数检验条件的资 料用非参数检验,则检验效 能低于参数检验
点 要求资料分布型已知
资料总体方差相等
2
如H0成立,非参数检验与参数检
验效果一样好;如H0不成立,则
2
感
30
频数表法:属于同一组段的观察值,一律取平均
秩次(组中值),再以该组段频数加权,计算Hc
值。
表11-8 分娩时孕周与乳量的关系
乳 量
早 产
足月 过期 产产
合计
秩次 范围
平均
秩和
秩次 早产 足月产 过期产
(1) (2) (3) (4) (5) (6) (7) (8) (9) (10)
无 30 132 10 172 1~172 86.5 2595 11418 865
标准差:ơT=〔n1n2(N+1)/12〕1/2
2
感
18
2、频数表资料(或等级资料)的两样本比较:
表11-5 某药对两种不同病情的支气管炎疗效的秩和检验
单纯 疗效 型
(1)
控制 65
单纯型合 并肺气肿
(2)
42
合计(ti) (3)=(1)+(
2)
107
秩号范围 (4)
1-107
秩和
平均秩 次
(5)
2
感
22
总结
重点:
1、参数检验与非参数检验区别与优缺点。 2、非参数检验的适用条件。 3、配对资料的符号秩和检验的假设检验。 4、成组设计两样本比较的秩和检验
t检验的条件

t检验的条件一、独立性t检验要求样本之间相互独立,即各样本之间的观察值应互不相关。
若样本间存在相关性,可能会导致样本误差的累积,从而影响t检验的可靠性。
二、正态分布在t检验中,我们假定数据满足正态分布。
这意味着样本的观测值应该近似服从正态分布。
当样本容量较大时,即使数据不服从严格的正态分布,也可以使用t检验进行分析。
但是当样本容量较小时,对正态分布的要求更为严格。
三、样本容量t检验要求样本容量足够大,以获得可靠的结果。
通常情况下,样本容量应大于30。
当样本容量较小时,可能会导致t检验的不准确性。
在样本容量较小的情况下,如果数据不满足正态分布假设,可以考虑使用非参数检验方法。
四、方差齐性t检验在进行两个独立样本的比较时,还要求两个样本的方差相等,即方差齐性。
在满足其他条件的情况下,方差齐性可以保证t检验的准确性。
如果两个样本的方差不相等,可能会导致t检验的偏差。
t检验的应用场景一、两独立样本t检验当我们需要比较两个独立样本的均值是否存在显著差异时,可以使用两独立样本t检验。
比如,我们可以使用两独立样本t检验判断男性和女性的身高是否有显著差异。
二、配对样本t检验配对样本t检验用于比较同一组样本在两个不同时间点或条件下的差异。
例如,我们可以使用配对样本t检验来比较一组学生在两次考试中的成绩是否有显著差异。
三、单样本t检验单样本t检验用于判断一个样本的均值与已知的理论均值之间是否存在显著差异。
例如,我们可以使用单样本t检验来判断一种新药物的疗效是否显著优于已知的标准疗法。
四、方差分析(ANOVA)当我们需要比较多个样本之间的均值是否存在显著差异时,可以使用方差分析。
方差分析是一种广义的t检验,可以同时比较多个样本的均值差异。
t检验的步骤一、建立假设在进行t检验前,我们需要建立零假设(H0)和备择假设(H1)。
零假设通常表示无差异或无显著性差异,备择假设则表示存在差异或显著性差异。
二、计算t值计算t值需要根据样本数据、样本均值、样本标准差和样本容量等参数进行计算。
spss教程(t检验,非参数检验)

2020 2:37:42 AM02:37:422020/12/10
• 11、自己要先看得起自己,别人才会看得起你。12/10/
谢 谢 大 家 2020 2:37 AM12/10/2020 2:37 AM20.12.1020.12.10
• 12、这一秒不放弃,下一秒就会有希望。10-Dec-2010 December 202020.12.10
•
3、越是没有本领的就越加自命不凡。 20.12.1 002:37: 4202:3 7Dec-20 10-Dec-20
•
4、越是无能的人,越喜欢挑剔别人的 错儿。 02:37:4 202:37: 4202:3 7Thursday, December 10, 2020
•
5、知人者智,自知者明。胜人者有力 ,自胜 者强。 20.12.1 020.12. 1002:3 7:4202: 37:42D ecembe r 10, 2020
• 13、无论才能知识多么卓著,如果缺乏热情,则无异 纸上画饼充饥,无补于事。Thursday, December 10, 202
010-Dec-2020.12.10
• 14、我只是自己不放过自己而已,现在我不会再逼自 己眷恋了。20.12.1002:37:4210 December 202002:37
•
6、意志坚强的人能把世界放在手中像 泥块一 样任意 揉捏。 2020年 12月10 日星期 四上午 2时37 分42秒0 2:37:42 20.12.1 0
•
7、最具挑战性的挑战莫过于提升自我 。。20 20年12 月上午 2时37 分20.12. 1002:3 7December 10, 2020
一、t检验:定量资料()的假设检验
• 要求:样本符合
统计学非参数检验

非参数检验的弱点
可能会浪费一些信息 特别当数据可以使用参数模型
的时候 大样本手算相当费事 一些表不易得到
参数检验
〔parametric 总体分t布es类t〕型,对未知
➢ 在参数检验和非参数检验都可以使用的情况下, 非参数检验的成效〔power〕要低于参数检验方 法。
以下情况下应当首选非参数方法
➢ 参数检验中的假设条件不满足,从而无法应用。例 如总体分布为偏态或分布形式未知,且样本为小样 本时。
➢ 检验中涉及的数据为定类或定序数据。 ➢ 所涉及的问题中并不包含参数,如判断某样本是否
在非正态总体小样本的情况下,假如要对总体 分布的位置进展推断,由于t检验不适用,也 可使用符号检验的方法。
在数据呈偏态分布的情况下,我们可能对总体 的中位数更感兴趣,希望对总体的中位数作出 推断,这时可以使用符号检验的方法。
例6.3 在某地区随机调查了60个家庭的月收入。 〔数据文件:家庭月收入.sav〕。根据样本数 据能否认为总体中家庭月收入的中位数等于 5000元〔显著性程度a=0.05〕?
c2统计量的分布与自由度有关; c2统计量描绘了观察值与期望值的接近程度
拟合优度检验〔goodness of fit test〕
用c2统计量进展统计显著性检验的重要内容之 一;
根据总体分布状况,计算出分类变量中各类别 的期望频数,与分布的观察频数进展比照,判 断期望频数与观察频数是否有显著差异,从而 到达对分类变量进展分析的目的。
非参数统计的名字中的“非参数(nonparametric) 〞意味着其方法不涉及描绘总体分布的有关参 数;
非参数检验

若n>50,超出附表9的范围,可用正态近似法作u检验,按 下式计算u值。
对秩的差值,省略所有差值为0的对子数,令余下的有效对子数
为n;最后按n个差值编正秩和负秩,求正秩和或负秩和。但对 于等级资料,相同秩多,小样本的检验结果会存在偏性,最好 用大样本。
的多个独立样本所来自的多个总体分布是否有差别。在理论
上检验假设H0应为多个总体分布相同,即多个样本来自同一 总体。由于H检验对多个总体分布的形状差别不敏感,故在实
际应用中检验假设H0可写作多个总体分布位置相同。对立的
备择假设H1为多个总体分布位置不全相同。
1.原始数据的多个样本比较
方法步骤见例8-5.
样本所来自的两个总体中位数是否有差别。方法步骤见例8l。
例8-1 对12份血清分别用原方法(检测时间20分钟)和新 方法(检测时间10分钟)测谷-丙转氨酶,结果见表8-1的(2)、 (3)栏。问两法所得结果有无差别?
血清谷-丙转氨酶不知是否符合正态分布,本例为小样 本资料,其配对差值经正态性检验得0.1<P<0.2,虽可用配对t 检验,为保守起见,现用Wilcoxon符号秩检验。
用于推断计量资 料或等级资料的两个独立样本所来
自的两个总体分布是否有差别。
在理论上检验假设H0应为两个总体分布相同,即 两个样本来自同一总体。由于秩和检验对于两个总体分布 的形状差别不敏感,对于位置相同形状不同但类似的两个 总体分布,如均数相等、方差不等的两个正态分布,推断
不出两个总体分布(形状)有差别,故对立的备择假设Hl不
三种T检验的详细区分

三种T检验的详细区分展开全文之前的文章中SPSSAU已经给大家详细地介绍了方差分析,之后收到的一些反馈以及日常的答疑中,我们发现关于T检验三种方法的区分还有很多小伙伴搞不清楚,下面就结合着具体案例详细聊聊T检验的那点事。
01. 概念T检验是通过比较不同数据的均值,研究两组数据之间是否存在显著差异。
02. 分类不同的T检验方法适用于不同的分析场景,具体的分类如下:03. t检验的前提条件无论是单样本T检验、独立样本T检验还是配对样本T检验,都有几个基本前提:(1)T检验属于参数检验,用于检验定量数据(数字有比较意义的),若数据均为定类数据则使用非参数检验。
(2)样本数据服从正态或近似正态分布,若不满足,则可考虑使用非参数检验。
SPSSAU整理04. 案例应用(1)单样本t检验单样本T检验用于比较一组数据与一个特定数值之间的差异情况。
比如,某公司用五级李克量表的调查问卷进行员工满意度调查,其中‘4分’代表满意,分析人员可通过单样本t检验了解员工总体满意程度与“满意”(4)之间是否有明显差异。
分析步骤:1、点击【通用方法】→【单样本T检验】,拖拽分析项到右侧分析框。
2、在填写框内输入对比数字。
3、点击“开始单样本T检验分析”,即可得到分析结果。
SPSSAU分析界面分析结果:单样本T检验结果首先判断p值是否呈现出显著性,由上表可知,P<0.01,说明统计结果有显著意义。
具体差异根据平均值进行对比,员工总体满意度平均得分为 3.688,在量表中代表“一般”程度,与代表“满意”的得分4之间存在统计学差异。
因此认为总体员工满意度处于一般水平。
(2)独立样本T检验(T检验)独立样本T检验用于分析定类数据(X)与定量数据(Y)之间的差异情况。
独立样本T检验除了需要服从正态分布、还要求两组样本的总体方差相等。
当数据不服从正态分布或方差不齐时,则考虑使用非参数检验。
案例:比较男生与女生的专业和职业任职得分的均值是否存在显著差异,可采用独立样本T检验进行分析。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
4. T检验与非参数检验4.1常用统计概念简介• 4.1.1 常用统计概念•4.1.2概率、概率分布4.1.3 二项分布4.1.4 泊松分布4.1.5 正态分布正态概率分布有以下重要特征:(见图4-2)(1)正态分布是对称分布,对称轴是x=μ。
(2)当x=μ时,正态概率密度最大。
(3)正态分布的图形由μ和σ决定。
(4)当σ为定值时,μ的变化引起正态概率密度曲线在横轴上平行移动。
(5)当μ为定值时,σ的变化将引起正态概率密度曲线的形状变得尖峭或偏平。
0.00.10.20.30.40.50.60123456注:正态曲线1的μ=2.4,σ=0.8;正态曲线2的μ=3.4,σ=0.8;正态曲线3的μ=3.4,σ=1.2。
正态分布与二项分布的主要区别:正态分布是连续的,而二项分布是离散的。
象所有连续随机变量一样,正态随机变量任意一个确定值的概率为0,非0概率只有在确定区间内才能得到。
二项分布与正态分布存在渐近关系。
二项分布的参数是n和p。
则概率P(a<X<b)可以被正态分布N(np,npq)曲线下从(a-1/2)到(b+1/2)的面积所近似。
这一规则隐含有:当a=b时,二项概率P(X=a)可以用正态曲线下的从(a-1/2)到(b+1/2)间的面积近似。
唯一例外的是P(X=0)及P(X=n)分别被正态曲线下1/2左边的面积及n-1/2右边的面积所近似。
二项分布对正态分布的近似有一个很重要的统计定理的特例,称为中心极限定理。
4.1.6 极限定理4.1.7 样本平均数的分布4.1.8 t分布4.1.9 分布图4-4 不同自由度的χ2分布曲线4.1.10 F分布4.2 统计检验的基本原理与方法• 4.2.1 假设检验的基本概念1.问题的提出2.假设检验的步骤一个完整的假设检验过程,通常包括以下四个步骤:1)提出原假设(Null Hypothesis)和备择假设(Alternative Hypothesis);2)确定适当的检验统计量并计算检验统计量的值;3)规定显著性水平α;4)做出统计决策。
4. p值的进一步说明5.实际显著性性和常识进行综合考虑,作出最后的判断。
6.关于实际显著性和统计显著性的重要一点7. 参数方法与非参数方法4.2.2 样本平均数的检验——u检验与t检验SAS程序 Ttest4_1.sas查看t检验输出结果和方法:t检验时SAS系统输出是按照①②③顺序,进行结论分析应按照③②①倒序查看。
先看③,判断数据是否来自同一方差总体,如果Pr>F的值大于0.05,说明来自同一方差总体,可以使用t检验方法进行分析,否则应采用非参数检验。
然后看②中的Equal一行,判断两组均值是否相等,如果不等且Pr>F值小于0.05,说明两组均值有显著差异,否则无差异。
然后查看①中Mean列,根据专业知识及两组均值的大小,判断是大的好还是小的好。
例4.2 将20个样本随机分为两组,分别用两种培养基进行培养试验,测得有效成份如下,问两组的平均值有无差别。
treat1:a培养基(11)10,20,40,40,40,80,80,160,160,160,320treat2:b培养基(9人)10,10,10,20,20,20,20,40,40Ho:两组均值相等μ1=μ2 ,Ha:两组均值不等μ1≠μ2 ,显著水平α=0.05 。
由于数据面倍数关系,所以先将两组数据分别取对数,以对数作为新变量进行比较。
用变换后的数据再代入以上公式计算t值。
SAS程序Ttest4_2.sas4.2.3 双尾检验与单尾检验4.2.4 非参数检验1.Χ2 检验2.符号检验3.秩和检验法4.3 TTEST过程—比较t检验• 4.3.1 TEST过程简介1.TEST过程简介TTEST过程在一些假设条件下计算t统计量,用以检验“两组观测值均值相等”这个原假设。
假设条件有以下两点:1)两组观测方差相等。
2)在每个组内,各个观测独立,且服从相同的正态分布。
4.3 TTEST过程—比较t检验如果两组观测方差不等,则计算近似的t统计量,同时用Satterhwaire方法计算其近似自由度,又可以要求用Cochran和Cox方法近似计算t检验的概率水平。
计算F’(Folded)统计量用于检验两个方差是否相等。
TTEST过程不是为成对数据比较设计的,对成对数据,可用MEANS过程或UNIVERATE过程检验成对数据的差值是否为零,以判断成对数据均值是否相等。
4.3.2 TTEST过程举例说明例4.3 为了解某乡粮田土壤肥力的变化情况,1998年和1999年连续两年对9个监测点进行取土样化验有机质含量。
y1代表1998年化验结果,该年土壤有机质平均含量为1.21%,y2代表1999年化验结果,分析两年间土壤有机质变化情况。
SAS程序Ttest4_3.sas输出结果简介:For H0: Variances are equal, F' = 2.08 DF = (8,8) Prob>F' = 0.3203从输出的最下方可知,两组变量来自同一方差总体。
T-TestsVariable Method Variances DF t Value Pr > |t|x Pooled Equal 16 0.52 0.6127x Satterthwaite Unequal 14.2 0.52 0.6136在方差相等的前提下,两组均值相等的概率为0.6127,所以1998年和1999年间该乡土壤有机质含量没有大的变化,即土壤肥力差异不明显。
例4.4 此试验的目的是看看与单纯繁殖相比,杂交能否显著提高肉鸡的生长速度。
实验数据是在8周龄测得的体重(单位:克)。
SAS程序Ttest4_4.sas例4.5 研究皱纹盘鲍卵受精时间对受精率及孵化率的影响,其中a、b代表不同的受精时间,a:受精时间0.5小时;b:受精时间1.0小时;每组有8个试验组,则数据集有16个观测,观测值均为百分数,请分析在不同的受精时间下,对海产单壳经济水产品皱纹盘鲍卵的孵化率是否有显著差异,以确定人工繁殖时的受精时间,提高孵化率。
SAS程序Ttest4_5.sas例4.5结果说明:从t检验输出结果可以看出:方差相等的假设是不合理的,方差相等假设成立的概率仅为0.0594。
双边检验F值(大方差除以小方差)为4.67,所以应该使用方差不相等的检验。
从而采用Unequel一行的t值、DF和概率。
通过t检验结果得出,受精时间为0.5h和受精时间为1.0h的两个试验组在孵化率上有显著的差异,概率水平为0.0022。
受精时间为0.5h的皱纹盘鲍卵的孵化率显著高于受精时间为1.0h的皱纹盘鲍卵的孵化率。
但对于两组变量,当方差不等,且样本数小于30时,应采用非参数检验,否则可能得出错误的结论。
建议使用后面讲到的Npar1way过程进行非参数检验。
4.4 NPAR1WAY过程(非参数检验过程)1.NPAR1WAY过程简介NPAR1WAY过程是基于经验分布函数(EDF)和跨过单向分类的因变量的秩得分,计算出几个统计量,用以检验变量的分布在跨过不同组时有相同的位置参数。
秩得分包括Wilcoxon得分,中位数得分,Savage得分和Van der Waerden得分。
关于这些得分的说明请参考有关非参数检验的统计书。
NPAR1WAY过程语句PROC NPAR1WAY 选择项 ;CLASS 变量列表 ;BY 变量列表 ;VAR 变量列表 ;RUN ;4.4.2 NPAR1WAY过程举例说明例4.6 将例4.5用NPAR1WAY过程进行非参数检验。
SAS程序——Npar1way4_6.sas data npar1way4_6 ;input time $ fuhualv @@ ;cards ;a 73 a 65 a 72 a 65 a 64 a 77 a 71 a 66b 59 b 64 b 61 b 63 b 64 b 61 b 62 b 58;proc npar1way ;class time ;var fuhualv ;title 'fuhualv ' ;run ;结果说明:通过多种方法的比较与检验,两组数据都存在显著差异,即受精时间为0.5h 和受精时间为1.0h的两个试验组在孵化率上有显著的差异。
受精时间为0.5h的皱纹盘鲍卵的孵化率显著高于受精时间为1.0h的皱纹盘鲍卵的孵化率。
虽然与t检验在方差不等的前提下得到的结论相同,但通过进行多种非参数检验,结论更有说服力,且显著水平也明显高于t检验的结果。
Kruskal Wallis卡方检验的显著水平为0.0011, Van der Waerden法的显著水平为0.0017。
均高于0.0022,说明对于这种数据,采用非参数检验,统计结果更精确。
因此根据数据特点选择合适的方法进行统计分析,有助于我们得到科学而准确的结论。
例4.7数据来源:中国农大昌平试验站用a、b两种饲料对香猪进行饲养试验。
每组6头香猪,两组共有12个观测值。
数据是6周时每头香猪的增重结果,单位:Kg。
分析这两种饲料对香猪的增重有无差异。
增重数据如下:a种饲料:6.65 6.35 7.05 7.90 8.04 4.45b种饲料:5.34 7.00 7.89 7.05 6.74 7.28由于试验样本小,应采用非参数检验方法进行检验。
SAS程序Npar1way4_7.sas结果说明:其中Chi-Square 是卡方 2统计量,Kruskal-Wallis 检验的Chi-Square=0.0064,Prob > Chi-Square=0.9361,大于0.05,卡方检验不显著,即用a、b两种饲料饲喟香猪对香猪的增重效果没有差异,两种饲料的增重效果一样。
这个试验数据计算出的概率值为1.0,有些特殊,通常我们处理的数据不会这样。
如果使用TTEST过程对这组数据进行检验,也得到两种饲料对香猪的增重效果无差异的结论。
但是对于小样本的试验数据应选择非参数检验方法进行统计分析,否则得到的结论的可信度会受到质疑。
4.5 综合应用• 4.5.1 配对数据的统计分析配对试验设计进行单因素2水平试验设计时,对同一个指标观测2个数据,这2个数据来自同1个受试对象或来自非常相同(对重要的非处理因素而言)的2个受试对象,故把这2个数据看作一对。
这种设计称为配对设计。
根据每对数据所对应的具体条件,可将配对设计分为以下3种:自身配对设计:每对数据测量来自同一个受试对象。
同源配对设计:每对数据测量来自同一窝(或胎)的2个受试对象。
条件相近者配对设计:每对数据测量来自条件(指最重要的非处理因素)相近的2个受试对象。
结果说明:第1部分是对差量算出的各种简单样本统计量的值。