统计学之非参数检验讲义

合集下载

统计学第13讲 第13章 非参数检验

统计学第13讲 第13章 非参数检验

13.3 单变量的χ2 检验 肥胖与健康问题有关,亚特兰大疾控中心定期进行全 国青少年危机监督调查,对11631名男女青年(9到12年 级)自身体重观的部分调查结果。
表13-1 女生的自身体重观
偏瘦 419
正常 3402
过胖 1995
合计 5816
这个问题可以使用单变量χ2 检验或拟合优度检验 (goodness-of-fit test) 观测值与虚无假设下的期望值之间是否存在差异? 观测值分布是否与理论分布相吻合?
56
2
81
=56+36-81 =11
检验步骤如下: 1. H0: U U 两组等级差异是机遇所致
2. H1: U 两组等级差异不是随机的 U 3. 统计检验:曼-惠特尼 U 检验 4. 显著水平:α=0.05 5. 抽样分布:曼-惠特尼U:N1=8 , N2=7 6. 拒绝H0的判别区域:U≤10 或 U≥46,如果U在此 范围之外,就拒绝H0,否者不拒绝H0。 因为U=11>10,所以不拒绝H0 。这种药物对反应 时没有影响。
例如:研究两男两女4位朋友看电影的情况,
电影类型 被试1 被试2 男性 男性 电影类型 男性 女性
被试3 被试4
女性 女性
喜剧 6 4 1 0
悲剧 1 0 3 2
合计
喜剧 10 1 11
悲剧 1 5 6
合计 11 6 17
4≠17,这类数据不能列成交叉表,宜用参数检验
13.5 顺序量表变量—非参数检验
df=(行数-1)(列数-1)=(2-1)(2-1)=1
表13-5 男女青年体重自我感觉的期望次数 单元格的期望次数
性别 女性 男性 合计
过轻 786.78 591.22 1378.00

非参数统计讲义

非参数统计讲义

非参数统计讲义-CAL-FENGHAI.-(YICAI)-Company One1第一章 绪 论本章主要内容: 1.非参数方法介绍2.预备知识第一节 非参数方法介绍一. 非参数方法的概念和实例复习参数方法定义:设总体X 的分布函数的形式是已知的,而未知的仅仅是分布函数具体的参数值,用样本对这些未知参数进行估计或进行某种形式的假设检验,这类推断方法称为参数方法。

先来看两个实例。

例 供应商供应的产品是否合格某工厂产品的零件由某个供应商供应。

合格零件标准长度为(±)cm 。

这也就是说合格零件长度的中心位置为8.5cm ,允许误差界为0.1cm ,即长度在-8.6cm 之间的零件是合格的。

为评估近年来供应的零件是否合格,随机抽查了n=100个零件,它们的长度数据X 见第一章附表。

解答:根据我们已学过的参数统计的方法,如何根据数据来判断这批零件合格否 用参数数据分析方法,在参数统计中,运用得最多的是正态分布,所以考虑假设供应商供应的零件长度X 服从正态分布,即X ~),(2σμN其中两个参数均未知,但可用样本均值估计μ,样本方差估计2σ。

由已知的数据计算可得:零件的平均长度,即样本均值为x =8.4958cm ,样本标准差为s=0.1047cm 。

则零件合格的可能性近似等于)/)4.8(()/)6.8(()6.84.8(σμσμ-Φ--Φ=≤≤X P)1047.0/)4958.84.8(()1047.0/)9458.86.8((-Φ--Φ≈%66≈这个说明:约有三分之一的零件不合格,该工厂需要换另一个供销商了。

但这个结论与实际数据符不符合呢这是我们要思考的问题。

我们可以对数据做一个描述性分析,先对这100个样本数据做一个频率分布。

观察到:在这100个零件中有91个零件的长度在8.4cm ~8.6cm 之间,所以零件合格的比例为91%,超过66%很多!统计分析的结论与数据不吻合的!这是什么原因呢我们可以作出数据的直方图来分析数据的分布情况。

统计学非参数统计PPT课件

统计学非参数统计PPT课件
• 1、计算各组平均等级数这差
dij
Ti ni
Tj nj
第17页/共28页
• 2、计算判断有无统计意义的临界值d0.05
• 自由度=n-k,d> d0.05差别有统计意义。查t值表时如有的自由度没有可 用内插法近似估计
n 1 H 1 1 2
• 3、列各
d t s 0.(0P2527)

平0均.0秩5间(的)两
第19页/共28页
第四节 等级分组资料的检验
• P228表17-10的资料,可用2检验,但只能说明:各组在疗效等级的构成上有无不同,而不能说明哪组 疗效较好,哪组较差
• 利用H检验中,相同等级可用平均秩 • 其检验步骤同H检验 • 若有显著性意义,再进行多重比较
第20页/共28页
第五节 随机区组设计 资料的检验
s2 1 (
n 1
Tij2
n(n 1)2 4
)
无相同数据时,
s2 n(n 1) /12
第15页/共28页
• 7)计算H值
无相同数据时,
H 12
Ti2 3(n 1)
n(n 1) ni
有相同数据时:
2
2
1 T n(n 1) • 8)判断结果:如果处理数3,ni5,则可查i附表17-3作判断。
• 计算时可进行连续性校正,但影响甚微,
第6页/共28页
第二节 成组资料的检验
• 一、两样本秩和检验(Wilcoxon, Mann and Whitney法) • rank sum test计算步骤:
• 1、将两组数据混合由小到大排列编秩,相同数据用平均秩 • 2、将小样本等级相加称为T • 3、计算T ': T '=n1(n1+n2+1)-T

第5讲 非参数检验.ppt

第5讲 非参数检验.ppt
2·Kolmogorov-Smirnov Z双样本检验理论方法 Kolmogorov-Smimov Z双样本检验与Kolmogorov-Smimov单样 本检验相似,这种双样本检验涉及两个累积分布间的一致性。单 样本检验涉及一组样本值分布和某一特定理论分布之间的一致性, 双样本检验则涉及两组样本值之间的一致性。
非参数统计检验是一种这样的检验,其模型对于被抽样总体的 参数不规定条件,即非参数检验是不依棘总体分布的统计检验 方法,是指在总体不服从正态分布且分布情况不明时,用来检 验数据资料是否来自同一个总体假设的一类检验方法。
一、单样本非参数检验
单样本非参数统计检验方法可以检验只需抽取一个样本的假设。 该检验是检验某特定样本是否来自于某指定的总体。
Close
配对资料的符号秩和检验 (Wilcoxon配对法)
Close
例6-1 某医院对12例患者进行“巩 膜瓣下灼烙角膜咬切术”,手术前后的 视力如表6-1,问手术后视力是否有改 善?
Close
病人编号 (1) 1 2 3 4 5 6 7 8 9 10 1 4.1 4.5 4.7 4.0 4.1 5.2 4.1 4.1 4.8
Close
Close
本例是检验均匀分布的。 Close
Close
H 0: 20 2 22 /2(n 1 )或 21 /2 2(n 1 ) 也 就 是 P (22 /2(n 1 )) =/ 2 P (2 C lo1 s e/2 2(n 1 ))= /2
二、二项检验 对于任意的两类总体,如果已知其中一类事件所占的比例为P, 那么另一类所占的比例为1-P,
Close
Close
Close
Close
Close
Close

非参数统计讲义通用课件

非参数统计讲义通用课件

假设检验方法
总结词
假设检验方法用于检验一个关于总体 参数的假设是否成立。
详细描述
假设检验方法包括提出假设、构造检 验统计量、确定临界值和做出决策等 步骤。常见的假设检验方法有t检验、 卡方检验、F检验等,用于判断样本数 据是否支持假设。
关联性分析方法
总结词
关联性分析方法用于研究变量之间的相关性。
02
非参数统计方法
描述性统计方法
总结词
描述性统计方法用于收集、整理、描述数据,并从数据中提取有意义的信息。
详细描述
描述性统计方法包括数据的收集、整理、描述和可视化,例如均值、中位数、 众数、标准差等统计量,以及直方图、箱线图等图形化表示。这些方法可以帮 助我们了解数据的分布、中心趋势和离散程度。
非数统计与机器学习算法的结 合将有助于解决复杂的数据分析 问题。
02
与大数据技术的融 合
非参数统计将借助大数据技术处 理海量数据,挖掘数据背后的规 律和模式。
03
与社会科学研究的 互动
非参数统计方法将为社会科学研 究提供更有效的研究工具和方法 。
决策树分析方法
总结词
决策树分析方法是一种基于树形结构的非参 数统计学习方法。
详细描述
决策树分析方法通过递归地将数据集划分为 更小的子集,构建出一棵决策树。决策树的 每个节点表示一个特征属性上的判断条件, 每个分支代表一个可能的属性值,每个叶子 节点表示一个分类结果。决策树分析可以帮 助我们进行分类、预测和特征选择等任务。
非参数统计的发展趋势
多元化发展
非参数统计将不断拓展其应用领域,从传统的医学、生物 、经济领域向金融、环境、社会学等领域延伸。
01
算法优化
随着计算能力的提升,非参数统计的算 法将进一步优化,提高计算效率和准确 性。

非参数统计讲义通用课件

非参数统计讲义通用课件
案例分析
通过实际案例展示如何使用Python进行非 参数统计,包括分布拟合、假设检验和模 型选择等步骤。
SPSS实现
SPSS简介
SPSS(Statistical Package for the Social Sciences) 是一款流行的社会科学统计 软件。
操作界面
SPSS的非参数统计功能通常 在“分析”菜单下的“非参 数检验”选项中,用户可以 通过直观的界面进行操作。
聚类分析方法在数据挖掘、 市场细分等领域有广泛应用, 可以帮助我们发现数据的内 在结构和模式。
异常值检测方法
• 异常值检测方法用于识别和剔除数据中的异常值,提高数据分析的准确性和可靠性。
• 常见的异常值检测方法包括基于统计的方法、基于距离的方法、基于密度的方等。 • 基于统计的方法利用统计学原理,如z分数、IQR等,判断数据是否为异常值;基于距离的方法通过计算对象与其它对象的距离来判断是否为异常值;基于密度的方法则根据对象周围的密度变化来判断是否
解释性较差
相对于参数统计,非参数统计结果通 常较为抽象,难以直接解释其具体含 义。
假设检验能力较弱
非参数统计在假设检验方面的能力相 对较弱,对于确定性的结论和预测不 如参数统计准确。
如何克服非参数统计的局限性
01
02
03
04
利用高效计算方法
采用并行计算、分布式计算等 高效计算方法,提高非参数统
计的计算效率和准确性。
描述性统计方法在数据分析中起到基 础作用,为后续的统计推断提供数据 基础和初步分析结果。
假设检验方法
假设检验方法是一种统计推断 方法,通过提出假设并对其进
行检验,判断假设是否成立。
假设检验方法包括参数检验和 非参数检验,其中非参数检验 不依赖于总体分布的具体形式,

非参数检验综合概述PPT(30张)

非参数检验综合概述PPT(30张)


9、别再去抱怨身边人善变,多懂一些道理,明白一些事理,毕竟每个人都是越活越现实。

10、山有封顶,还有彼岸,慢慢长途,终有回转,余味苦涩,终有回甘。

11、人生就像是一个马尔可夫链,你的未来取决于你当下正在做的事,而无关于过去做完的事。

12、女人,要么有美貌,要么有智慧,如果两者你都不占绝对优势,那你就选择善良。
多个独立样本的非参数检验
例3 14名新生儿出生体重按其母亲的吸烟习惯分组(A组: 每日吸烟多于20支;B组:每日吸烟少于20支;C组:过去 吸烟而现已戒烟;D组:从不吸烟),具体如下。试问四个 吸烟组出生体重分布是否相同?数据见npc.sav:
A组: 2.7 2.4 2.2 3.4 B组: 2.9 3.2 3.2 C组: 3.3 3.6 3.4 3.4 D组: 3.5 3.6 3.7
两独立样本的非参数检验 (2) 检验统计量
分析结果
给 出 Mann-Whitney U 、 Wilcoxon W 统 计 量 和 Z 值 , 近 似 值 概 率 (Asymp.Sig)和精确概率值(Exact.sig)均小于0.05,结论一致,表明 猫、兔在缺氧条件下的生存时间的差异具有统计学意义,由平均秩次猫 (15.7)、兔(7.96)来看,可以认为缺氧条件下猫的生存时间长于兔。

3、命运给你一个比别人低的起点是想告诉你,让你用你的一生去奋斗出一个绝地反击的故事,所以有什么理由不努力!

4、心中没有过分的贪求,自然苦就少。口里不说多余的话,自然祸就少。腹内的食物能减少,自然病就少。思绪中没有过分欲,自然忧就少。大悲是无泪的,同样大悟无言。缘来尽量要惜,缘尽就放。人生本来就空,对人家笑笑,对自己笑笑,笑着看天下,看日出日落,花谢花开,岂不自在,哪里来的尘埃!

非参数统计讲义一概述

非参数统计讲义一概述
1、以推断某特定参数为对象。如总体均值μ, 总体百分比P,总体方差,两个总体殚值 旳差 等。
2、常需要假定总体旳分布是已知旳,有旳要 假设总体是服从正态分布旳,才干作出推断。
数据旳四种尺度: 定类、 定序、 定距、 定比 对定类和定序旳只能用非参数统计分析措施
非参数检验旳特点
1、非参数统计措施应用广泛。
解 因为2未知, 所以用T检验法
提出假设 H 0 : 0 500 , H1 : 0
x 1 (495 510 506) 502 10
S 2 1 [(495 502)2 (510 502)2 (506 502)2 ] 380
10 1
9
T X 0 502 500 10 6 0.9733
Pitman于1948年回答了非参数统计措施相对于 参数措施来说旳相对效率方面旳问题;
60年代中后期,Cox和Ferguson最早将非参数 措施应用于生存分析。
70年代到80年代,非参数统计借助计算机技术 和大量计算取得更稳健旳估计和预测,以以及 F.Hampel为代表旳统计学家从计算技术旳实 现角度,为衡量估计量旳稳定性提出了新准则。
数据输入SPSS
15 9 18 3 17 8 5 13 7 19
数据按照升幂重新排列加上大小次序号 (这就是它们的秩),得到
观测值 3 5 7 8 9 13 15 17 18 19 秩 1 2 3 4 5 6 7 8 9 10
这样,按照原先的数据次序就是
Xi 15 9 18 3 17 8 5 13 7 19 Ri 7 5 9 1 8 4 2 6 3 10 这下面一行(记为 Ri)就是上面一行数 据 Xi 的秩。
例题:某学院本科三年级有9个专业构成,统计 每个专业学生每月消费数据如下,用SPSS求消 费数据旳秩和顺序统计量旳现值:
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

16.2 单样本检验
16.2.2单样本位置参数的Wilcoxon符号秩检验
• Wilcoxon符号秩检验需要一点总体 分布的性质;它要求假定样本点来 自连续对称总体分布;而符号检验 不需要知道任何总体分布的性质。
• 在对称分布中,总体中位数和总体 均值是相等的;因此,对于总体中 位数的检验,等价于对于总体均值 的检验。
统计学之非参数检验讲 义
2020年4月29日星期三
吴喜之
统计学
─从数据到结论

第十六章 非参数检验

16.1 关于非参数的一些常识
• 经典统计的多数检验都假定了总 体的背景分布。
• 但在总体未知时,如果假定的总 体和真实总体不符,那么就不适 宜用通常的检验
• 这时如果利用传统的假定分布已 知的检验,就会产生错误甚至灾 难。

SPSS软件使用
.2. 数据gs.sav有一列(变量名为m),这 是重复零假设的100g使得m的长度和 gsweight一样。然后利用选项Analyze- Nonparametric Tests-Related Samples,再 把变量gsweight和m同时选入Test Pair(s) List之中,再在下面选Sign及在Exact中 选Exact;然后回到主对话框,OK即可。 得出前面的第二个输出。
• 重于100g的只有8包。这样的二项分 布变量小于或等于8的概率为0.05388 。这就是p-值。
• 因此, 对于水平a=0.05, 根据这个符号 检验,没有充分的证据拒绝零假设。

数据gs.txt •SPSS输出的结果在下面表格中。从 该表格可以看出精确的双边检验的 p-值=0.108(精确地为0.1078);也 就是说,我们的单尾检验的p-值为 其一半。
•100.81
92.99 103.72 90.66 98.24 97.87 99.21 101.79

数据gs.txt • 样本中位数为m=98.36。因此,
人们怀疑厂家包装的西洋参片份 量不足。由于对于这些重量的总 体分布不清楚,决定对其进行符 号检验。需要检验的是:

数据gs.txt
• 按照零假设,每个观测值(每包西洋 参的净重)大于中位数m0=100g的机 会和小于100g的概率都是0.5。这服 从二项分布Bin(25,0.5)。

16.2 单样本检验
16.2.1单样本中位数(a-分位数)符号检验
• 我们知道某点为中位数(a-分位数)意 味着一个数小于该点的概率应该为 0.5(a).
• 因此,一个观测值小于该点(或与 该点之差的符号为负号)的概率为 0.5(a)。
• 这就是符号检验名称的来源,并与 二项分布有关。

例:数据gs.txt

• 假定x1,x2,…, xn为来自连续对称总体。 如果零检验为中位数(均值)m = m0。
• 把满足xi-m0<0的|xi-m0|的秩求和,并用 W-表示;同样把满足xi-m0>0的|xi-m0|的 秩求和,并用W+表示。如果m0的确是 中位数,ຫໍສະໝຸດ 么,W-和W-应大体差不多。•
16.2 单样本检验
16.2.2单样本位置参数的Wilcoxon符号秩检验
• 符号检验只用了差的符号,但没 有利用差值的大小。
• Wilcoxon 符号秩检验(Wilcoxon signed-rank test) 把差的绝对值 的秩分别按照不同的符号相加作 为其检验统计量。
• 它利用了更多的信息。
•X •1 •9 •1 •3 •1 •8 •5 •1 •7 •1
•Ri •57 •5 •89 •1 •78 •4 •2 •36 •3 •91
i
0
•这下面一行(记为Ri)就是上面一
行数据Xi的秩。

秩(rank)
•利用秩的大小进行推断就避免 了不知道背景分布的困难。这 也是非参数检验的优点。
•多数非参数检验明显地或隐含 地利用了秩的性质;但也有一 些非参数方法没有涉及秩的性 质。

16.1 关于非参数的一些常识 • 无需假定总体分布的具体形式,
仅仅依赖于数据观测值的相对大 小(秩)或零假设下等可能的概率 等和数据本身的具体总体分布无 关的性质进行的检验都称为非参 数检验(nonparametric testing)。

• 这些非参数检验在总体分布未知时有很 大的优越性。它总是比传统检验安全。
很明确。我们就其最广泛的意义 来理解。 • 在计算中,诸如列联表分析中的 许多问题都有精确方法,Monte Carlo抽样方法和用于大样本的 渐近方法等选择。精确方法比较 费时间,后两种要粗糙一些,但 要快些。

秩(rank)
• 非参数检验中秩是最常使用的概 念。什么是一个数据的秩呢?一 般来说,秩就是该数据按照升幂 排列之后,每个观测值的位置。 例如我们有下面数据
• 例16.1 质量监督部门对商店里面出售的某厂家 的西洋参片进行了抽查。对于25包写明为净重 100g的西洋参片的称重结果为(单位:克):
•99.05 100.25 102.56 99.15 104.89 101.86 96.37 96.79 99.37
•96.90 93.94 92.97 108.28 96.86 93.94 98.27 98.36

数据gs.txt •另一种输出来自于SPSS的另一种选 项:

SPSS软件使用
• 这里有两种选项方式: • 1.以数据gs.sav为例。直接使用SPSS选项
Analyze-Nonparametric Tests-Binomial, 再把变量gsweight选入Test Variable List, 然后在下面Define Dichotomy的Cut point 输入100(克),在下面Test Proportion 输入p0=0.50(零假设大于100小时的比例 );还可以点击Exact来选择精确检验, 渐近检验和Monte Carlo方法等,然后OK 即可得到前面显示的结果。
• 在总体分布形式已知时,非参数检验不 如传统方法效率高。这是因为非参数方 法利用的信息要少些。往往在传统方法 可以拒绝零假设的情况,非参数检验无 法拒绝。
• 但非参数统计在总体未知时效率要比传 统方法要高,有时要高很多。是否用非 参数统计方法,要根据对总体分布的了 解程度来确定。

• 这里介绍一些非参数检验。 • 关于非参数方法的确切定义并不
相关文档
最新文档