非参数统计讲义一绪论
非参数统计讲义
非参数统计讲义-CAL-FENGHAI.-(YICAI)-Company One1第一章 绪 论本章主要内容: 1.非参数方法介绍2.预备知识第一节 非参数方法介绍一. 非参数方法的概念和实例复习参数方法定义:设总体X 的分布函数的形式是已知的,而未知的仅仅是分布函数具体的参数值,用样本对这些未知参数进行估计或进行某种形式的假设检验,这类推断方法称为参数方法。
先来看两个实例。
例 供应商供应的产品是否合格某工厂产品的零件由某个供应商供应。
合格零件标准长度为(±)cm 。
这也就是说合格零件长度的中心位置为8.5cm ,允许误差界为0.1cm ,即长度在-8.6cm 之间的零件是合格的。
为评估近年来供应的零件是否合格,随机抽查了n=100个零件,它们的长度数据X 见第一章附表。
解答:根据我们已学过的参数统计的方法,如何根据数据来判断这批零件合格否 用参数数据分析方法,在参数统计中,运用得最多的是正态分布,所以考虑假设供应商供应的零件长度X 服从正态分布,即X ~),(2σμN其中两个参数均未知,但可用样本均值估计μ,样本方差估计2σ。
由已知的数据计算可得:零件的平均长度,即样本均值为x =8.4958cm ,样本标准差为s=0.1047cm 。
则零件合格的可能性近似等于)/)4.8(()/)6.8(()6.84.8(σμσμ-Φ--Φ=≤≤X P)1047.0/)4958.84.8(()1047.0/)9458.86.8((-Φ--Φ≈%66≈这个说明:约有三分之一的零件不合格,该工厂需要换另一个供销商了。
但这个结论与实际数据符不符合呢这是我们要思考的问题。
我们可以对数据做一个描述性分析,先对这100个样本数据做一个频率分布。
观察到:在这100个零件中有91个零件的长度在8.4cm ~8.6cm 之间,所以零件合格的比例为91%,超过66%很多!统计分析的结论与数据不吻合的!这是什么原因呢我们可以作出数据的直方图来分析数据的分布情况。
非参数统计讲义通用课件
假设检验方法
总结词
假设检验方法用于检验一个关于总体 参数的假设是否成立。
详细描述
假设检验方法包括提出假设、构造检 验统计量、确定临界值和做出决策等 步骤。常见的假设检验方法有t检验、 卡方检验、F检验等,用于判断样本数 据是否支持假设。
关联性分析方法
总结词
关联性分析方法用于研究变量之间的相关性。
02
非参数统计方法
描述性统计方法
总结词
描述性统计方法用于收集、整理、描述数据,并从数据中提取有意义的信息。
详细描述
描述性统计方法包括数据的收集、整理、描述和可视化,例如均值、中位数、 众数、标准差等统计量,以及直方图、箱线图等图形化表示。这些方法可以帮 助我们了解数据的分布、中心趋势和离散程度。
非数统计与机器学习算法的结 合将有助于解决复杂的数据分析 问题。
02
与大数据技术的融 合
非参数统计将借助大数据技术处 理海量数据,挖掘数据背后的规 律和模式。
03
与社会科学研究的 互动
非参数统计方法将为社会科学研 究提供更有效的研究工具和方法 。
决策树分析方法
总结词
决策树分析方法是一种基于树形结构的非参 数统计学习方法。
详细描述
决策树分析方法通过递归地将数据集划分为 更小的子集,构建出一棵决策树。决策树的 每个节点表示一个特征属性上的判断条件, 每个分支代表一个可能的属性值,每个叶子 节点表示一个分类结果。决策树分析可以帮 助我们进行分类、预测和特征选择等任务。
非参数统计的发展趋势
多元化发展
非参数统计将不断拓展其应用领域,从传统的医学、生物 、经济领域向金融、环境、社会学等领域延伸。
01
算法优化
随着计算能力的提升,非参数统计的算 法将进一步优化,提高计算效率和准确 性。
数学建模优秀课件非参数统计
0 1 1 0 0 0 1 0 0 1 0 0 0 0 1 1 0 0 1 0 0 0 0 1 0 1
问病户的分布排列是呈聚集趋势,还是随机分布?
实验步骤
1.建立数据文件。 (定义住户变量为epi。按住户顺序输入数据,发病的 住户为1 ,非发病的住户为0。) 2.选择菜单“Analyze→Nonparametric Tests→Runs Test”,弹出 “Runs Test”对话框。在 对话框左侧的变量列表中选择变量epi,使之进入 Test Variable List框。在临界割点“Cut Point”框中 选“Custom”项,在其方框中键入1(根据需要选项, 本例是0、1二分变量,故临界割点值用1)。 3.单击“OK”按钮,得到输出结果。
非参数检验的概念
非参数检验是指在总体不服从正态分布且分 布情况不明时,用来检验数据资料是否来自同 一个总体假设的一类检验方法。由于这些方法 一般不涉及总体参数故得名。
注:这类方法的假定前提比参数性假设检验方 法少的多,也容易满足,适用于计量信息较弱 的资料且计算方法也简单易行,所以在实际中 有广泛的应用。
结果分析
K-S正态性检验的结果显示,Z值=0.718,双侧P值 =0.681,可认为该地正常成年男子的红细胞计数符 合正态分布
5. 2 independent Samples Test 两个独立样本检验
例题
调查某厂的铅作业工人7人和非铅作业工人10 人的血铅值(μg / 100g)如下,问两组工人的 血铅值有无差别?
结果分析
二项分布检验表明,女婴12名,男婴28名,观察概 率为0.70(即男婴占70%),检验概率为0.50,二 项分布检验的结果是双侧概率为0.018,可认为男女 比例的差异有高度显著性,即与通常0.5的性比例相 比,该地男婴比女婴明显为多。
非参数统计学讲义(第一章)讲稿
非参数统计学讲义第一章 引 言 §1 序一、先修课程 1.线性代数 2.概率论 3.数理统计 4.相应的统计软件 二、参考书目1.张尧庭:《定性资料的统计分析》,广西师范大学出版社出版,1991、11; 2.易丹辉:《非参数统计——方法与应用》,中国统计出版社,1996、3; 3.S .西格耳著:《非参数统计》,科学出版社,1986、8;4.袁卫、易丹辉、何晓群等:《新编统计学教程》,经济科学出版社,1999、2; 5.陆璇:《数理统计基础》,清华大学出版社,1998、9; 6.易丹辉:《STATISTICA6.0》,中国统计出版社,2002、10;7.洪楠等:《STATISTICA for Windows 统计与图表分析教程》,清华大学出版社&北方交通大学出版社,2002、10。
三、几点要求1.复习数理统计的有关内容; 2.及时消化课件的内容; 3.按时完成作业; 四、简单回顾在初等统计学中,最基本的概念是总体,样本,随机变量,分布,估计和假设检验等.其很大一部分内容是和正态理论相关的。
在那里,总体的分布形式或分布族往往是给定的或者是假定了的,所不知道的仅仅是一些参数的值或他们的范围。
于是,人们的任务就是对一些参数,比如均值和方差(或标准差),进行点估计或区间估计,或者是对某些参数值进行各种检验,比如检验正态分布的均值是否相等或等于零等等.最常见的检验为对正态总体的t —检验,F —检验,2和最大似然比检验等.然而,在实际生活中,那种对总体的分布的假定并不是能随便做出的。
有时,数据并不是来自所假定分布的总体;或者,数据根本不是来自一个总体;还有可能,数据因为种种原因被严重污染。
这样,在假定总体分布的情况下进行推断的做法就可能产生错误的结论。
于是,人们希望在不假定总体分布的情况下,尽量从数据本身来获得所需要的信息。
这就是非参数统计的宗旨。
因为非参数统计方法不利用关于总体分布的知识,所以,就是在对于总体分布的任何知识都没有的情况下,它也能很容易而又很可靠地获得结论.这时,非参数方法往往优于参数方法。
非参数统计绪论
在不知总体分布的情况下如何利用数据 所包含的信息呢?一组数据的最基本的信 息就是次序.如果可以把数据点按大小 次序排队,每一个具体数目都有它的在 整个数据中(从最小的数起)的位置或次 序,称为该数据的秩(rank). 非参数统计的名字中的“非参数 (nonparametric)”意味着其方法不涉及描 述总体分布的有关参数;它被称为和分 布无关(distribution—free),是因为其推 断方法和总体分布无关;不应理解为与 所有分布(例如有关秩的分布)无关.
我们可以作出数据的 直方图,如右图1.1, 从图上可知,该数据 的总体不是近似服从 正态分布的!所以假 设总体是正态分布就 出错啦!
例1.2 哪一个企业职工的工资高? 这里有22名职工的工资情况,其中的12 名职工来自企业1,另外的10名职工来自企 业2。他们的工资(单位:千元)如表1.2。
企业1 11 12 13 14 企业2
表 1.1
8.503 8.508 8.498 8.374 8.494 8.500 8.498 8.500 8.502 8.501 8.491 8.504
8.502
8.505 8.510
8.503
8.501 8.499
8.501
8.500 8.489
8.505
8.499 8.496
8.492
8.490 8.500
例1.1 供应商供应的产品是否合格? 某工厂产品的零件由某个供应商供应。 合格零件标准长度为(8.5±0.1)cm。这也 就是说合格零件长度的中心位置为8.5cm, 允许误差界为0.1cm,即长度在8.4~8.6cm之 间的零件是合格的。为评估近年来供应的 零件是否合格,随机抽查了n=100个零件, 它们的长度数据X如下表1.1。
第1章-非参数统计概述
概率
指接受了一个本来是不真实
第二类错误 的原假设,又称为“采伪”
错误或“取伪”错误
记犯第二类错误的概率为 ,即
P 接 受 H 0 /H 0 为 不 真
1- β为该检验检验不真实零假设的 检验功效,又称检验效能(power of a test)/把握度:
其意义是:当两总体确有差别, 按规定的检验水准 a 能发现该差别的 能力(概率)。
H0:m ≥ 100
H1:m < 100
拒绝域和接受域(左侧检验)
拒绝域
接受域
假设的总体 抽样分布
概率
概率( 1- )
零假设和备择假设的选 择原则
通常把研究者要证明的假设作为备择假 设;
把现状(Status Quo)作为原假设; 把不能轻易否定的假设作为原假设;
零假设和备择假设: 把研究者要证明的假设作为备择假设
)
36
m m 6 6 P ( 6 . 8 6 X 2 6 . 1 9 8 6 )6
若 m = 69,n = 36, czz0.0251.96 2
X 68
3 .6 8
1 .96
取伪的概率较大.
现增大样本容量,取 n = 64, m = 66, 则
m69P(6.172X6.88m86)9
某种汽车原来平均每加仑汽油可以行驶24英里。 研究小组提出了一种新工艺来提高每加仑汽油 的行驶里程。为了检验新的工艺是否有效需要 生产了一些产品进行测试。该测试中的零假设 和备择假设该如何选取?
要证明的结论是m>24,因此零假设和备择假设 的选择为: m24 m>24
思考题
哲学上,可以说“接受”和“拒绝”两个概 念对称的,那么,在统计实践中,零假设和备择 假设对称吗?
非参数统计讲义通用课件
通过实际案例展示如何使用Python进行非 参数统计,包括分布拟合、假设检验和模 型选择等步骤。
SPSS实现
SPSS简介
SPSS(Statistical Package for the Social Sciences) 是一款流行的社会科学统计 软件。
操作界面
SPSS的非参数统计功能通常 在“分析”菜单下的“非参 数检验”选项中,用户可以 通过直观的界面进行操作。
聚类分析方法在数据挖掘、 市场细分等领域有广泛应用, 可以帮助我们发现数据的内 在结构和模式。
异常值检测方法
• 异常值检测方法用于识别和剔除数据中的异常值,提高数据分析的准确性和可靠性。
• 常见的异常值检测方法包括基于统计的方法、基于距离的方法、基于密度的方等。 • 基于统计的方法利用统计学原理,如z分数、IQR等,判断数据是否为异常值;基于距离的方法通过计算对象与其它对象的距离来判断是否为异常值;基于密度的方法则根据对象周围的密度变化来判断是否
解释性较差
相对于参数统计,非参数统计结果通 常较为抽象,难以直接解释其具体含 义。
假设检验能力较弱
非参数统计在假设检验方面的能力相 对较弱,对于确定性的结论和预测不 如参数统计准确。
如何克服非参数统计的局限性
01
02
03
04
利用高效计算方法
采用并行计算、分布式计算等 高效计算方法,提高非参数统
计的计算效率和准确性。
描述性统计方法在数据分析中起到基 础作用,为后续的统计推断提供数据 基础和初步分析结果。
假设检验方法
假设检验方法是一种统计推断 方法,通过提出假设并对其进
行检验,判断假设是否成立。
假设检验方法包括参数检验和 非参数检验,其中非参数检验 不依赖于总体分布的具体形式,
非参数统计概述课件
对于小样本数据,非参数统计 方法可能无法提供稳定和可靠
的结果。
04
非参数统计与其他统计方 法的比较
与参数统计的比较
非参数统计
不依赖于特定的概率分布模型,灵活 性更强,能适应多种数据类型和分布 。
参数统计
基于特定的概率分布模型,需要对模 型假设进行验证,适用范围相对有限 。
与贝叶斯统计的比较
02
大数据为非参数统计提供了丰富 的数据资源和计算能力,有助于 发现更多隐藏在数据中的信息和 规律,推动非参数统计的发展。
非参数统计与其他学科的交叉研究
非参数统计与计算机科学、数学、物 理学、生物学等学科的交叉研究有助 于拓展非参数统计的应用领域和理论 框架。
不同学科的交叉融合可以促进非参数 统计的创新和发展,推动其在各个领 域的实际应用。
在秩次相关性检验中,变量值被转换为秩次,然后使用秩 次计算相关系数(如Spearman或Kendall秩次相关系数 )。这种方法适用于非正态分布的数据,且不受数据异常 值的影响。
分布拟合检验
分布拟合检验是一种非参数统计方法,用于检验数据是否符合特定的概率分布。
分布拟合检验通过比较数据的实际分布与理论分布的统计量(如Kolmogorov-Smirnov、 Anderson-Darling等),来评估数据是否符合特定的概率分布。这种方法在统计学中广泛应用于模 型的假设检验和数据的探索分析。
特点
灵活性、稳健性、无分布假设、 适用于多样本数据等。
与参数统计的区别
01
02而参数统计 则依赖于特定的分布假设 。
方法
非参数统计通常采用中位 数、四分位数等统计量, 而参数统计则采用平均数 、方差等统计量。
应用范围
统计学第十八章非参数统计PPT资料(正式版)
S
Ri2 (
Ri )2 n
2 12S
mn(n 1)
2自由度为n 1
谢谢观看
统计学第十八章非参数统计 1、将x,y分别由小到大列出等级,数字相同取平均等级
分析步骤: Kendall等级相关统计量
基本思想:用一个统计量来衡量以一个变量的等级为标准时,另一个变量的等级与它不一致的情况。 加上两行:Ry右边更小的等级个数(包括相等的),然后合计,之前加负号;
即一以、xS的pea等rm级an为等顺级序1相排、关列。将x,y分别由小到大列出等级,数字相同取平均等
u S 1
s
三、2k列联表的等级相关
2k列联表contingency table,可看作是按两种方法排等 级,但有许多重复等级的资料
k 1
k
k 1 k
S (Ni ti ) t j ti (N j t j )
i 1
j i 1
i1 ji1
2 s
T(N T) 3N (N 1)
(N
2 2
4、根据样本含量n查等级相关系数的统计意义 临界值表(附表9-1)rs rs0.05(n) , P
若样本含量较大,不能在附表19-1中查到临界 值,可直接查相关系数的统计意义临界值表 (附表9-1),=n-2
例19-1,P228
二、Kendall等级相关
基本思想:用一个统计量来衡量以一个变 量的等级为标准时,另一个变量的等级与 它不一致的情况。
3
Ni3 )
2
S2
2 s
卡方检验等级相关有无统计意义
Kendall 等级相关系数仍用上述公式计算。见例19-3
四、R C列联表的等级相关 用于行列分组都有等级意义时的相关分析 S=∑aijakl-∑aijast 式中i=1,…,I; j=1,…,J; k>i; l>j; s>i; t<j; Kendall等级相关统计量
非参数统计法PPT课件
36.2
-12.8 -8
9
44.1
45.2
-1.1
-2
10
399.8 404.1 -4.3
-4
11
25.9
39.3
-13.4 -9.5
12
535.6 544.8 -9.2
-5
T- =5.8 T+-=8
•为什么要用 非参数检验?
SPSS
6
S tati sti c s
d
N
Valid
Missing
Sk ewness
参数统计——检验效率较高,但使用条件较严格. 非参数统计——由于对资料无特殊要求,因此适用
范围广,资料收集和分析比较简便。但统计效率 较低(β较大)。 选择: 首先考虑参数检验,当条件不符,才选择非参数 统计方法。
.
3
(四) 非参数统计适用情况
(1)偏态分布资料; (2)总体分布不明资料; (3)数据一端或两端有未确定值; (4)等级资料; (5)方差不齐资料。
.
8
结果判断:
(1)查表法:当n<25时,查T界值表(符号秩和检验 用),得:
T0.05,11= 10~56,( T0.01, 11 = 5~61) 若T+或T-:落在范围内,则P>0.05;
落在范围外, 则P<0.05;
等于界值, 则P=0.05。
.
9
(2)正态近似法: 若 n>25时, 可近似认为T分布逼近正态分布。
温州医学院环境与公共卫生学院温州医学院环境与公共卫生学院一非参数统计一非参数统计不依赖于总体分布形式不须考虑被研究对象为何不依赖于总体分布形式不须考虑被研究对象为何种分布及分布是否已知不是参数间的比较而是种分布及分布是否已知不是参数间的比较而是用于分布之间的比较
非参数统计讲义
秩 9.5 14.0 12.0 21.0 7.5 9.5 2.0 17.5 7.5 14.0 17.5 24.0
Histogram
For GROUP= Group2
6
5
4
3
2
Frequency
1 0 0.0 5.0 10.0 15.0 20.0 25.0
Std. Dev = 9.17 Mean = 14.8 N = 15.00
定义(连续分布) 定义(连续分布)
假定X ~ f ( x), 令0 < p < 1, 满足等式F ( x)=p( X < m p ) = p 的唯一根m p 称为F ( x)的分位数。
二、秩统计量 1、秩统计量 设X1,X2,X3,…,Xn 来自总体的样本,记Ri为样本 点Xi 的秩,即样本中小于或等于Xi 的样本点的个数, n 即
44 33 22 8 47 31 40 30 33 35 18 21 35 28 22
26.0 19.5 5.5 1.0 27.0 16.0 25.0 14.0 19.5 22.5 3.0 4.0 22.5 11.0 5.5
Histogram
For GROUP= Group1
6
RANK of SCORE
注意:非参数统计的名字中的“ 注意:非参数统计的名字中的“非参数 (nonparametric)” (nonparametric) 意味着其方法不涉及描述总 体分布的有关参数;它被称为和分布无关 体分布的有关参数;它被称为和分布无关 (distribution—free) free), (distribution free),是因为其推断方法和 总体分布无关;不应理解为与所有分布( 总体分布无关;不应理解为与所有分布(例如有 关秩的分布)无关. 关秩的分布)无关. 什么是非参数统计? 什么是非参数统计? 不假定总体分布的具体形式, 不假定总体分布的具体形式,从数据本身获得 所需要的信息, 所需要的信息,通过推断方法得到相关结论的 一种分析方法。 一种分析方法。
非参数统计讲义一--绪论
统计方法的选择:用参数统计方法与非参数统 计方法
1、考虑对总体的假定。对总体有假定时用参数, 已具备使用参数统计方法时一般不用非参数统 计。
2、数据的度量尺度。定距与定比可以用参数。 非参数统计方法的应用条件:
1、用于分析定类数据
2、用于分析定序数据
3、用于分析定距、定比数据时总体分布未做假定。
参数统计(Parametric Statistical method)有两 个特点:
• 和数学不同, 统计不能欣赏自己, 它不为实际服务 就没有存在必要
• 统计必须为各个领域服务 • 统计必须和数据打交道 • 因此,统计必须和计算机结合
学生请假与星期几有关吗? 股票涨跌与星期几有关吗? 夫妻的审美观有差异吗? 广告的播出时间与电脑销量有关吗? 婴儿出生数白天与晚上有明显差异吗
用实例说明非参数统计方法和参数统
参数统计的假设检验
• 如:检验正态分布的均值是否相等 • H0:u1=u2; H1:u1≠u2 • 检验均值是否等于零 • H0:u=0; H1:u≠0 •
例8-5 用自动装袋机装葡萄糖,每袋标准 重500克,每隔一定时间需检查机器工作是 否正常. 现抽得10袋,测得其重量为(单位: 克)495,510,505,498,503,492, 502 ,512, 497, 506, 假定重量服从正态分布, 问机器是否正常?
Kolmogorov-Smirnov
相应的参数检 验
独立样本t检验
成对样本 t-检验
单一因素ANOVA 双因素ANOVA Pearson相关性检验
Level of Measure ment
Nonparametric Test One Sample Two Samples
《非参数统计》课件
核密度估计
详细讲解核密度估计方法, 可用于估计未知分布函数 的概率密度函数。
K近邻算法
介绍K近邻算法在非参数统 计中的应用,用于分类和 估计未知函数。
常用方法本 的中位数差异,对于不 符合正态分布的数据非 常有用。
Kruskal-Wallis检验
一种非参数方法,用于 比较多个独立样本的总 体分布,可以替代方差 分析。
介绍常用于非参数统计的软件和工具,帮助读者选择适合自己的数据分析工具。
3 Q&A
解答读者在非参数统计方面的疑问和问题,提供进一步的讨论和交流。
总结
1 非参数统计的优势和劣势总结
总结非参数统计方法和传统参数统计方法的优势和劣势,帮助选择合适的分析方法。
2 非参数统计的前景和未来发展方向
讨论非参数统计的前景和未来的发展方向,以及可能的研究方向。
附录
1 参考文献
提供相关参考文献,方便读者进一步学习非参数统计的理论和应用。
2 常用软件和工具介绍
Mann-Whitney U检 验
非参数的秩和检验方法, 用于比较两个独立样本 的总体分布。
实例应用
医疗领域的应用
展示非参数统计在医疗研究 中的应用,如临床试验和数 据分析。
社会调查中的应用
探讨非参数统计在社会调查 和民意调查中的应用,如对 人口统计数据的分析。
金融风险评估中的应用
介绍非参数统计在金融领域 中的应用,如风险评估和市 场预测。
《非参数统计》PPT课件
非参数统计是一门关于数据分析的重要领域,本课件将介绍非参数统计的基 本原理、常用方法和实例应用,以及其在医疗、社会调查和金融方面的应用。
简介
非参数统计是一种不基于总体概率分布的统计方法,适用于各种数据类型,具有广泛的应用场景 和灵活性。
非参数统计分析教学课件
Python
介绍
Python是一种通用编程语 言,因其易读性和易用性 而被广泛用于数据分析和 科学计算。
特点
Python拥有强大的科学计 算库,如NumPy、 Pandas和SciPy等,可进 行数据清洗、统分析等 多种任务。
教程资源
Python的在线教程和书籍 资源丰富,同时还有大量 的科学计算社区和论坛可 供交流。
数据流处理
数据流处理技术可以实时处理大规模数据,为非参数统计分析提供 新的可能性。
云计算
云计算平台可以提供弹性可扩展的计算资源,方便非参数统计分析 的进行。
THANKS
感谢观看
洗和校验。
高维数据的非参数统计分析挑战
维度诅咒
高维数据可能导致传统的非参数统计分析方法失 效,需要开发新的方法。
数据稀疏性
高维数据可能导致数据稀疏,使得统计分析结果 不稳定。
特征选择
高维数据需要进行特征选择,以减少噪声和冗余 ,提高分析效率。
大数据处理技术在非参数统计分析中的应用前景
并行计算
利用并行计算技术可以提高非参数统计分析的效率和准确性。
应用场景与优势
应用场景
适用于数据类型复杂、分布不明确或 数据量较小的情况;例如,生物医学 研究、金融数据分析、社会学调查等 领域。
优势
能够更好地揭示数据的内在结构和关 系;对数据的假设较少,避免过度拟 合和误判;同时具有较高的灵活性和 普适性,能够适用于多种场景。
02
CATALOGUE
非参数统计方法
聚类分析
01
聚类分析是一种非参数统计方法 ,用于将相似的对象归为同一类 ,将不相似的对象归为不同类。
02
聚类分析通过计算对象之间的距 离或相似性来将它们分组,常见 的聚类分析方法有层次聚类、K均 值聚类和DBSCAN聚类等。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
秩(rank)
• 非参数检验中秩是最常使用的概 念。什么是一个数据的秩呢?一 般来说,秩就是该数据按照升幂 排列之后,每个观测值的位置。 例如我们有下面数据
Xi 15 9 18 3 17 8 5 13 7 19 Ri 7 5 9 1 8 4 2 6 3 10
这下面一行(记为Ri)就是上面一 行数据Xi的秩。
秩(rank)利用秩的大小进行推断就避免 了不知道背景分布的困难。这也是大多数 非参数检验的优点。
多数非参数检验明显地或隐含地利用了秩 的性质;但也有一些非参数方法没有涉及 秩的性质。
非参数检验中秩是最常使用的概念。什么是 一个数据的秩呢?一般来说,秩就是该数据 按照升幂排列之后,每个观测值的位置。
统计方法的选择:用参数统计方法与非参数统 计方法
1、考虑对总体的假定。对总体有假定时用参数, 已具备使用参数统计方法时一般不用非参数统 计。
2、数据的度量尺度。定距与定比可以用参数。 非参数统计方法的应用条件:
1、用于分析定类数据
2、用于分析定序数据
3、用于分析定距、定比数据时总体分布未做假定。
参数统计(Parametric Statistical method)有两 个特点:
Extens ion of the Median Test
Krusk al-Wallis One-Way ANOVA
Jonckh eere Test for Ordered Alternativ es
Spearman RankOrder Coefficient
Kendall RankOrder Coefficient
解 由于2未知, 所以用T检验法
提出假设 H 0 : 0 5,0H 1 0 : 0
x1(495510L506)502 10
S 2 1[4 ( 9 5) 2 5 0 ( 5 2 1 5) 2 0 2 ( 5 0 5) 2 6 0 ] 3 2
1 1 0
9
TX0 505 20 0 10 6 0.9733
数据输入SPSS
15 9 18 3 17 8 5 13 7 19
数据按照升幂重新排列加上大小次序号 (这就是它们的秩),得到
观测值 3 5 7 8 9 13 15 17 18 19 秩 1 2 3 4 5 6 7 8 9 10
这样,按照原先的数据次序就是
Xi 15 9 18 3 17 8 5 13 7 19 Ri 7 5 9 1 8 4 2 6 3 10 这下面一行(记为 Ri)就是上面一行数 据 Xi 的秩。
Friedm an TwoWay ANOVA by Ranks
Page Test for Ordered Alternativ es
ChiSquare Test for rxk Tables
Cramer Coefficient Phi Coefficient Kappa Coefficient Asymmetrical Lambda Statistic
假设检验的逻辑步骤为: 1. 写出零假设和备选假设。 2. 确定检验统计量。3. 确定显 Nhomakorabea性水平。
4. 根据数据计算检验统计量的实现值。根据这个 实现值计算 p 值。 5. 进行判断: 其实上面的第 1 款确定之后,2-6 款由计算机自 动完成。这里所列出的 6 条,是前计算机时代手 工计算的思维和运作步骤。
Gamma Statistic Somer’s Index of Asymmetric
非参数统计的历史 非参数统计的形成主要归功于20世纪40年代~ 50年代化学家F.Wilcoxon等人的工作。
Wilcoxon于1945年提出两样本秩和检验,1947 年Mann和Whitney二人将结果推广到两组样本 量不等的一般情况;
S/ n 38/30
38
对0.05 t(n1)t0.02(9 5)2.2622 2
拒绝域 T 2.2622
• 但非参数统计在总体分布未知时效率要 比假定了错误总体分布时的传统方法要 高,有时要高很多。
哪个好?
• 选择飞机与选择用参数与非参数方法的思路 相同。
• 大型飞机很好,但对机场的要求很高。参数 统计对数据要求很高。
• 小型飞机不一定舒适,但起降时对机场的要 求很低。同理非参数统计对数据要求较低。
Pitman于1948年回答了非参数统计方法相对于 参数方法来说的相对效率方面的问题;
60年代中后期,Cox和Ferguson最早将非参数 方法应用于生存分析。
70年代到80年代,非参数统计借助计算机技术 和大量计算获得更稳健的估计和预测,以 P.J.Huber以及 F.Hampel为代表的统计学家从 计算技术的实现角度,为衡量估计量的稳定性 提出了新准则。
• 统计必须为各个领域服务 • 统计必须和数据打交道 • 因此,统计必须和计算机结合
学生请假与星期几有关吗? 股票涨跌与星期几有关吗? 夫妻的审美观有差异吗? 广告的播出时间与电脑销量有关吗? 婴儿出生数白天与晚上有明显差异吗
用实例说明非参数统计方法和参数统
计方法的区别,使学生认识到学习非参数 统计方法的必要性。
Related Unrelated
Related Unrelated
Nominal Ordinal
Binomial Test
Chi-Square Test
McNe mar Change Test
Kolmogoro v-
Smirnov One- Sample Test
OneSample Runs Test
参数统计的假设检验
• 如:检验正态分布的均值是否相等 • H0:u1=u2; H1:u1≠u2 • 检验均值是否等于零 • H0:u=0; H1:u≠0 •
例8-5 用自动装袋机装葡萄糖,每袋标准 重500克,每隔一定时间需检查机器工作是 否正常. 现抽得10袋,测得其重量为(单位: 克)495,510,505,498,503,492, 502 ,512, 497, 506, 假定重量服从正态分布, 问机器是否正常?
例1:3.8 3.2 1.2 1.2 3.4 3.2 3.2 解:结长为3。
统计推断:假设检验 假设检验:
假设检验是指我们可以对某一参数的假定值进 行先验判断或预期,然后利用小概率原理对其进行 检验,得到接受或拒绝原假设的结论。
小概率原理: 我们认为小概率事件由于发生的可能性很小,
在一次试验中它几乎是不会发生的。如果发生了, 说明我们的假设有问题,所以我们将拒绝原来的假 设。
本课程的目的是使学生认识到非参数统计方法是
统计中最常用的推断方法之一,理解非参数统计 方法和参数统计方法的区别,理解非参数统计的 基本概念,掌握非参数统计的基本理论和计算, 能应用统计软件和非参数统计方法分析解决实际 问题。
统计是分析数据信息的科学 这个定义决定了统计的命运:
• 和数学不同, 统计不能欣赏自己, 它不为实际服务 就没有存在必要
但非参数统计在总体未知时效率要比传统 方法要高,有时要高很多。是否用非参数 统计方法,要根据对总体分布的了解程度 来确定。
因为非参数统计方法不利用关于总体分
布的知识,所以,就是在对总体的任何知 识都没有的情况下,它也能很容易而又很 可靠地获得结论。
这时非参数方法往往优于参数方法,并 且非参数检验总是比传统检验安全。
Kendall Partial Rank-Order Coefficient
Kendall Coefficient of Concordance
Kendall Coefficient of Agreement
Correlation Between k Judges and a Criterion Test
验统计量,然后找到在零假设下这些统计量的 分布。 • 看这些统计量的数据实现是否在零假设下属于 小概率事件。这种和数据本身的总体分布无关 的检验称为非参数检验。
非参数检验有什么优越性?
• 在总体分布未知时,如果还假定总体有 诸如正态分布那样的已知分布,在进行 统计推断就可能产生错误甚至灾难。
• 非参数检验总是比传统检验安全。但是 在总体分布形式已知时,非参数检验就 不如传统方法效率高。
例题:某学院本科三年级有9个专业组成,统计 每个专业学生每月消费数据如下,用SPSS求消 费数据的秩和顺序统计量的现值:
300 230 208 580 690 200 263 215 520
2.有结数据的秩 设样本X1,X2,…,XN 取自总体X的简单随 机抽样,将数据排序后,相同的数据点组成一 个“结”,称重复数据的个数为结长。
1、以推断某特定参数为对象。如总体均值μ, 总体比例P,总体方差,两个总体殚值 的差等。
2、常需要假定总体的分布是已知的,有的要 假设总体是服从正态分布的,才能作出推断。
数据的四种尺度: 定类、 定序、 定距、 定比 对定类和定序的只能用非参数统计分析方法
非参数检验的特点
1、非参数统计方法应用广泛。
Kolmogorov-Smirnov
相应的参数检 验
独立样本t检验
成对样本 t-检验
单一因素ANOVA 双因素ANOVA Pearson相关性检验
Level of Measure ment
Nonparametric Test One Sample Two Samples
K Samples
Nonparametric Correlation
经典统计的多数检验都假定了总体的背景分布。
分布由参数决定的,期望与方差
总体的分布形式或分布族往往是给定的或者是 假定了的,所不知道的仅仅是一些参数得知或 它们的范围。人们的主要任务就是对一些参数, 比如均值和方差(或标准差)进行估计或检验。
非参数统计方法(Nonparametric Statistical method)对 总体的概率分布假定以及测量尺度的要求即使 有也很 少的统计方法。当能够得到分类数据和顺序数据时可 以使用的方法。