非参数统计讲义

合集下载

非参数统计讲义

第一章
绪论
§1.1 非参数统计
在初等统计学中，最基本的概念是什么在初等统计学中，最基本的概念是什么? 总体，如:总体，样本，随机变量，分布，估计总体样本，随机变量，分布，和假设检验等和假设检验等．其很大一部分内容是和正态理论相关的。正态理论相关的其很大一部分内容是和正态理论相关的。在那里，总体的分布形式或分布族分布形式或分布族往往是在那里，总体的分布形式或分布族往往是给定的或者是假定了的，给定的或者是假定了的，所不知道的仅仅是一些参数的值或他们的范围。主要工是一些参数的值或他们的范围。(主要工作是什么?) 作是什么
然而，在实际生活中，那种对总体的分布的假定并不是能随便做出的。数据并不是来自所假定分布的总体；或者，数据根本不是来自一个总体；还有可能，数据因为种种原因被严重污染。这样，在假定总体分布的情况下进行推断的做法就可能产生错误的结论。于是，人们希望在不假定总体分布的情况下，尽量从数据本身来获得所需要的信息。这就是非参数统计的宗旨。
注意：非参数统计的名字中的“ 注意：非参数统计的名字中的“非参数 (nonparametric)” (nonparametric) 意味着其方法不涉及描述总体分布的有关参数；它被称为和分布无关体分布的有关参数；它被称为和分布无关 (distribution—free) free)， (distribution free)，是因为其推断方法和总体分布无关；不应理解为与所有分布( 总体分布无关；不应理解为与所有分布(例如有关秩的分布)无关．关秩的分布)无关．什么是非参数统计? 什么是非参数统计? 不假定总体分布的具体形式，不假定总体分布的具体形式，从数据本身获得所需要的信息，所需要的信息，通过推断方法得到相关结论的一种分析方法。一种分析方法。

非参数统计讲义二单样本模型通用课件

02
单样本模型介绍
单样本模型定义
单样本模型是指仅使用一个样本数据来构建统计模型的统计方法。
单样本模型常用于分析单个样本数据的分布、参数估计和假设检验等。
它与双样本模型相对，后者需要两个独立样本数据进行比较。
单样本模型的特点
简单易用
灵活性
单样本模型仅需一个样本数据，无需复杂的配对或分组操作，计算过程相对简单。
秩和检验的应用步骤
将数据排序，计算秩次，根据秩次计算统计量，与临界值进行比较。
秩和检验的优点
不受数据分布形式的限制，能够处理异常值和离群点。
案例三：直方图在单样本模型中的应用
直方图
直方图是一种非参数统计方法，用于展示数据的分布情况。在单样本模型中，直方图可以用于分
析一组数据的分布特征。
直方图的应用步骤
成本，对于大规模数据集可能存在计算效率问题。
02
对数据量和样本代表性要求较高
非参数统计方法需要足够的数据量和样本代表性，才能保证分析结果的
稳定性和可靠性。
03
对数据质量要求较高
非参数统计方法对数据的质量和完整性要求较高，如果数据存在缺失、
异常或偏差等问题，可能会影响分析结果的准确性和可靠性。
04
非参数统计在单样本模型中的具体应用
核密度估计在单样本模型中的应用
核密度估计是一种非参数统计方法，用于估计未知概率密度函数。在单样本模型中，核密度估计可以用来检验数据是否符合特定的概率分布，或者比较两组
数据的分布是否相似。
核密度估计的基本思想是利用核函数和权重函数对概率密度函数进行加权平均，从而得到未知概率密度函数的估计。常用的核函数包括高斯核、多项式核等

非参数统计讲义六--多个样本的检验

b Tests of Normality
X
Ko lmogorov-Smirnov Statistic df Si g. .182 6 .200* a. Lillie fors Significance Correction b. G = 1.00
a
Statistic .964
Sh apiro-Wil k df 6
用方差分析进行检验
ANOVA X Su m of Sq uares Be tween Grou ps 2716. 000 Within Gro ups 1036. 500 To tal 3752. 500 df 2 15 17 Mean Square 1358. 000 69.10 0 F 19.65 3 Si g. .000
a
Sh apiro-Wil k Statistic df .882 6
Si g. .278
*. Th is is a lower bound of the true significa nce .
b Tests of Normality
X
Ko lmogorov-Smirnov Statistic df Si g. .178 6 .200* a. Lillie fors Significance Correction b. G = 3.00
De scripti v es X 95% Confide nce Interval for Mean Lower Bo und Up per Bo und 41.14 32 62.52 35 26.32 28 43.34 39 15.38 41 28.28 26 28.77 84 43.55 50
proc print data=rankings; run;

非参数统计讲义通用课件

假设检验方法
总结词
假设检验方法用于检验一个关于总体参数的假设是否成立。
详细描述
假设检验方法包括提出假设、构造检验统计量、确定临界值和做出决策等步骤。常见的假设检验方法有t检验、卡方检验、F检验等，用于判断样本数据是否支持假设。
关联性分析方法
总结词
关联性分析方法用于研究变量之间的相关性。
02
非参数统计方法
描述性统计方法
总结词
描述性统计方法用于收集、整理、描述数据，并从数据中提取有意义的信息。
详细描述
描述性统计方法包括数据的收集、整理、描述和可视化，例如均值、中位数、众数、标准差等统计量，以及直方图、箱线图等图形化表示。这些方法可以帮助我们了解数据的分布、中心趋势和离散程度。
非数统计与机器学习算法的结合将有助于解决复杂的数据分析问题。
02
与大数据技术的融合
非参数统计将借助大数据技术处理海量数据，挖掘数据背后的规律和模式。
03
与社会科学研究的互动
非参数统计方法将为社会科学研究提供更有效的研究工具和方法。
决策树分析方法
总结词
决策树分析方法是一种基于树形结构的非参数统计学习方法。
详细描述
决策树分析方法通过递归地将数据集划分为更小的子集，构建出一棵决策树。决策树的每个节点表示一个特征属性上的判断条件，每个分支代表一个可能的属性值，每个叶子节点表示一个分类结果。决策树分析可以帮助我们进行分类、预测和特征选择等任务。
非参数统计的发展趋势
多元化发展
非参数统计将不断拓展其应用领域，从传统的医学、生物、经济领域向金融、环境、社会学等领域延伸。
01
算法优化
随着计算能力的提升，非参数统计的算法将进一步优化，提高计算效率和准确性。

非参数统计学讲义(第一章)讲稿

非参数统计学讲义第一章引言 §1 序一、先修课程 1．线性代数 2．概率论 3．数理统计 4．相应的统计软件二、参考书目1．张尧庭：《定性资料的统计分析》，广西师范大学出版社出版，1991、11； 2．易丹辉：《非参数统计——方法与应用》，中国统计出版社，1996、3； 3．S ．西格耳著：《非参数统计》，科学出版社，1986、8；4．袁卫、易丹辉、何晓群等：《新编统计学教程》，经济科学出版社，1999、2； 5．陆璇：《数理统计基础》，清华大学出版社，1998、9； 6．易丹辉：《STATISTICA6.0》，中国统计出版社，2002、10；7．洪楠等：《STATISTICA for Windows 统计与图表分析教程》，清华大学出版社&北方交通大学出版社，2002、10。

三、几点要求1．复习数理统计的有关内容； 2．及时消化课件的内容； 3．按时完成作业；四、简单回顾在初等统计学中，最基本的概念是总体，样本，随机变量，分布，估计和假设检验等．其很大一部分内容是和正态理论相关的。

在那里，总体的分布形式或分布族往往是给定的或者是假定了的，所不知道的仅仅是一些参数的值或他们的范围。

于是，人们的任务就是对一些参数，比如均值和方差(或标准差)，进行点估计或区间估计，或者是对某些参数值进行各种检验，比如检验正态分布的均值是否相等或等于零等等．最常见的检验为对正态总体的t —检验，F —检验，2和最大似然比检验等．然而，在实际生活中，那种对总体的分布的假定并不是能随便做出的。

有时，数据并不是来自所假定分布的总体；或者，数据根本不是来自一个总体；还有可能，数据因为种种原因被严重污染。

这样，在假定总体分布的情况下进行推断的做法就可能产生错误的结论。

于是，人们希望在不假定总体分布的情况下，尽量从数据本身来获得所需要的信息。

这就是非参数统计的宗旨。

因为非参数统计方法不利用关于总体分布的知识，所以，就是在对于总体分布的任何知识都没有的情况下，它也能很容易而又很可靠地获得结论．这时，非参数方法往往优于参数方法。

非参数统计讲义通用课件

案例分析
通过实际案例展示如何使用Python进行非参数统计，包括分布拟合、假设检验和模型选择等步骤。
SPSS实现
SPSS简介
SPSS（Statistical Package for the Social Sciences）是一款流行的社会科学统计软件。
操作界面
SPSS的非参数统计功能通常在“分析”菜单下的“非参数检验”选项中，用户可以通过直观的界面进行操作。
聚类分析方法在数据挖掘、市场细分等领域有广泛应用，可以帮助我们发现数据的内在结构和模式。
异常值检测方法
• 异常值检测方法用于识别和剔除数据中的异常值，提高数据分析的准确性和可靠性。
• 常见的异常值检测方法包括基于统计的方法、基于距离的方法、基于密度的方等。 • 基于统计的方法利用统计学原理，如z分数、IQR等，判断数据是否为异常值；基于距离的方法通过计算对象与其它对象的距离来判断是否为异常值；基于密度的方法则根据对象周围的密度变化来判断是否
解释性较差
相对于参数统计，非参数统计结果通常较为抽象，难以直接解释其具体含义。
假设检验能力较弱
非参数统计在假设检验方面的能力相对较弱，对于确定性的结论和预测不如参数统计准确。
如何克服非参数统计的局限性
01
02
03
04
利用高效计算方法
采用并行计算、分布式计算等高效计算方法，提高非参数统
计的计算效率和准确性。
描述性统计方法在数据分析中起到基础作用，为后续的统计推断提供数据基础和初步分析结果。
假设检验方法
假设检验方法是一种统计推断方法，通过提出假设并对其进
行检验，判断假设是否成立。
假设检验方法包括参数检验和非参数检验，其中非参数检验不依赖于总体分布的具体形式，

非参数统计概述课件

对数据量要求较高
对于小样本数据，非参数统计方法可能无法提供稳定和可靠
的结果。
04
非参数统计与其他统计方法的比较
与参数统计的比较
非参数统计
不依赖于特定的概率分布模型，灵活性更强，能适应多种数据类型和分布。
参数统计
基于特定的概率分布模型，需要对模型假设进行验证，适用范围相对有限。
与贝叶斯统计的比较
02
大数据为非参数统计提供了丰富的数据资源和计算能力，有助于发现更多隐藏在数据中的信息和规律，推动非参数统计的发展。
非参数统计与其他学科的交叉研究
非参数统计与计算机科学、数学、物理学、生物学等学科的交叉研究有助于拓展非参数统计的应用领域和理论框架。
不同学科的交叉融合可以促进非参数统计的创新和发展，推动其在各个领域的实际应用。
在秩次相关性检验中，变量值被转换为秩次，然后使用秩次计算相关系数（如Spearman或Kendall秩次相关系数）。这种方法适用于非正态分布的数据，且不受数据异常值的影响。
分布拟合检验
分布拟合检验是一种非参数统计方法，用于检验数据是否符合特定的概率分布。
分布拟合检验通过比较数据的实际分布与理论分布的统计量（如Kolmogorov-Smirnov、 Anderson-Darling等），来评估数据是否符合特定的概率分布。这种方法在统计学中广泛应用于模型的假设检验和数据的探索分析。
特点
灵活性、稳健性、无分布假设、适用于多样本数据等。
与参数统计的区别
01
02而参数统计则依赖于特定的分布假设。
方法
非参数统计通常采用中位数、四分位数等统计量，而参数统计则采用平均数、方差等统计量。
应用范围

非参数统计学讲义第四章讲稿2

非参数统计学讲义(第四章)讲稿2非参数统计学讲义第四章多样本模型 §1 k 个相关样本的非参数检验在参数统计中，检验几个样本是否来自完全相同的总体，采用方差分析或F 检验。

运用F 检验的假定条件是：样本是从正态分布的总体中独立抽选的；总体具有相同的方差；数据的测量层次至少是定距尺度。

当被用来分析的数据不符合这些假定条件，或研究者不希望作这些假设，以便增加结论的普遍性时，不宜采用参数统计的方法，而必须运用非参数方法。

如果k （等于或大于3）个样本是按某种或某些条件匹配的，那么k 个样本称为相关的，否则为独立的。

k 个相关和独立样本的差别与两个相关和独立样本之间的差别类似。

本节介绍k 个相关样本的非参数检验。

一、 Cochran Q 检验1．研究背景Cochran Q 检验也译为科库兰检验。

它是用以检验匹配的三组或三组以上的频数或比例之间有无显著差异的方法。

这种匹配可以用不同形式获得。

例如，检验三种不同类型的采访形式对被采访者的有效回答是否有影响，可以抽选一些人，分成n 组，每组有3个匹配的被采访者，要求他们的有关情况相同。

每组的3名成员被随机地置于3种条件之下，即分别接受三种类型的采访，于是，就获得了3个匹配的样本，即k ＝3，每个样本有n 个观测结果。

k 个相关样本也可以采用同一组人，对不同的k 个条件的反应匹配成样本，这类似于两个相关样本中以研究对象作为自身的对照者。

例如，检验几种教学手段对学生掌握知识是否有显著不同，可以随机抽取n 个学生，让他们先后置于k 种教学手段之下，再作出评价。

这样可以获得k 个匹配的样本，每个样本有n 个观测结果。

在现实生活中，很多数据是以二元数据的形式出现的，【例4-1】村民对四个候选人的评价得到结果：处理区组：20个村民对A 、B 、C 、D 四个候选人的评价 i NA 0 1 1 0 0 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 16B 1 1 0 0 0 1 1 1 1 1 0 1 1 0 1 1 0 0 0 0 11C 0 1 1 1 1 0 0 0 0 1 0 0 0 1 1 0 1 0 1 0 9 D0 0 0 0 1 1 0 0 1 0 0 0 0 1 0 1 1 0 0 0 6 j L1321232233122333212142其中：1表示同意；0表示不同意。

非参数统计讲义四卡方检验课件

它通过卡方统计量来衡量实际观测频数与期望频数之间的差异程度，并根据卡方分布计算出p值，从而判断差异是否具有统计学显著性。
卡方检验的步骤与公式
03
卡方检验的步骤
确定研究问题
明确研究目的，确定研究变量和分组。
数据收集
收集相关数据，确保数据质量。
数据整理
对数据进行整理，确保数据符合卡方检验的要求。
它通过计算卡方统计量，评估观测频数与期望频数之间的差异是否具有统计学显著性。
卡方检验的适用范围
卡方检验适用于分类变量，特别是当样本量较小或数据不符合正态分布时。
它常用于检验两个分类变量之间是否独立，或者检验一个分类变量与一个二项分布的随机变量之间是否相关。
卡方检验的基本思想
卡方检验基于假设检验的思想，通过比较实际观测频数与期望频数来推断变量之间的关系。
非参数统计讲义四卡方检验课件
目录
• 非参数统计概述 • 卡方检验基本概念 • 卡方检验的步骤与公式 • 卡方检验的案例分析 • 卡方检验的优缺点与注意事项
非参数统计概述
01
定义与特点
定义
非参数统计是一种统计方法，它不依赖于任何关于数据分布的假设，而是基于数据本身的特点进行统计分析。
特点
非参数统计具有广泛的应用范围，可以处理各种类型的数据，并且对数据的分布和样本大小的要求相对较低。
卡方检验的缺点
对数据要求较高
卡方检验对于数据的完整性、准确性和独立性要求较高，否则可能导致结果失真。
对样本量要求较高
在样本量较大的情况下，卡方检验的统计效能会降低，导致结果不够准确。
对离群值敏感
卡方检验对于离群值较为敏感，可能导致结果偏差。
卡方检验的注意事项

非参数统计学讲义(第六章)讲稿2

非参数统计学讲义第六章分布检验和某些卡方检验§1 引言本章属于拟合优度检验问题，即模型检验或分布的检验，属于非参数检验的范畴。

在初等统计中，人们要想知道数据是否服从某一特定分布，可以通过直方图，或P-P 图，Q-Q 图来直接判断，但这种直观的方式很不精确。

本章将介绍几种分布的检验：K-S 检验，Lilliefors 检验和2χ检验。

实际上，K-S 检验是在针对2χ检验的缺点1上提出的。

它们是建立在经验分布函数基础上的检验结果。

§2 Kolmogorov 检验一、基本假设一般地要检验手中的样本是否来自某个已知0()F x ，假定其真实分布为()F x ，对应的检验类型有00:()()A H F x F x = 对x ∀ 10:()()H F x F x ≠ 至少有一个x 00:()()B H F x F x = 对x ∀ 10:()()H F x F x < 至少有一个x 00:()()C H F x F x = 对x ∀ 10:()()H F x F x > 至少有一个x 设()S x 为该组数据的经验分布函数，则()()i i I X x X x S x n n≤≤==∑的数目二、基本方法Kolmogorov 于三十年代提出了一种基于经验分布的检验方法，基本思想是：由格里文科定理，当n →∞时，样本经验分布ˆnF 以概率1一致收敛到总体分布F ，为此可以定义()S x 到0()F x 的距离为00((),())sup ()()D S x F x S x F x =-当H 0成立时，由格氏定理，D 以概率1收敛到0，因此D 的大小可以度量0()F x 对总体分布拟合的好坏。

可供选择的检验统计量分别为；类型A 0()()sup xD S x F x =-类型B 0(()())sup xD F x S x +=-类型C 0((()())sup xDS x F x -=-12χ检验与K-S 检验均属拟合优度检验，但2χ检验常用于定类尺度测量数据，K-S 检验还用于定序尺度测量数据；当预期频数较小时，2χ检验常需要合并邻近的类别才能计算，K-S 检验则不需要，因此它能比2χ检验保留更多的信息；对于特别小的样本数目，2χ检验不能应用，而K-S 检验则不受限制。

非参数统计讲义一--绪论

秩（rank）利用秩的大小进行推断就避免了不知道背景分布的困难。这也是大多数非参数检验的优点。多数非参数检验明显地或隐含地利用了秩的性质；但也有一些非参数方法没有涉及秩的性质。
非参数检验中秩是最常使用的概念。什么是一个数据的秩呢？一般来说，秩就是该数据按照升幂排列之后，每个观测值的位置。
6、非参数统计方法所推断的通常不是总体参数 7、其通常按大小或出现先后顺序排列的资料进行分析。 8、通常以中位数代表分布的中心，以极差代表离散程度。
非参数统计的主要内容
内容
2独立样本 2 配对样本 /单一样本 >2独立样本
非参数检验
中位数检验秩和检验符号检验 Wilcoxon 检验 Kruskal-Wallis 检验
本课程的目的是使学生认识到非参数统计方法是统计中最常用的推断方法之一，理解非参数统计方法和参数统计方法的区别，理解非参数统计的基本概念，掌握非参数统计的基本理论和计算，能应用统计软件和非参数统计方法分析解决实际问题。
统计是分析数据信息的科学这个定义决定了统计的命运：
• 和数学不同, 统计不能欣赏自己, 它不为实际服务就没有存在必要 • 统计必须为各个领域服务 • 统计必须和数据打交道 • 因此,统计必须和计算机结合
Ordinal
Friedm an TwoWay ANOVA by Ranks Page Test for Ordered Alternativ es
非参数统计的历史非参数统计的形成主要归功于20世纪40年代～ 50年代化学家F.Wilcoxon等人的工作。
Wilcoxon于1945年提出两样本秩和检验，1947 年Mann和Whitney二人将结果推广到两组样本量不等的一般情况；

《-非参数统计-》课程教学大纲上课讲义

《-⾮参数统计-》课程教学⼤纲上课讲义《⾮参数统计》课程教学⼤纲Non-parametric statistics课程代码：课程性质：专业⽅向理论课/选修适⽤专业：统计开课学期：5总学时数：32 总学分数：2.0编写年⽉：2007.5 修订年⽉：2007.7执笔：孙琳⼀、课程的性质和⽬的本课程是学习⾮参数统计和了解统计前沿的基本课程。

本课程结合S-Plus 或R 软件来讲解⾮参数统计⽅法的原理与应⽤。

本课程的⽬的是使学⽣认识到⾮参数统计⽅法是统计中最常⽤的推断⽅法之⼀，理解⾮参数统计⽅法和参数统计⽅法的区别，理解⾮参数统计的基本概念，掌握⾮参数统计的基本⽅法，能应⽤⾮参数统计⽅法去解决实际问题。

⼆、课程教学内容及学时分配第⼀章引⾔（2学时）本章内容：统计的概念，⾮参数统计的⽅法，参数统计与⾮参数统计的⽐较，本章要求：了解⾮参数统计的历史，了解⾮参数统计⽅法和参数统计⽅法的区别，认识⾮参数统计⽅法的必要性。

第⼆章 S-Plus基础（6学时）本章内容：S-Plus环境，向量的定义和表⽰，向量的基本操作，向量的基本运算，向量的逻辑运算，S-Plus 的图形功能，本章要求：熟悉在S-Plus命令⾏中S-Plus基本数据处理，掌握在S-Plus命令⾏中进⾏基本数据基本运算，能编写简单的计算函数，会绘制基本图形。

第三章单⼀样本的推断问题（6学时）本章内容：单样本推断问题，中⼼位置推断，符号检验，游程检验，Cox-staut趣势检验，分位数检验，Wilcoxon符号秩检验，分布检验，Kolmogorov-smirnov正态检验，Liliefor正态检验，中位数检验问题、定性数据检验问题和成对数据检验问题，秩和检验。

本章要求：掌握符号检验，能⽤符号检验解中位数检验问题、定性数据检验问题和成对数据检验问题。

由成对数据检验问题引出符号秩和检验。

掌握Wilcoxon秩和检验法，掌握符号秩和检验，能⽤符号秩和检验解对称中⼼的检验问题和成对数据检验问题，初步理解秩的概念。

非参数统计讲义一概述

1、以推断某特定参数为对象。如总体均值μ，总体百分比P，总体方差，两个总体殚值旳差等。
2、常需要假定总体旳分布是已知旳，有旳要假设总体是服从正态分布旳，才干作出推断。
数据旳四种尺度：定类、定序、定距、定比对定类和定序旳只能用非参数统计分析措施
非参数检验旳特点
1、非参数统计措施应用广泛。
解因为2未知，所以用T检验法
提出假设 H 0 : 0 500 , H1 : 0
x 1 (495 510 506) 502 10
S 2 1 [(495 502)2 (510 502)2 (506 502)2 ] 380
10 1
9
T X 0 502 500 10 6 0.9733
Pitman于1948年回答了非参数统计措施相对于参数措施来说旳相对效率方面旳问题；
60年代中后期，Cox和Ferguson最早将非参数措施应用于生存分析。
70年代到80年代，非参数统计借助计算机技术和大量计算取得更稳健旳估计和预测，以以及 F.Hampel为代表旳统计学家从计算技术旳实现角度，为衡量估计量旳稳定性提出了新准则。
数据输入SPSS
15 9 18 3 17 8 5 13 7 19
数据按照升幂重新排列加上大小次序号（这就是它们的秩），得到
观测值 3 5 7 8 9 13 15 17 18 19 秩 1 2 3 4 5 6 7 8 9 10
这样，按照原先的数据次序就是
Xi 15 9 18 3 17 8 5 13 7 19 Ri 7 5 9 1 8 4 2 6 3 10 这下面一行（记为 Ri）就是上面一行数据 Xi 的秩。
例题：某学院本科三年级有9个专业构成，统计每个专业学生每月消费数据如下，用SPSS求消费数据旳秩和顺序统计量旳现值：

统计学之非参数检验讲义PPT课件( 92页)

单边检验的p-值等于0.074/2=0.037X（渐
近N 检验）和0.069/2=0.0345（精确检50
验Nor）mal 。Param如ete果rs 按a,b 照MS显teda.nD著eviat性ion 水平为0.01.510.70的604271标
准Mo，st Ex可trem以e 拒绝产A生bsolu数te 据的总体为正.1态82 分
费时间，后两种要粗糙一些，但要快些。
秩（rank）
• 非参数检验中秩是最常使用的概念。什么是一个数据的秩呢？一般来说，秩就是该数据按照升幂排列之后，每个观测值的位置。例如我们有下面数据
Xi 15 9 18 3 17 8 5 13 7 19 Ri 7 5 9 1 8 4 2 6 3 10
这下面一行（记为Ri）就是上面一行数据Xi的秩。
99.05 100.25 102.56 99.15 104.89 101.86 96.37 96.79 99.37 96.90 93.94 92.97 108.28 96.86 93.94 98.27 98.36 100.81 92.99 103.72 90.66 98.24 97.87 99.21 101.79
秩（rank）
•利用秩的大小进行推断就避免了不知道背景分布的困难。这也是非参数检验的优点。
•多数非参数检验明显地或隐含地利用了秩的性质；但也有一些非参数方法没有涉及秩的性质。
16.2 单样本检验
16.2.1单样本中位数(a-分位数)符号检验
• 我们知道某点为中位数(a-分位数)意味着一个数小于该点的概率应该为
Category gsweight G roup1 <=100
G roup2 >100 Total

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

非参数统计讲义-CAL-FENGHAI.-(YICAI)-Company One1第一章绪论本章主要内容： 1．非参数方法介绍2．预备知识第一节非参数方法介绍一．非参数方法的概念和实例复习参数方法定义：设总体X 的分布函数的形式是已知的，而未知的仅仅是分布函数具体的参数值，用样本对这些未知参数进行估计或进行某种形式的假设检验，这类推断方法称为参数方法。

先来看两个实例。

例供应商供应的产品是否合格某工厂产品的零件由某个供应商供应。

合格零件标准长度为（±）cm 。

这也就是说合格零件长度的中心位置为8.5cm ，允许误差界为0.1cm ，即长度在－8.6cm 之间的零件是合格的。

为评估近年来供应的零件是否合格，随机抽查了n=100个零件，它们的长度数据X 见第一章附表。

解答：根据我们已学过的参数统计的方法，如何根据数据来判断这批零件合格否用参数数据分析方法，在参数统计中，运用得最多的是正态分布，所以考虑假设供应商供应的零件长度X 服从正态分布，即X ～),(2σμN其中两个参数均未知，但可用样本均值估计μ，样本方差估计2σ。

由已知的数据计算可得：零件的平均长度，即样本均值为x =8.4958cm ，样本标准差为s=0.1047cm 。

则零件合格的可能性近似等于)/)4.8(()/)6.8(()6.84.8(σμσμ-Φ--Φ=≤≤X P)1047.0/)4958.84.8(()1047.0/)9458.86.8((-Φ--Φ≈%66≈这个说明：约有三分之一的零件不合格，该工厂需要换另一个供销商了。

但这个结论与实际数据符不符合呢这是我们要思考的问题。

我们可以对数据做一个描述性分析，先对这100个样本数据做一个频率分布。

观察到：在这100个零件中有91个零件的长度在8.4cm ～8.6cm 之间，所以零件合格的比例为91%，超过66％很多！统计分析的结论与数据不吻合的！这是什么原因呢我们可以作出数据的直方图来分析数据的分布情况。

由图知，该数据的总体不是近似服从正态分布的！所以我们对于数据的总体分布的假设错了！问题就出在假设总体是正态分布上！继续看直方图，能否很容易就观察出来它大概是什么分布呢答案是不易看出，所以试图先确定数据的分布函数，再利用参数的方法来分析是不太容易的。

例哪一个企业职工的工资高这里有22名职工的工资情况，其中的12名职工来自企业1，另外的10名职工来自企业2。

他们的工资（单位：千元）如附表。

仅从数据来看，显然企业1职工的工资较高。

根据我们已学过的参数统计的方法，这个问题用什么方法来解决呢（提问）采用参数数据分析方法，假设企业1和企业2职工的工资分别服从正态分布),(2σa N 和),(2σb N ，则该问题转化为假设检验问题：b a H =:0， b a H >:1即两样本t 检验。

计算可得，检验统计量的值 t=。

若取α＝，其临界值为725.1)20(95.0=t ，不能拒绝原假设，即认为二者没有区别；若取α＝，其临界值为325.1)20(9.0=t ，仍不能拒绝原假设！计算p 值得到的结论也一样。

这个统计分析的结论显然与数据不吻合！之所以有问题，就是因为假设职工的工资服从正态分布的缘故。

一般来说，工资、收入等的分布是不对称的，并且有一部分人的工资比较高，所以分布的右边有较长的尾巴。

对于以上的这样的问题，若想用参数数据的分析方法，就不能再假设总体服从正态分布，必须给它们赋一个较合理的分布函数，做到这点对于很多实际问题上是难度比较大的。

除了这个办法之外，我们还可以用另外的处理办法，例如，非参数统计、参数和非参数方法相结合等等。

这门课，我们主要讨论非参数方法。

二．非参数统计方法特点1．非参数统计方法通常称为“分布自由”的方法，即非参数数据分析方法对产生数据的总体的分布不做假设，或者仅给出很一般的假设，例如连续型分布、对称分布等一些简单的假设，结果一般有较好的稳定性。

所以适用范围非常宽泛。

在经典的统计框架下，正态分布一直是最引人注目的，但是对总体的分布不是随便做出来的，如以上两例，盲目地做出正态分布的假设有时候是起反作用的。

当数据的分布不是很明确，特别当样本含量不大，几乎无法对分布作推断的时候，此时使用参数方法就有一定的风险，我们就可以考虑用非参数的方法。

但要注意，非参数方法是与总体分布无关，而不是与所有分布无关！2．非参数统计可以处理所有类型的数据。

我们知道，统计数据按照数据类型可以分为两大类：定性数据和定量数据。

一般地，参数统计是处理定量数据，如果所收集到的数据不符合参数模型的假定，比如：数据只有顺序，没有大小，则很多参数模型无能为力，此时只能尝试非参数方法。

例如：研究急性白血病患儿血液中血小板数与出血症状之间的关系。

血小板数可用数据衡量，但出血症状则只能分为：明显、较明显、有出血点和无这4类。

类似于这样的“等级资料”，参数方法没辙，可用非参数方法中的Spearman等级相关方法来做。

3．在不知道总体分布的情况下，如何利用数据所包含的信息呢一组数据最基本的信息就是次序。

非参数统计就是利用这个最基本的信息。

如果把数据点按从小到大的次序排队，每一个具体数目都有它在整个数据中的位置，这称为该数据的秩（rank）。

非参数统计的一个基本思想：用数据的秩代替数据，构造统计量进行统计推断。

数据有多少个观察值，就有多少个秩。

在一定的假设条件下，这些和由它们构成的统计量的分布是求得出来的，而且和原来的总体分布无关。

就可以进行所需要的统计推断了。

所以说，非参数统计只是和总体的分布无关，但和秩以及它们统计量的分布是密切相关的！另外，其它与总体分布无关的统计方法也属于非参数统计。

4．在考虑非参数统计量的分布时，我们较多考虑这些统计量的渐近分布，由于利用到一些大样本方面的定理，得出来的渐近分布都服从正态分布或是由正态分布导出的分布，较容易计算和处理。

5．非参数方法与参数方法通过刚才上面的解说，不要产生错觉，认为非参数方法总比参数方法有效！非参数方法不是总比参数方法有效！毕竟非参数方法利用到的数据信息非常有限。

如果人们对总体有充分的了解且足以确定其分布类型，则非参数方法比参数方法效率低。

例如在总体分布族已知的情况下，非参数统计一般不如参数统计结果精确！另外，在总体分布是均匀分布时，正态的参数方法又比非参数方法好！这点可以通过计算渐近相对效率来说明。

三．非参数统计的历史相对参数统计而言，非参数统计起步较晚，但有后来者居上的趋势。

非参数统计的形成主要归功于20世纪40年代～50年代化学家F. Wilcoxon 等人的工作。

Wilcoxon于1945年提出两样本秩和检验。

1947年Mann 和Whitney 两人将结果推广到两组样本量不等的一般情况。

之后，相继涌现出大量论文。

Savage 1962年统计的非参数论文就有3000多项。

Pitman 于1948年回答了非参数统计方法相对于参数方法来说的相对效率方面的问题。

1956年，J ．L ．Hodges 和E ．L ．Lehmann 则发现了一个令人惊讶的结果，与正态模型中t 检验相比较，秩检验能经受住有效性的较小损失。

而对于重尾分布所产生的数据，秩检验可能更为有效。

第一本论述非参数应用的书于1956年由出版，有人记载从1956年到1972年，该书被引用了1824次。

这也说明非参数统计在这一时期的发展是相当活跃的。

60年代，J ．L ．Hodges 和E ．L ．Lehmann 从秩检验统计量出发，导出了若干估计量和置信区间。

这些方法为后来非参数方法成功应用于试验设计数据开启了一道大门。

之后，非参数统计的应用和研究获得了巨大的成功。

上世纪六十年代中后期，Cox 和Ferguson 最早将非参数方法应用于生存分析。

上世纪70年代到80年代，非参数统计借助计算机技术和大量计算获得了更稳健的估计和预测，以P. J. Huber 和F. Hampel 为代表的统计学家从计算技术的实现角度，为衡量估计量的稳定性提出了新准则。

上世纪90年代有关非参数统计的应用和研究主要集中在非参数回归和非参数密度领域，其中较有代表性的人物是Silverman 和. Fan 。

四．非参数统计主要内容非参数统计可以分成两个范畴，一个是比较经典的基于秩的，以检验为主的非参数统计推断，而另一部分是近二三十年来发展的非参数回归、非参数密度估计、自助法以及小波方法等现代非参数统计方法。

这两者均不对总体分布做较为确定的假设，但除此之外，这两部分内容在方法和概念上均没有多少共同点。

我们首先介绍经典地基于秩的，以检验为主的非参数统计推断，这也是我们的主要内容，然后介绍现代非参数统计的部分内容。

第二节预备知识一、秩统计量1．定义：设n Z Z ,,1 是来自连续分布)(z F 的简单随机样本，)()1(n Z Z ≤≤ 为其次序统计量。

定义随机变量r R i =，当)(r i Z Z =，n i ,,2,1 =。

当是唯一确定时，称样本观测值i Z 有秩i R ，n i ,,2,1 =。

（由于)(z F 连续，因而i R 不唯一确定的概率为0。

）即i R 是第i 个样本单元i Z 在样本次序统计量),,()()1(n Z Z 中的位置。

例1：已知一组数据，请写出它们相应的秩。

（1）20，10，30。

解:先将该组数据从小到大排列如下:10，20，30。

所以10对应的秩为1，20对应的秩为2，30对应的秩为3。

（2）200，100，300。

解:先将该组数据从小到大排列如下:100，200，300。

所以100对应的秩为1，200对应的秩为2，300对应的秩为3。

注意：这两组数据显然区别较大，但他们对应的秩却都是1，2，3。

没有差别！！2．性质。

定理1 记),,(1n R R R =，集合}),,1(),,(),,{(11的一个排列是n r r r r n n =ℜ，则R 在ℜ上均匀分布。

证明：易知R 仅在ℜ上取值。

对任意一个ℜ∈=),,(1n r r r ，)},,(),,{(}{11n n r r R R P r R P ===)},,(),,{()()1(1rn r n Z Z Z Z P ==)},,(),,{()()1(1n dn d Z Z Z Z P ==}{1dn d Z Z P <<= ，其中k d i =，当i r k =时，即i d ),,1(n i =是i 在排列r 中的位置。

又由于()dn d d n Z Z Z d Z Z Z ,,,),,,(2121 ，所以}{}{1n Z Z P r R P <<== 对任意ℜ∈r ，上式均成立，所以对任意r ，这个概率均相等。

而全部这样的事件互不相容且它们的和是必然事件，故对任意ℜ∈r ，有!/1}{n r R P ==。