第二章非参数统计分析

合集下载

统计学中的非参数统计分析

统计学中的非参数统计分析统计学作为一门研究数据分析和推断的学科，涉及到各种统计方法和技术。

其中，非参数统计分析是一种常见且重要的方法，它不依赖于数据的特定分布假设，而是利用数据本身的特征进行分析和推断。

本文将介绍非参数统计分析的基本概念、应用场景和常用方法。

非参数统计分析是相对于参数统计分析而言的。

参数统计分析通常需要对数据的分布做出假设，如正态分布、指数分布等，并利用参数估计方法来推断总体参数。

然而，在实际应用中，我们往往无法确定数据的真实分布，或者分布假设不成立。

这时，非参数统计分析就成为一种有力的工具。

非参数统计分析的一个重要应用是在样本比较中。

假设我们想比较两组样本的均值是否有显著差异，但无法确定数据是否符合正态分布。

这时，可以使用非参数的Wilcoxon秩和检验来进行推断。

该方法将两组样本的观测值按大小排序，并计算秩次和。

通过比较秩次和的大小，可以判断两组样本的均值是否有显著差异。

除了样本比较，非参数统计分析还可以用于回归分析。

在传统的线性回归中，我们通常假设自变量和因变量之间的关系是线性的，并利用最小二乘法来估计回归系数。

然而，在实际应用中，变量之间的关系可能是非线性的，或者无法确定具体的函数形式。

这时，非参数的局部回归方法就可以派上用场。

该方法通过在每个数据点附近拟合局部线性模型，来估计变量之间的关系。

这种方法不依赖于具体的函数形式，能够更好地适应数据的特点。

在实际应用中，非参数统计分析还有许多其他的方法，如Kolmogorov-Smirnov 检验、Mann-Whitney U检验等。

这些方法都不依赖于数据的分布假设，能够更加灵活地适应不同的数据类型和场景。

尽管非参数统计分析在某些方面具有优势，但也存在一些限制。

首先，由于不依赖于分布假设，非参数方法通常需要更多的样本来获得可靠的推断结果。

其次，非参数方法往往比参数方法计算量更大，需要更多的计算资源和时间。

此外，非参数方法对异常值和缺失值的鲁棒性较差，需要进行适当的数据处理。

chapter2非参数统计详解

将样本显示的特点作为对总体的猜想，并优先选作备择假设，零假设是相对于备择假设而出现的.
(2) 检验的 p 值和显著性水平的作用 p 值：在一个假设检验中拒绝零假设的最小显著水平. 判断法则：
(3) 两类错误第一类错误(弃真错误)： H0为真，拒绝H0 一般由检验显著性水平控制第二类错误(取伪错误)： H0为假，接受H0 两类错误相互制衡，不能同时都减到很小. 检验的势
•
置信区间和假设检验的关系
就单变量位置参数而言，置信区间和双边假设检验有密切的联系. (1) 检验显著水平 a 和置信水平 1-a 是两个对立事件的概率 (2) 若水平为 a的拒绝域为 W，则其对立事件是置信水平为 1-a 的置信区间； (3) 若 H0在1-a的置信区间内则接受 H0,否则拒绝 H0. 置信区间和假设检验的这种关系成为对偶关系. 例：正态总体在方差已知情况下对均值的U检验.
d
又由F ( X i ) 是来自U(0,1)上的iid样本，则有
F ( X1 ).F ( X 2 )...F ( X n ) Wi，Wi U (0,1), iid 样本
i 1 d n
2 n 所以 U1,U2 ,...,Un
为来自(0, 1)上均匀分布的iid样本。
证明
(2)
证明最大与最小次顺统计量的分布：在上式中分别取r=n和r=1. (3)
这里 s>r。容量为n的样本最大顺序统计量x(n)与样本最小顺序统计量x(1)之差称为样本极差,简称极差,常用R=x(n)-x(1)表示。
2.分位数 (1) 样本分位数
(2) 分布分位数
例如标准正态分布
3.分位数的估计
第二章
基本概念
§2.1 非参数统计概念与产生 1.非参数统计的概念

经济统计学中的非参数统计方法与分析

经济统计学中的非参数统计方法与分析经济统计学是研究经济现象的统计学科，它运用统计学的方法和技术，对经济数据进行收集、整理、分析和解释，从而揭示经济规律和发展趋势。

非参数统计方法是经济统计学中的一种重要工具，它与参数统计方法相对应，主要用于处理那些无法用参数模型刻画的经济现象。

本文将介绍非参数统计方法的基本原理和应用，并探讨其在经济统计学中的意义和局限。

一、非参数统计方法的基本原理非参数统计方法是一种不依赖于总体分布形态的统计分析方法。

与参数统计方法相比，非参数统计方法不对总体的概率分布进行任何假设，而是通过对样本数据的排序、秩次变换等非参数化处理，来进行统计推断。

其基本原理是利用样本数据的内在结构和顺序信息，从而获得总体的分布特征和统计性质。

二、非参数统计方法的应用领域非参数统计方法在经济统计学中有广泛的应用。

首先，它可以用于经济数据的描述和总结。

例如，通过计算样本数据的中位数、分位数等非参数统计量，可以更准确地描述和解释经济现象的分布特征和变异程度。

其次，非参数统计方法可以用于经济数据的比较和推断。

例如，通过非参数的秩次检验方法，可以判断两个总体是否存在显著差异，从而进行经济政策的评估和决策。

此外，非参数统计方法还可以用于经济模型的估计和验证。

例如，通过非参数的核密度估计方法，可以对经济模型的参数进行非线性估计和模型检验，从而提高经济模型的拟合度和预测能力。

三、非参数统计方法的意义和局限非参数统计方法在经济统计学中具有重要的意义和价值。

首先，它能够更好地应对数据的非正态性和异方差性等问题，从而提高统计推断的效果和准确性。

其次，非参数统计方法能够更好地适应不完全信息和有限样本的情况，从而减少模型假设和参数估计的不确定性。

然而，非参数统计方法也存在一些局限性。

首先，由于非参数统计方法不假设总体的分布形态，因此通常需要更大的样本量才能获得稳健的统计推断结果。

其次，非参数统计方法在处理高维数据和复杂模型时，计算复杂度较高，需要更多的计算资源和时间。

非参数统计分析

非参数统计分析是指不需要任何假设的情况下，对数据进行分析和处理的方法。

相对于参数统计分析，更加灵活和适用于更广泛的数据集。

在中，我们通常使用基于排列和重抽样方法的统计分析，这些方法在处理离散和连续的数据集时都十分有效。

如何进行1. 非参数检验非参数检验方法不要求数据满足特定的分布，通常分为两类：①秩和检验秩和检验是比较两组数据的中位数是否相等。

对于小样本来说，一般采用Wilcoxon签名检验。

而对于大样本，通常会使用Mann Whitney U检验。

②秩相关检验秩相关检验是比较两个或多个变量的相关性关系。

这种类型的检验最常用的是Spearman秩相关系数和Kendall Tau秩相关测试。

2. 非参数估计器由于非参数统计方法不依赖于任何先验假设，因此非参数估计器在数据少或均值和方差无法准确估计的情况下较为常用。

在非参数估计器中，常用的方法有：①核密度估计核密度估计通常是数据分析和可视化的首选。

它能够获得不同分布的概率密度函数的非参数估计器。

②基于距离的方法基于距离的方法通常使用K近邻算法或半径最邻近算法来估计密度。

这种方法特别适合于计算高维数据的密度估计。

3. 非参数回归非参数回归是一种灵活的模型，他用于数据挖掘过程中的最复杂部分。

与标准回归技术不同，非参数回归方法不需要数据满足任何特定分布。

在非参数回归中，主要的方法有：①核回归在核密度估计和非参数回归中使用的是相同的核函数。

相对于线性回归方法，核回归更加灵活，适用于非线性分布的数据。

②局部回归局部回归的本质是计算小范围或子集内的平均值，并在这些平均值上拟合局部模型。

这种方法特别适用于非线性回归和数据样本集的大小不规则的情况。

非参数统计优势非参数统计方法的最大优势在于能够在没有特定假设下应用于任何样本集，这使得无需预先了解数据的分布和性质。

此外，非参数统计方法还有其他的优势，如：1. 不受异常数据的影响：统计方法通常受异常数据的影响较大，但非参数统计方法不会使结果发生显著的变化。

非参数统计方法ridit分析

效的统计分析。
适用于有序分类变量
Ridit分析特别适用于处理有序分类变量，能够有效地比较不同类别之间的有序差异。
可用于生存分析
Ridit分析可以用于生存分析领域，对生存时间和风险比率进行比较，为临床医学和生物学研究提供有力支持。
局限性
对数据要求较高
Ridit分析要求数据具有代表性，且各组间具有可比性，否则可能导致分析结果不准确。
04
实例分析
实例一：比较两组生存时间数据
总结词
通过Ridit分析比较两组生存时间数据，可以评估两组生存时间的差异和趋势。
详细描述
在临床研究中，经常需要比较两组患者的生存时间数据，以评估不同治疗或分组的效果。Ridit分析通过计算每个观察值的Ridit值，将生存时间数据转化为可比较的指标，进而进行统计分析。通过比较两组的Ridit值，可以判断两组生存时间的差异和趋势。
非参数统计方法Ridit分析
• Ridit分析概述 • Ridit分析的步骤 • Ridit分析的优势与局限性 • 实例分析 • 结论与展望
01
Ridit分析概述
定义与特点
定义
Ridit分析是一种非参数统计方法，用于比较两组或多组无序分类数据的分布情况。
特点
Ridit分析不需要假定数据服从特定的概率分布，也不需要事先对数据进行参数化处理，因此具有较强的灵活性和适用性。
根据曲线的解读结果，结合研究目的和背景知识，推断出相应的统计结论。
03
Ridit分析的优势与局限性
优势
无需假设数据分布
Ridit分析是一种非参数统计方法，不需要假设数据服从特定的概率分布，因此具有
更广泛的适用性。
无需样本量足够大

《非参数统计分析》教案

添加标题
添加标题
添加标题
添加标题
案例分析：通过分析具体案例，帮助学生理解抽象概念和理论
实验操作：通过实验操作，让学生亲身体验统计方法的应用过程
评价方式
课堂表现：观察学生的课堂参与度、回答问题的准确性和思考问题的深度
作业完成情况：评估学生对课堂内容的理解和应用能力
小组讨论：鼓励学生之间的合作与交流，培养团队协作能力
介绍非参数统计分析的基本方法
介绍非参数统计分析在各个领域的应用
介绍非参数统计分析的概念和特点
介绍非参数统计分析的优缺点和注意事项
导入：介绍非参数统计分析的概念和背景
教学步骤
定义与概念：讲解非参数统计分析和相关概念
方法与步骤：详细介绍非参数统计分析的方法和步骤
案例分析：通过具体案例来展示非参数统计分析的应用
总结与回顾：总结本次课程的内容，回顾非参数统计分析的方法和步骤
作业与思考：布置相关作业和思考题，引导学生深入思考
教学重点
重点知识点1：非参数统计的基本概念
重点知识点2：非参数统计与参数统计的区别
重点知识点3：非参数统计的优缺点
重点知识点4：非参数统计的应用场景
教学难点
难点概念：难以理解或掌握的基本概念或原理
难点应用：将理论知识应用于实际问题的能力
难点计算：复杂的统计计算和分析方法
难点理解：对统计原理和方法的深入理解和掌握
教学方法
案例教学法：通过具体案例的分析和讨论，帮助学生理解和掌握非参数统计分析的基本概念和方
法。
互动式教学法：采用课堂互动、小组讨论等方式，鼓励学生积极参与，提高学生的学习兴趣和主动

《非参数统计分析》(1-8章)教案.doc

.引言一般统计分析分为参数分析与非参数分析，参数分析是指，知道总体分布，但其中几个参数的值未知，用统计量来估计参数值，但大部分情况，总体是未知的，这时候就不能用参数分析，如果强行用可能会出现错误的结果。

例如：分析下面的供应商的产品是否合格？合格产品的标准长度为（8.5±0.1），随即抽取n=100件零件，数据如下：表1.18.503 8.508 8.498 8.347 8.494 8.500 8.498 8.500 8.502 8.501 8.491 8.504 8.502 8.503 8.501 8.505 8.492 8.497 8.150 8.496 8.501 8.489 8.506 8.497 8.505 8.501 8.500 8.499 8.490 8.493 8.501 8.497 8.501 8.498 8.503 8.505 8.510 8.499 8.489 8.496 8.500 8.503 8.497 8.504 8.503 8.506 8.497 8.507 8.346 8.310 8.489 8.499 8.492 8.497 8.506 8.502 8.505 8.489 8.503 8.492 8.501 8.499 8.804 8.505 8.504 8.499 8.506 8.499 8.493 8.494 8.490 8.505 8.511 8.502 8.505 8.503 8.782 8.502 8.509 8.499 8.498 8.493 8.897 8.504 8.493 8.494 7.780 8.509 8.499 8.503 8.494 8.511 8.501 8.497 8.493 8.501 8.495 8.461 8.504 8.691经计算，平均长度为cm x 4958.8=，非常接近中心位置8.5cm ，样本标准差为()1047.0112=--=∑=ni in x x s cm.一般产品的质量服从正态分布，),(~2δμN X 。

非参数统计方法

非参数统计方法非参数统计方法是一种统计学中的重要概念，它不依赖于总体的具体分布形式，而是利用样本数据进行推断和分析。

与参数统计方法相比，非参数统计方法更加灵活和广泛适用，并且不需要对总体进行特定的假设。

本文将介绍非参数统计方法的原理、常用的方法和应用领域。

一、非参数统计方法的原理非参数统计方法的核心思想是基于样本数据来进行推断，而不需要对总体的分布形式做出先验假设。

非参数统计方法主要利用统计排序和秩次来进行推断分析，因此非参数统计方法也常被称为秩次统计方法或分布自由方法。

非参数统计方法的基本原理包括以下几个方面：1. 统计排序：对样本数据进行排序，将每个观测值按照大小进行排列，得到一系列秩次。

2. 秩次：将每个观测值与排序后的位置相对应，得到每个观测值的秩次。

3. 检验统计量：通过计算秩次之间的差异来判断总体分布是否存在差异。

4. 非参数假设检验：通过计算检验统计量的概率分布，判断总体分布是否符合我们的假设。

二、常用的非参数统计方法1. 秩和检验（Mann-Whitney U检验）：用于比较两个独立样本是否来自同一总体。

2. 秩和差检验（Wilcoxon符号秩检验）：用于比较两个相关样本是否来自同一总体。

3. 克鲁斯卡尔-瓦里斯检验：用于比较三个或更多独立样本是否来自同一总体。

4. 费希尔精确检验：用于比较两个分类变量之间的关联性。

5. 秩和相关检验（Spearman等级相关系数）：用于比较两个变量之间的相关性。

三、非参数统计方法的应用领域非参数统计方法在各个领域都有广泛的应用，以下列举几个常见的应用领域：1. 医学研究：非参数统计方法可以用于比较两种治疗方法的效果，判断是否存在显著差异。

2. 经济学研究：非参数统计方法可以用于分析收入差距、失业率等经济指标的差异。

3. 生态学研究：非参数统计方法可以用于比较不同区域的生物多样性指标，评估生态系统的稳定性。

4. 社会科学研究：非参数统计方法可以用于分析社会调查数据，比较不同群体的行为差异。

非参数统计分析NonparametricTests菜单详解

非参数统计分析――Nonparametric Tests菜单详解非参数统计分析――Nonparametric Tests菜单详解平时我们使用的统计推断方法大多为参数统计方法，它们都是在已知总体分布的条件下，对相应分布的总体参数进行估计和检验。

比如单样本u检验就是假定该样本所在总体服从正态分布，然后推断总体的均数是否和已知的总体均数相同。

本节要讨论的统计方法着眼点不是总体参数，而是总体分布情况，即研究目标总体的分布是否与已知理论分布相同，或者各样本所在的分布位置/形状是否相同。

由于这一类方法不涉及总体参数，因而称为非参数统计方法。

SPSS的的Nonparametric Tests菜单中一共提供了8种非参数分析方法，它们可以被分为两大类：1、分布类型检验方法：亦称拟合优度检验方法。

即检验样本所在总体是否服从已知的理论分布。

具体包括：Chi-square test：用卡方检验来检验二项/多项分类变量的几个取值所占百分比是否和我们期望的比例有没有统计学差异。

Binomial Test：用于检测所给的变量是否符合二项分布，变量可以是两分类的，也可以使连续性变量，然后按你给出的分界点一分为二。

Runs Test：用于检验样本序列随机性。

观察某变量的取值是否是围绕着某个数值随机地上下波动，该数值可以是均数、中位数、众数或人为制定。

一般来说，如果该检验P值有统计学意义，则提示有其他变量对该变量的取值有影响，或该变量存在自相关。

One-Sample Kolmogorov-Smirnov Test：采用柯尔莫哥诺夫-斯米尔诺夫检验来分析变量是否符合某种分布，可以检验的分布有正态分布、均匀分布、Poission分布和指数分布。

2、分布位置检验方法：用于检验样本所在总体的分布位置/形状是否相同。

具体包括：Two-Independent-Samples Tests：即成组设计的两独立样本的秩和检验。

Tests for Several Independent Samples：成组设计的多个独立样本的秩和检验，此处不提供两两比较方法。

非参数统计分析ppt课件

因为D=0.1865,大于这个临界值，所以原假设不成立即两个省农民企业家的文化程度分布存在着显著差别。
(注：大样本时α=0.05和α=0.01的界值分别是1.36和1.63， )
5

该定理认为，当样本容量充分大时，把样本观察量分成K类，每一类实际出现的次数用f0 表示，其理论次数用fe表示，则 2 统计量为：
D Max S ( x ) F ( x ) n n
查找K-S表，根据给定的显著性水平得到临界值dn；当D< dn时，接受原假设；反之，则拒绝原假设。例1：公共汽车按计划每15分钟通过某一站点，但由于受到各种不可预测因素的影
响，可能出现晚到和早到的现象。现通过一天的随机观察（共20次），获得如下表一系列数据。请检验公共汽车通过某一站点的时间是否服从于 u=1.6,б =3的正态分布。
解：H0：消费者对五种类型的汽车的偏爱程度没有显著差别（即服从均匀分布） H1：消费者对五种类型的汽车的偏爱程度有显著差别（即不服从均匀分布）
2 2 2 ( f f ) (2 1 0 2 0 0 ) (2 2 3 2 0 0 ) 2 0 e 1 3 6 .4 fe 2 0 0 2 0 0 i 1 k 2 在 5 % 条件下 , 经查表得临界值 : ) 9 .4 8 8 0 .0 5 (4
1
2
经验分布函数 () f/ n F ( X ) f/ m Fx
1 1
2 2
1 2( F (x )F x )
58 109 156 200 222 236
31 77 130 203 254 274
0.2458 0.4619 0.6610 0.8475 0.9408 1.0000

王静龙《非参数统计分析》章教案

例如：分析下面的供应商的产品是否合格合格产品的标准长度为（±），随即抽取n=100件零件，数据如下：表经计算，平均长度为cm x 4958.8=，非常接近中心位置，样本标准差为()1047.0112=--=∑=ni in x x s cm.一般产品的质量服从正态分布，),(~2δμN X 。

%66)1047.04958.84.8()1047.04958.86.8()4.8()6.8()6.84.8(≈-Φ--Φ=-Φ--Φ=≤≤σμσμX P这说明产品有接近三分之一不合格，三分之二合格，所以需要更换供应厂商，而用非参数分析却是另外一个结果。

以下是100个零件长度的分布表：这说明有90%的零件长度在)2.05.8(±cm 之间，有9%的零件不合格，所以工厂不需要换供应商。

例2 哪一个企业职工的工资高表两个企业职工的工资显然，企业1职工的工资高，倘若假设企业1与企业2的职工工资分别服从正态分布),(),,(22σσb N a N ，则这两个企业职工的工资比较问题就可以转化为一个参数的假设检验问题，原假设为b a H =:0，备择假设为b a H >:0 则 ))11(,(~2σnmb a N y x +-- 若0H 为真，则)20()2(~11t n m t nm S y x t w =-++-=其中])()([2112122∑∑==-+--+=ni i m i i wy y x x n m S 拒绝域为：}325.1{)}20({90.0≥=≥t t t 检测值为：282.1=t故不能拒绝原假设，认为两企业的工资水平无差异。

也可以用值-P 检验由于1073.0)282.1)20((=≥t P故不能拒绝原假设，认为两企业的工资水平无差异。

第二章非参数统计的分析

zB0.5n(n足够大） 0.25n
2021/2/22
第二章非参数统计的分析
13
第二节 Cox-Stuart趋势检验
人们经常要看某项发展的趋势．但是从图表上很难看出是递增，递减，还是大致持平．
【例5】我国自1985年到1996年出口和进口的差额(balance) 为(以亿美元为单位)
—149.0 119.7 37.7 43.5 122.2 54.0
49.9,48.2,47.6,46,45.8,45.2,41.9,38.8,37.7,37.
5,36.5, 36.4,32.7,32.7,32.2,29.1,27.8,27.8
2021/2/22
第二章非参数统计的分析
6
Histogram of x
10
8
6
Frequency
4
2
0
20
40
60
80
100
2021/2/22
第二章非参数统计的分析
8
符号检验的思路，记
成功：X-0大于零，即大于中位数M，记为“+”；失败：X-0小于零，即小于中位数M，记为“-”。令 S+=得正符号的数目
S－=得负符号得数目可以知道S+或S— 均服从二项分布B（65，0.5）。则可以用来作检验的统计量。其假设为：
H 0 : 0 :H 1 : 0 H 0 : 0
2021/2/22
第二章非参数统计的分析
9
关于非参数检验统计量需要说明的问题
在非参数检验中，可以得到两个相互等价的统计量，比如在符号检验中，得负号与得正好的个数，就是一对等价的统计量，因为S++S-=N。那么我们在检验时应该用那个呢？约定选择统计量

非参数统计分析教学课件

Python
介绍
Python是一种通用编程语言，因其易读性和易用性而被广泛用于数据分析和科学计算。
特点
Python拥有强大的科学计算库，如NumPy、 Pandas和SciPy等，可进行数据清洗、统分析等多种任务。
教程资源
Python的在线教程和书籍资源丰富，同时还有大量的科学计算社区和论坛可供交流。
数据流处理
数据流处理技术可以实时处理大规模数据，为非参数统计分析提供新的可能性。
云计算
云计算平台可以提供弹性可扩展的计算资源，方便非参数统计分析的进行。
THANKS
感谢观看
洗和校验。
高维数据的非参数统计分析挑战
维度诅咒
高维数据可能导致传统的非参数统计分析方法失效，需要开发新的方法。
数据稀疏性
高维数据可能导致数据稀疏，使得统计分析结果不稳定。
特征选择
高维数据需要进行特征选择，以减少噪声和冗余，提高分析效率。
大数据处理技术在非参数统计分析中的应用前景
并行计算
利用并行计算技术可以提高非参数统计分析的效率和准确性。
应用场景与优势
应用场景
适用于数据类型复杂、分布不明确或数据量较小的情况；例如，生物医学研究、金融数据分析、社会学调查等领域。
优势
能够更好地揭示数据的内在结构和关系；对数据的假设较少，避免过度拟合和误判；同时具有较高的灵活性和普适性，能够适用于多种场景。
02
CATALOGUE
非参数统计方法
聚类分析
01
聚类分析是一种非参数统计方法，用于将相似的对象归为同一类，将不相似的对象归为不同类。
02
聚类分析通过计算对象之间的距离或相似性来将它们分组，常见的聚类分析方法有层次聚类、K均值聚类和DBSCAN聚类等。

《非参数统计分析》PPT课件

0.011014 0.034733 3.263554 -3.207570 0.928736 -0.043640 3.458105
9.061568 0.010772
此数据的正态性检验是非正态。
非参数统计归纳起来有如下的三点优点：
1. 对总体的假定少； 2. 可以处理许多有问题数据，比如污染的正态分布，有奇异值的情形；
组别 1 1 1 1 1 2 1 1 1 1
2
负债率 80 80 82 82 83 84 84 86 91 91 93
秩
12 13 14 15 16 17 18 19 20 21 22
组别 2 2 1 1 1 2 2 2 2 2
2
如果我们将12家工业企业的秩相加是94，其平均秩是7.88，将 10家商业企业的秩相加得159，其平均秩为15.9，这就给我们一个可以考虑的信息，两种企业的资产负债是有差异的。他们的平均秩不同。
然而，在实际生活中，那种对总体分布的假定并不是能随便做出的。有时，数据并不是来自所假定分布的总体。或者数据根本不是来自一个总体，数据因为种种原因被严重污染。这样，在假定总体分布的情况下进行推断的做法就可能产生错误的结论。于是，人们希望在不假定总体分布的情况下，尽量从数据本身来获得所需要的信息。这就是非参数统计的宗旨。因为非参数统计方法不利用关于总体分布的相关信息，所以，就是在对于总体分布的任何信息都没有的情况下，它也能很容易而又较为可靠地获得结论。这时非参数方法往往优于参数方法。在台湾这种方法称为“无母数统计”，即不知到总体信息的统计方法。
120
Series: JUNZHI
Sample 1 1000
100
Observations 1000

《非参数统计分析》(1-8章)教案.doc

统计师如何使用非参数统计进行数据分析

统计师如何使用非参数统计进行数据分析数据分析是统计师日常工作中不可或缺的一部分。

在进行数据分析时，统计师可以使用参数统计和非参数统计两种方法。

而本文将着重探讨非参数统计在数据分析中的应用，以及统计师如何使用非参数统计进行数据分析。

一、什么是非参数统计非参数统计是指在对总体分布形态和参数未知的情况下，通过对样本数据的排序、计数等直接测量方法进行数据分析的一种统计方法。

相比于参数统计需要对总体的分布形态和参数进行假设的方法，非参数统计更加灵活，可以适用于各种分布形态和数据类型。

二、非参数统计的应用场景非参数统计广泛应用于以下几个方面：1. 假设检验：通过对两个或多个样本进行比较，判断是否存在显著差异。

例如，Wilcoxon秩和检验和Mann-Whitney U检验都是非参数统计学中常用于比较两个样本的方法。

2. 关联分析：通过计算非参数的相关系数，判断两个变量之间是否存在相关性。

例如，Spearman等级相关系数和Kendall Tau相关系数等常用于度量非线性关系的非参数方法。

3. 分布拟合：通过对样本数据的分布形态进行拟合，推断总体的分布特征。

例如，Kolmogorov-Smirnov检验和柯西分布拟合等方法在非参数统计中被广泛应用。

4. 重要性排序：通过对一组变量或特征进行排序，确定它们对结果的重要性。

例如，非参数回归方法中的局部回归（LOESS）和主成分分析（PCA）都是常用的非参数排序方法。

三、非参数统计方法的优势相比于参数统计方法，非参数统计方法有以下几个优势：1. 分布假设更加宽松：非参数统计方法不依赖于特定的分布假设，适用于各种分布形态和数据类型，尤其在样本数据不服从正态分布时表现出更好的稳健性。

2. 适用范围更广：非参数统计方法在数据样本较小或者包含异常值时，相比于参数统计方法更具优势，能够提供更可靠的分析结果。

3. 更好的解释能力：非参数统计方法直接基于样本数据的排序、计数等直接测量，具有更好的可解释性和实用性，能够更直观地展现数据特征和异常情况。

非参数统计分析

T界值表（两样本比较的秩和检验用） n1 (较小者) n2-n1
0
1
2
……
10
2
…
89－141 (P=0.10)
(p=0.05) (p=0.02) (p=0.01)
10
84－146 79－151 76－154
n1>10 或 n2 - n1>10，超出界值表范围，可用正态近似法做U检验
u
T n1 ( N 1) / 2 n1n2 ( N 1) 12
• • • •
H0:两组疗效的总体分布相同 H1:两组疗效的总体分布不相同 =0.05 统计量 u
• 确定P值，结论
uc
T n1 ( N 1) / 2 n1 n2 ( N 1) 12

(t 1
3
3 j
tj )
N N

8780.5 82 (208 1) / 2 uc 0.543 82 126 (208 1) 1401360 (1 ) 3 12 208 208
以此例说明多组等级资料的编秩方法和秩和检验方法
表 10-5 四种疾病患者气管扩张肺水肿肺癌病毒性呼吸道感染合计秩次范围平均秩次支气管扩张 (9) 0 42 364.5 333 739.5 肺水肿 (10) 18 105 202.5 111 436.5 (11) 30 147 121.5 111 409.5 秩和肺癌病毒性呼吸道感染 (12) 18 105 121.5 0 244.5
3 3 3
表 10-2 某河流甲乙断面亚硝酸盐含量检测结果河流甲断面亚硝酸盐含量秩次 0.014 0.018 0.024 0.025 0.027 0.034 0.038 0.043 0.064 0.10 n1=10 1.0 2.5 8.5 10.5 12.0 15.0 19.0 20.0 22.5 25.0 T1=136.0 亚硝酸盐含量 0.018 0.019 0.020 0.022 0.023 0.024 0.025 0.028 0.030 0.035 n2=15 河流乙断面秩次亚硝酸盐含量 2.5 4.0 5.0 6.0 7.0 8.5 10.5 13.0 14.0 16.0 T2=189.0 0.036 0.037 0.055 0.064 0.067 秩次 17.0 18.0 21.0 22.5 24.0

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Re si du a l -20.0 9.0 8.0 3.0
Test Statistics
Chi-Squarea df
X P值大于0.05，结果说明还贷情 5.979 况与预期是一致的。
3
Asymp. Sig.
.113
a. 0 cells (.0%) have expected frequencies less than 5. The minimum expected cell frequency is 5.0.
为总体的分布函数为 F0 x 。
23:56
10
卡方检验的窗口，SPSS的卡方检验主要用来检验离散随机变量的分布。
23:56
11
卡方检验的窗口。
23:56
12
X
1 2 3 4 T o ta l
Observed N 380 69 43 8 500
Expected N 400.0 60.0 35.0 5.0
23:56
4
一、χ2拟合优度检验
在实际问题中，会遇到必须了解总体的分布函数的时候，这时利用样本资料对总体的分布函数进行检验就成了非常重要的了。
我们需要检验总体的分布函数F(x)是否等于某个给定的函数 F0(x) ，可以根据经验来确定。其中含有未知参数时，应利用样本资料采用点估计求得后，再进行检验。
SPSS的数据格式
合格品
频数
1
20
0
5
表中的“1”表示合格品；“0”表示不合格品
23:56
16
(SPSS binomial test)
第 1 步：指定 “ 频数 ” 变量：点击【Data】【Weight-Cases】，将“频数”选入
【Frequency Variable】【OK】第2步：选择【Analyze】【Nonparametric
Tests-Binomial】选项进入主对话框第3步：将待检验的变量选入【Test Variable
List】(本例为“合格品”) 第4步：在【Test Proportion】中输入检验的概率
(本例为0.9)，点击【OK】
23:56
17
SPSS的输出结果
表中的合格品的观察比例为0.8，检验比
例为0.9。精确单尾概率为0.098，它表示如果该
H0 : p1 80%, p2 12%, p3 7%, p4 1% H1 : pi pi0
23:56
6
类型
Hale Waihona Puke finpi (ei )
fi npi
( fi npi )2
( fi npi )2 npi
A
380
400
-20
400
1.00
B
69
60
9
81
1.35
C
43
35
8
64
1.83
D
8
5
3
则r为零。
23:56
9
（3）由给定的显著性水平，查表确定临界值
2 m 1 r（这种检验是右侧检验）。
（4）利用样本值 x1，x2，x3，…，xn 计算实际频数 fi ，再计
算经验概率 pi ，据以计算的值
2
m
fi
npi 2
i1 npi
（5）作结论，若 2 2 m 1 r ，则拒绝原假设，即认为总体的分布函数不为 F0x；反之，则接受原假设，即认
容的小区间：t0，t1 t1，t2
tm1，tm
区间个数以7~14为宜。然后，统计出每个区间内样本点的数目fi，再用pi表示变量在第i个区间的概率，
23:56
8
（2）选择适当统计量
m
2
fi npi 2
i 1
npi
在原假设为真的条件下，这个统计量近似地服从具
有m1r个自由度的χ2 分布，其中r是需要用样本来估计的总体的未知参数的数目，若没有未知参数需要估计，
23:56
3
第一节 Chi-Square test 卡方检验
卡方检验通常称为拟合优度检验。主要是通过样本观测值检验总体是否服从某个分布。如果数据是连续的，需要将连续的分布进行分段，计算每段的期望概率与观测到的频率之间是否差异很大。在SPSS中的Chi-Square test ，主要是对离散的总体进行拟合优度检验。
23:56
13
【练习1】盒中有5种球，重复抽取200次（每次抽1个球）各种球出现的次数见下表。问盒中5 种球的个数是否相等？显著水平α=0.05。
种别
1 2 3 4 5 ∑
23:56
fi 35 40 43 38 44
200
14
第二节二项分布检验
二项分布检验(binomial test)是通过考察二分类变量的每个类别中观察值的频数与特定二项分布下的期望频数之间是否存在显著差异，来判断抽取样本所依赖的总体是否服从特定概率为p的二项分布。
二项分布检验的原假设是：抽取样本所依赖的总体与特定的二项分布无显著差异。
如果检验的p值小于0.05，则拒绝原假设。
23:56
15
【例2】根据以往的生产数据，某种产品的合格率为90%。现从中随机抽取25个进行检测，合格品为20个。检验该批产品的合格率是否为90%？(产品合格率X~B(n,0.9))
第二章单样本非参数检验
23:56
1
思考的要点
各种检验方法的思路各种检验方法统计量的构造各种检验方法的应用场合在SPSS与R中如何完成
23:56
2
第一节卡方检验第二节二项分布检验第三节单样本的KS检验第四节符号检验第五节 Cox-Stuart趋势检验第六节游程检验第七节 Wilcoxon符号秩检验
批产品的合格率为0.9，那么25个产品中合格品
数量小于等于20个的概率为0.098。P>0.05,不拒
绝原假设，没有证据表明该批产品的合格率不是
23:56
5
【例1】某金融系统贷款的偿还类型有四种，各种的预期还率为80%、12%、7%和1%。在一段时间的观察记录中，A型按时偿还的有380笔、B型偿还有69笔、C型有 43笔、D笔有8笔。问在5%显著性水平上，这些结果与预期的是否一致。α＝0.05。
解：这个问题属于要检验每一类型的出现概率与理论期望概率是否相等，即检验
9
1.80
合计
500
500
__
__
5.98
根据显著性水平，有 2 (3) 7.82，由于
Q 5.98 2 (3) 7.82
表明5%的显著水平下，不能拒绝原假设，即观测的比率与期望的比
率一23致:56。
7
如果分布是连续的其检验步骤为：
（1）提出统计假设 H0：Fx F0x
由统计假设出发，将总体取值范围分为m个互不相