课件:第六章_非参数统计
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 非参数统计的名字中的“非参数 (nonparametric)”意味着其方法不涉及 描述总体分布的有关参数;它被称为和 分布无关(distribution—free),是因为其 推断方法和总体分布无关;不应理解为
2021/11/25 与所有分布(例如有关秩的分布)无关.13
3. 参数统计与非参数统计比较
• 2. 数据的形态各异
– 定量数据
– 定序数据
– Example: Good-Better-Best
– 名义数据
– Example: Male-Female
2021/11/25
12
非参数方法
• 在不知总体分布的情况下如何利用数据 所包含的信息呢?一组数据的最基本的信 息就是次序.如果可以把数据点按大小 次序排队,每一个具体数目都有它的在 整个数据中(从最小的数起)的位置或次 序,称为该数据的秩(rank).
17
4. 非参数统计的历史
2021/11/25
18
非参数统计的历史
• 非参数统计的形成主要归功于20世纪 40年代~50年代化学家F.Wilcoxon等人 的工作。Wilcoxon于1945年提出两样 本秩和检验,1947年Mann和Whitney
二人将结果推广到两组样本量不等的 一般情况;
2021/11/25
出。 • 数据分析方法和手段不足。
2021/11/25
6
统计的方法论
• 就方法论而言,统计分析主要解决两方 面的问题:
– 寻找数据内部差异中共同的特征。 – 寻找数据之间本质的差异。
• 统计分析的目标是从数据中发现比数据 本身更为有用的知识
2021/11/25
7
2. 非参数统计方法简介
2021/11/25
2021/11/25
3
第一节 引言
一、关于非参数统计 二、非参数统计中常用统计量
2021/11/25
4
一、关于非参数统计
1. 统计的实践
2021/11/25
5
我们周围的世界
• 符号和数据就是整个世界。 • 数据繁衍,信息匮乏:观察数据激增,
设计数据细分。 • 数据的复杂性和不确定性的特点更为突
,n
2021/11/25
30
3.线性符号秩统计量
设Ri+在∣X1∣,∣X2∣,…,∣Xn∣中的秩,定义an+(.)为在 整数1,2,…,n上的非负函数,且满足an+(1),…,an+(n)不全 为0,则称
n
Sn an Ri I Xi 0 i 1
为线性符号秩统计量。
2021/11/25
特别当数据可以使用参数模型的时候。 Example: Converting Data From Ratio to Ordinal Scale
• 2. 大样本手算相当麻烦 • 3. 一些表不易得到
2021/11/25
16
非参数统计的主要内容
内容
2独立样本 2 配对样本 /单一样本 >2独立样本
两因素 相关性检验
而在统计学中,我们常常需要根据观察数据,对数据 背后的估计做假设检验。针对分类数据的检验,是由 英国统计学家Pearson于1900年首次提出的。
2021/11/25
35
分类数据的χ2检验
而在统计学中,我们常常需要根据观察数据,对数据 背后的估计做假设检验。针对分类数据的检验,是由 英国统计学家Pearson于1900年首次提出的。
2021/11/25
14
非参数检验的优点
• 对总体假定较少,有广泛的适用性,结果稳定性较好。 – 1. 假定较少 – 2. 不需要对总体参数的假定 – 3. 与参数结果接近
• 针对几乎所有类型的数据形态。 • 容易计算
– 在计算机盛行之前就已经发展起来。
2021/11/25
15
非参数检验的弱点
• 1. 可能会浪费一些信息
23
3.顺序统计量的分布
分布函数为
Fr x P Xr x P 至少r个Xi小于或等于x
n
P X1, X 2, , X n中恰好有j个小于x jr
n
Cnj F j x 1 F xn j jr
r
n!
1! n
r
!
Fx
t r1
1t
nr dt
0
2021/11/25
24
第r个顺序统计量的密度函数为
• Pitman于1948年回答了非参数统计方 法相对于参数方法来说的相对效率1方9
非参数统计的历史(续)
• 60年代中后期,Cox和Ferguson最早将非参数方法应用 于生存分析。
• 70年代到80年代,非参数统计借助计算机技术和大量 计算获得更稳健的估计和预测,以P.J.Huber以及 F.Hampel为代表的统计学家从计算技术的实现角度, 为衡量估计量的稳定性提出了新准则。
2021/11/25
34
χ2拟合优度检验
凡是学过生物学的人都知道,19世纪,有一个伟大的生物遗 传学家Mendel,他通过对豌豆几十年的观察,而使遗传学前 进了一大步。当时,他通过大量的试验观察到,当黄色圆型 种子和绿色皱纹种子杂交后,产生了556个黄圆、黄皱、绿圆 和绿皱的豌豆,其个数分别为315、101、108和32个。由此 Mendel认为这四种的比例在理论上应为9:3:3:1。也就是说, 这四种豌豆出现的概率应为:9/16,3/16,3/16,1/16。这就是 Mendel的遗传理论。
3. 有很强的假定
Example: 正态分布
4. 例子: Z Test, t Test, 2 Test
2021/11/25
10
一个例子:
对两组学生进行语法测试,如何比较两 组学生的成绩是否存在差异?
2021/11/25
11
非参数检验过程
• 1.不涉及总体的分布
– Example: Probability Distributions, Independence
认为总体的分布函数不为F0(X);反之,则接受原假设,即认 为总体的分布函数为F0(X)。
2021/11/25
59
二、符号检验
假定用总体中位数M来表示中间位置,并且X1,…,Xn 独立同分布,这意味着X1,…,Xn取大于M的概率应该与 取小于M的概率均为1/2。对于我们所研究的问题,可 以看作是只有两种可能“成功”或“失败”。成功为 “+”,即大于中位数;失败为“-”,即小于中位数M。 令:
极差
R X n X 1
P分位数
mp
X
k
X
k
X
k 1
X
K
n
1
p
k
, ,
k p n 1
k p k 1
n 1
n 1
设连续随机变量X的分布函数为F(X),密度函数为p(x)。那么,对任意0<p<1
的p,称F(X)=p的x为此分布的分位数,或者下侧分位数。简单的说,分位数
指的就2021是/11连/25续分布函数中的一个点,这个点对应概率p。
49
经计算
2021/11/25
50
2021/11/25
51
2021/11/25
52
2021/11/25
53
例题
2021/11/25
54
2021/11/25
55
2021/11/25
56
2021/11/25
57
2021/11/25
58
(1)提出统计假设 H0:F(X)=F0(X)
(2)选择适当统计量 2 m fi npi 2
在α=0.05下检验H0:通过该交叉路口的汽车数量服从 泊松分布P(λ).
2021/11/25
46
2021/11/25
47
接下来,就可以用
2021/11/25
来检验原假设
48
因分类数据要求个数不少于5个,故将{0,1}合并,{8,9, 10,11}合并,即将数据分成了8类。
2021/11/25
数来自泊松分布P(a);
(2)研究化肥对农作物产量的影响效果时,平均意义之 下,每测量单元(可能是)产量服从正态分布N(a,b).
2021/11/25
9
一个典型的参数检验过程
一、关于非参数统计
1. 总体参数
Example: Population Mean
2. 假定数据的形态为
Whole Numbers or Fractions Example: Height in Inches (72, 60.5, 54.7)
fr x
r
n!
1! n
r
!
F
r
1
x
1
F
x
nr
f
x
2021/11/25
25
(二) 秩统计量
1.秩统计量 2.秩统计量的分布和数字特征 3.线性符号秩统计量
2021/11/25
26
1.秩统计量
设X1,X2,…,Xn为来自总体X的简单随机样本(其中无重复 数据点)。记Ri为样本点Xi的秩,即
n
Ri I X j Xi ji
8
参数方法
• 定义:样本被视为从分布族的某个参数族抽取出来的 总体的代表,而未知的仅仅是总体分布具体的参数值, 推断问题就转化为对分布族的若干个未知参数的估计 问题,用样本对这些参数做出估计或者进行某种形式 的假设检验,这类推断方法称为参数方法。
• 比如: (1)研究保险公司的索赔请求数时,可能假定索赔请求
2021/11/25
36
例题
2021/11/25
37
2021/11/25
38
2021/11/25
39
2021/11/25
40
2021/11/25
41
2021/11/25
42
2021/11/25
43
分布拟合的χ2检验
2021/11/25
44
2021/11/25
45
例题
在某交叉路口记录每15秒钟内通过的汽车数量,共观 察了25分钟,得到100个数据如下:
i 1
npi
(3)由给定的显著性水平α,查卡方概率分布表确定临界值
Χα2(m-1-r)(这种检验是右侧检验)。
(4)利用样本值X1,…,Xn计算实际频数fi,再2 计2 m算1经 r 验概率p
,据以计算 2 m fi npi 2
i 1
npi
的值。
(5)结论,若 2 2 m 1 r ,则拒绝原假设,即
• 90年代有关非参数统计的研究和应用主要集中在非参 数回归和非参数密度估计领域,其中较有代表性的人 物是Silverman和J. Fan。
2021/11/25
20
二、非参数统计中常用统计量
(一)顺序统计量 1.顺序统计量 2.基于顺序统计量的统计量 3.顺序统计量的分布
2021/11/25
21
1.顺序统计量
第六章
非参数统计
2021/11/25
1
第六章 非参数统计
第一节 引言 第二节 单样本非参数检验 第四节 两样本的非参数检验 第四节 秩相关检验
2021/11/25
2
本章重点与难点
重点:了解和掌握单样本非参数检验、两样 本的非参数检验、秩相关检验的基本方法。 难点:符号秩检验的基本原理和秩相关检验 的基本原理及其计算方法。
28
2021/11/25
29
2.秩统计量的分布和数字特征
R1,R2,…1 n!
Ri的概率分布为:
P Ri
r
1 n
r 1, 2,3, 4,
,n
Ri的数学期望:
E
Ri
n 1 2
i 1, 2,
,n
Ri的方差:
Var
Ri
n
1 n
12
1
i 1, 2,
一、单样本拟合优度检验 二、符号检验 三、Cox-Stuart趋势检验 四、游程检验
2021/11/25
33
一、单样本拟合优度检验
假设X1,…,Xn取自总体 F(x), 我们感兴趣的检验问题为: H0:F(x)=F0(x),H1:F(x)≠F0(x),
其中 F0(x)是完全已知的分布函数,即不含未知参数。
其中
I
X j Xi
1 0
X j Xi X j Xi
Ri等于或小于Xi的Xj的个数
2021/11/25
27
【例6.1 】
表6-1 原始观测值及相应的秩统计表
原始观测值xi 9.3 0.2 3.2 7
3.1 6
1.5
秩Ri
7 14
6
3
5
2
对于【例6.1】给定的样本,分别给出了他们相应的秩。
2021/11/25
1、顺序统计量:对于简单随机样本X1,X2,…,Xn,如果按照 升幂排列,得到 X(1)≤X(2)≤…≤X(n) 称X(K)为k个顺序统计量; 称X(1),X(2),…,X(n)为一个顺序样本;
2021/11/25
22
2.基于顺序统计量的统计量
中位数
Md
X
n1 2
Xn
2
X
n 21
2
n为奇数 n为偶数
31
如果X1,X2,…,Xn为独立同分布的连续随机变量,并有关于0 的对称分布,则
E
Sn
n
an
Ri
E I
Xi
0
1 2
an
Ri
i 1
var Sn
1 4
n
an
Ri 2
i 1
区别于秩统计量的分布,线性符号统计量的分布要求总体分布 连续且对称。
2021/11/25
32
第二节 单样本非参数检验
分布的检验
非参数检验
中位数检验 秩和检验 符号检验
Wilcoxon 检验 Kruskal-Wallis 检验
Friedman检验 Spearman秩相关
Kolmogorov-Smirnov
相应的参数检验
独立样本t检验
成对样本 t-检验 单一因素ANOVA
双因素ANOVA Pearson相关性检验
2021/11/25
2021/11/25 与所有分布(例如有关秩的分布)无关.13
3. 参数统计与非参数统计比较
• 2. 数据的形态各异
– 定量数据
– 定序数据
– Example: Good-Better-Best
– 名义数据
– Example: Male-Female
2021/11/25
12
非参数方法
• 在不知总体分布的情况下如何利用数据 所包含的信息呢?一组数据的最基本的信 息就是次序.如果可以把数据点按大小 次序排队,每一个具体数目都有它的在 整个数据中(从最小的数起)的位置或次 序,称为该数据的秩(rank).
17
4. 非参数统计的历史
2021/11/25
18
非参数统计的历史
• 非参数统计的形成主要归功于20世纪 40年代~50年代化学家F.Wilcoxon等人 的工作。Wilcoxon于1945年提出两样 本秩和检验,1947年Mann和Whitney
二人将结果推广到两组样本量不等的 一般情况;
2021/11/25
出。 • 数据分析方法和手段不足。
2021/11/25
6
统计的方法论
• 就方法论而言,统计分析主要解决两方 面的问题:
– 寻找数据内部差异中共同的特征。 – 寻找数据之间本质的差异。
• 统计分析的目标是从数据中发现比数据 本身更为有用的知识
2021/11/25
7
2. 非参数统计方法简介
2021/11/25
2021/11/25
3
第一节 引言
一、关于非参数统计 二、非参数统计中常用统计量
2021/11/25
4
一、关于非参数统计
1. 统计的实践
2021/11/25
5
我们周围的世界
• 符号和数据就是整个世界。 • 数据繁衍,信息匮乏:观察数据激增,
设计数据细分。 • 数据的复杂性和不确定性的特点更为突
,n
2021/11/25
30
3.线性符号秩统计量
设Ri+在∣X1∣,∣X2∣,…,∣Xn∣中的秩,定义an+(.)为在 整数1,2,…,n上的非负函数,且满足an+(1),…,an+(n)不全 为0,则称
n
Sn an Ri I Xi 0 i 1
为线性符号秩统计量。
2021/11/25
特别当数据可以使用参数模型的时候。 Example: Converting Data From Ratio to Ordinal Scale
• 2. 大样本手算相当麻烦 • 3. 一些表不易得到
2021/11/25
16
非参数统计的主要内容
内容
2独立样本 2 配对样本 /单一样本 >2独立样本
两因素 相关性检验
而在统计学中,我们常常需要根据观察数据,对数据 背后的估计做假设检验。针对分类数据的检验,是由 英国统计学家Pearson于1900年首次提出的。
2021/11/25
35
分类数据的χ2检验
而在统计学中,我们常常需要根据观察数据,对数据 背后的估计做假设检验。针对分类数据的检验,是由 英国统计学家Pearson于1900年首次提出的。
2021/11/25
14
非参数检验的优点
• 对总体假定较少,有广泛的适用性,结果稳定性较好。 – 1. 假定较少 – 2. 不需要对总体参数的假定 – 3. 与参数结果接近
• 针对几乎所有类型的数据形态。 • 容易计算
– 在计算机盛行之前就已经发展起来。
2021/11/25
15
非参数检验的弱点
• 1. 可能会浪费一些信息
23
3.顺序统计量的分布
分布函数为
Fr x P Xr x P 至少r个Xi小于或等于x
n
P X1, X 2, , X n中恰好有j个小于x jr
n
Cnj F j x 1 F xn j jr
r
n!
1! n
r
!
Fx
t r1
1t
nr dt
0
2021/11/25
24
第r个顺序统计量的密度函数为
• Pitman于1948年回答了非参数统计方 法相对于参数方法来说的相对效率1方9
非参数统计的历史(续)
• 60年代中后期,Cox和Ferguson最早将非参数方法应用 于生存分析。
• 70年代到80年代,非参数统计借助计算机技术和大量 计算获得更稳健的估计和预测,以P.J.Huber以及 F.Hampel为代表的统计学家从计算技术的实现角度, 为衡量估计量的稳定性提出了新准则。
2021/11/25
34
χ2拟合优度检验
凡是学过生物学的人都知道,19世纪,有一个伟大的生物遗 传学家Mendel,他通过对豌豆几十年的观察,而使遗传学前 进了一大步。当时,他通过大量的试验观察到,当黄色圆型 种子和绿色皱纹种子杂交后,产生了556个黄圆、黄皱、绿圆 和绿皱的豌豆,其个数分别为315、101、108和32个。由此 Mendel认为这四种的比例在理论上应为9:3:3:1。也就是说, 这四种豌豆出现的概率应为:9/16,3/16,3/16,1/16。这就是 Mendel的遗传理论。
3. 有很强的假定
Example: 正态分布
4. 例子: Z Test, t Test, 2 Test
2021/11/25
10
一个例子:
对两组学生进行语法测试,如何比较两 组学生的成绩是否存在差异?
2021/11/25
11
非参数检验过程
• 1.不涉及总体的分布
– Example: Probability Distributions, Independence
认为总体的分布函数不为F0(X);反之,则接受原假设,即认 为总体的分布函数为F0(X)。
2021/11/25
59
二、符号检验
假定用总体中位数M来表示中间位置,并且X1,…,Xn 独立同分布,这意味着X1,…,Xn取大于M的概率应该与 取小于M的概率均为1/2。对于我们所研究的问题,可 以看作是只有两种可能“成功”或“失败”。成功为 “+”,即大于中位数;失败为“-”,即小于中位数M。 令:
极差
R X n X 1
P分位数
mp
X
k
X
k
X
k 1
X
K
n
1
p
k
, ,
k p n 1
k p k 1
n 1
n 1
设连续随机变量X的分布函数为F(X),密度函数为p(x)。那么,对任意0<p<1
的p,称F(X)=p的x为此分布的分位数,或者下侧分位数。简单的说,分位数
指的就2021是/11连/25续分布函数中的一个点,这个点对应概率p。
49
经计算
2021/11/25
50
2021/11/25
51
2021/11/25
52
2021/11/25
53
例题
2021/11/25
54
2021/11/25
55
2021/11/25
56
2021/11/25
57
2021/11/25
58
(1)提出统计假设 H0:F(X)=F0(X)
(2)选择适当统计量 2 m fi npi 2
在α=0.05下检验H0:通过该交叉路口的汽车数量服从 泊松分布P(λ).
2021/11/25
46
2021/11/25
47
接下来,就可以用
2021/11/25
来检验原假设
48
因分类数据要求个数不少于5个,故将{0,1}合并,{8,9, 10,11}合并,即将数据分成了8类。
2021/11/25
数来自泊松分布P(a);
(2)研究化肥对农作物产量的影响效果时,平均意义之 下,每测量单元(可能是)产量服从正态分布N(a,b).
2021/11/25
9
一个典型的参数检验过程
一、关于非参数统计
1. 总体参数
Example: Population Mean
2. 假定数据的形态为
Whole Numbers or Fractions Example: Height in Inches (72, 60.5, 54.7)
fr x
r
n!
1! n
r
!
F
r
1
x
1
F
x
nr
f
x
2021/11/25
25
(二) 秩统计量
1.秩统计量 2.秩统计量的分布和数字特征 3.线性符号秩统计量
2021/11/25
26
1.秩统计量
设X1,X2,…,Xn为来自总体X的简单随机样本(其中无重复 数据点)。记Ri为样本点Xi的秩,即
n
Ri I X j Xi ji
8
参数方法
• 定义:样本被视为从分布族的某个参数族抽取出来的 总体的代表,而未知的仅仅是总体分布具体的参数值, 推断问题就转化为对分布族的若干个未知参数的估计 问题,用样本对这些参数做出估计或者进行某种形式 的假设检验,这类推断方法称为参数方法。
• 比如: (1)研究保险公司的索赔请求数时,可能假定索赔请求
2021/11/25
36
例题
2021/11/25
37
2021/11/25
38
2021/11/25
39
2021/11/25
40
2021/11/25
41
2021/11/25
42
2021/11/25
43
分布拟合的χ2检验
2021/11/25
44
2021/11/25
45
例题
在某交叉路口记录每15秒钟内通过的汽车数量,共观 察了25分钟,得到100个数据如下:
i 1
npi
(3)由给定的显著性水平α,查卡方概率分布表确定临界值
Χα2(m-1-r)(这种检验是右侧检验)。
(4)利用样本值X1,…,Xn计算实际频数fi,再2 计2 m算1经 r 验概率p
,据以计算 2 m fi npi 2
i 1
npi
的值。
(5)结论,若 2 2 m 1 r ,则拒绝原假设,即
• 90年代有关非参数统计的研究和应用主要集中在非参 数回归和非参数密度估计领域,其中较有代表性的人 物是Silverman和J. Fan。
2021/11/25
20
二、非参数统计中常用统计量
(一)顺序统计量 1.顺序统计量 2.基于顺序统计量的统计量 3.顺序统计量的分布
2021/11/25
21
1.顺序统计量
第六章
非参数统计
2021/11/25
1
第六章 非参数统计
第一节 引言 第二节 单样本非参数检验 第四节 两样本的非参数检验 第四节 秩相关检验
2021/11/25
2
本章重点与难点
重点:了解和掌握单样本非参数检验、两样 本的非参数检验、秩相关检验的基本方法。 难点:符号秩检验的基本原理和秩相关检验 的基本原理及其计算方法。
28
2021/11/25
29
2.秩统计量的分布和数字特征
R1,R2,…1 n!
Ri的概率分布为:
P Ri
r
1 n
r 1, 2,3, 4,
,n
Ri的数学期望:
E
Ri
n 1 2
i 1, 2,
,n
Ri的方差:
Var
Ri
n
1 n
12
1
i 1, 2,
一、单样本拟合优度检验 二、符号检验 三、Cox-Stuart趋势检验 四、游程检验
2021/11/25
33
一、单样本拟合优度检验
假设X1,…,Xn取自总体 F(x), 我们感兴趣的检验问题为: H0:F(x)=F0(x),H1:F(x)≠F0(x),
其中 F0(x)是完全已知的分布函数,即不含未知参数。
其中
I
X j Xi
1 0
X j Xi X j Xi
Ri等于或小于Xi的Xj的个数
2021/11/25
27
【例6.1 】
表6-1 原始观测值及相应的秩统计表
原始观测值xi 9.3 0.2 3.2 7
3.1 6
1.5
秩Ri
7 14
6
3
5
2
对于【例6.1】给定的样本,分别给出了他们相应的秩。
2021/11/25
1、顺序统计量:对于简单随机样本X1,X2,…,Xn,如果按照 升幂排列,得到 X(1)≤X(2)≤…≤X(n) 称X(K)为k个顺序统计量; 称X(1),X(2),…,X(n)为一个顺序样本;
2021/11/25
22
2.基于顺序统计量的统计量
中位数
Md
X
n1 2
Xn
2
X
n 21
2
n为奇数 n为偶数
31
如果X1,X2,…,Xn为独立同分布的连续随机变量,并有关于0 的对称分布,则
E
Sn
n
an
Ri
E I
Xi
0
1 2
an
Ri
i 1
var Sn
1 4
n
an
Ri 2
i 1
区别于秩统计量的分布,线性符号统计量的分布要求总体分布 连续且对称。
2021/11/25
32
第二节 单样本非参数检验
分布的检验
非参数检验
中位数检验 秩和检验 符号检验
Wilcoxon 检验 Kruskal-Wallis 检验
Friedman检验 Spearman秩相关
Kolmogorov-Smirnov
相应的参数检验
独立样本t检验
成对样本 t-检验 单一因素ANOVA
双因素ANOVA Pearson相关性检验
2021/11/25