非参数统计_王星_第二版勘误表20150101版

合集下载

非参数统计课件

非参数统计课件

什么是假设 检验?
假设检验用来判断 一个统计假设在给 定数据下是否成立。
非参数假设 检验的基本 思想
非参数假设检验不
依赖于总体参数的
具体分布。
U检验
U检验是一种常见的 非参数假设检验方 法。
KolmogorovSmirnov检验
KolmogorovSmirnov检验用来检 验样本是否符合给 定分布。
什么是核密度估计?
核密度估计是一种估计概率密度函数
概率密度函数和密度函数的区
2
的非参数方法。

概率密度函数是连续随机变量的密度
函数,而密度函数是离散随机变量的
3
高斯核密度估计
密度函数。
高斯核密度估计使用高斯核函数来估
计概率密度函数。
交叉验证方法
4
交叉验证方法可以用来选择合适的核 函数带宽。
分析?
回归分析用来建立变量之间的依赖关系。
Nadaraya-Watson核回归
Nadaraya-Watson核回归通过核函数加权来 估计回归函数。
非参数回归分析的基本思想
非参数回归分析不需要对回归函数做具体的 形式假设。
局部加权回归
局部加权回归在核回归的基础上引入了距离 权重来进一步提高估计精度。
非参数统计ppt课件
# 非参数统计PPT课件 ## 简介 - 什么是非参数统计? - 非参数统计和参数统计的区别
统计分布
什么是统计分布?
统计分布描述随机变量的不确定性和可能性。
常见的统计分布
包括正态分布、二项分布、泊松分布等。
经验分布函数
经验分布函数用样本数据来近似未知总体分布函数。
核密度估计
1
总结
1

非参数统计

非参数统计

例外
例外
有的统计问题,从不同的角度,可以理解为参数性的,也可以理解为非参数性的。例如线性回归(见回归分 析)问题,若关心的是估计回归系数,它只是有限个实参数,因而可以看成是参数性的。但是,如果对随机误差 的分布类型没有作任何假定,则从问题的总体分布这个角度看,也可以看成是非参数性的。
统计方法
统计方法
谢谢观看
重要的非参数统计方法秩方法是基于秩统计量(见统计量)的一类重要的非参数统计方法。设有样本 X1,X2,…,Xn,把它们由小到大排列,若Xi在这个次序中占第Ri个位置(最小的占第1个位置),则称Xi的秩为 Ri(i=1,2,…,n)。1945年F.威尔科克森提出的"两样本秩和检验"是一个有代表性的例子。设X1,X2,…,Xm 和Y1,Y2,…,Yn分别是从分布为 F(x)和 F(x-θ)的总体中抽出的样本,F连续但未知,θ也未知,检验假设 H:θ=0,备择假设为θ>0(见假设检验)。记Yi在混合样本(X1,X2,…,Xm,Y1,Y2,…,Yn)中的秩为Ri, 且为诸秩的和,当W >C时,否定假设H,这里C决定于检验的水平。这是一个性能良好的检验。秩方法的一个早期 结果是C.斯皮尔曼于1904年提出的秩相关系数。设(X1,Y1),(X2,Y2),…,(Xn,Yn)是从二维总体(X,Y) 中抽出的样本,Ri为Xi在(X1,X2,…,Xn)中的秩,Qi为Yi在(Y1,Y2,…,Yn)中的秩,定义秩相关系数为 (Ri,Qi)(i=1,2,…n)的通常的相关系数(见相关分析)。它可以作为X、Y之间相关程度的度量,也可用于检 验关于X、Y独立性的假设。
次序统计量和U统计量在非参数统计中也有重要应用。前者可用于估计总体分布的分位数(见概率分布)、 检验两总体有相同的分布及构造连续总体分布的容忍限和容忍区间(见区间估计)等。后者主要用于构造总体分 布的数字特征的一致最小方差无偏估计(见点估计)及基于这种估计的假设检验。

第六章 非参数统计

第六章 非参数统计
2019/3/25 版权所有 BY 统计学课程组 15
3.线性符号秩统计量
设Ri+在∣X1∣,∣X2∣,…,∣Xn∣中的秩,定义an+(.)为在 整数1,2,…,n上的非负函数,且满足an+(1),…,an+(n)不全 为0,则称
S
n
a R I X 0
n i i i 1
Χα2(m-1-r)(这种检验是右侧检验)。
(4)利用样本值X1,…,Xn计算实际频数fi,再计算经验概率p 2 m fi npi 的值。 ,据以计算 2 npi i 1

(5)结论,若
认为总体的分布函数不为F0(X);反之,则接受原假设,即认
为总体的分布函数为F0(X)。
m 1 r ,则拒绝原假设,即
地段的汽车辆数服从泊松分布。
2019/3/25
版权所有 BY 统计学课程组
25
二、符号检验
假定用总体中位数M来表示中间位置,并且X1,…,Xn
独立同分布,这意味着X1,…,Xn取大于M的概率应该与 取小于M的概率均为1/2。对于我们所研究的问题,可 以看作是只有两种可能“成功”或“失败”。成功为 “+”,即大于中位数;失败为“-”,即小于中位数M。
2019/3/25
版权所有 BY 统计学课程组
12
1.秩统计量
设X1,X2,…,Xn为来自总体X的简单随机样本(其中无重复 数据点)。记Ri为样本点Xi的秩,即
Ri
I X
j i
n
j
Xi X j Xi X j Xi
其中
1 I X j Xi 0
2019/3/25
版权所有 BY 统计学课程组

chapter2非参数统计详解

chapter2非参数统计详解

将样本显示的特点作为对总体的猜想,并优先选作 备择假设,零假设是相对于备择假设而出现的.
(2) 检验的 p 值和显著性水平的作用 p 值:在一个假设检验中拒绝零假设的最小显著水平. 判断法则:
(3) 两类错误 第一类错误(弃真错误): H0为真,拒绝H0 一般由检验显著性水平控制 第二类错误(取伪错误): H0为假,接受H0 两类错误相互制衡,不能同时都减到很小. 检验的势

置信区间和假设检验的关系
就单变量位置参数而言,置信区间和双边假设检验有 密切的联系. (1) 检验显著水平 a 和置信水平 1-a 是两个对立事件的概 率 (2) 若水平为 a的拒绝域为 W,则其对立事件是置信水平 为 1-a 的置信区间; (3) 若 H0在1-a的置信区间内则接受 H0,否则拒绝 H0. 置信区间和假设检验的这种关系成为对偶关系. 例:正态总体在方差已知情况下对均值的U检验.
d
又由F ( X i ) 是来自U(0,1)上的iid样本,则有
F ( X1 ).F ( X 2 )...F ( X n ) Wi,Wi U (0,1), iid 样本
i 1 d n
2 n 所以 U1,U2 ,...,Un
为来自(0, 1)上均匀分布的iid样本。
证明
(2)
证明 最大与最小次顺统计量的分布:在上式中分别取r=n和r=1. (3)
这里 s>r。 容量为n的样本最大顺序统计量x(n)与样本最小顺序统计 量x(1)之差称为样本极差,简称极差,常用R=x(n)-x(1)表示。
2.分位数 (1) 样本分位数
(2) 分布分位数
例如标准正态分布
3.分位数的估计
第二章
基本概念
§2.1 非参数统计概念与产生 1.非参数统计的概念

统计学第十八章非参数统计(共11张PPT)

统计学第十八章非参数统计(共11张PPT)
统计学第十八章非参数 统计
第一页,共11页。
第一节 等级相关
等级相关Rank correlation的应用:
当资料不呈正态分布、 不知是否属正态分布、 等级资料等
(不宜用直线回归与相关—积差相关,分 析法。改用等级相关)。
第二页,共11页。
一、Spearman 等级相关
Spearman’s rank correlation:只适用于分析两个变 量间是否在数量上相关 用于行列分组都有等级意义时的相关分析
Kendall等级相关的无效假设是两变量的等级独立,即在无效假设成立时,S有期望值为0, 为0。
基本思想:用一个统计量来衡量以一个变量的等级为标准时,另一个变量的等级与它不一致的情况。
3、按公式求等级相关系数 1、将x,y分别由小到大列出等级,数字相同取平均等级
四、R C列联表的等级相关
6 d 2
2、把两变量的等级列成表达式19-3的形式。即以x的等 级为顺序排列。加上两行:Ry右边更小的等级个数(包 括相等的),然后合计,之前加负号; Ry右边更大的 等级个数,然后合计,之前加正号。两者代数和称S
3、计算相关系数
n
S (n 1)
2
第六页,共11页。
4、 的统计意义检验
Kendall等级相关的无效假设是两变量的等级独立,即在无效 假设成立时,S有期望值为0, 为0。S的方差为:
没有相同等级时 :
2 s
n(n
1)(2n 18
5)
有相同等级时 :
2 s
1 [n(n 18
1)(2n
5)
t (t
1)(2t
5)
u(u
1)(2u
5)]
9n(n
1 1)(n

七章节非参数统计

七章节非参数统计

检验环节
1.拟定配对样本,分别计算差别正与负旳数目,无差 别则记为0,将它从样本中剔除,并相应地降低样本容 量n,把正负号数目之和视为样本总个数(n) 。
2.
H0: p=0.5 ; H1:p≠0.5
3.观察样本容量,假如n≤25,则作为二项分布处理
假如n>25,则作为正态近似处理。
Z
ˆ P 0.5
计算检验统计量
2 k ( foi fei )2
i 1
f ei
抽样并对样本资料编成频 数分布,形成k个互斥旳类 型组。 (f0)
以“原假设H0为真”导出 一组期望频数(fe)
比较χ2值与临界值 作出检验判断
2
2 (k 1m)
自由度(df)=k-1-m。
其中k为组数。(各组理论频数不得不大于5,如不足5 ,可合并相邻旳组,如需合并,则k为合并后旳组数)
拒绝域 现检验统计量(-)=3 (即3个负号),0.073>0.05 所以,原假设H0:P=0.5在5%明显性水平上不能被 拒绝。也即不能以为职员在观看影片前后旳认识有 明显提升。
例2:随机抽取60名消费者对甲、乙两种品牌旳饮料评 分,甲 、乙得分之差为“+”号者35个,“-”号15 个,“0”号10个 。以明显性水平α=0.05检验两种饮料是否同等受欢迎。 解:H0:P=0.5, H1:P≠0.5
检验环节 将样本数据配对并计算各对正负差值
将差数取绝对值按从小到大顺序排列并编上等级, 即拟定顺序号1、2、3等。对于相等旳值,则取其位 序旳平均数为等级
建立假设:H0:T+= T- ; H1 : T+ ≠T-(双侧) H1 :T+>T-或T+<T-(单侧)
计算检验统计量: 当n>25时 Z T n(n 1) / 4

非参数统计分析课件

非参数统计分析课件
广泛的应用领域
SPSS广泛应用于社会科学、医学、经济学等领域,具有很高的实 用价值。
SAS软件
01
强大的数据处理能 力
SAS具有强大的数据处理和数据 管理功能,能够进行复杂的数据 清洗、转换和整合。
02
03
灵活的编程语言
企业级应用
SAS使用强大的SAS语言进行编 程,可以进行定制化的数据处理 和分析。
定义与特点
定义
非参数统计分析是一种统计方法,它不依赖于任何关于数据 分布的假设,而是基于数据本身的特点进行统计分析。
特点
非参数统计分析具有很大的灵活性,可以处理各种类型的数 据,并且对数据的分布特征没有严格的要求。它通常用于探 索数据的基本特征,如数据的集中趋势、离散程度和形状等 。
与参数统计学的区别
总结词
发现商品之间的关联关系、提高销售量
详细描述
通过关联性分析方法,如Apriori算法、FPGrowth算法等,发现商品之间的关联关系 ,生成推荐列表,提高销售量,提升客户满 意度。
案例三:聚类分析在客户细分中的应用
总结词
将客户划分为不同的群体、制定个性化营销 策略
详细描述
利用聚类分析方法,如K-means聚类、层 次聚类等,将客户划分为不同的群体,针对 不同群体制定个性化营销策略,提高营销效
数据稀疏性
高维数据可能导致数据稀疏,影响统计分析的准确性 。
计算复杂性
高维数据的计算复杂性增加,需要采用高效的算法和 计算技术。
大数据处理技术在非参数统计分析中的应用前景
分布式计算
利用分布式计算技术,可以处理大规模数据集,提高非参数统计 分析的效率。
数据挖掘技术
数据挖掘技术可以用于发现数据中的模式和关系,为非参数统计 分析提供支持。

非参数统计(non-parametricstatistics)又称任意分布检验(.

非参数统计(non-parametricstatistics)又称任意分布检验(.

2
0.05(2)
=5.99
P 0.05
按=0.05水准,拒绝H 0,接受H1,可认为小白鼠接 种三种不同菌型伤寒杆 菌后存活日数有差别。
四、等级资料的比较
适用范围:完全随机设计分组的两个、以及两个以 上样本等级程度比较,目的在于判断两个以及多个总体 分布是否相同。
注意:等级资料对程度的比较不应选检验。

T
在上下界值范围外时,则 P 。
n 9
T 的界值范围是5-40 0.05
P 0.05
按=0.05水准,不拒绝 H 0,故不能认为两法测定 空气中 CS 2的含量有差别。
2、正态近似法
当对子数n 50时,计算统计量 u值。
T n(n 1) / 4 0.5 u n(n 1)(2n 1) / 24
2
0.05(2)
=5.99
P 0.05
按=0.05水准,拒绝H 0,接受H1,可认为三组病人 血浆总皮质醇含量有差别(不同或不全同)。
若还希望分析具体哪些组之间有差别,需进一步两两组 间比较。方法见《卫生统计学》第五版P196,《医学统计学》 第二版P183等。
当相同秩次较多(超过25%)时,需进行如下校正。
H 0:血浆总皮质醇含量的三个总体分布相同 H1:血浆总皮质醇含量的三个总体分布不同或不全同 0.05
(二)计算统计量H值 1、编秩
先将各组数据分别由小到大排列,统一编秩,不同组的
相同数据取平均秩次。 2、求各组秩和 R
i 本例 R1=96.5 R2= 117.5 R3=251 3、计算统计量 H 值 2 n 为各组例数 R i 12 i H ( ) 3( N 1) N n N ( N 1) n i i 12 96.52 117.52 2512 H ( ) 3(30 1) 18.12 30(301) 10 10 10

第一章非参数统计分析

第一章非参数统计分析

然而,在实际生活中,那种对总体分布的假定并不是 能随便做出的。有时,数据并不是来自所假定分布的总体。 或者数据根本不是来自一个总体,数据因为种种原因被严 重污染。这样,在假定总体分布的情况下进行推断的做法 就可能产生错误的结论。于是,人们希望在不假定总体分 布的情况下,尽量从数据本身来获得所需要的信息。这就 是非参数统计的宗旨。因为非参数统计方法不利用关于总 体分布的相关信息,所以,就是在对于总体分布的任何信 息都没有的情况下,它也能很容易而又较为可靠地获得结 论。这时非参数方法往往优于参数方法。在台湾这种方法 称为“无母数统计”,即不知到总体信息的统计方法。
H0 : M 7000; H1 : M 7000
因为S 5 ,P(S 5) 0.1508 0.05 ,故接受原假设。
第二节 秩统计量
一、秩统计量
设 X1, ,Xn来自总体X的样本,记 R i 为样本点
X i的秩,即
n
Ri (Xi Xj 0)
j1
(XiXj 0) 1 0
Xi Xj Xi Xj
第二节 计数统计量
一、计数统计量
设是一个随机变量,对于一个给定的常数0, 定义随机变量
Ψ (X 0 0 )
1 ψ(t) 0
t 0 t 0
称随机变量为X按0分段的计数统计量。即满足 括号里的条件得1,否则得0。
二、计数统计量的应用
n
最常用的计数统计量为 B i i1
符号检验。设随机变量X1,…,Xn是从某个总体X中
思考的要点 什么是计数统计量; 什么是秩统计量,为什么要讨论秩; 为什么要讨论秩的分布、秩的期望和方差; 什么是符号秩和线性符号秩; 线性符号秩的期望和方差。
第一节 关于非参数统计
在参数统计学中,最基本的概念是总体、 样本、随机变量、概率分布、估计和假设检验 等。其很大一部分内容是建立在正态分布相关 的理论基础之上的。总体的分布形式或分布族 往往是给定的或者是假定了的,所不知道的仅 仅是一些参数的值。

非参数统计王星版第一章课后答案

非参数统计王星版第一章课后答案

850] 0.03421 0.07553 0.12521 0.16771 0.18180
#p=[0.00795
0.16538 0.12553 0.07418 0.03400 0.00850]
#1.5 uniroot(f=function(x) 2*x^3-4*x^2+3*x-6, interval=c(-10,10)) f=function(x){2*x^3-4*x^2+3*x-6} f(0) a=-10 b=10 root=function(a,b) { c=(a+b)/2; while(abs(f(c))>0.00001){ if(f(c)*f(a)<0){b=c; c=(a+b)/2;} else {a=c; c=(a+b)/2;}} c
# 当随机取 10000 次的一个结果 1684 1256 743 338 96]
a=[71 321 774 1255 1637 1825
# p=[0.0071 0.0321 0.0774 0.1255 0.1637 0.1825 0.1684 0.1256 0.0743 0.0338 0.0096] #当随机取十万次数据的一个结果 #a=[795 3400 3421 7553 12521 16771 18180 16538 12553 7418
Settings\\Administrator\\桌面\\非参数统计配套数据\\各章数据\\第 一章\\student.txt",header = T) student1=as.data.frame(student)
means=apply(student1[,2:6],1,mean) b1=data.frame(student1,means)

《非参数统计》课件

《非参数统计》课件

核密度估计
详细讲解核密度估计方法, 可用于估计未知分布函数 的概率密度函数。
K近邻算法
介绍K近邻算法在非参数统 计中的应用,用于分类和 估计未知函数。
常用方法本 的中位数差异,对于不 符合正态分布的数据非 常有用。
Kruskal-Wallis检验
一种非参数方法,用于 比较多个独立样本的总 体分布,可以替代方差 分析。
介绍常用于非参数统计的软件和工具,帮助读者选择适合自己的数据分析工具。
3 Q&A
解答读者在非参数统计方面的疑问和问题,提供进一步的讨论和交流。
总结
1 非参数统计的优势和劣势总结
总结非参数统计方法和传统参数统计方法的优势和劣势,帮助选择合适的分析方法。
2 非参数统计的前景和未来发展方向
讨论非参数统计的前景和未来的发展方向,以及可能的研究方向。
附录
1 参考文献
提供相关参考文献,方便读者进一步学习非参数统计的理论和应用。
2 常用软件和工具介绍
Mann-Whitney U检 验
非参数的秩和检验方法, 用于比较两个独立样本 的总体分布。
实例应用
医疗领域的应用
展示非参数统计在医疗研究 中的应用,如临床试验和数 据分析。
社会调查中的应用
探讨非参数统计在社会调查 和民意调查中的应用,如对 人口统计数据的分析。
金融风险评估中的应用
介绍非参数统计在金融领域 中的应用,如风险评估和市 场预测。
《非参数统计》PPT课件
非参数统计是一门关于数据分析的重要领域,本课件将介绍非参数统计的基 本原理、常用方法和实例应用,以及其在医疗、社会调查和金融方面的应用。
简介
非参数统计是一种不基于总体概率分布的统计方法,适用于各种数据类型,具有广泛的应用场景 和灵活性。

中国人民大学非参数统计(51)

中国人民大学非参数统计(51)

1. 统计的实践
我们周围的世界
符号和数据就是整个世界。 数据繁衍,信息匮乏:观察数据激增,设计数据
细分。 数据的复杂性和不确定性的特点更为突出。 数据分析方法和手段不足。
统计的方法论
就方法论而言,统计分析主要解决两方面的 问题:
– 寻找数据内部差异中共同的特征。 – 寻找数据之间本质的差异。
称重复数据的个数为结长。
例1:3.8 3.2 1.2 1.2 3.4 3.2 3.2 解:结长为3。
U统计量
核的概念
例:总体期望有无偏估计X1,总体期望是1可估的, X1是 总体期望的核。
对称核和U统计量的概念
U统计量的特征计算
U统计量的大样本性质
U统计量举例
本章内容回顾
4
3
2
1
0 0.0
5.0
10.0
RANK of SCORE
15.0
20.0
25.0
Std. Dev = 6.28 Mean = 13.0 N = 12.00
非参数检验过程
1.不涉及总体的分布
– Example: Probability Distributions, Independence
2. 数据的形态各异
3. 参数统计与非参数统计比较
非参数检验的优点
对总体假定较少,有广泛的适用 性,结果稳定性较好。
– 1. 假定较少 – 2. 不需要对总体参数的假定 – 3. 与参数结果接近
针对几乎所有类型的数据形态。 容易计算
– 在计算机盛行之前就已经发展起来。
非参数检验的弱点
1. 可能会浪费一些信息
90年代有关非参数统计的研究和应用主要集中在非参 数回归和非参数密度估计领域,其中较有代表性的人 物是Silverman和J. Fan。

非参数统计方法的基本概述

非参数统计方法的基本概述

非参数统计方法的基本概述非参数统计方法是一种在统计学中常用的方法,它不依赖于总体分布的具体形式,而是根据样本数据的秩次或距离来进行推断。

本文将对非参数统计方法进行基本概述,包括其定义、特点、应用领域以及常见的非参数统计方法等内容。

一、定义非参数统计方法是指在统计推断中,不对总体分布做出任何假设的一类统计方法。

它不依赖于总体的具体分布形式,而是根据样本数据的秩次或距离进行推断。

非参数统计方法主要用于小样本或总体分布未知的情况下,具有较强的普适性和灵活性。

二、特点1. 不依赖总体分布:非参数统计方法不对总体的分布形式做出任何假设,适用于各种类型的数据分布。

2. 适用范围广泛:非参数统计方法适用于各种样本类型和数据类型,特别适用于小样本或总体分布未知的情况。

3. 鲁棒性强:非参数统计方法对异常值不敏感,能够有效应对数据中的离群点。

4. 数据要求低:非参数统计方法对数据的要求相对较低,不需要满足正态性等假设。

三、应用领域非参数统计方法在各个领域都有广泛的应用,特别适用于以下情况:1. 医学研究:在临床试验、流行病学调查等医学研究中,非参数统计方法常用于分析医学数据。

2. 社会科学:在心理学、教育学等社会科学领域,非参数统计方法常用于分析问卷调查数据、实验数据等。

3. 工程技术:在质量控制、可靠性分析等工程技术领域,非参数统计方法常用于分析生产数据、故障数据等。

4. 金融领域:在风险管理、投资分析等金融领域,非参数统计方法常用于分析金融数据、市场数据等。

四、常见的非参数统计方法1. 秩和检验:Wilcoxon秩和检验、Mann-Whitney U检验等。

2. 秩次相关检验:Spearman秩相关系数检验、Kendall秩相关系数检验等。

3. 秩次回归分析:Kendall秩相关系数回归、Spearman秩相关系数回归等。

4. 分布无关检验:Kolmogorov-Smirnov检验、Anderson-Darling检验等。

非参数统计分析教学课件

非参数统计分析教学课件

Python
介绍
Python是一种通用编程语 言,因其易读性和易用性 而被广泛用于数据分析和 科学计算。
特点
Python拥有强大的科学计 算库,如NumPy、 Pandas和SciPy等,可进 行数据清洗、统分析等 多种任务。
教程资源
Python的在线教程和书籍 资源丰富,同时还有大量 的科学计算社区和论坛可 供交流。
数据流处理
数据流处理技术可以实时处理大规模数据,为非参数统计分析提供 新的可能性。
云计算
云计算平台可以提供弹性可扩展的计算资源,方便非参数统计分析 的进行。
THANKS
感谢观看
洗和校验。
高维数据的非参数统计分析挑战
维度诅咒
高维数据可能导致传统的非参数统计分析方法失 效,需要开发新的方法。
数据稀疏性
高维数据可能导致数据稀疏,使得统计分析结果 不稳定。
特征选择
高维数据需要进行特征选择,以减少噪声和冗余 ,提高分析效率。
大数据处理技术在非参数统计分析中的应用前景
并行计算
利用并行计算技术可以提高非参数统计分析的效率和准确性。
应用场景与优势
应用场景
适用于数据类型复杂、分布不明确或 数据量较小的情况;例如,生物医学 研究、金融数据分析、社会学调查等 领域。
优势
能够更好地揭示数据的内在结构和关 系;对数据的假设较少,避免过度拟 合和误判;同时具有较高的灵活性和 普适性,能够适用于多种场景。
02
CATALOGUE
非参数统计方法
聚类分析
01
聚类分析是一种非参数统计方法 ,用于将相似的对象归为同一类 ,将不相似的对象归为不同类。
02
聚类分析通过计算对象之间的距 离或相似性来将它们分组,常见 的聚类分析方法有层次聚类、K均 值聚类和DBSCAN聚类等。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

《非参数统计》第二版勘误表
中国人民大学统计学院王星范超褚挺进和12级非参1班诸多同学的友情贡献
C)
附录:
附1(P167 表5.15):
根据公式μAB(ij)=lnp ij−μ−μA(i)−μB(j)求得μAB(ij)如下表:
表5.15 A与B交互作用的期望值
B B(1) B(2) B(3) B(4)
A(1) 4.455 2.466 2.142 2.993
A(2) 4.438 2.489 2.114 2.956
A(3) 4.687 2.700 2.361 3.206
A(4) 5.221 3.199 2.868 3.732
A(5) 5.817 3.794 3.436 4.345
附2(P172 表5.18):
表5.18 对数线性模型的模型拟合优度检验结果
df LRTG^2 p.lrt PearsonQ p.pear 结论(X,Y,Z) 7 12.17481 0.09495478 12.11569 0.09681789 独立(XY,Z) 5 10.91254 0.05314193 10.90389 0.05331917 独立(X,YZ) 5 6.360043 0.2727443 6.346698 0.27393 独立(Y,XZ) 6 10.85204 0.09305822 10.92613 0.09068638 独立(XY,XZ) 4 9.589775 0.04793489 9.538042 0.04897142 不独立(XY,YZ) 3 5.097773 0.1647761 5.088329 0.1654423 独立(XZ,YZ) 4 5.037279 0.2834937 5.024954 0.2847466 独立
程序:
f=function(x)
{
df=x$df #求自由度
lrt=x$lrt #似然比检验统计量
p.lrt=1-pchisq(x$lrt,x$df) #似然比检验统计量的p值
Q=x$pear #pearson检验统计量Q
p.pear=1-pchisq(x$pear,x$df) #pearson检验统计量Q的p值
if(p.lrt<0.05|p.pear<0.05){conclusion="不独立"}else{conclusion="独立"}
list(df,lrt,p.lrt,Q,p.pear,conclusion)
}
A=matrix(c(55,58,66,85,66,50),nrow=2)
B=matrix(c(45,41,87,70,41,39),nrow=2)
a=array(c(A,B),dim=c(2,3,2))
m1=loglin(a,list(1,2,3)) #模型(X,Y,Z)
## 2 iterations: deviation 1.136868e-13
f1=f(m1)
m2=loglin(a,list(c(1,2),3)) #模型(XY,Z)
## 2 iterations: deviation 1.136868e-13
f2=f(m2)
m3=loglin(a,list(1,2:3)) #模型(X,YZ)
## 2 iterations: deviation 0
f3=f(m3)
m4=loglin(a,list(2,c(1,3)))#模型(Y,XZ)
## 2 iterations: deviation 0
f4=f(m4)
m5=loglin(a,list(c(1,2),c(1,3)))#模型(XY,XZ)
## 2 iterations: deviation 5.684342e-14
f5=f(m5)
m6=loglin(a,list(c(1,2),c(2,3)))#模型(XY,YZ)
## 2 iterations: deviation 0
f6=f(m6)
m7=loglin(a,list(c(1,3),c(2,3)))#模型(XZ,YZ)
## 2 iterations: deviation 0
f7=f(m7)
y=rbind(f1,f2,f3,f4,f5,f6,f7)
rownames(y)=c("(X,Y,Z)","(XY,Z)","(X,YZ)","(Y,XZ)","(XY,XZ)","(XY,YZ)","(XZ,YZ)") colnames(y)=c("df","LRTG^2","p.lrt","Pearson Q","p.pear","结论")
y
附3:
> a
, , 1
[,1] [,2] [,3]
[1,] 55 66 66
[2,] 58 85 50 , , 2
[,1] [,2] [,3] [1,] 45 87 41 [2,] 41 70 39。

相关文档
最新文档