非参数统计实验(全)新

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第四章 非参数统计实验
参数统计学中的许多统计分析方法的应用对总体都有严格的假定,例如,t 检验要求总体服从正态分布,F 检验要求误差呈正态分布且各组方差为齐性的等等,然而在现实生活中,有许多总体的分布我们却是一无所知或知之甚少,所以在参数模型中所建立的统计推断就会失效,于是,人们希望在不假定总体分布的情况下,尽量从数据本身来获得所需要的信息。

这就是非参数统计的宗旨。

非参数统计方法简便,适用性强,但检验效率较低,应用时应加以考虑。

实验一 卡方检验(Chi-square test )
实验目的:
掌握卡方检验方法。

实验内容:
一、2χ拟合优度检验 二、2χ独立性检验 三、2χ齐性检验 实验工具:
SPSS 非参数统计分析菜单项和Crosstabs 菜单项。

知识准备:
一、卡方拟合优度检验
2
χ检验(Chi —Square Test) 适用于拟合优度检验,适用于定类变量的检验问
题,用来检验实际观察数目与理论期望数目是否有显著差异。

当检验问题是实际分布是否与理论分布相符合时,在大样本时也可以用分类数据的卡方检验来解决,这时的卡方检验也称为分布拟合的卡方检验。

若样本分为k 类,每类实际观察频数为k f f f ,,,21 ,与其相对应的期望频数为
k
e e e ,,,21 ,则检验统计量2χ可以测度观察频数与期望频数之间的差
异。

其计算公式为:


-=
-=
=期望频数
期望频数实际频数2
1
2
2
)
()
(k
i i
i i e e f χ
很显然,实际频数与望频数越接近,2χ值就越小,若2χ=0,则上式中分子的每—项都必须是0,这意味着k 类中每一类观察频数与期望频数完全一样,即完全拟合。

2χ统计量可以用来测度实际观察频数与期望频数之间的拟合程度。

在H 0成立的条件下,样本容量n 充分大时,2χ统计量近似地服从自由度df =k-1的
2
χ分布,因而,可以根据给定的显著性水平α,在临界值表中查到
相应的临界值)1(2
-k αχ。

若)1(2
2
-≥k αχχ
,则拒绝H 0,否则不能拒绝H 0。

所有的统计软件都可以输出检验统计量的显著性p 值,也可以根据显著性p 值和显著性水平α作比较,若α≤p ,则拒绝H 0,否则不能拒绝H 0。

另外卡方拟合优度检验也可以用来检验某总体是否服从某一特定分布的假设。

拟合优度检验中几种常用分布的参数如表4-1:
表4-1 拟合优度检验中几种分布的参数
二、2χ独立性检验
假设有n 个随机试验的结果按照两个变量A 和B 分类,A 取值为A 1,A 2,…,A r ,B 取值为B 1,B 2,…,B s ,则形成了一张s r ⨯的列联表,称为s r ⨯二维列联
表。

其中ij n 表示A 取A i 及B 取B j 的频数,n n r
1
i s
1
j ij =∑∑==,其中:
r ,...,2,1i ,n
n s
1j ij
i.==
∑=表示各行的频数之和
s ,...,2,1i ,n
n r
1
i ij
.j ==
∑=表示各列的频数之和
令)B B ,A A (P p j i ij ===(s ,...,2,1j ;r ,...,2,1i ==),.i p 和j .p 分别表示各行和各列的边缘概率,对于s r ⨯二维列联表,如果变量A 和变量B 是独立的,则A 和B 的联合概率应该等于A 和B 边缘概率的乘积。

因而有如下检验:
j ..i ij 0p p p :H =
在H 0成立的条件下,s r ⨯二维列联表中的期望频数为:
n
n n e j
..i ij =
则∑∑
==-=
r
1
i s
1
j ij
2
ij ij 2e )
e n (χ
如果期望频数5e ij >,则2χ统计量近似服从自由度为)1s )(1r (--的卡方分布。

如果Pearson 2χ值过大,或p 值过小,则拒绝H 0,认为变量A 和变量B 存在某种关联,即不是独立的;否则不能拒绝H 0,认为是独立的。

如果期望5e ij <,则需要将其合并使得期望频数5e ij >,否则容易夸大卡方统计量值,导致拒绝原假设的结论。

三、 2χ齐性检验
与2χ独立性检验类似的是2χ齐性检验。

实际问题中,假设有n 组从不同来源得到的数据,要判定这些数据的来源是否相同(相同的分布),统计上我们可以将这些问题表述为:
假定有k 组样本,分别取自k 个总体,要检验这k 个总体的分布是否相同。

这样的假设检验问题称为“齐次性检验”。

对一般的s r ⨯二维列联表,可以提出假设:
is
i2i10p ...p p :H ===(r ,...,2,1i =)
在H 0成立的条件下,这些概率ij p 与j 无关,因此ij n 的期望值(理论频数)为ij j .p n ,n
n p .i .i =
,因此期望值n
n n p n e j
..i .i j .ij =
⨯=,则
2
χ
检验统计量为:
∑∑
==-=
r
1
i s
1
j ij
2
ij ij 2
e )
e n (χ
与2χ独立性检验一样,如果5e ij >,则2χ统计量近似服从自由度为
)1s )(1r (--的卡方分布。

如果Pearson 2
χ
值过大,或p 值过小,则拒绝H 0,;否
则不能拒绝H 0。

实验背景:
一、据以往经验,机床发生故障的频数服从均匀分布,某车间在一周内统计所有机床发生故障频数的资料如下:
表4-2 故障频数
检验故障频数是否服从均匀分布(05
.0=α
)?
二、在丧偶问题上的性别因素和地区因素是否独立
按照1996年一个抽样,我国华北五省市区的丧偶人数按性别分为:
表4-3 1996年华北地区丧偶情况统计
检验在丧偶数量上性别因素和地区因素是否独立。

三、在一个有三个主要百货商场的商贸中心,调查者问479个不同年龄段的人首先去三个商场中的哪个,结果如下表:
表4-4 调查结果
检验人们去这三个商场的概率是否一样。

(数据来源:《非参数统计》,王星,中国人民大学出版社,P161)
实验过程:
一、用Chi-Square过程进行2 拟合优度检验
激活数据管理窗口,定义变量名:每天为day,故障次数为count。

按顺序输入数据,结果见图4.1。

图4.1
点击Data菜单选Weight Cases...命令项,弹出Weight Cases对话框(如图4.2),选Weight cases by,再选count点击钮使之进入Frequency Variable框,定义count变量为权数,再点击OK钮即可。

图4.2
选择Analyze/ Nonparametric Tests/Chi-Square,打开卡方检验对话框,如图4.3所示:
图4.3
图4.3左侧为候选变量框,在候选变量框中选择一个或多个变量,单击向右箭头按钮使其进入右侧的Test V ariable List框中。

(1)Test V ariable List框:用于选入需要进行检验的变量,可以选入一个或多个,如果选入多个,系统会对其依次进行分析。

本例中选中变量count,使之进入Test V ariable List框。

(2)Expected Range单选框:设定需检验的变量的取值范围,在此范围之外的取值将不进入分析。

Get from data选项:数据文件的最大值和最小值所确定的范围,系统默认该项。

Use specified range选项:自行制定检验的取值范围,在Lower和Upper 框中键入检验范围的下限和上限。

本例采用系统默认项。

(3)Expected V alues单选框:指定已知总体的各分类构成比。

All categories equal选项:系统默认项,各类别构成比例相等,即意味着检验的总体是服从均匀分布的。

本例中使用此选项。

V alues选项:自行定义给类别构成比例,每输入一个值后按Add按钮,于是在它右边的框中便增加了刚键入的数值。

要求输入数值必须大于0,一直到输完为止,如果在输入过程出现了错误,并已按Add按钮使录入的值进入了右
下框中,则可用鼠标来进行修改,即用鼠标将光标移到错误处,但一鼠标左上键使错误值置于光带中,若是刚录入的值,则可以点击Remove按钮将其删除,然后重新录入;如果错误值在录入值中间,则先将它置于光带中,然后在Add右边的观众键入修改的值后按Change按钮进行替换。

(4)Exact子对话框:用于设定是否进行确切概率的计算,以及具体的计算方法。

如图4.4
Asymptotic only:渐近分布的显著性检验,只近似计算概率,不计算确切概率,适合于渐近性分布和较大样本,系统默认选项。

Monte Carlo:采用蒙特卡罗模拟方法计算确切概率,适合于数据满足渐近性分布,而且数据过大以至不能计算精确显著性。

Confidence:指定置信度,默认为99%。

Number of sample:指定计算的样本数目,样本数越大显著性水平越可靠,默认为10000。

Exact:准确计算观测结果的统计概率
Time limit per test:限定进行每个检验所使用的最长时间,如果超过30分钟,则用Monte Carlo法比较合适,默认计算时间限制在5
分钟内,超过此时限则自动停止。

图4.4
(5)Option子对话框:选择输出结果形式及缺失值处理方式。

如图4.5
图4.5
Statistics复选框:选择可供输出的统计量。

Descriptive:输出常用的描述统计量,包括变量的均值、标准差、最大值、最小值等等。

Quartiles:输出变量的四分位数。

Missing V alues单选框:选择缺失值的处理方式。

Exclude cases test-by-test:分析用到的变量有缺失值时去除该记录。

系统默认该项,以便充分利用数据。

本例中选择默认项,不做修改。

Exclude cases listwise:只要相关变量有缺失值,则在所有分析中均去除该记录。

在本例中,点击Data菜单选Weight Cases...命令项,弹出Weight Cases对话框(如图4.2),选Weight cases by,再选count点击钮使之进入Frequency Variable 框,定义count变量为权数,再点击OK钮即可。

选择Analyze/ Nonparametric Tests/Chi-Square,打开Chi-Square检验对话框,选择变量count进入Test V ariable List框,其他选择不做任何修改,在主对话框点击ok按钮,提交运行命令,得到结果如图4.6、图4.7:
图4.6
图4.6中,最上方Npar Tests表示进行的是非参数统计检验,Chi-Square Test 表示进行的是卡方检验,Frequency为表格名称,表示输出的是频数表,count 是检验变量名,表格内显示的是6个类别的观测频数、期望频数和残差。

在本例中,观测频数合计为60,期望频数各类别相等,均为10。

图4.7
图4.7中,最上方Test Statistics为表格名称,即检验统计量表,为最终的检验结果,给出了卡方值、自由度和近似的显著性p值。

结果显示卡方检验统计量微14.800,近似的p值为0.011 ,因此,在0.05的显著性水平下,结论为拒绝原假设,认为一周内机床发生故障的频数不是服从均匀分布的。

二、用Crosstabs过程进行2 独立性检验
激活数据管理窗口,定义变量名:sex(性别)为列变量,region(地区)为
行变量,count为频数变量(行列对应的频数值)。

切换到V ariable View中,定义变量值标签,在sex变量中,1表示男性,2表示女性,在region变量中,1表示北京,2表示天津,3表示河北,4表示山西,5表示内蒙古,再切换到Data View中,按顺序输入相应的变量,结果见图4.8。

图4.8
点击Data菜单选Weight Cases...命令项,弹出Weight Cases对话框(如图4.9),选Weight cases by,再选count点击钮使之进入Frequency Variable框,定义count变量为权数,再点击OK钮即可。

图4.9
选择Analyze/ Descriptive Statistics/Crosstabs,打开crosstabs对话框,如图4.10所示:
图4.10
图4.10左侧为候选变量框,在候选变量框中选择一个或多个变量。

(1)Row(s)框:用于选入一个或多个行变量。

本例选则变量region为行变量,使之进入Row(s)框。

(2)Column(s)框:用于选入一个或多个列变量。

本例选择sex为列变量,使之进入Column(s)框。

(3)Layer 1 of 1:层变量栏,用于选择分组变量及控制分组变量的分层。

本例不选择分组变量。

Previous:前一层分组变量按钮,在建立后一层分组变量时变黑,表示单击该按钮可返回前一层。

Next:后一层分组变量按钮,该层变量是前一层变量的分组变量,在建立前一层分组变量时变黑,表示单击该按钮可建立或显示后一层的分组变量。

(4)Display clustered bar charts选项:用于显示聚类条形图,选择此项,SPSS 会为每一个行变量产生一个聚类条形图。

本例不输出此项。

(5)Suppress table选项:不输出表格,只输出统计量。

选择此项,SPSS 将不显示列联表,且Cell按钮和Format按钮将无效。

本例不选择此项。

(6)Exact子对话框:用于设定是否进行确切概率的计算以及具体的计算方
法。

同前面的图4.4一样。

(7)Statistics 子对话框:可选择输出一些统计量。

如图4.11。

图4.11
Chi-Square 选项:输出卡方值,它是用于进行行、列变量是否独立的卡方检验(Chi-Square Test )、用于对数线型模型检验的似然比卡方检验(Likehood ration Chi -square test )、Fisher 精确检验(Fisher’s exactly test )、耶茨校正卡方检验(Y ete‘s corrected Chi -square test )。

本例选择此项。

Correlations 选项:可计算相关系数。

只有在数值型变量时,此项选择才有效。

Nominal :包含了一组用于反映分类变量相关性的指标。

Contingency coefficient :计算列联系数。

根据卡方公式修改而得,其值为n 22+χχ
,列联系数是描述两个属性之间关联性高低的统计量,其数值
在0到1之间,但不可能达到1,越大表明两变量间相关性越强。

Phi and Cramer’s V :计算Phi 系数和Cramer 系数,它们都是校正列联
系数,也是由卡方公式修改而来, ψ系数为n 2χ
,Cramer’s V 为1)-n(k 2
χ,
其值可以达到1,同列联系数一样,描述两个属性之间的相关性高低。

Lambda :反映自变量对因变量的预测效果,在0到1之间取值,Lambda
系数为1,表明自变量可以完全预测因变量,Lambda系数为0,表明自变量不能预测因变量,即两变量独立。

Uncertainty coefficient:不确定系数,其值越接近于1,表明从第一个观察量获得的有关第二个变量的信息越多,其值越接近于0,表明表明从第一个观察量获得的有关第二个变量的信息越少。


Ordinal:包含一组用于反映分类变量一致性的指标,适用于有序变量,均是有Gamma统计量衍生过来的,所谓一致性高是指行变量秩高的列变量秩也高,行变量秩低的列变量秩也低,如果行变量秩高而列变量秩低,则称为不一致。

Gamma:检验两个有序变量之间的对称关联,其值在-1到1之间,绝对值接近1时,表明两个变量之间有很强的关联性。

Somer’s d:两个有序变量之间关联性的检验,其值在-1到1之间,绝对值接近1时,表明两个变量之间有很强的关联性,Somer’d 检验是Gamma检验的非对称检验扩展
Kendall’s tau-b:对相关的有序变量进行的非参数检验,适合行数和列数相同表格的检验,其值在-1到1之间。

Kendall’s tau-c:对C
R⨯列联表相关系数的非参数相关检验,其值在-1到1之间,如果表格的边缘包含近似相等的频数,Kendall’s tau-b与Kendall’s tau-c所得的值基本一致。

Nominal by interval:计算一个变量为数值变量,另一个为分类变量时的关联度。

Eta值:eta的平方表示由组间差异所解释的应变量的方差的比例,即SS组间/SS总,一共给出两个eta值,分别对应了行变量为应变量和列变量为应变量的情况。

Kappa:计算Kappa值,即内部一致性系数,是评价判断一致性程度的指标,一般,Kappa>=0.75,表明两者一致性好;0.4<=Kappa>=0.75,表明一致性一般;Kappa<0.4表明一致性差。

Risk:计算相对危险度(Relative Risk)和比数比(Odd ratio),用于2
2⨯
列联表,可以检验事件的发生和某因素暴露之间的关联性,例如检验吸烟是否与心脏病有关,若相对危险度为1,则表示因素与事件不存在关联。

SPSS用比数
比作相对危险度的近似估计值。

McNemanr:配对卡方检验
Cochran’s and Mantel-Haenszel statistics:对两个二分类变量进行独立性检验和同质性(齐性)检验,同时可进行分层因素的调整。

(7)Cells子对话框:用于定义列联表中需要显示的指标,包括观测量数、百分比、残差。

如图4.12。

图4.12
Counts计数栏:
Observed:观测值的数量,系统默认选项。

Expected:期望值的数量
Percentage百分比栏:
Rows:行百分比
Columns:列百分比
Tatal:总的百分比
Residuals残差栏:
Unstandardized:有非标准化残差
Standardized:标准化残差
Adj. Standardized:调整的标准化残差
(9)Format子对话框:用于选择变量是升序还是降序排列,如图4.13 。

图4.13
Row Order:选择行顺序。

Ascending:升序,行变量由左至右升序显示,系统默认值。

Descending:降序,行变量由左至右降序显示。

在本例中,点击Data菜单选Weight Cases...命令项,弹出Weight Cases对话框(如图4.2),选Weight cases by,再选count点击钮使之进入Frequency Variable 框,定义count变量为权数,再点击OK钮即可。

选择Analyze/Descriptive Statistics/Crosstabs,打开Crosstabs对话框,选择变量region进入Row( s)框,选择变量sex进入Column(s)框;
单击Statistics子对话框,选择Chi-square选项,单击continue按钮,返回Crosstabs主对话框;
单击Cells子对话框,在count选项中选择Expected,单击continue按钮,返回Crosstabs主对话框;
在Crosstabs主对话框中,点击ok按钮,提交运行Crosstabs命令,得到结果如图4.14、图4.15和图4.16:
图4.14
图4.14中,最上方Crosstabs表示进行的是列联表分析,表格内显示有效频数位5526例,占总的100%,缺失值个数为0,总的例数为5526。

图4.15
图4.15为二维2
5⨯列联表,列联表中给出了各个地区不同性别的观测频数和期望频数以及总的频数和总的期望频数。

图4.16
图4.16为卡方检验表,表中显示pearson Chi-Square值为16.474,自由度为4,近似的显著性p值为0.002,故可以拒绝原假设H0,认为在丧偶数量上性别和地区两个变量不是独立的。

三、用Crosstabs过程进行2χ齐性检验
与2χ独立性检验一样,操作如下:
激活数据管理窗口,定义变量名:age(年龄)为行变量,Business(商场)为列变量,count为频数变量(行列对应的频数值)。

切换到V ariable View中,定义变量值标签,在age变量中,1表示年龄30
≤,2表示31-50,3表示>50,在business变量中,1表示商场1,2表示商场2,3表示商场3,再切换到Data View 中,按顺序输入相应的变量,结果见图4.17。

图4.17
点击Data菜单选Weight Cases...命令项,弹出Weight Cases对话框(如图4.18),选Weight cases by,再选count点击钮使之进入Frequency Variable框,定义count变量为权数,再点击OK钮即可。

图4.18
本例中,选择Analyze/Descriptive Statistics/Crosstabs,打开Crosstabs对话框,选择变量age进入Row( s)框,选择变量不siness进入Column(s)框;
单击Statistics子对话框,选择Chi-square选项,单击continue按钮,返回Crosstabs主对话框;
单击Cells子对话框,在count选项中选择Expected,单击continue按钮,返回Crosstabs主对话框;
在Crosstabs主对话框中,点击ok按钮,提交运行Crosstabs命令,得到结果如图4.19、图4.20和图4.21:
图4.19
图4.20
图4.21
图4.21为卡方检验表,表中显示pearson Chi-Square值为18.651,自由度为4,近似的显著性p值为0.001,故可以拒绝原假设H0,认为不同年龄的人去三个商场的概率是显著不同的,即是非齐性的。

实验二二项分布检验(Binomial test)
实验目的:
掌握二项分布检验方法。

实验工具:
SPSS非参数统计分析菜单项
知识准备:
现实生活中,有些总体只能划分为两类,例如,正面与反面,成功与失败、合格与不合格、命中与不命中,同意与不同意,医学中的生与死等等,在数理统计中,把只有两个结果出现的试验称为贝努里试验(Bernoulli trial ),若重复n 次,则为n 重贝努里试验,在n 重贝努里试验中,设成功的概率为p ,若X 表示成功出现的次数,则称X 服从二项分布,记为X ~B (n ,p )。

X 的分布概率可用下面的公式来描述:
x n x p
p x n )x X (P -⎪⎪⎭⎫ ⎝⎛==
式中,n 表示贝努里试验的次数,p 表示成功的概率,X 表示n 次贝努里试验中成功出现的次数。

二项分布检验(Bionomial Test )就是根据样本数据检验总体是否服从二项分布的一种检验方法。

属于拟合优度检验,适用于数据只能划分为两类的总体,检验二项分类变量是否来自概率为p 的二项分布。

实验背景:
某地某一时期内出生40名婴儿,其中女性12名(定义Sex=2),男性28名(定义Sex=1)。

问这个地方出生婴儿的性别比例与通常的男女性别比例(总体概率约为0.5)是否不同(05.0=α)
实验过程:
激活数据管理窗口,定义变量名:sex 为性别。

切换到V ariable View 中,定义变量值标签,在sex 变量中,1表示男性,2表示女性,再切换到Data View 中,按顺序输入数据, 结果见图4.22。

图4.22
选择Analyze/ Nonparametric Tests/Binomial…,打开binomial Test对话框,如图4.23所示:
图4.23
图4.23左侧为候选变量框,在候选变量框中选择一个或多个变量,单击向右箭头按钮使其进入右侧的Test V ariable List框中。

(1)Test V ariable List框:用于选入需要进行检验的变量,可以选入一个或多个,如果选入多个,系统会对其依次进行分析。

本例中选中变量sex,使之进入Test V ariable List框。

(2)Define Dichotomy栏:定义二分类变量的获取方法。

Get from Data选项:系统默认项,适用于指定的变量只有两个值,即二分
类变量。

Cut point:用来指定一个分界点,如果给定的变量超过两个值,则可给定一个值,比这个值小的将形成第一项,大的将形成第二项。

(3)Test Proportion:指定检验概率值,系统默认的检验概率为0.5,这意味着要检验的二项分布是服从均匀分布的,如果检验的概率不是0.5,在参数框中键入要检验的概率即可。

(4)Exact子对话框:用于设定是否进行确切概率的计算以及具体的计算方法。

同前面的图4.4一样。

(5)Option子对话框:选择输出结果形式及缺失值的处理方式,同前面的图4.5 一样。

需要注意的是:若数据以频数的形式给出,则需要加权,若不是以频数的形式给出,则不需要加权处理。

本例中,不是以频数的形式出现,不需要作加权处理
在本例中,选择选择Analyze/ Nonparametric Tests/Binomial…,打开Binomial test对话框,选择变量sex进入Test V ariable List框;在Tset Proption框中键入0.5,点击ok按钮,提交运行不Binomial命令,得到结果如图4.24:
图4.24
二项分布检验表明,女婴12名,男婴28名,观察概率为0.7000(即男婴占70%),检验概率为0.5,二项分布检验的结果是双侧概率为0.017,即拒绝原假设H0,可认为该地区出生的男女比例有显著的不同,即与通常0.5的性别比例相比,该地男婴比女婴明显为多。

实验三 随机游程检验(Run Test )
实验目的:
掌握游程检验的基本方法。

实验工具:
SPSS 非参数统计分析菜单项。

知识准备:
游程检验亦称为串检验,是一种随机性检验方法,应用范围很广。

例如掷一枚硬币正面和反面的出现是否是随机的;奖券的购买是否随机;期货价格的变化是否随机,一个机械流程中产品误差的出现是否随机等等。

若事物的发生并非随机发生,而是具有某种规律,例如有上升或下降的趋势,或者呈现周期性的变化规律时,均表示数据不是随即出现的,则往往可通过统计方法从中寻找规律,建立相应模型并进行分析,作出适宜的决策。

关于样本观测值是否随机出现的问题可以转化成一个二元0-1序列出现顺序的随机性问题。

假设一个可以总体可以分为两类,随机从中抽取一个样本,样本也可以分为两类:类型I 和类型Ⅱ。

凡属类型I 的给以符号0,类型Ⅱ的给以符号1,反之也可以。

则在这个二元序列中,一个有0或1连续出现的串称为一个游程,也就是说,游程是在一个二元序列的有序排列中,相同符号连续出现的串。

一个游程中数据的个数称为游程的长度,一个序列里游程个数用R 表示,R 实际上表示了0和1交替轮换的频繁程度。

容易看出R 是序列中0和1交替轮换的总次数加1。

一个游程里0出现的总次数用0n 表示,1出现的总次数用1n ,10n n n +=。

例如,抛掷一枚硬币,可以得到一系列的符号如下,1表示出现正面,0表示出现反面。

1
1 0 0 0 1 0 0 0 0 1 1 0 1 1
1 2 3 4 5 6 7 例中:共有14个数,0的总数为8,1的总数为6,共有3个0游程,4个1游程,一共有7个游程,即游程数目R=7。

在一定的样本容量n 之下,可以用游程的总数作为检验变量来检验样本数据是否是随机的。

若游程的数目过少,说明0和1相对比较集中,意味着样本由于
缺乏独立性而形成了一致的趋势;若游程的数目过多,说明0和1相对比较分散,则序列存在着某种周期性的影响。

这都不符合序列随机性的要求。

例如:抛币20次,1表示出现正面,0表示出现反面,结果如下:
1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0
1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0
因此可以通过游数目的多与少来判断二元序列是否存在随机性。

在H 0为真的情况下,根据两种类型符号的变化,选择的检验统计量为R ,
R =游程的总数目
实验背景:
一个监听装置收到如下的信号:
0 1 0 1 1 1 0 0 1 1 0 0 0 0 1 1 1 1 1 1 1 1 1 0 1 0 0 1 1 1 0 10 1 0 1 0 0 0 0
能否说该信号是纯随机干扰的。

(05.0=α)
实验过程:
用Runs 过程进行游程检验
激活数据管理窗口,建立数据文件,定义信号变量为signal 。

按顺序输入数据, 结果见图4.25。

图4.25
选择Analyze/ Nonparametric Tests/Runs … ,打开Runs Test 对话框,如图4.26所示:
图4.26
图4.26左侧为候选变量框,在候选变量框中选择一个或多个变量,单击向右箭头按钮使其进入右侧的Test V ariable List框中。

(1)Test V ariable List框:用于选入需要进行检验的变量,可以选入一个或多个,如果选入多个,系统会对其依次进行分析。

本例中选中变量sex,使之进入Test V ariable List框。

(2)Cut Point栏:给出了四种划分样本类别的方法,可以是中位数、均值、众数和用户指定值,系统会按照指定方法将样本一分为二,变量值小于试算点的个体形成一类,其他的形成一类。

Median:以中位数作临界分割点,其值在中位数之下的为一类,大于或等于中位数的为另一类。

Mode:以众数作临界分割点,其值在众数之下的为一类,大于或等于众数的为另一类。

Mean:以均值作临界分割点,其值在均值之下的为一类,大于或等于均值的为另一类。

Custom:以用户指定值作临界分割点,其值在指定值之下的为一类,大于或等于指定值的为另一类。

以上划分方法可以同时指定,此时系统会分别给出每种划分方法的检验结果。

(4)Exact子对话框:用于设定是否进行确切概率的计算以及具体的计算方。

相关文档
最新文档