随机序列的统计检验之卡方检验

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

随机数序列的统计检验之χ2检验

论文摘要:

本文主要介绍了随机数序列的一种统计检验方法——卡方检验(2χ检验)。文章对随机数的定义以及随机数序列的分类进行了说明介绍,并介绍了两种应用最为广泛的2χ拟合优度检验法。进一步地介绍了2χ检验在农业及医学方面的应用,并客观评价了2χ检验方法的优劣性。

引言 关于随机数的研究,从很早以前就有。以前对于随机数的产生基本都是一些比较古老的方法,例如古人喝酒时玩的掷骰子的游戏,其实就是一个产生随机数的过程。直到现在,仍然有很多统计学者,在前人的基础上发展创新,致力于随机数的产生及检验的研究。在当下,随机数的应用范围更为广泛,不仅是类似于古人掷骰子的购买彩票的研究,更是广泛地应用到医学、农业等各个领域。并且随着计算机的应用与发展,计算机模拟的技术也逐步被深入研究和广泛应用。利用计算机来产生随机数已经成为一个新的课题。相比于之前,计算机产生的随机数在均匀性和随机性方面都更好,且模拟处理的问题更为广泛。随着随机数应用范围的扩大,对于随机数的均匀性、独立性、随机性等的检验也不可或缺,只有通过了检验的随机数才能有更广大的利用空间。本文介绍的就是随机数序列统

计检验的其中一种方法——2χ检验。

(一) 随机序列的定义及分类

在介绍随机数序列的2χ检验之前,在这里先介绍一下随机数序列的定义和

分类[2]。

在连续型随机变量的分布中,最简单而且最基本的分布是单位均匀分布。由该分布抽取的简单子样称随机数序列,其中每一个体称为随机数。其分布密度函数为:

1,01()0,x f x ≤≤⎧=⎨⎩其他

分布函数为 :

随机数列可以分为三种不同的类型:真随机数列,准随机数列,伪随机数列。 真随机数数列是不可预计的,所以不可能重复产生两个相同的真随机数数列。真随机数只能用某些随机物理过程来产生,如放射性衰变等。

准随机数序列并不具有随机性质,仅仅是它用来处理问题时能够得到正确结果。准随机数的概念是来自如下的事实:对伪随机数来说,要实现其严格数学意义上的随机性,在理论上是不可能的,在实际应用中也没有这个必要。关键是要保证“随机”数数列具有能产生出所需要的结果的必要特性。

伪随机数序列是我们通常在实际应用的,是通过某些数学公式计算而产生的。这样的伪随机数从数学意义上讲已经一点不是随机的了。但是,只要伪随机数能够通过随机数的一系列的统计检验,我们就可以把它当作真随机数而放心地使用。这样我们就可以很经济地、重复地产生出随机数。

(二)χ2拟合优度检验法

χ2检验的方法中,最简单也用得最为广泛的是χ2拟合优度检验法[1]。该方法可分为两种类型进行讨论:

1.多项分布的χ2检验

设总体X 是仅取k 个可能值的离散型随机变量,设X 的可能值为1,2,…,k ,且1(),1,2,...,,1

i k i i P X i p i k p =====∑。又设12(,,...)n X X X 是从总体X 抽得的简单

随机样本;NI 表示样本观察值中取值为i 的个数,即样本中出现事件()X i =的频数。

定理

1 当000:,1,2,...,()i i i H p p i k p ==已知成立时,按221

=()k i i i i np χ=÷∑(N -np )规定的检验统计量22(1),L k n χχ−−→-→∞。

则由定理1知,对给定的检验水平α,可以取临界值2(1)k αχ-,当

0,0(),01

1,1x F x x x x <⎧⎪=≤≤⎨⎪>⎩

2

221=()(1)k

i i i i np k αχχ=÷>-∑(N -np )时拒绝H 0。 2.分布中含有未知参数的χ2检验

在实际问题中,更常见的一类问题是要检验总体分布是否具有确定的类型,即检验假设

001,21,2:()(;,...,),,...,m m H F x F x θθθθθθ=∈Θ

其中函数0F 的形式已知,参数空间Θ也已知。

把实轴划分成k 个互不相交的区间11212112(,],(,],...,(,),,,...,k k k A a A a a A a a a a -=-∞==+∞是视具体情况选取的1k -个实数,且记

01011ˆˆˆˆˆ(;,...,)(;,...,)i i m i m p F a F a θθθθ-=-,2,3,...,1i k =-

用i N 表示样本1,2,,...,n X X X 中落在i A 内的个数。

定理2 若假设0H 成立,则按式2

21ˆˆˆ()k

i i i i np χ==÷∑(N -np )给出的检验统计量22ˆ(1)L n n k m χχ→∞

−−−→--。 则按定理2知对给定的检验水平α,取临界值2(1)k m αχ--,当2ˆχ

≥2(1)k m αχ--时拒绝假设0H ,反之接受假设0H 。

这里需要注意的是χ2拟合优度检验法是在n 充分大时推导出来的,所以在使用是必须注意n 要足够的大,以及i np 不太小这两个条件。我们一般的要求是n 不小于50,并且每个i np 都不小于5(最好是大于10)。

对于随机数的χ2

检验,只用把{}1d

i c p p c x d dx =<<=⎰带入公式即可。

(三)卡方检验的应用及评价

关于随机数序列代表的实际意义,使用卡方检验的方法,在实际生活中有相当广泛的应用,这里介绍的,是使用EXCEL 软件建立卡方检验的一些应用,包括在农业统计[3]和临床数据分析[4]等方面。而Microsoft Excel 软件具有易学、易用、易懂的特性,并且还提供了很多基本和经典的统计分析方法。可通过添加“分

析工具库”后利用“工具”菜单的“数据分析”功能来实现,但没有提供现成的卡方检验。在农业统计的遗传学分析中,常用2χ来检验所得实际结果是否与孟德尔遗传的分离比例相符,如检测其与某种理论比例的适合性,其2χ值可以直接用如下简式求出,见表1。

表1 检验两组资料与某种理论比例符合度的2χ值公式

1:1 2((||)1)/A a n --

2:1 2((|2|) 1.5)/2A a n --

3:1 2((|3|)2)/3A a n --

15:1 2((|15|)8)/15A a n --

9:7 2((|79|)8)/63A a n --

13:3 2((|313|)8)/63A a n --

r :1 2[(||)(1)/2]/A ra r rn --+

在农业统计中,2χ检验还可用于独立性检验。例如研究小麦种子灭菌和麦穗发病两个变数之间是否独立。若相互独立,表示种子灭菌和发病高低无关,灭菌处理对发病无影响;若不相互独立,则表示种子灭菌和发病高低有关,灭菌处理对发病有影响。这主要是采用R C ⨯表进行独立性检验计算。常用的有2x2表、2x3表和3x3表等,在这里就不做介绍了。

而2χ检验在临床数据分析方面,只需在四格表内填入数字即可,操作方便

快捷,可直接给出2χ检验的统计量和P 值。

虽然随机序列的卡方检验具有很广泛的应用,但是其依然具有片面性[5]。那是因为现有随机性检测规范没有系统地讨论统计检验和随机本质的联系, 也没有严格论证样本量和结论可信度的联系,使其可操作性不强,难以指导实际的安理论比例(显性:隐形) 2χ公式

相关文档
最新文档