非参数假设检验方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
再如,某工厂制造一批骰子,声称 它是均匀的.
也就是说,在投掷中,出现1点, 2点,…,6点的概率都应是1/6.
为检验骰子是否均匀,要把骰子实地投掷若干次,统计 各点出现的频率与1/6的差距.
问题是:得到的数据能否说明“骰子均匀”的假设
是可信的?
上页 下页 返回
解决这类问题的工具是英国统计学家K.皮尔逊在1900年
变量来近似描述 . 也就是说,我们可以假设每年爆发战争次 数分布X近似泊松分布.
现在的问题是:上面的数据能否证实X 具有泊松分布的假设
是正确的?
上页 下页 返回
又如,某钟表厂对生产的钟进行精确性检查,抽取100 个钟作试验,拨准后隔24小时以后进行检查,将每个钟的 误差(快或慢)按秒记录下来.
问该厂生产的钟的误差是否服从正态分布?
上页 下页 返回
例如,从1500到1931年的432年间,每年爆发战争的 次数可以看作一个随机变量,椐统计,这432年间共爆发 了299次战争,具体数据如下:
战争次数X 发生 X次战争的年数
0
223
1
142
2
48
3
15
4
4
在概率论中,大家对泊松分布产生的一般条件已有所了
解,容易想到,每年爆发战争的次数,可以用一个泊松随机
定理2 (R.A.Fisher)
上页 下页 返回
(3) 若X的分布函数F(x)的具有明确表达式F0(x;),但含 r 个
在前面的课程中,我们已经了解了假设检验的基本思 想,并讨论了当总体分布为正态时,关于其中未知参数的 假设检验问题 .
然而可能遇到这样的情形,总体服从何种理论分布并 不知道,要求我们直接对总体分布形式提出种种假设,然 后利用样本信息对假设进行检验。
在统计学中把不依赖于分布形式的统计方法称为非参数 统计。对总体的分布形式的检验就是非参数检验。
上页 下页 返回
(3) 若X的分布函数F(x)的具有明确表达式F0(x;),但含 r 个
未知参数。根据样本信息推断X的分布函数是否为F0(x). 第一步: 由样本进行参数的点估计后,将参数估计值代入分
布函数中,使得分布函数成为已知函数F0(x;) 。
第二步: 仿造情形 (2) 分组离散。
令
第三步: 其中 m 为分组数,r 为分布函数中待估参数数.
为了进行检验,还必须知道其分布,否则进行不了
检验。
上页 下页 返回
类似于以前的检验方法,取一个知道分布标准化的度量。 为此在1900年,英国统计学家 Karl Pearson 首先提出
从该统计量直观上判断有,
或 2
m
i 1
ni 2 npi
n
为皮尔逊统计量
另外,用该统计量对总体分布律进行检验,还必须知 道其分布。 Pearson给出了其渐近分布。 上 页 下 页 返 回
发表的一篇文章中引进的所谓 2检验法.
这是一项很重要的工作,不少人把它视 为近代统计学的开端。
2检验法是在总体X 的分布未知时,
根据来自总体的样本,检验关于总体分布 的假设的一种检验方法。
K.皮尔逊
本章只介绍 2拟合优度检验、柯尔莫哥洛夫以及
斯米尔诺夫检验、偏度峰度检验。
除此还有:独立性、符号检验、游程检验、秩和检验等等。
抽取次数X 1
2
3
4 5
试验累计数 43 31 15 6
5
解 若两色球个数相等,则每次取到白球的概率为1/2 以抽取次数X为考查对象,则X服从几何分布,即
计算得
上页 下页 返回
此是 m = 5, n1 = 43, n2= 31, n3 =15, n4 = 6,n5= 5, n=100
计算有
结论:接受H0
定理1
则统计量
2
m
(ni
i 1
npi0 npi0
)2渐近服从自由度为m
1的
2分布.
由此可以建立 H0 的拒绝域
只要给定一组样本观察值,代入检验统计量计算后,就 能得出结论。
上页 下页 返回
例1 某商场为了研究顾客对一类商品的某三种品牌商品的喜 好比例,以便为下次进货提供较科学的依据。现随机观 察购买此商品的150名顾客,并记录下其所买的品牌,统 计人数如下:
上页 下页 返回
一、2拟合优度检验
适用范围广:一个离散、连续、正态总体都适用。
1、多项分布的2检法 离散总体
不失一般性,设X的可能取值为1,2,3, ,m,且X服从多项分布.
上页 下页 返回
对一次抽样来说,
现在对总体X进行假设,即对X的分布律进行假设
上页 下页 返回
由于频率是概率的近似表现, 那么当容量 n 较大时,
由于6.52 > 5.991 故有理由拒绝H0 认为顾客对此三种品牌的商品喜好确实存在着显著的差异.
上页 下页 返回
例2 64只某种杂交的几内亚猪的后代,其中34只红色,10只 黑色,20只白色,根据遗传模型,它们之间的比例应为 9:3:4,问以上数据在0.05的水平下体现的与遗传模型是否 吻合。 认为基本吻合
品牌
甲
乙
丙
所购买的人数 61
53
36
依据这些数据,是否可以断定顾客对此三种品牌的商品喜好
确实存在着显著的差异?( = 0.05 )
解 若对此三种品牌的商品喜好确实不存在着显著的差异
就意味着,对三种品牌的商品喜好比例 p1, p2 , p3相等。
上页 下页 返回
此是 m = 3, n1 = 61, n2= 53, n3 = 36,n=150
解 若基本吻合,则p1=9/16, p2 =3/16 ,p3 =4/16
此是 m = 3, n1 = 34, n2= 10, n3 = 20,n=64
ˆ
2
(34
64196)2
64
9 16
ຫໍສະໝຸດ Baidu
(10
64 136)2
64
3 16
(20
64 146)2
64
4 16
13 9
5.991
上页 下页 返回
例3 在一个暗盒中存放有白色与黑色两色乒乓球,问该盒中的 白、黑球的个数是否相等?为此作以下试验,用不返回抽 取发式从此盒中取球,直到取出的球是白色球为止,并记 录下抽取的次数。共重复独立试验了100次,结果如下:
上页 下页 返回
例4 验证一枚骰子是否均匀。 电话号码的数字出现的概率等等问题。 采用分组离散化方法
若X的分布函数F(x)的具有明确表达式F0(x),不含未知参数。 根据样本信息推断X的分布函数是否为F0(x).
第一步:
第二步:计算
上页 下页 返回
第三步:记数
第四步:检验 其中m为分组数
H0的拒绝域为 一般有 n > 50,npi > 5最好 npi >10,否则应重新分组。 使得npi > 5最好 npi >10.