第1章-非参数统计概述

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

拒绝 H0
总体实际情况
H0 为真结论正确
H1 为真
第二类错误
（概率为）
第一类错误（概率为）结论正确（功效）
例1 某厂生产的螺钉,按标准强度为68克/mm2,
而实际生产的螺钉强度 X 服从 N ( m ,3.6 2 ). 若 E ( X ) = m = 68, 则认为这批螺钉符合要
求,否则认为不符合要求.为此提出如下假设:
与的反向关系
希望所用的检验方法尽量少犯错误，但不能完全排除犯错误的可能性。理想的检验方法应使犯两类错误的概率都很小，但在样本的容量给定的情形下，不可能使两者都很小，降低一个，往往使另一个增大。
当实际分布的均值为未知时，无法计算出犯第二
？
类错误的概率。因
此，我们通常只控
NNoo 制犯第一类错误的
H0 : m = 68
原假设的对立面:
H1 : m 68
称为原假设或零假设称为备择假设
现从该厂生产的螺钉中抽取容量为 36 的样本,
其样本均值为 x6.8 5,问原假设是否正确?
例1 中
犯第一类错误的概率
=P(拒绝H0|H0为真) (5 .3 ) (1 .3 ) 1 7 0 .9 1 0 .04 8
若H0为真, 则
3.62
X ~ N(68, )
36
所以,拒绝 H0 的概率为 , 又称为显著性水平, 越大,犯第一类错误的概率越大, 即
越显著.
下面计算犯第二类错误的概率
= P ( 接受 H0 | H0不真 ) H0 不真,即 m 68, m可能小于68,也可能大于
68, 的大小取决于 m 的真值的大小.
定类尺度数据没有顺序和大小区别
2、定序尺度（Ordinal Scale）
例如健康状况、质量等级、教育程度数据表现为“类别”，有顺序差异可对等级、大小等排序未测量出类别之间的准确差值根据定序尺度得到的数据为顺序数据。
定序尺度实例
产品等级
对事物的态度
一等品
二等品
三等品
编码
以左侧检验为例假设的总体抽样分布，犯第
二类错误的可能性就越大
实际的总体抽样分布
接受区域
Z mb ma
假设的总体抽样分布
在样本容量一定的情况下，增大犯第一类错误的概率，则可以缩小犯第二类错误的概率，但不可能两个概率同时减少。
实际的总体抽样分布
接受区域
Z mb ma
以左侧检验为例
假设的总体抽样分布
概率
指接受了一个本来是不真实
第二类错误的原假设，又称为“采伪”
错误或“取伪”错误
记犯第二类错误的概率为，即
P 接受 H 0 /H 0 为不真
1- β为该检验检验不真实零假设的检验功效，又称检验效能（power of a test）/把握度：
其意义是：当两总体确有差别，按规定的检验水准 a 能发现该差别的能力（概率）。
双侧检验左侧检验右侧检验
H0
m = m0
m m0
m m0
H1
m ≠m0
m < m0
m > m0
检验时，假定零假设为真，构造检验统计量、拒绝域和接受域。
检验统计量：我们用来决策（拒绝或不能拒绝零假设）时依据的样本统计量。不同的总体参数适用的检验统计量不同。
拒绝域和接受域：检验统计量取值的集合称为拒绝域，当根据样本得到的检验统计量的值属于该集合时，拒绝零假设。不能拒绝零假设的检验统计量取值的集合称为接受域；
概率。
假设的总体抽样分布
IIm maaggee
- Z mb mb mb ma
以左侧检验为例
Neymann-Pearson原则
找一个不犯错误的检验！？控制两种错误概率的方法：增加样本量和N-P原则。
N-P原则：控制犯第一类错误的概率不超过。
显著水平：犯第一类错误的最大概率。
两类错误总结
结论
不能拒绝 H0
)
36
m m 6 6 P ( 6 . 8 6 X 2 6 . 1 9 8 6 )6
若 m = 69,n = 36, czz0.0251.96 2
X 68
3 .6 8
1 .96
取伪的概率较大.
现增大样本容量,取 n = 64, m = 66, 则
m69P(6.172X6.88m86)9
某甲某乙的生命现象
定类测量
甲、乙有生命
定序测量
甲为中年人，乙为少年人。
定距测量
甲生于1940年、乙生于1985年。
定比测量
甲70岁、乙25岁
测量精度
很低较低较高较高
计算方法
信息数量
不能计算，只能判断
＝、≠
甲、乙有生命
＝、≠、>、
甲、乙有生命甲生命时间较乙
<
长
＝、≠、> 、 < 、+ 、－
甲、乙有生命甲生命时间较乙长甲比乙大45岁
＝、≠、> 、 < 、+ 、－、
×、÷
甲、乙有生命甲生命时间较乙长甲比乙大45岁甲年龄约为乙的3 倍
典型的数据分析方法（部分）
集中趋势离散趋势相关回归假设检验
定类变量定序变量
众数
异众比品质相关
非参数统计
中位数
异众比等级相关
Q检验 2检验
H0：m ≥ 100
H1：m < 100
拒绝域和接受域（左侧检验）
拒绝域
接受域
假设的总体抽样分布
概率
概率（ 1- ）
零假设和备择假设的选择原则
通常把研究者要证明的假设作为备择假设；
把现状（Status Quo）作为原假设；把不能轻易否定的假设作为原假设；
零假设和备择假设：把研究者要证明的假设作为备择假设
非参数统计
WELCOME TO
NONPARAMETRIC STATISTICS
教科书
易丹辉、董寒青，《非参数统计：方法与应用》，中国统计出版社2009年版。
其他参考书 1.吴喜之，《非参数统计》，中国统计出版社2006年第2版。 2.希尔德布兰德等，《社会统计方法与技术》，社会科学文献出版社2005年版。 3.王星，《非参数统计》，清华大学出版社2009年版。
例如1- β=0.90，即说明H0不成立，则理论上每100次检验中，在α的水准上，平均有90次能拒绝H0（能认为有统计学意义）。
以左侧检验为例
犯第二类错误的概率
z 实际的总体
抽样分布
接受区域
假设的总体抽样分布
2
Z mb
ma
样本均值落在此区间，原假设便不能被拒绝
实际的总体抽样分布越接近
5（F- 50º）= 9(C-10º) 摄氏与华氏温度转换
定距尺度 - 273.15℃
定比尺度
-123.15 ℃
0 ℃ 26.85℃
0K
150K
300K
四种计量尺度的比较
1、四种尺度所包含的信息量是依次递增的，级别由低到高。
2、根据较高层次的计量尺度可以获得较低层次的计量尺度。
3、不同的尺度数据对应这不同数据显示方法和分析方法。
某种汽车原来平均每加仑汽油可以行驶24英里。研究小组提出了一种新工艺来提高每加仑汽油的行驶里程。为了检验新的工艺是否有效需要生产了一些产品进行测试。该测试中的零假设和备择假设该如何选取？
要证明的结论是m>24，因此零假设和备择假设的选择为： m24 m>24
思考题
哲学上，可以说“接受”和“拒绝”两个概念对称的，那么，在统计实践中，零假设和备择假设对称吗？
定距变量定比变量
均值
标准差
参数统计
均值
标准差
相关回归相关回归
Z、t检验 Z、t检验
1.2 统计检验（参数的假设检验）
1.基本思想 2.零假设和备择假设 3.两类错误 4.假设检验的基本步骤
1.假设检验的基本思想
假设检验的推断类似于反证法。
小概率原理
如果对总体的某种假设是真实的，那么不利于或不支持这一假设的事件A（小概率事件）在一次试验中几乎不可能发生；如果在一次试验中A竟然发生了，就有理由怀疑该假设的真实性，拒绝这一假设。
划分拒绝域和接受域的数值称为临界值。
双侧检验的形式
mm mm H 0 : 0 H 1 : 0
【例】某生产线出产的产品单位重量正常水平应为100克，某日随机抽查100个产品，测得其平均重量为101.5克，标准差为8克。这个抽查结果是否意味着生产过程处于失控状态？
H0：m = 100
H1：m≠100
定距尺度实例
4、定比尺度 Ratio Scale
例如体重、身高数据表现为“数值” 可以进行加减、乘除运算 “0”表示“没有”或“不存在” 根据定比尺度得到的数据为比率
数据。
定比尺度实例
6枚
3枚
定比尺度数据可以0”表示一个具体数值，不表示“没有” 或“不存在”，定比尺度中“0”表示“没有或一无所有”、“不存在” 。
0.3903.66177
仍取 = 0.05,则 X ~ N(66, 3.62 )
通常取0.01,0.05,0.1。根据确定检验统计量的临界值，从而进一步根据样本观测值和临界值得出检验结论。
双侧检验时
拒绝域
犯第一类错误的概率
接受域
概率/2
概率（ 1- ）
拒绝域
概率/2
左侧检验时
拒绝域
犯第一类错误的概率
概率
概率（ 1- ）
右侧检验时
犯第一类错误的概率
拒绝域
概率（ 1- ）
H0：m ≤ 10
H1：m > 10
拒绝域和接受域（右侧检验）
接受域
假设的总体抽样分布
拒绝域
概率（ 1- ）
概率
左侧检验的形式
mm mm H 0 : 0 H 1 :0
【例】某品牌方便面包装袋上标明，其油炸面饼的重量不少于 100 克。现通过抽取的样本，实际称量面饼重量，检验生产厂家的说明是否有效。
统计上两者不对称，显著性检验的主要目的是拒绝零假设。
这与科学领域的理论发展类似
物理上日心说——牛顿定律——相对论。
3、两类错误与显著性水平
第一类错误
指拒绝了一个本来是真实的原假设，又称为“弃真”错误或“拒真”错误
犯第一类错误的概率为假设检验的显著性
水平，即 P 拒绝 H 0 /H 0 为真
体重：141公斤
定类尺度精
定序尺度
确
程定距尺度
度
定比尺度
1、定类尺度（Nominal Scale）
例如：性别、民族、职业数据表现为“类别” 各类之间无等级次序各类别可以用数字代码表示根据定类尺度得到的数据为分类
数据。
定类尺度实例
编码
意见男女
同意不同意
人种
白黄棕黑 1 234
先修课
最好熟练掌握以下课程：《统计学》、《经济学》、《高等数学》、
《概率论与数理统计》、《抽样理论与方法》等。
§1 导论
1.1 测量的层次（数据的计量尺度） 1.2 统计检验 1.3 参数统计 1.4 非参数统计
1.1 测量的层次（数据的计量尺度）
俱乐部：休斯顿火箭健康状况：良好出生年份:1980
设 m = 66, n = 36, 6.198666.86266
0.6 0.6
m m69 P( 66 .82 X 69 .18
69)
69 .1869 66 .8269
0.6
0.6
(0.3) (3.63 )
0.6179 0.0002 0.6177
3.62
X ~N(69,
拒绝域和接受域（双侧检验）
拒绝域
接受域
假设的总体抽样分布
拒绝域
概率/2
概率（ 1- ）
概率/2
右侧检验的形式
mm mm H 0 : 0 H 1 :0
【例】某型号汽车每升汽油平均行驶里程为 10公里。生产厂家研制了一种新型汽化器以求提高燃料效率。目前正在进行行驶实验，以求通过实验证明新型汽化器可以提高燃料效率。
2. 原假设与备择假设
原假设
又称零假设，指正在被检验
的假设，记为 H 0
备择假设指拒绝原假设后打算要接受
的假设，记为 H 1
基本
双侧检验
形式
单侧检验
右侧检验
左侧检验
检验假设是设的总体而不是样本。
零假设和备择假设是互斥的，它们中仅有一个正确；等号必须出现在零假设中；
最常用的有三种情况：双侧检验、左侧检验和右侧检验。
分析： P (Xx ) C n xp xq n x
若假设引例3中次品率≤4二﹪，项则分事布件“抽取
10件产品有4件次品”发生的概率为：
P X 4 C 1 4 0 0 .0 4 1 4 0 .0 6 4 0 .00
只有万分之四可能的事件在一次试验中居然发生了，这是不合理的，因而假设P≤4﹪是不能成立的，故按质检部门的规定，该批产品不能出厂。
1
2
3
很满意
满中不满
意立意
反对
1
2
3
4
5
定序尺度数据不能测量差别的多少
3、定距尺度 Interval Scale
例如年份、摄氏温度、海拔、时钟、智商得分数据表现为“数值”，且有计量单位可以进行加减运算 “0”是只是尺度上的一个点，不代表“不存在” 根据定距尺度得到的数据为间距数据。