第1章-非参数统计概述

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
拒绝 H0
总体实际情况
H0 为真 结论正确
H1 为真
第二类错误
(概率为 )
第一类错误 (概率为 ) 结论正确(功效)
例1 某厂生产的螺钉,按标准强度为68克/mm2,
而实际生产的螺钉强度 X 服从 N ( m ,3.6 2 ). 若 E ( X ) = m = 68, 则认为这批螺钉符合要
求,否则认为不符合要求.为此提出如下假设:
与 的反向关系
希望所用的检验方法尽量少犯错误,但不能完 全排除犯错误的可能性。理想的检验方法应使 犯两类错误的概率都很小,但在样本的容量给 定的情形下,不可能使两者都很小,降低一个 ,往往使另一个增大。
当实际分布 的均值为未知时, 无法计算出犯第二

类错误的概率。因
此,我们通常只控
NNoo 制犯第一类错误的
H0 : m = 68
原假设的对立面:
H1 : m 68
称为原假设或零假设 称为备择假设
现从该厂生产的螺钉中抽取容量为 36 的样本,
其样本均值为 x6.8 5,问原假设是否正确?
例1 中
犯第一类错误的概率
=P(拒绝H0|H0为真) (5 .3 ) (1 .3 ) 1 7 0 .9 1 0 .04 8
若H0为真, 则
3.62
X ~ N(68, )
36
所以,拒绝 H0 的概率为 , 又称为显著性 水平, 越大,犯第一类错误的概率越大, 即
越显著.
下面计算犯第二类错误的概率
= P ( 接受 H0 | H0不真 ) H0 不真,即 m 68, m可能小于68,也可能大于
68, 的大小取决于 m 的真值的大小.
定类尺度数据没有顺序和大小区别
2、定序尺度(Ordinal Scale)
例如健康状况、质量等级、教育程度 数据表现为“类别”,有顺序差异 可对等级、大小等排序 未测量出类别之间的准确差值 根据定序尺度得到的数据为顺序数据。
定序尺度实例
产品等级
对事物的态度
一 等 品
二 等 品
三 等 品
编码
以左侧检验为例 假设的总体抽样分布,犯第
二类错误的可能性就越大
实际的总体 抽样分布
接受 区域
Z mb ma
假设的总体 抽样分布
在样本容量一定的情况下,增大犯第一类错误 的概率,则可以缩小犯第二类错误的概率,但 不可能两个概率同时减少。
实际的总体 抽样分布
接受 区域
Z mb ma
以左侧检验为例
假设的总体 抽样分布
概率
指接受了一个本来是不真实
第二类错误 的原假设,又称为“采伪”
错误或“取伪”错误
记犯第二类错误的概率为 ,即
P 接 受 H 0 /H 0 为 不 真
1- β为该检验检验不真实零假设的 检验功效,又称检验效能(power of a test)/把握度:
其意义是:当两总体确有差别, 按规定的检验水准 a 能发现该差别的 能力(概率)。
双侧检验 左侧检验 右侧检验
H0
m = m0
m m0
m m0
H1
m ≠m0
m < m0
m > m0
检验时,假定零假设为真,构造检验统计量、 拒绝域和接受域。
检验统计量:我们用来决策(拒绝或不能拒绝 零假设)时依据的样本统计量。不同的总体参 数适用的检验统计量不同。
拒绝域和接受域:检验统计量取值的集合称为 拒绝域,当根据样本得到的检验统计量的值属 于该集合时,拒绝零假设。不能拒绝零假设的 检验统计量取值的集合称为接受域;
概率。
假设的总体 抽样分布
IIm maaggee
- Z mb mb mb ma
以左侧检验为例
Neymann-Pearson原则
找一个不犯错误的检验!? 控制两种错误概率的方法:增加样本量和N-P原 则。
N-P原则:控制犯第一类错误的概率不超过。
显著水平:犯第一类错误的最大概率。
两类错误总结
结论
不能拒绝 H0
)
36
m m 6 6 P ( 6 . 8 6 X 2 6 . 1 9 8 6 )6
若 m = 69,n = 36, czz0.0251.96 2
X 68
3 .6 8
1 .96
取伪的概率较大.
现增大样本容量,取 n = 64, m = 66, 则
m69P(6.172X6.88m86)9
某甲某 乙的生 命现象
定类测量
甲、乙有生命
定序测量
甲为中年人,乙 为少年人。
定距测量
甲生于1940年、 乙生于1985年。
定比测量
甲70岁、乙25岁
测量 精度
很低 较低 较高 较高
计算 方法
信息 数量
不能计算, 只能判断
=、≠
甲、乙有生命
=、≠、>、
甲、乙有生命 甲生命时间较乙
<

=、≠、> 、 < 、+ 、-
甲、乙有生命 甲生命时间较乙 长 甲比乙大45岁
=、≠、> 、 < 、+ 、-、
×、÷
甲、乙有生命 甲生命时间较乙长 甲比乙大45岁 甲年龄约为乙的3 倍
典型的数据分析方法(部分)
集中趋势 离散趋势 相关回归 假设检验
定类变量 定序变量
众数
异众比 品质相关
非参数统计
中位数
异众比 等级相关
Q检验 2检验
H0:m ≥ 100
H1:m < 100
拒绝域和接受域(左侧检验)
拒绝域
接受域
假设的总体 抽样分布
概率
概率( 1- )
零假设和备择假设的选 择原则
通常把研究者要证明的假设作为备择假 设;
把现状(Status Quo)作为原假设; 把不能轻易否定的假设作为原假设;
零假设和备择假设: 把研究者要证明的假设作为备择假设
非参数统计
WELCOME TO
NONPARAMETRIC STATISTICS
教科书
易丹辉、董寒青,《非参数统计:方法与 应用》,中国统计出版社2009年版。
其他参考书 1.吴喜之,《非参数统计》,中国统计出 版社2006年第2版。 2.希尔德布兰德等,《社会统计方法与技 术》,社会科学文献出版社2005年版。 3.王星,《非参数统计》,清华大学出版 社2009年版。
例如1- β=0.90,即说明H0不成立, 则理论上每100次检验中,在α的水准 上,平均有90次能拒绝H0(能认为有 统计学意义)。
以左侧检验为例
犯第二类错 误的概率
z 实际的总体
抽样分布
接受 区域
假设的总体 抽样分布
2
Z mb
ma
样本均值落在此区间,原 假设便不能被拒绝
实际的总体抽样分布越接近
5(F- 50º)= 9(C-10º) 摄氏与华氏温度转换
定距尺度 - 273.15℃
定比尺度
-123.15 ℃
0 ℃ 26.85℃
0K
150K
300K
四种计量尺度的比较
1、四种尺度所包含的信息量是依次递增的,级别由 低到高。
2、根据较高层次的计量尺度可以获得较低层次的计 量尺度。
3、不同的尺度数据对应这不同数据显示方法和分析 方法。
某种汽车原来平均每加仑汽油可以行驶24英里。 研究小组提出了一种新工艺来提高每加仑汽油 的行驶里程。为了检验新的工艺是否有效需要 生产了一些产品进行测试。该测试中的零假设 和备择假设该如何选取?
要证明的结论是m>24,因此零假设和备择假设 的选择为: m24 m>24
思考题
哲学上,可以说“接受”和“拒绝”两个概 念对称的,那么,在统计实践中,零假设和备择 假设对称吗?
定距变量 定比变量
均值
标准差
参数统计
均值
标准差
相关回归 相关回归
Z、t检验 Z、t检验
1.2 统计检验(参数的假设检验)
1.基本思想 2.零假设和备择假设 3.两类错误 4.假设检验的基本步骤
1.假设检验的基本思想
假设检验的推断类似于反证法。
小概率原理
如果对总体的某种假设是真实的,那么不 利于或不支持这一假设的事件A(小概率事 件)在一次试验中几乎不可能发生;如果 在一次试验中A竟然发生了,就有理由怀疑 该假设的真实性,拒绝这一假设。
划分拒绝域和接受域的数值称为临界值。
双侧检验的形式
mm mm H 0 : 0 H 1 : 0
【例】某生产线出产的产品单位重量正常 水平应为100克,某日随机抽查100个产品, 测得其平均重量为101.5克,标准差为8克。 这个抽查结果是否意味着生产过程处于失 控状态?
H0:m = 100
H1:m≠100
定距尺度实例
4、定比尺度 Ratio Scale
例如体重、身高 数据表现为“数值” 可以进行加减、乘除运算 “0”表示“没有”或“不存在” 根据定比尺度得到的数据为比率
数据。
定比尺度实例
6枚
3枚
定比尺度数据可以0”表示一个具体数值,不表示“没有” 或“不存在”,定比尺度中“0”表示“没有或一无所 有”、“不存在” 。
0.3903.66177
仍取 = 0.05,则 X ~ N(66, 3.62 )
通常取0.01,0.05,0.1。根据确定检验统计量 的临界值,从而进一步根据样本观测值和临界 值得出检验结论。
双侧检验时
拒绝域
犯第一类错 误的概率
接受域
概率/2
概率( 1- )
拒绝域
概率/2
左侧检验时
拒绝域
犯第一类错 误的概率
概率
概率( 1- )
右侧检验时
犯第一类错 误的概率
拒绝域
概率( 1- )
H0:m ≤ 10
H1:m > 10
拒绝域和接受域(右侧检验)
接受域
假设的总体 抽样分布
拒绝域
概率( 1- )
概率
左侧检验的形式
mm mm H 0 : 0 H 1 :0
【例】某品牌方便面包装袋上标明,其油炸 面饼的重量不少于 100 克。现通过抽取的样 本,实际称量面饼重量,检验生产厂家的说 明是否有效。
统计上两者不对称,显著性检验的主要目的是拒 绝零假设。
这与科学领域的理论发展类似
物理上 日心说——牛顿定律——相对论。
3、两类错误与显著性水平
第一类错误
指拒绝了一个本来是真实的 原假设,又称为“弃真”错 误或“拒真”错误
犯第一类错误的概率为假设检验的显著性
水平 ,即 P 拒 绝 H 0 /H 0 为 真
体重:141公斤
定类尺度 精
定序尺度

程 定距尺度

定比尺度
1、定类尺度 (Nominal Scale)
例如:性别、民族、职业 数据表现为“类别” 各类之间无等级次序 各类别可以用数字代码表示 根据定类尺度得到的数据为分类
数据。
定类尺度实例
编码
意见 男女
同意 不同意
人种
白 黄 棕黑 1 234
先修课
最好熟练掌握以下课程: 《统计学》 、 《经济学》、《高等数学》、
《概率论与数理统计》、《抽样理论与方 法》等。
§1 导论
1.1 测量的层次(数据的计量尺度) 1.2 统计检验 1.3 参数统计 1.4 非参数统计
1.1 测量的层次(数据的计量尺度)
俱乐部:休斯顿火箭 健康状况: 良好 出生年份:1980
设 m = 66, n = 36, 6.198666.86266
0.6 0.6
m m69 P( 66 .82 X 69 .18
69)
69 .1869 66 .8269
0.6
0.6
(0.3) (3.63 )
0.6179 0.0002 0.6177
3.62
X ~N(69,
拒绝域和接受域(双侧检验)
拒绝域
接受域
假设的总体 抽样分布
拒绝域
概率/2
概率( 1- )
概率/2
右侧检验的形式
mm mm H 0 : 0 H 1 :0
【例】某型号汽车每升汽油平均行驶里程为 10公里。生产厂家研制了一种新型汽化器以 求提高燃料效率。目前正在进行行驶实验, 以求通过实验证明新型汽化器可以提高燃料 效率。
2. 原假设与备择假设
原假设
又称零假设,指正在被检验
的假设,记为 H 0
备择假设 指拒绝原假设后打算要接受
的假设,记为 H 1
基 本
双侧检验
形 式
单侧检验
右侧检验
左侧检验
检验假设是设的总体而不是样本。
零假设和备择假设是互斥的,它们中 仅有一个正确;等号必须出现在零假 设中;
最常用的有三种情况:双侧检验、左 侧检验和右侧检验。
分析: P (Xx ) C n xp xq n x
若假设引例3中次品率≤4二﹪,项则分事布件“抽取
10件产品有4件次品”发生的概率为:
P X 4 C 1 4 0 0 .0 4 1 4 0 .0 6 4 0 .00
只有万分之四可能的事件在一次试验中居然 发生了,这是不合理的,因而假设P≤4﹪是不 能成立的,故按质检部门的规定,该批产品 不能出厂。
1
2
3
很 满 意
满中 不 满
意立 意
反 对
1
2
3
4
5
定序尺度数据不能测量差别的多少
3、定距尺度 Interval Scale
例如年份、摄氏温度、海拔、时钟、智商得分 数据表现为“数值”,且有计量单位 可以进行加减运算 “0”是只是尺度上的一个点,不代表“不存在” 根据定距尺度得到的数据为间距数据。
相关文档
最新文档