第十四讲非参数统计方法(PPT 38)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
H0: p = .5 H1: p .5
6
个人 1 2 3 4 5 6 7 8 9 10 11 12
偏好的品牌 热带桔 热带桔 柑桔谷 热带桔 热带桔 热带桔 热带桔 热带桔 柑桔谷 热带桔 热带桔 热带桔
记录的数据 + + -
7
n=12, p=0.5 二项分布表
x
概率 累计概率
概率
0 0.000244 0.000244 0.25
The rejection region is z > z With = .05 z.05 = 1.645.
Conclusion: Reject the null hypothesis. There is sufficient evidence to infer that the European car is perceived as more comfortable than the American car.
H0: p = .5 H1: p .5
4
• 小样本时可利用二项分布表。(n20) • 大样本时可利用正态近似。
5
例:太阳海岸农场
• 太阳海岸农场生产一种在市场上名为柑 桔谷的桔汁。太阳海岸的竞争对手也已 经开始生产一种新的名为热带桔的桔汁 饮品。为了解消费者对这两种产品的偏 好,调查了12个人。设p为消费者总体中 偏爱柑桔谷的比例。(=0.05)
24
20
3
3.5
18
20
4
3.5
17
22
5
5
22
23
6
7
20
23Βιβλιοθήκη Baidu
7
7
23
23
8
7
23
24
9
9
17
Wilcoxon 符号秩检验的步骤
H0: 两总体相同 H1: 两总体不同
• 计算匹配样本的差异; • 计算差异的绝对值; • 对差异的绝对值进行排秩; • 秩被赋予原始数据差异的符号; • 求符号秩的和:T
H0: 两总体相同 H1: 两总体不同
20
工人
1 2 3 4 5 6 7 8 9 10 11
方法1 10.2 9.6 9.2 10.6 9.9 10.2 10.6 10 11.2 10.7 10.6
方法2 9.5 9.8 8.8 10.1 10.3 9.3 10.5 10 10.6 10.2 9.8
29
分行1 帐户
1 2 3 4 5 6 7 8 9 10 11 12 秩和
余额 1095 955 1200 1195 925 950 805 945 875 1055 1025 975
秩 20 14 22 21 9 12.5 3 11 6 19 17 15 169.5
分行1 帐户
1 2 3 4 5 6 7 8 9 10
13
中位数的检验
• 样本中的数据大于假设的中位数的值时 用加号表示,小于假设的中位数的值时 用减号表示,等于假设的中位数的值的 数据应被剔除。
14
• 例:
H0 :中位数 130000美圆 H1 :中位数 130000美圆 在一个由62所新住宅组成的样本中, 34所住宅的价格高于130000美圆,26所 住宅价格低于130000美圆,2所住宅价格 等于130000美圆。 n 62 2 60 x 34 z 34 60 0.5 1.03 1.96
1 0.00293 0.003174 0.2 2 0.016113 0.019287 0.15
0.1
3 0.053711 0.072998 0.05
4 0.12085 0.193848 0
5 0.193359 0.387207 6 0.225586 0.612793
0 1 2 3 4 5 6 7 8 9 10 11 12 x
Whitney Test.
24
检验步骤
• 将混合样本观测又低到高进行排秩,同 分值将被赋予相应秩的平均数;
• 计算第一样本的秩和T; • 小样本时(两样本容量小于等于10),
查表确定临界值; • 大样本时(两样本容量都大于等于10)
,利用正态近似。
25
小样本情形
• 例:来自佳菲初中的学生总体与来自茂 拜初中的学生总体在学术潜力上是否相 同。
12
The hypotheses are:
H0: p0.5 H1: p>0.5
There were 18 positives, 5 negatives, and 2 zeros. X = 18, n = 23. Z = [x-np]/[np(1-p)].5
= [18-.5(23)]/[.5[23}.5] =2.71
60 0.5 0.5 不拒绝
15
Wilcoxon Signed-Rank Test • 用于确定两总体是否有差异; • 基于匹配样本; • 数据是定量的; • 差异的分布不要求正态。
16
秩(Rank)
obs
rank
20
3
23
5
24
6
18
2
17
1
22
4
obs 排序后 顺序

20
17
1
1
23
18
2
2
1011 21 19.62 6
23
Mann-Whitney-Wilcoxon Test
• 用于确定两总体是否存在差异; • 基于分别来自两个总体的独立随机样本
; • 不需要正态及方差相等的假设; • 数据的测度尺度至少是顺序的。 • 也称为Wilcoxon Rank Sum Test , Mann-
31
Kruskal-Wallis Test
• 检验3个或3个以上总体是否相同; • 独立样本; • 可用于顺序数据; • 不要求总体正态及方差相等。 • 是ANOVA的替代方法。
32
步骤
• 计算混合样本秩;
• 计算各样本的秩和;
• 计算检验统计量
W
12 [
nT (nT 1)
k i 1
Ri2 ni
– Each person ranked the cars on a scale of 1 (ride is very uncomfortable) to 5 (ride is very comfortable).
11
The results were:
Respondent European American Difference
1
4
5
-1
2
2
1
1
3
5
4
No45rmal?
3 2
2 1
6 Not all5the data 3
7 are sh1own.
3
8
4
2
9
4
2
141
121
10
81
462
-22
0
2 -2
-1
0
1
2
More
2
10
2
2
0
11
3
2
1
12
4
3
1
Do these data allow us to conclude at 5% significance level that the European car is perceived to be more comfortable?
8
5 146
7
秩和
11
34
n1 4, n2 5,T 11 TL 12,TU n1(n1 n2 1) TL 28 拒绝域:T TL或T TU 结论:两总体不同。
28
大样本情形
T
~
N
(T
,
2 T
)
T n1(n1 n2 1) / 2
T n1n2 (n1 n2 1) /12
• 例:某银行两分行的支票帐户余额总体 是否相同?
18
• 当两总体相同且数据对的个数大于等于
10时,
T
~
N (T
,
2 T
)
T 0, T
n(n 1)(2n 1) 6
检验统计量:z T T T
拒绝域:z z
2
19

• 一家制造企业试图确定两种生产方法在 完工时间上是否存在差异。选出了一个 由11名工人组成的样本,且每个工人都 分别使用每种方法完成了一项生产任务 。完工时间如表所示。
21
工人 方法1 方法2 差异 差异的绝对值 秩 符号秩
1
10.2 9.5 0.7
0.7
8
8
2
9.6 9.8 -0.2
0.2
2
-2
3
9.2 8.8 0.4
0.4
3.5
3.5
4
10.6 10.1 0.5
0.5
5.5
5.5
5
9.9 10.3 -0.4
0.4
3.5
-3.5
6
10.2 9.3 0.9
0.9
余额 885 850 915 950 800 750 865 1000 1050 935
秩 7 4 8 12.5 2 1 5 16 18 10
83.5
30
T 12 (12 10 1) / 2 138 T 1210 (12 10 1) /12 15.17
z 169.5 138 2.08 1.96 15.17
6.6 10
Example
– In an experiment to determine which car has the more comfortable ride, 25 people took two rides:
• One ride in a European model. • One ride in a North-American car.
]
3(nT
1)
k :总体的个数
ni : 样本i中的个体数 nT:所有样本的个体总数 Ri :样本i的秩和
若ni 5,i 1, k,则W ~ 2 (k 1) 拒绝域:W 2 (k 1)
33
• Example
– How do customers rate three shifts with respect to speed of service in a certain restaurant?
• 间隔尺度(Interval scale):具有顺序数据的所有特 征,且观测时的间隔可用一个固定的尺度单位 来表述。(温度)
• 比例尺度(Ratio scale):具有间隔数据的特性, 且测量间的比率有意义。0表示没有。(距离 ,高度,重量,时间,利润)
2
• 参数方法通常要求使用数量型数据(间 隔或比例尺度),且对总体分布有一些 假定。
10
10
7
10.6 10.5 0.1
0.1
1
1
8
10
10
0
0
9
11.2 10.6 0.6
0.6
7
7
10 10.7 10.2 0.5
0.5
5.5
5.5
11 10.6 9.8 0.8
0.8
9
9
符号秩之和 44
22
n 111 10 T 44
T
n(n 1)(2n 1) 6
z 44 0 2.24 1.96 19.62
青睐热带桔
8
例:总统竞选的民意调查
• 在总统竞选活动中的一项民意调查询问 了200名登记选民,以了解在民主党候选 人与共和党候选人中谁的对外政策更佳 。结果显示,72人认为民主党候选人更 好,103人认为共和党候选人更好,25人 在两者之间无偏好。这一民意调查是否 显示公众对两个候选人对外政策的观点 存在着显著不同?
7 0.193359 0.806152
8 0.12085 0.927002
9 0.053711 0.980713
10 0.016113 0.996826
11 0.00293 0.999756
12 0.000244
1
拒绝域:x<3 或 x>9
因加号个数为2,所以拒绝 原假设。
结论:消费者对两种品牌的 橙汁的偏爱存在差异,更为
H0: 两总体相同 H1: 两总体不同
26
佳菲初中
茂拜初中
学生 班级名次 学生 班级名次
1
8
1
70
2
52
2
202
3
112
3
144
4
21
4
175
5
146
27
佳菲初中
茂拜初中
学生 班级名次 混合样本秩 学生 班级名次 混合样本秩
1
8
1
1
70
4
2
52
3
2 202
9
3 112
5
3 144
6
4
21
2
4 175
– Three samples of 10 customer response cards were randomly selected, one sample from each shift.
第十四讲 非参数统计方法
1
四种测量尺度
• 称名尺度(Nominal scale):数据是简单的标记 或类别,用于定义一个个体的归属。(性别, 行政区划,身份证号码)
• 顺序尺度(Ordinal scale):数据可被用于对观测进 行排秩。(尺寸小、中、大,成绩优、良、中 等,满意度1、2、3、4、5。)
9
• 认为民主党候选人更佳的记为加号。
H0 : p 0.5 H1 : p 0.5 大样本时,加号个数的抽样分布近似为 x ~ N (np, np(1 p)) 检验统计量z x np
np(1 p) 拒绝域:z z
2
本例中n 200 25 175 np 175 0.5 87.5
np(1 p) 175 0.5 0.5 6.6 z 72 87.5 2.35
• 非参数方法可用于品质型数据(称名或 顺序尺度),对总体的概率分布要求较 少。
3
符号检验(Sign test)
• 利用正负号的数目对某种假设作出判定 的方法。
• 所研究的问题只有两种可能的结果:“ 成功”或“失败”,并且成功或失败的 出现被假定服从二项分布。以加号表示 成功,减号表示失败。p表示成功的概率 。
相关文档
最新文档