属性分析(1)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
18
30.0
合计
60
100.0
(3)给出汇总数据的条形图和圆形图;
(4)以你的汇总数据为基础,解释学生对课程的综合评估。
答:由汇总数据可知,学生对课程的综合评估为好和很好的,占总数的70%,所以,我们有理由认为学生对课程的综合评价较高。
3.一个糖果制造商观察到硬糖外层发生的各种问题频数如下表:
问题
频数
(2)p值小于0.05,故拒绝原假设,认为这些数据与消费者对糖果颜色的分布不相符。
2.对三种肉食调查200人,分别为85人,41人,74人最喜欢猪肉,牛肉,羊肉,α=0.05,检验顾客对这三种肉食的喜好程度相同。
解:原假设 :顾客对猪肉、牛肉和羊肉的喜好程度都为1/3
表2
类别
实际频数
概率
期望频数
猪肉
Chiinv=(0.05,1)
3.84146
p=chidist(0.01224,1)
0.912
由表6可知,我们可用以下两种方式进行决策:
(1)由于 0.01224< =3.84146,故接受原假设,认为以上数据在0.05的水平下与遗传学理论相符合。
(2)p值大于0.05,故接受原假设,认为以上数据在0.05水平下与遗传学理论相符合。
1.问题:疫苗是否有效?
由题可得以下四格表:
表1-1组别*有无病例交叉制表
计数
有无病例
合计
无病例
有病例
组别
处理组
200688
57
200745
对照组
201087
142
201229
合计
401775
199
401974
表1-2卡方检验

df
渐进Sig. (双侧)
精确Sig.(双侧)
精确Sig.(单侧)
Pearson卡方
(2)p值大于0.05,故接受原假设,认为学生对这些课程的选择没有倾向性,即选各门课的人数的比例相同。
4.股票投资中盈、持平和亏的比例为1:2:7
(1)在5606人中盈、持平和亏的人数各为1697、1780和2129.问调查数据是否和流行说法符合?
解:原假设 :盈的概率为0.1;持平的概率为0.2;亏的概率为0.7;
表4
类别
实际频数
概率
期望频数
盈利
1697
0.1
560.6
2303.61
持平
1780
0.2
1121.2
387.101
亏损
2129
0.7
3924.2
821.248
总卡方值
3511.96
Chiinv=(0.05,3)
5.99146
p=chidist(3511.96,2)
0
由表4可知,我们可用以下两种方式进行决策:
蓝色
42
0.1
50
1.28
总卡方值
18.05667
Chiinv=(0.05,5)
11.0705
p值=chidist(18.05667,5)
0.002876
由表1可知,我们可用以下两种方式进行决策:
(1)由于 18.05667> =11.0705,故拒绝原假设,认为这些数据与消费者对糖果颜色的偏好分布不相符。
7
77
0.1
80
0.1125
8
75
0.1
80
0.3125
9
76
0.1
80
0.2
10
91
0.1
80
1.5125
总卡方值
5.125
Chiinv=(0.05,9)
16.91898
p=chidist(5.125,3)
0.823278
由表3可知,我们可用以下两种方式进行决策:
(1)由于 5.125< =16.91898,故接受原假设,认为学生对这些课程的选择没有倾向性,即选各门课的人数的比例相同。
精确Sig.(双侧)
精确Sig.(单侧)
Pearson卡方
75.884a
1
.000
连续校正b
73.424
1
.000
似然比
58.722
1
.000
Fisher的精确检验
.000
.000
线性和线性组合
75.808
1
.000
有效案例中的N
1000
由表2-2可知,Pearson卡方、连续校正和似然比检验的p值都小于0.05,故在0.05的显著性水平下,认为A、B两种肥料的效果有显著差异。而对于B种肥料的效果是否显著的好的单侧检验问题,由于Pearson卡方、连续校正和似然比检验的p/2值都小于0.05,故在0.05的显著性水平下,认为B种肥料的效果显著的好。
解设:将开红花、开白花和开粉红色花记为 , , ,并记 所占比例为 (i=1,2,3),则 : ,求得 的极大似然估计为0.45。
表6
类别
实际频数
概率
期望频数
红花
24
0.2025
24.3
0.0037
白花
36
0.3025
36.3
0.00248
粉红花
60
0.495
59.4
0.00606
总卡方值
0.01224
(5)有这两个重要问题的糖果在具有缺陷的糖果中占的百分比是多少?
答:最重要的两个问题所占百分比为85%。
1.消费者对糖果颜色的偏好如下:
橙色
黄色
红色
棕色
绿色
蓝色
30%
20%
20%
10%
10%
10%
随机取一袋糖果,其中500块分布如下:
橙色
黄色
红色
棕色
绿色
蓝色
172
124
85
41
36
42
这些数据是否与消费者对糖果颜色的偏好分布相符?(置信水平α=0.05)
4.问题:检验精神病患者和神经病患者在自杀情绪方面有没有差异?
由题可得以下四格表:
表4-1有无自杀情绪*患者交叉制表
患者
合计
精神病患者
神经病患者
有无自杀情绪
有自杀情绪
计数
3
9
12
患者中的%
12.0%
36.0%
24.0%
无自杀情绪
计数
22
16
38
患者中的%
88.0%
64.0%
76.0%
合计
计数
25
25
外层不够
486
两个粘在一起
43
被压扁
295
外层太多
84
破裂
12
(1)把问题按频数从大到小的次序排列,建立一个表格说明各种问题的糖果频数、在所有有问题的糖果数中的百分比和累计百分比;
表3-1频数分析
问题
频数
频率
累计频率
外层不够
486
53%
53%
两个粘在一起
295
32%
85%
被压扁
84
9%
94%
外层太多
合计
计数
836
164
1000
肥料品种中的%
83.6%
16.4%
100.0%
由表2-1可知,施A肥料的植物长势良好的比例为53%,而施B肥料的植物长势良好的比例为87%,因而,施B肥料的植物其长势良好的比例显著高于施A肥料的植物,即B种肥料的效果显著好于A肥料。
表2-2卡方检验

df
渐进Sig. (双侧)
43
5%
99%
破裂
12
1%
100%
合计
920
100%
Байду номын сангаас(2)对这个情况画一个排列图;
图3-1排列图
(3)利用受影响的糖果数说明什么是最重要的问题?这个问题所设涉及的糖果所占的百分比是多少?
答:最重要的问题是外层不够,所占百分比为53%
(4)什么是次重要的问题?它占的百分比是多少?
答:次重要问题为两个粘在一起,占32%
亏损不足10%
517
0.07
88.9
2061.53
亏损10%及以上
240
0.63
800.1
392.091
总卡方值
3406.84
Chiinv=(0.05,4)
9.48773
p=chidist(3406.84,4)
0
由表5可知,我们可用以下两种方式进行决策:
1)由于 3406.84> =9.487729,拒绝原假设,则调查数据与流行说法不相符合。
解:原假设 :消费者对糖果颜色的偏好依次为橙色为30%;黄色为20%;红色为20%;
棕色为10%;绿色为10%;蓝色为10%;
表1
类别
实际频数
概率
期望频数
橙色
172
0.3
150
3.226667
黄色
124
0.2
100
5.76
红色
85
0.2
100
2.25
棕色
41
0.1
50
1.62
绿色
36
0.1
50
3.92
2.问题:为确定A、B两种肥料的效果有无显著差异?以及B种肥料的效果是否显著的好?
由题可得以下四格表:
表2-1肥料品种*长势交叉制表
长势
合计
长势良好
长势一般
肥料品种
A肥料
计数
53
47
100
肥料品种中的%
53.0%
47.0%
100.0%
B肥料
计数
783
117
900
肥料品种中的%
87.0%
13.0%
100.0%
50
患者中的%
100.0%
100.0%
100.0%
由表4-1可知,精神病患者中,有自杀情绪的比例为12%,神经病患者中,有自杀情绪的比例为36%,精神病患者和神经病患者在自杀情绪方面存在一定的差异。
11
22.0
酒后或者疲劳驾驶
3
6.0
判断失误
14
28.0
偏离规定行使路线
1
2.0
合计
50
100.0
(3)对这些数据画条形图和圆形图;
(4)以样本为基础,说出造成交通事故的驾驶因素中哪一个因素最主要?
答:察觉得晚
(5)怎样描述这些数据的中心位置和离散程度?求出相应的代表性的数值。
答:可以用众数和中位数来描述中心位置,从中可以看出察觉得晚是事故起因的众数出现的最多,离散程度可以用GS指数和熵表示。
解:原假设 :盈利10%以上为0.09;盈利10%以下为0.01;基本持平为0.2;亏损不足10%为0.07;亏损10%以上为0.63;
表5
类别
实际频数
概率
期望频数
盈利10%及以上
151
0.09
114.3
11.7838
盈利10%以下
122
0.01
12.7
940.669
基本持平
240
0.2
254
0.77165
36.120a
1
.000
连续校正b
35.273
1
.000
似然比
37.313
1
.000
Fisher的精确检验
.000
.000
线性和线性组合
36.120
1
.000
有效案例中的N
401974
由表1-2可知,Pearson卡方、连续校正和似然比检验的p值都小于0.05,故在0.05的显著性水平下,认为处理组与对照组的病例数达到显著性差异,即可认为该疫苗是有效的。
1.造成交通事故的原始数据为:
驾驶错误
察觉得晚
察觉得晚
判断失误
驾驶错误
察觉得晚
判断失误
察觉得晚
判断失误
察觉得晚
判断失误
酒后或疲劳驾驶
察觉得晚
判断失误
察觉得晚
驾驶错误
判断失误
驾驶错误
察觉得晚
判断失误
酒后或疲劳驾驶
察觉得晚
察觉得晚
察觉得晚
察觉得晚
察觉得晚
偏离规定行使路线
判断失误
驾驶错误
察觉得晚
判断失误
判断失误
85
1/3
66.66667
5.041667
牛肉
41
1/3
66.66667
9.881667
羊肉
74
1/3
66.66667
0.806667
总卡方值
15.73
Chiinv=(0.05,2)
5.991465
p值=chidist(5.991465,2)
0.000384
由表2可知,我们可用以下两种方式进行决策:
判断失误
察觉得晚
驾驶错误
察觉得晚
察觉得晚
驾驶错误
察觉得晚
判断失误
判断失误
驾驶错误
驾驶错误
判断失误
驾驶错误
驾驶错误
酒后或疲劳驾驶
察觉得晚
察觉得晚
察觉得晚
(1)这些是属性数据还是定量数据?
答:属性数据
(2)给出这些数据的频数分布和频率(%)分布;
表1-1频数与频率分布
频数
频率
有效
察觉得晚
21
42.0
驾驶错误
3
4
4
5
1
5
3
4
5
2
4
5
3
4
4
4
5
5
4
1
4
5
4
2
5
4
2
4
4
4
5
5
3
4
5
5
2
4
3
4
5
4
3
5
4
4
3
5
4
5
4
3
5
3
4
4
3
5
3
3
(1)这些是属性数据还是定量数据?
答:属性数据
(2)给出汇总数据的频数分布和频率(%)分布;
表2-1频数与频率
频率
百分比
有效
很差
2
3.3

4
6.7
一般
12
20.0

24
40.0
很好
2)p值小于0.05,故拒绝原假设,认为调查数据与流行说法不相符合。
5.某种植物有遗传因子(AA)、(Aa)、(aA)或(aa).(AA)开红花,(aa)开白花,(aA)或(Aa)开发粉红色花.开红花、开白花和开粉红色花的概率分别是 , 和2pq,p+q=1.该种植物120株中,开红花,开白花和开粉红色花的株数分别是24、36和60。问以上数据是否在0.05的水平下与遗传学理论相符合?
课程号:
1
2
3
4
5
6
7
8
9
10
选课人数:
74
92
83
79
80
73
77
75
76
91
解:原假设 :学生选择这10门课程的概率都为0.1.
表3
课程号
实际频数
概率
期望频数
1
74
0.1
80
0.45
2
92
0.1
80
1.8
3
83
0.1
80
0.1125
4
79
0.1
80
0.0125
5
80
0.1
80
0
6
73
0.1
80
0.6125
1)由于 3511.961368> =5.991464547,故拒绝原假设,认为调查数据与流行说法不相符。
2)p值小于0.05,故拒绝原假设,认为调查数据与流行说法不相符。
(2)在1270个股民中,盈利10%以上、盈利10%以下、基本持平、亏损不足10%和亏损10%以上人数分别为151、122、240、517和240.这个数据是否和流行说法相符?
GS指数=1-(0.42^2+0.22^2+0.06^2+0.28^2+0.02^2)=0.692
熵=-(0.42*ln0.42+0.22*ln0.22+0.06*ln0.06+0.28*ln0.28+0.02*ln0.02)
=1.30
2.某学院综合质量评价为:
很差、差、一般、好、很好
某班60个同学调查结果为:其中1=很差,2=差,3=一般,4=好,5=很好
(1)由于 15.73> =5.991465,故拒绝原假设,认为顾客对这三种肉喜好不一致。
(2)p值小于0.05,故拒绝原假设,认为顾客对这三种肉喜好程度不一致。
3.下面的数字分别记录了800名学生每门选修的课程数,α=0.05,检验学生对这些课程的选择没有倾向性,即选各门课的人数的比例相同的假设。
相关文档
最新文档