最新定性数据分析第五章课后答案
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
定性数据分析第五章课后作业
1、为了解男性和女性对两种类型的饮料的偏好有没有差异,分别在年青人和老
试分析这批数据,关于男性和女性对这两种类型的饮料的偏好有没有差异的问 题,你有什么看法?为什么? 解:(1)数据压缩分析 首先将上表中不同年龄段的数据合并在一起压缩成二维
2X 2列联表1.1 ,合
起来看,分析男性和女性对这两种类型的饮料的偏好有没有差异?
表
1.1 “性别偏好饮料”列联表
二维2X 2列联表独立检验的似然比检验统计量 - 21 n 上的值为0.7032,p 值 为p =P( 2(1) -0.7032) =0.4017 ■ 0.05,不应拒绝原假设,即认为“偏好类型” 与“性别”无关。
(2) 数据分层分析
其次,按年龄段分层,得到如下三维 2X 2X 2列联表1.2,分开来看,男性 和女性对这两种类型的饮料的偏好有没有差异?
表1.2 三维2X 2X 2列联表
在上述数据中,分别对两个年龄段(即年青人和老年人)进行饮料偏好的调 查,在“年青人”年龄段,男性中偏好饮料A 占58. 73%偏好饮料B 占41.27%; 女性中偏好饮料A 占58. 73%偏好饮料B 占41.27%,我们可以得出在这个年 龄段,男性和女性对这两种类型的饮料的偏好有一定的差异。 同理,在“老年人”
年龄段,也有一定的差异。 (3) 条件独立性检验
为验证上述得出的结果是否可靠,我们可以做以下的条件独立性检验。 即由题意,可令C 表示年龄段,0表示年青人,C 2表示老年人;D 表示性别,D ! 表示男性,D 2表示女性;E 表示偏好饮料的类型,E !表示偏好饮料A, E 2表示 偏好饮料B 。欲检验的原假设为:C 给定后D 和E 条件独立 按年龄段分层后得到的两个四格表,以及它们的似然比检验统计量 -21 n 上的值
如下:
条件独立性检验问题的似然比检验统计量是这两个似然比检验统计量的和,
其值
-2ln 上=6.248 11.822 =18.07 由于r = c = t = 2,所以条件独立性检验的似然比检验统计量的渐近 2分布的自 由度为r(c-1)(t-1) =2,也就是上面这
2个四格表的渐近 2分布的自由
G 层
-2ln 上=6.248 C 2层
-2ln 上=11.822
度的和。
由于p值P( 2(2) _18.07) = 0.000119165很小,所以认为条件独立性不成立,即
在年龄段给定的条件下,男性和女性对两种类型的饮料的偏好是有差异的。
(4)产生偏差的原因
&、在(1)中,将不同年龄段的数据压缩在一起合起来后分析发现男性和女性在对两种类型的饮料的偏好上是没有差异的。但将数据以不同的年龄段分层后并分
别分析发现男性和女性在对两种类型的饮料的偏好上是有一定差异的。合起来看
和分开来看的结果不同。
b、由此看来,年龄段在此次调查中属于混杂因素。由于不同年龄段的人对饮料的选择也会有差异,例如现在的年青人偏好喝一些像可口可乐,美年达等这样的
碳酸饮料,而老年人则偏好喝一些红茶,绿茶等这样的非碳酸饮料,在调查中,
“老年人”年龄段共有115人,所占比例大,从而使整个结果就倾向于老年人的观点,即使得混杂因素“年龄段”起到一定的干扰作用,从而导致整个调查结果产生了偏差。
2、某工厂有三个车间。车间主任分别为王、张和李。过去的一年里,该工厂产
品的质量情况总结如下:
王主任将内销和外销产品合并在一起,然后计算各个车间的不合格率。计算结
果如下:
王主任说,我负责的车间生产情况最好,其次是李主任负责的车间,最差的是
张主任负责的车间。这样的比较是不是有偏比较?为什么?
解:不是,有偏比较是指将数据压缩后合起来看与分层后分开来看得出的结果不一致时所产生的偏差,而此题只是将数据压缩起来后相互间比较,因此这样的比较不是有偏比较。具体分析如下:
由题知,分析车间主任与产品的质量情况之间的关系,则本题是以产品类别为层,以车间主任为行,产品的质量情况为列进行相关分析。
(1)数据压缩分析
首先将上表中不同产品类别的数据合并在一起压缩成二维3X2列联表2.1,
合起来看,分析车间主任与产品的质量情况两者之间的关系?
可计算出该表独立性检验的似然比检验统计量上的值为,值为
p=P( 2(2) 一48.612)。应该拒绝原假设,即认为车间主任与产品的质量情
况两者是有一定相关性的
(2)数据分层分析
其次,按产品类别分层,得到如下三维2X 3X 2列联表2.2,分开来看,分析车间主任与产品的质量情况两者之间的关系?
在上述数据中,分别对两个产品类别(即内销和外销)进行分析,在“内 销”类别中,王姓主任车间的产品不合格率最高,即车间生产情况最差,张姓 主任车间的不合格率最低,即车间生产情况最好;在“外销”类别中,王姓主 任车间的产品不合格率最高,即车间生产情况最差,张姓和李姓主任车间生产 情况差不多。 (3) 条件独立性检验
为验证上述得出的结果是否可靠,我们可以做以下的条件独立性检验。 即由题意,可令A 表示产品类别,A i 表示内销,A 2表示外销;B 表示车间主任, B i 表示王姓主任,B 2表示张姓主任,B 3表示李姓主任;C 表示产品的质量情况, C i 表示合格产品数,C 2表示不合格产品数。欲检验的原假设为:A 给定后B 和C
条件独立
按产品类别分层后得到的两张表格,以及它们的似然比检验统计量 -21 n 上的值
如下:
-21 n-l =15.289
A 2层
A ,层