定性数据分析论文
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
. .. 2014—2015学年第一学期《定性数据》期末论文
题目不同年级与性别对奖助学金渴望度定性数据分析姓名常XX
学号***********
学院数学与统计学院
专业统计专业
2014年 12月 18 日
不同年级与性别对奖助学金渴望度定性数据分析
摘要:定性数据分析是数据分析的一个重要内容,它在实践中有着广泛的应用,如问卷调查、产品检验、医学统计等领域中经常用到列联表的定性数据分析来。列联表的定性数据分析不
χ检验、似然比检验、相合性的度仅可以分析分类特征之间的相互依赖关系,还可以进行2
χ检量和检验、计算相关系数作相关分析也可以进行一致性与读了性的检验。本文主要采用2验、似然比检验、相合性的度量和检验来对不同年级、不同性别的大学生对奖助学金渴望度的独立性、相合性检验,最终得到对奖助学金的渴望度与性别无关、与年级有关。
χ检验似然比检验相合性度量
关键词列联表2
一、问题简述
为了解高某校不同年级不同性别的大学生对奖助学的渴望程度,对某校大一年级、大二年级共80位同学关于奖助学金的调查,并取其中的年级、性别、渴望度三个指标生成列联表,对列联表做定性数据分析。
二、符号说明
2χ :卡方统计量 2ln -Λ:似然比统计量 U :统计量
p :概率
τ :相合性度量统计量
三、理论方法
理论:列联表一般来说,有二维的r c ⨯ 列联表,假设将n 个个体根据两个属性A 和B 进行分类,属性A 有r 类:1,
,r A A ,属性B 有c 类:1,,c B B 。n 个个体中既属于i
A 类又属于j
B 类的有ij n 个。得如下二维的r c ⨯列联表:
表一
其中,,i ij j
n n +=
,1,
,;i r = j i ij n n +=,1,,,i j i
j
j c n n n ++===。
如果n 个个体根据三个或三个以上的属性分类,就会有三维或三维以上的列联表,对于高维的列联表一般将其压缩为二维列联表在对数据进行统计分析或对高维列联表进行分层在检验。
方法:对二维表中的数据进行2
χ 检验、似然比检验、相合性的度量和检验。
四、数据的来源与数据处理
本数据的来自在2014年6月所做的 《关于奖助学金的问卷调查》,本问卷共发放80份,实际回收77份。其中选年级、性别、渴望程度三个指标统计数据得如下的三维224⨯⨯ 的列联表:(其问卷和原始数据以及选出的三个指标的数据见附录)
表二
1、列联表的压缩
列联表的压缩即把高维列联表某一属性不同情况的数据合并在一起得到低维列联表德尔过程。将表二中不同年级、不同性别的人数分别合并在一起,将三维224⨯⨯列联表分别压缩为如下的二维列联表。
表三
表四
2、列联表的分层
列联表的分层即将高维列联表按某一个属性分成几个低维列联表,把表二按年级将三维列联表分为两个二维列联表。
表五
表六
五、检验与分析
5.1、描述性统计
对表二中的渴望度数据作柱形图和饼图,分析各渴望度所占的多少和比率。
在柱形图和饼图中可以看出,在所以调查的学生中对奖助学金非常渴望的人最多,其次是一般渴望,再次是渴望,最后是无所谓,也就是说大学生都比较渴望得到奖助学金的。
5.2、压缩列联表的检验与分析
1、2χ检验和似然比检验
(1)假设
101:
j rj r p p H p p +
+
==
(属性相互独立)111:
j rj r p p H p p +
+
≠≠
(属性不独立)
(2)检验
当两个属性独立时,根据
11j rj
r p p p
p
+
+
==
可知个体在每一类中的概率ij p 由1,,r p p ++
和1,
c p p ++ 完全确定,所以二维列联表的独立性检验实际上是带参数时的分类数据检验。
其统计量是自由度为()()11r c -*-的2
χ 统计量(22
11
ij
i j i j
n n
n n
χ==+
+=
∑∑
),在水平α 下
2
χ检验的拒绝域为2
χ>2
2
11
ij
i j i j
n n
n n
χ==+
+=∑∑
也就是说,此时可认为独立性不成立,否则,
可认为独立性成立。二维列联表的独立性检验的似然比检验的统计量为:
11
2ln 2ln(
)r c
i j
ij i j ij
n n n
n n
+
+==-Λ=-∑∑。也可以计算p 来完成检验,p 值等于自由度为
()()11r c -*-的2χ变量大于等于2χ 统计量的值的概率,如果p α≥值则拒绝原假设,
如果p α≤ 值,则不拒绝原假设。对压缩后的列联即表三(性别与渴望度)用SPSS 进行2
χ
检验得2
χ 值和p 值如下:
性别与渴望度的卡方检验表
由上表可知2
0.356,0.9490.05p χ==>且2ln 0.355,0.9490.05p -Λ==> 所以不拒绝原假设,独立性成立即性别与渴望度是相后独立,也就是说性别与奖助学渴望度无关。
对表四(年级与渴望度)用SPSS 进行2
χ检验得2
χ 值和p 值如下:
年级与渴望度的卡方检验表
由上表可知2
11.298,0.010.05p χ==<且2ln 14.462,0.002
0.05p -Λ==<,所以拒绝原假设,独立性不成立即年级与渴望度是相关的,也就是说年级与奖助学渴望度有关。
2.相合性的度量和检验
由于2
χ检验和似然比检验得年级与渴望度是相关的,所以对年级和渴望度进行相合性度量和检验,属性之间的相合关系有正相合(属性A 比较大的个体,属性B 也往往比较大)、负相合(属性A 比较大的个体,属性B 却往往比较小)。度量列联表相合性的方法有Kendall
τ系数、Gamma 系数和Somers d 系数。主要用Kendall τ系数来度量年级与渴望度
的相合性,其统计量为:
τ=