运用统计方法分析大学生体育锻炼时间长短的影响因素

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(运用统计学大作业)
学院管理与经济学部
专业资产评估
姓名余建芳
学号2014209749
指导教师白寅
2014年10月
目录
1研究背景 (1)
2问题提出与描述 (1)
3数据收集 (1)
4模型建立 (4)
5运算与结果分析 (5)
5.1因子分析 (5)
5.1.1描述性统计量 (5)
5.1.2相关矩阵表 (5)
5.1.3KMO和Bartlett检验 (7)
5.1.4变量的共同度 (7)
5.1.5方差解释表及碎石图 (7)
5.1.6旋转前后的因子载荷矩阵 (8)
5.1.7因子得分系数 (10)
5.1.8因子分析结论与思考 (10)
5.2回归分析 (11)
5.2.1整体思路介绍 (11)
5.2.2强迫选入法 (11)
5.2.3逐步回归法 (17)
5.2.4针对男生进行回归分析的结果 (19)
5.2.5针对女生进行回归分析的结果 (22)
5.2.6回归分析结论与思考 (24)
6课程建议 (24)
附件:大学生体育锻炼时间长短影响因素的调查问卷 (25)
运用统计方法分析大学生体育锻炼时间长短的影响因素1研究背景
身体是革命的本钱,若是身体不健康,便会影响到学习、生活。

然而,在我的身边经常看到生病的同学,偶尔还会听闻某某同学患上重症的噩耗。

校园里时不时会出现一些过激的行为,我觉得都与身体健康与否有些许联系。

健康是一笔财富,健康带来幸福,健康让生活多姿多彩。

身体健康,伴随着生活积极向上,形成良性循环,学习、科研便不在话下。

所以,作为有为青年,我们必须拥有健康的体魄。

然而,健康的体魄来源于锻炼。

可是,我发现我身边的同学要么被繁杂的作业束缚,要么沉迷在网络的世界里不愿动弹,只有少量的同学活跃在操场上。

宅男、宅女的生活状态时不可取的,久而久之我们会失去我们的健康,这将是一件最痛心的事。

为了了解大学生锻炼时间长短的影响因素,我设计了一份问卷,到教学楼里收集数据。

通过统计学里学习到的分析方法,分析出原因,进而对大学生的锻炼提出一定的建议。

2问题提出与描述
大学生是否愿意去锻炼,并且愿意锻炼多长时间,我觉得是内外因共同作用的结果。

内因,即以大学生为中心的影响因素,我在问卷设计了“请问你一周上网时间”、“请问你觉得自己的身体状况如何”等问题来体现内因;外因,即环境的影响,我在问卷里设计了“请问你觉得学校的体育设施状况如何”、“请问你朋友邀约你去锻炼的次数”等问题来体现外因。

3数据收集
我设计了问卷(见附录1),并且选取26楼为发问卷的地点。

发放问卷100份,回收97份,问卷回收率为97%,并且均为有效问卷。

对数据进行一下调整:由于课程量越多和上网时间越长则会导致锻炼时间越短,所以为了能使解释变量和因变量之间是正向相关的,我对着这两个解释标量的数据进行了处理,使得课程量越少和上网时间越短则越接近于5。

此外,体育设施状况越好、体育场开放时间越长、朋友邀约次数越多、一周参与社团活动越多、天气影响程度越高、身体状况越好则越接近于5。

数据整理如表3-1。

4模型建立
设锻炼时间为因变量Y,体育设施状况为解释变量X
1
,体育场开放时间为解
释变量X
2,课程量为解释变量X
3
,上网时间为解释变量X
4
,朋友邀约次数为解释
变量X 5,社团活动次数为解释变量X 6,天气状况影响程度为解释变量X 7,身体状况为解释变量X 8,性别为虚拟变量D i 。

设计回归模型如下:
011223344556677889i Y a a X a X a X a X a X a X a X a X a D =+++++++++
5 运算与结果分析 5.1 因子分析
我们知道因子分析是一种用于提取多个变量潜在公共因子的统计方法,它是从众多可观察的变量当中综合和提取出少数几个潜在的公公因子,并使这些因子能最大程度地概括和解释原有观测变量之间的信息,从而揭示事物的本质。

针对所研究的问题,我设计问卷的出发点是考虑内外因,所以理论上我设计的问题背后隐含的因子应该是两个方面。

所以为了验证我设计问卷的初衷,需要对收集的数据进行因子分析。

用spss 软件进行分析结果如下。

5.1.1 描述性统计量
首先对因子分析的各变量进行描述性统计,包括均值、标准差和样本数量,如表5-1
5.1.2 相关矩阵表
如表5-2是各变量的相关矩阵,从表中可以看出,整体来说相关性都很差。

相比来说,同伴邀约次数和社团活动次数的相关系数最高,为0.415,且对应的显著水平显著(p=0.000),此外体育设施状况和体育场开放时间的相关系数比较高,为0.341,对应的显著水平显著(p=0.000).变量之间到底能不能分析出内在的共同成分?通过在网上查阅资料,对于有关人的行为的分析,R 2一般都很小,
5.1.3KMO和Bartlett检验
如表5-3是KMO和Bartlett检验。

KMO表示变量之间的偏相关性,本研究中的KMO=0.526,勉强符合标准。

所以我选择继续进行因子分析。

表5-3 KMO 和 Bartlett 的检验
取样足够度的 Kaiser-Meyer-Olkin 度
量。

.526
Bartlett 的球形度检验近似卡方66.512 df 36 Sig. .001
5.1.4变量的共同度
表5-4为变量的公因子方差表,表中给出了各初始变量的共同度。

第三列“提取”表示系统确认提取一定数量的因子时每个初始变量的共同度,即在最终提取的所有公共因子中,每个初始变量的能被解释的比例。

一般来说,变量的共同度越高越好。

观察表中的数据可以看出,除了上网时间提取比例在0.5以下,其余变量都能解释得比较好。

所以,我认为可以做因子分析。

表5-4公因子方差
初始提取
体育设施状况 1.000 .583
体育场开放时

1.000 .567
课程量 1.000 .711
上网时间 1.000 .314
同伴邀约次数 1.000 .679
社团活动次数 1.000 .651
天气状况影响
程度
1.000 .536
身体状况 1.000 .617
性别 1.000 .803
5.1.5方差解释表及碎石图
表5-5为方差解释表,显示了主成分、初始特征值和方差贡献率等信息。

从表中看出,第一个因子的特征值为1.743,方差贡献率为19.365%,即可以解释所有9个变量的19.365%。

前四个因子解释了所有变量的60.656%,没有达到理想的85%。

因为有四个因子的特征值大于 1 ,所以应该选取四个因子。

根据图
5-1 碎石图,从图中看出,从第5个因子开始因子解曲线变得比较平缓,实际上
图5-1碎石图
5.1.6旋转前后的因子载荷矩阵
表5-6为旋转前的成分矩阵,即因子载荷矩阵。

根据操作过程中系数显示格式的设置,因子载荷在各成分中是按照从大到小的顺序依次排列的,且小于0.4的载荷均不显示。

从表中可以看出,有两个解释变量同伴邀约次数和社团活动次数在因子1上负荷较高,分别有一个解释变量在因子2、3、4上负荷比较高。

而其他变量还没能得到更好地归类,所以需要对进行因子旋转,使得因子载荷向两级分化,是因子载荷高的更高,低的更低,以方便因子解释。

表5-7为旋转后的因子载荷矩阵。

从表中可以看出第1个因子在“同伴邀约次数”、“社团活动次数”、“身体状况”三个解释变量上有较高的因子载荷,所以把第1个因子命名为“环境软件影响因素”;第2个因子在“体育场开放时间”、“体育场设施状况”、“天气状况影响程度”三个解释变量上有较高的因子载荷,所以把第2个因子命名为“环境硬件影响因素”;第3个因子只能解释性别,便将其命名为“性别因素”;第四个因子只能解释课程量,便将其命名为“课程量因素”。

5.1.7因子得分系数
表5-8是成份得分系数矩阵,根据该表可得因子得分公式如下:
1 2 3 40.109++ 0.446+-0.181++ 0.066+-
F F F F =⨯
=⨯
=⨯
=⨯
体育设施状况……0.030性别
体育设施状况……0.038性别
体育设施状况……0.754性别
体育设施状况……0.056性别
5.1.8因子分析结论与思考
spss因子分析出的四个因子与我最初设想的内外因有较大差别,因子分析整体的结果也不是很理想,我觉得是自己在设计问卷的时候问题设计不够合理,问
卷的问题数量也不够,应该再针对性地添加一些问题。

另外,当分析社会科学的行为问题时,我应该去学习一些相关理论,修正所设计的问题,这样所设计的模型才有意义。

5.2回归分析
5.2.1整体思路介绍
首先,我对收集到的97个数据采用了“强迫进入法”进行回归分析。

强迫进入法是一种强迫介入式的回归分析方法,强迫所有变量按顺序进入回归模型。

然后,在所有变量强迫进入法后,我发现回归效果并不好。

于是我采取了两个措施:一方面,我选取了t值大于2即系数显著性比较好的两个变量再次进行强迫进入法分析;另一方面,我查阅资料得知样本的大小会对回归结果产生很大影响,于是我随机抽取了20个变量用强迫进入法进行了回归分析,用以验证回归效果。

接着,我尝试采用“逐步回归法”分析了97个数据。

逐步回归分析法是将自变量一个一个放入回归模型中,首先进入回归模型的自变量与因变量是关系最密切的;其次进入回归模型的是除第一个自变量外,与因变量呈最大相关的那一个变量;依次按这样的规则将自变量选入回归模型中。

最后,我认为男生、女生的情况会相差比较大,于是我用强迫进入法和逐步分析法分别对男生、女进行了回归分析。

5.2.2强迫选入法
(1)描述统计量:如表5-9 ,对样本的均值、标准差和有效观察数进行描述。

表5-9 描述性统计量
均值标准偏差N
锻炼时间 2.4021 1.02733 97 体育设施状况 3.2165 .88066 97 体育场开放时间3.1856 .90519 97 课程量 3.2990 1.02230 97 上网时间 2.2062 1.27425 97 同伴邀约次数 2.0515 1.02440 97 社团活动次数 1.8969 .91838 97 天气状况影响程

3.5876 1.02827 97 身体状况 3.1443 .91275 97 性别.6186 .48826 97
(2)相关矩阵
如表5-10为10个变量之间的相关矩阵,以及相关系数显著性检验的概率值矩阵。

从这个相关矩阵中可以看出,各个自变量与因变量之间的关系紧密程度,同时也可以检验是否存在共线性问题。

从表中可以看出“锻炼时间”与各个自变量之间的相关系数的绝对值在0.001~0.336之间,因变量和自变量之间的相关性呈低等程度相关。

各个自变量之间的相关系数也是比较低,即可以认为不存在多重共线性。

我查阅资料得知,相关系数并不是回归检验是否显著的唯一指标,于是继续往下分析。

表5-10 相关性

炼时间体育
设施
状况
体育
场开
放时








同伴
邀约
次数
社团
活动
次数
天气
状况
影响
程度






Pearso n 相关性锻炼时

1.0
00
.179 -.036 .07
3
.12
7
.336 .210 .001 .24
9
.16
4 体育设
施状况
.17
9
1.000 .341 -.0
73
.03
4
.184 .092 .192 .03
8
.09
7 体育场
开放时

-.0
36
.341 1.000 .00
7
.12
.057 -.052 .161 -.0
20
-.0
74
课程量.07
3
-.073 .007 1.0
00
-.0
08
.015 -.122 .069 -.0
58
.06
4 上网时

.12
7
.034 .120 -.0
08
1.0
00
.000 .001 .089 -.1
60
-.0
40 同伴邀
约次数
.33
6
.184 .057 .01
5
.00
1.000 .415 .109 .21
5
.14
4 社团活
动次数
.21
.092 -.052 -.1
22
.00
1
.415 1.000 -.034 .29
1
-.0
89 天气状
况影响
程度
.00
1
.192 .161 .06
9
.08
9
.109 -.034 1.000 .06
4
-.0
68
身体状

.24
9
.038 -.020 -.0
58
-.1
60
.215 .291 .064 1.0
00
-.1
56
(3)模型汇总
表5-11是模型汇总,其中的整体显著性检验F 值为2.918,查阅F 分布在显著性水平为0.05时0.05F F α≈(k,n-k-1)=(9,87)2.00,统计量F 值大于2.00故整体回归比较显著。

说明模型大致合理。

另外Durbin-Watson 检验用来检验回归模型的残差项是否存在自相关,当DW 值统计量数值越接近于2时,表示相关系数越接近于0,即残差项间不存在自相关。

在该案例中,DW 值=2.135.所以可以认为残差项间不存在自相关,用最小二乘法回归分析的结果将是有效的。

(3)回归系数显著性检验
该检验即t 检验,用于检验各个回归系数是否显著,通过查询t 分布在显著性
水平为0.05时0.0252
(n k 1)(87) 2.00t t α--=≈。

从表5-13可以看出只有“同学邀约次
(4)模型修正一
因为某些解释变量的系数太不显著,于是我选取了满足t检验的两个数据用强迫进入法进行回归分析。

回归结果如表5-14~5-16.
从表5-14、5-15中的F值看出整体显著性得到提高;而拟合优度R2减小,说明解释能力并没有提高;另外,DW值变大,这是因为解释变量加入到随机变量中,导致残差的序列相关性增大。

从表5-16看出系数的显著性只有“同伴邀约次数”,满足t检验了。

总之,只选用两个解释变量也不是很理想。

表5-16系数a
(5) 模型修正二
我查阅资料得知样本的大小会对回归结果产生很大影响,于是我随机抽取了20个变量用强迫进入法进行回归分析,用以检验回归效果。

如表5-17为相关系数矩阵,发现拟合优度R 2有很大改善。

说明我们在评价一个模型的优劣时不能只看R 2,它随着样本量的改变而有很大改变。

而F
检验和t 检验没有很大的变化。

可以认为在小样本的情况下,是可以构造回归模型的,但是由于很多因素不满足t 检验,所以总体来说回归模型还是不能成立。

5.2.3 逐步回归法
因为强迫进入法做回归分析的结果并不理想,于是尝试用逐步回归法。

spss 软件得到的结果如表5-19~5-22。

软件自动逐步分析得到一个解释变量与因变量相关,那就是“同伴邀约次数”。

整体显著性的F 检验=12.125满足显著性要求(0.05F ≈(1,95)3.96),;系数显著性的t 检验满足显著性要求(0.25(95) 1.98t ≈);回归标准化残差的标准p-p 图,分布图是一条从左下到右上的一条呈45°的直线,则该样本分布为正态分布。

但是R 2值还是非常小。

总的说可以建立回归方程,且回归方程为:51.7100.337y X =+。

表 5-19 输入/移去的变量a
模型
输入的变量
移去的变量
方法 1
同伴邀约次数
. 步进(准则: F-to-enter 的概率 <= .050,F-to-remov e 的概率 >= .100)。

a. 因变量: 锻炼时间
图 5-2 回归标准化残差的标准p-p 图
5.2.4 针对男生进行回归分析的结果
想了解一下男生体育锻炼时间长短的相关影响因素,于是我用上述的方法进行了回归分析。

“强迫进入法”结果如表5-23~5-25. 整体显著性的F 检验=2.440满足显著性要求(0.05 2.13F ≈(8,51)),;系数显著性的t 检验只有解释变量X 8满足显著性要求(0.25(51) 2.01t ≈);回归标准化残差的标准p-p 图,分布图是一条从左下到右上的一条呈45°的直线,则该样本分布为正态分布。

但是R 2
值还是非常小。

图 5-3回归标准化残差的标准p-p 图
“逐步分析法”结果如表5-26~5-29.软件自动逐步分析得到两个解释变量与因变量相关,那就是“同伴邀约次数”和“身体状况”。

整体显著性的F 检验=8.535满足显著性要求(0.05 2.13F ≈(8,51)),;两个解释变量的系数显著性的t 检验均满足显著性要求(0.25(51) 2.01t ≈);回归标准化残差的标准p-p 图,分布图是一条从左下到右上的一条呈45°的直线,则该样本分布为正态分布。

但是
R 2值还是非常小。

总的说可以建立回归方程,且回归方程为:
580.09230.3260.298Y X X =++。

a. 预测变量: (常量), X5。

b. 预测变量: (常量), X5, X8。

c. 因变量: Y
图5-4回归标准化残差的标准p-p图
5.2.5针对女生进行回归分析的结果
用spss对女生进行回归分析时,逐步分析法失效,只能采用强迫进入法进行回归分析。

回归结果如表5-30~5-32. 整体显著性的F检验=1.529不满足显著
性要求(
0.052.29
F≈
(8,28)),;系数显著性的t检验只有解释变量X1满足显著性
要求(
0.25(28) 2.05
t≈)。

总体来说,回归模型不成立。

5.2.6 回归分析结论与思考
采用“强迫进入法”和“逐步分析法”得到了两个回归方程,一个是整体的回归方程:51.710
0.337
y X =+,一个是针对男生的回归方程:580.09230.3260.298Y X X =++。

分析过程中发现整个模型回归的效果并不好。

我觉得是由于以下几个原因导致:
(1) 问卷设计不够科学,题目数量以及题目设计都有待改进;
(2) 选取样本的地方是26教学楼,大多是体育锻炼比较少的同学,所以用来
代替大学生这个整体的体育锻炼情况比较不合理;
(3) 缺少参考文献,选题只是取决于自己的兴趣,没有前人的经验可以参考。

6 课程建议
运用统计学这门课是一门非常有用且重要的课程,白老师课堂讲解很耐心、认真、负责,让我在这门课上学习了很多知识。

老师采用做大、小作业的方式来考核,对于研究生来说是非常合适的方式,这让我们能够有更多空间去思考。

但是,我觉得我们的课程上得有点太匆忙,希望以后排课的时候能把该课程排到几周的时间里,让我们有更充裕的时间学习。

再次感谢老师的认真讲解!
附件:大学生体育锻炼时间长短影响因素的调查问卷
亲爱的同学,你好!为了更好地了解我校学生体育锻炼情况,我们正在进行一项对我校学生体育锻炼时间长短影响因素的调查问卷。

题目均为单选题,你的每一个如实回答将有助于我们做出真实的判断,在此我们真心感谢你的参与!
年级专业性别
1.请问你一周锻炼的时间大约为()
A.1小时以下 B.1~3小时 C.4~6小时 D.7~9小时 E.10小时以上
2.请问你觉得学校的体育设施状况()
A.差
B.较差
C.一般
D.较健全
E.健全
3.请问你觉得学校的体育场开放时间()
A.短
B.较短
C.一般
D.较长
E.长
4.请问你一周的课程量()
A.少
B.较少
C.一般
D.较多
E.多
5.请问你一周上网的时间()
A.10小时以下
B.11~15小时
C.16~20小时
D.21~25小时
E.26小时以上
6.请问你朋友邀约你去锻炼的次数()
A.少
B.较少
C.一般
D.较多
E.多
7.请问你一周参与的学校或社团所组织的体育活动的次数()
A.少
B.较少
C.一般
D.较多
E.多
8.请问天气状况对你锻炼时间的影响()
A.小
B.较小
C.一般
D.较大
E.大
9.请问你觉得自己的身体状况如何()
A.差
B.较差
C.一般
D.较好
E.好
10.请问你锻炼身体是为了()
A.减肥
B.增强体质
C.结交朋友
D.缓解压力
E.打发时间
再次感谢你的参与,希望你多参加体育活动,积极锻炼身体哦!祝愿你身体健康,学习进步!。

相关文档
最新文档