SPSS实验报告
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
重庆邮电大学课程报告
2016 - 2017 学年第2 学期
课程名称:《数据分析方法与实训》
姓名:XX
学号:*******XXX
班级:0104150X
专业:信息工程
指导教师:**
2017年7 月2 日
(1)基于前述操作,继续在myzy.sav中完成以下任务:①分别绘制语文、数学、
外语成绩的箱体图,并对箱体图的输出结果进行解释。②分别绘制语文、数学、外语成绩的茎叶图,并对茎叶图的输出结果进行解释。③分别绘制语文、数学、外语成绩的Q-Q图,并对Q-Q图的输出结果进行解释。
箱体图操作方法:
1)在SPSS中打开yyyy.sav,处于“数据视图”状态。
2)利用【分析】——【描述统计】——【探索】命令。
3)变量“数学”从左侧列表移到右侧的“因变量列表”中;
4)变量“姓名”从左侧列表移到右侧“标注个案”中;
5)在“探索”对话框中,单击右侧【绘制】;
6)在“探索.图”对话框中,从左上角的“箱图”选中【不分组】,“描述性”选
中【茎叶图】,单击【继续】,【确定】。
操作结果:
图1.1关于语文的数据分析图1.2关于语文的箱体图
输出结果分析:矩形中部的横线表明,语文的中位数为84.50。箱体部分对应四分位间距,箱体外无数据说明分值较为集中,无异常值(异常值被定义为小于Q1-1.5IQR或大于Q3+1.5IQR的值)
图1.3关于数学的数据分析图1.4关于数学的箱体图
输出结果分析:矩形中部的横线表明,语文的中位数为82.00。距离箱体很远的被标记“*”号的为极端值,“张一81”、“张一79”等为极端值。
图1.5关于外语的数据分析图1.6关于外语的箱体图
输出结果分析:矩形中部的横线表明,语文的中位数为825.00。距离箱体很远的被标记“*”号的为极端值,“张一75”、“张一73”等为极端值。观测值位于触手之外但3倍箱体之内的个案位奇异值,标记为“o”,“张一71”、“张一17”为奇异值。
三个科目的茎叶图如下:
图1.7语文图1.8数学图1.9外语
输出结果分析:“Frequency”:频数,“Stem”:茎,“Leaf”:叶子。
“Stem width”=10,表明主干值乘以10.
例如图1.7第二行中,“7.00 7. 1122234”表明频数为7,主干为7,数值分别为:71、71、72、72、72、73、74。
Q-Q图操作过程:选择【分析】——【描述统计】——【Q-Q图】,选择“语文”和“数学”,单击【确定】,制作。
图1.10语文的正态Q-Q图图1.11语文的趋降正态Q-Q图
图1.12数学的正态Q-Q图图1.11数学的趋降正态Q-Q图
图1.13外语的正态Q-Q图图1.14外语的趋降正态Q-Q图
分析:正态Q-Q图,以成绩作为横坐标,以变量的Z分数作为纵坐标,以标志正态分布的Z分数值作为图中斜线。图1.10图中散点能够与斜线很好地吻合,图1.13图中散点能够与斜线较好地吻合,说明数据序列(语文、外语)符合正态分布。而图1.12中散点严重偏离斜线,则说明该数据序列(数学成绩)不符合正态分布。
趋降正态Q-Q图,以成绩为横坐标,以变量的Z分数与标志正态分布的偏差作为纵坐标。因此,标志正态分布应该是中部的水平线。图1.11和图1.14垂直坐标轴范围分布为-3~1和-10~10,所以语文和外语的符合正态分布。而数学的垂直范围为-40~30,所以不符合正态分布。
遇到的问题:外语的Q-Q图中,散点与斜线吻合度难以直观确切地说明是吻合还是不吻合,趋降正态图垂直坐标轴范围是-10~10,难以判断。
解决思路:我认为,Q-Q判断数据正态分布,是仅凭用户直观感受做出的决策,却没有准确的数值描述和判断,这也是它的弊端。
2. 检验MydataA中语文1与语文2的成绩对、语文2与历史的成绩对之间是否存在显著性的差异;检验MydataA中的数学与物理的成绩对、物理与化学的成绩对之间是否存在显著性的差异。
(1)操作:先对六个变量进行数据分布正态性的判断,【分析】——【旧对话框】——【1.样本K-S】,添加“语文1”“语文2”“历史”,确定。
图2.1
可以看到“语文1”、“语文2”、“历史”的渐进显著性值经过修正后的数据满足正态分布,可以作为检验变量参与T检验。而“数学”、“物理”“化学”的渐进显著性值经过修正后的数据不满足正态分布。然后对两组数据进行差异显著性检验:
图2.2
因为它们的sig值均大于0.05,表示这3个成绩不存在显著性差异。其中“语文1”与“语文2”T值均小于1.96,证明逐渐均值差异小于组内正常波动,组间没有显著性差异。
(2)因为数学、物理、化学不满足正态分布,所以采用W检验。
操作:【分析】——【非参数检验】——【旧对话框】——【两个相关样本】,将物理-数学、化学-物理分别加入检验对中。得到下列结果:
图2.3
“化学-物理”的“渐进显著性(双侧)”值为0.525,其值>0.05,说明组间不存在显著性差异。
3. 在MydataA中,检验语文1、语文2、历史三科目的成绩之间是否存在显著性的差异?检查数学、物理、化学三个科目的成绩之间是否存在显著性的差异?
(1)操作:根据图2.1知,语文1、语文2、历史满足正态,执行【分析】——
【比较均值】——【配对样本T检验】,第一行为“语文1”和“语文2”,第二行为“语文1”和“历史”,第三行为“语文2”和“历史”。结果如下:
图2.4
它们的Sig值分别为0.834、0.557和0.336,均>0.05,表示这三个成绩之
间不存在显著性差异。
(2)操作:由于数学、物理、化学不满足正态分布,执行【分析】—
—【分参数检验】——【旧对话框】——【2个相关样本】。第一行为
“数学”和“物理”,第二行为“数学”和“化学”,第三行为“物
理”和“化学”。执行结果如下:
图2.5
“数学-物理”和“化学-数学”的“渐进显著性(双侧)”分别为0.000
和0.001,其值小于0.05,。说明,物理和数学之间、化学和数学之间
的成绩分布存在显著性差异。而“化学-物理”的Sig值为0.525,大
于0.05,说明化学与物理成绩之间不存在显著性差异。
遇到的问题:第二题检验两对成绩对之间的显著性差异和第三题检验
三门成绩间的显著性差异,有和区别或联系。
解决思路:仔细查看书上例题和依次尝试【分析】里的各项操作后,
发现三变量之间的差异性检验,可以将其分为多对数据间的差异性检
验。(书上例题是这么做的)
4. 在MydataB中,检测全体新生智商在90分以上的概率能否达到90%?提示,基于二项分布检验,判断事件发生的概率。
若检验概率低于0.05,则接受原假设,认为全体新生智商在90分以上的概率能达到90%。
操作:【分析】——【分参数检验】——【旧对话框】——【二项式】,“IQ”添加到右侧【检验变量列表】,【割点】设为90,【检验比例】设为0.9。