统计软件实训(1)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
统计软件实训
1、概述 (1)
1.1实习目的以及要求 (1)
1.2.实习安排 (1)
1.3.实习原理(软件原理) (1)
1.4.实习平台 (2)
2、实训内容 (2)
2.1.SPSS描述性统计与作图分析 (2)
2.1.1基本描述统计分析 (2)
2.1.2 探索性分析 (4)
2.2.假设检验 (7)
2.2.1单样本T检验 (7)
2.2.2 独立样本检验 (9)
2.2.3 卡方检验 (12)
2.3.方差分析 (14)
2.3.1单因素分析 (14)
2.3.2二因素方差分析 (19)
2.4.相关分析和回归分析 (27)
2.4.1双变量相关分析 (27)
2.4.2偏相关分析 (29)
2.4.3 线性相关分析 (31)
2.5.时间序列分析 (35)
3 总结 (40)
1、概述
1.1实习目的以及要求
本实训的要求是通过统计软件IBM SPSS的学习,注重统计应用的实战性,从SPSS的基本功能介绍开始,由浅入深、循序渐进地采用案例形式,针对常用的统计方法,进行相关统计原理的学习,通过学习实训内容,不但可以掌握SPSS 的操作和使用,而且可以提高分析和解决实际问题的能力。
1.2.实习安排
1月6日指导书及教学安排,提出论文写作实践的具体要求;学生准备好相关需要准备的参考书等。
数据收集研究对象,利用专业数据库,收集各类数据。
1月7日统计描述(1)描述性分析(2)探索性分析(3)相对数分析相关与回归分析
1月8日(1)运用SPSS软件进行相关分析,包括绘制相关图和计算相关系数。
(2)进行-元线性回归分析。
1月9日(1)时间序列的创建(2)长期趋势线性模型的拟合( 最小二乘合法、指数平滑法)及预测。
(3)测定季节变动规律。
1月10日实训成绩测定
1.3.实习原理(软件原理)
IBM SPSS®软件平台提供高级统计分析、丰富的机器学习算法、文本分析、开源可扩展性、与大数据的集成以及无缝部署到应用程序中等功能。
IBM SPSS 兼具易用性、灵活性和可扩展性,可以为具有各种技能水平的用户提供服务,并且帮助企业发现新机遇,提高效率并最大程度降低风险。
1.4.实习平台
IBM SPSS Statistics 22
2、实训内容
2.1.SPSS描述性统计与作图分析
2.1.1基本描述统计分析
(1)录人数据,依次单击[分析][描述统计] [描述],出现所示对话框,将左侧列表框中的各省[GDP(亿元)]到[各省城镇人口(万元)]变最依次拉入右侧的[变量]栏。
(2)单击[选项]按钮,出现对话框,在本对话框进行描述性统计输出项目的选择。
在本案例中,勾选[均值]、标准差].[最小值].[最大值]、[峰度]和[偏度]选项,在[显示顺序]栏选择默认选项变量列表。
(3)单击[确定]按钮完成描述统计过程,得倒SPSS输出结果。
(4)输出结果及说明。
给出了五个经济指标的描述统计值,通过该表可以很直观准确地得到每个指
标的数据特征和分布状况。
2.1.2 探索性分析
(1)录人数据,依次单击[分析]→[描述统计]→[探索],出现对话框,将[各省GDP(亿元)]变量拉人[因变量列表]中指定为因变量,将[所属地区]变量拉入[因子列表]中作为分类变量,若同时选择多个因变量和因子变量,SPSS将两两组合进行分析.将[省份]变量拉入[标注个案]中以便在结果标志个案。
(3)单击[统计量]按钮,出现对话框。
可以定义输出统计量,在本案例选择[描述性]和[M估计量]。
单击[继续]按钮,返回上一级主对话框。
(1)单击[绘制]按钮,出现对话框.在此对话框选择输出的箱图和描性图的类型,在[箱图]下选择[按因子水平分组]项,表示对于每个因子变量,每个图只示一个因变量,在[描述性]下勾选[茎叶图]和[百方图]复选框,单击[继续]按钮返回上.一级主对话框。
(4)单击[确定]按钮执行探索性分析操作,得到SPSS输出结果。
(5)输出结果及说明。
给出了摘要输出描述性统计,摘要给出不同地区的有效个案和缺失案数,而描述性输出给出了四个不同地区各自的描述统计值。
2.2.假设检验
2.2.1单样本T检验
(1)将数据导入SPSS中,数据录入界面如下图所示。
(2)依次单击菜单[分析]→[比较均值] [单样本T检验],出现对话框。
(3)将待检测变量选入[检验变量]列表,在底部的[检验值]框中输入675 作为总体均值。
单击[选项]按钮.出现对话框,设置置信区间百分比,这里默认为95%
(4)单击[继续]按钮返回主对话框,再单击[确定]按钮,得到SPSS输出結果如下图所示。
(5)输出结果及说明。
给出了关于样本的几个特征:样木量(N) .均值、标准益等。
给出了T检验的结果。
本次属于权边检验,在该案例a取0.05,而概率P值为0.028,概率P值小于给定的显著性水平a,因此应该拒绝原假设,认为一班的成绩均值与675分有显著差异.也就是有95%的把握接受一班成绩的值不为675分的假没.
2.2.2 独立样本检验
(1)录人数据,应注意需要把两个班的成绩样本放在同一个变量列上,同时为了区分样本的总体,还应该定义一个存放样水来源的标识变量,在这里[班级]变量是标识变量。
数据录人界面。
(2)依次单击[分析] [比较均值]→[独立样本T检验]执行两独立样本T检验过程。
出现对话框,将[成绩]变最选定为[检验变量],将[班级]变量拉人[分组变量]框中。
(3)单击[定义组]按钮,出现对话框,在[组1]栏中输人“1“标识1班,在[组2]栏中输
人“2”标识2班、单出[继续]返回上-级主界面。
(4)单击[确定]按钮,SPSS将首先计算F统计量,给出两总体方差相同与不相同状况下的统计量观测值及对应的概率P值。
输出结果如下图所示。
(5)输出结果及说明。
对1.2班成缕的基本统计特征,包括样本、均值、际准关和均值的标准误。
给出了方差方程的Levene检验和T检验结果。
F统计量的概率P值为0. 444,则不否认两班成绩方差相等的假设,因此应该参考第一行的T检验结果。
第二行中对应的概率P值远小于给定的显茗性水平0.05,因此拒绝原假设,认为两班的平均
成绩存在显著差异,即1、2两班的学生考试水平不同。
2.2.3 卡方检验
(1)录入数据界面所示,本案例将[平均成绩]作为加权变量,因此先对该变量进行加权操作。
(2)依次单击[数据]→[加权个案],出现对话框,将[平均成绩]变量拉人[频率变量]框中,单击[确定]按钮,完成加权操作.
(3)依次单击[分析]→[非参数检验]→+[旧对话框]→[卡方],出现对话框,将[班级]交量拉人[检验变显列表]对话框中,该变量必须为数值型变量,在[期望值]框中点击[值]选框,输人“1.1”,单击[添加]按钮将“1.1”添加到右边期粱值列表中,再用同样
方法添加“1”、“1”和“1"。
(4)单击[选项]按钮,出现选项设置对话框,包括[统计量]利[缺失值]两红选项,单击[继续]按钮返回上一级主对话框。
(5)单击[精确]按钮出现对话框,当不满足应用卡方检验的前提条件,可以设置其他检验方法。
单击[继续]按钮返回上一级主界面。
(6)单击[确定]按钮。
SPSS 输出结果如下图所示
(7)输出结果及说明。
由检验统计量看出渐进显著性的取值P为0.505>0.05,因此不能拒绝原假设,表示四个班级的平均成績分布与历史经验分布无显著差异.即四个班级的平均成绩的对应分布基本符合1.1:1:1: 1的分布,
2.3.方差分析
2.3.1单因素分析
(1)录人数据,需要建立两个变量序列,一个存放观测变量值,一个存放控制变量值,以“1、2、3、4”分别代表“华北、华东、东南、西南”四个不同的地区。
数据录人界而如图所示。
(2)依次单击[分析] >[比较均值] >[单因素ANOVA],出现如图对话框。
将收益水平]变量拉人右侧[因变量列表]栏中;将[地区]变量拉人[因子]栏中,变量的取值需为整数。
(3)单击[对比]按钮,出现对话框,在此设置关于均值对照的选项:选中多项式]复选框,在[系数]后面输人“1”、然后点击[添加]按钮将其添加到下面的列表,再添加
“0”、“1”、“-3”,单击[继续]按钮返回上一级主对话框。
(4)单击[两两比较]按讯,出现,在此指定多重比较方法。
勾选[LSD]和[Tamhane's T2]复选框,单击[继续]按钮返回上一主对话枢。
(5)单击[选项]按钮,出现如图22,在此设置输出选项和缺失值的处埋方式。
依次勾选[描述性].[方差同质性检验]和[均值图]。
单击[继续]按钮返回上一级主对话框。
(6)击[确定]按钮,SPSS运行输出结果如下图所示。
(7)输出结果及说明,
给出了不同地区对应的收益水平的均值、标准差和标准误以及极大极小值等统计值,从表中可以看华北地区的收益水平是最高的,与东南地区的均值相差不大,而西南地区的收益水平最低.其均值水平几乎是华北地区的一半。
2.3.2二因素方差分析
(1)录入数据,将地区“华北、华东、东南、西南”分别标记为“1、2、3、4" ,将“促销活动、线上销售、新品开发、广告投入”分别标记为“1、2、3、4”。
录人界面。
(2)依次单击[分析]→[一般线性模型] [单变量]执行二因素方差分析过程。
将[收益水平]变量拉人[因变量]栏中,将[地区]和[营销策略]变量拉人[固定因子]栏中。
(3)单击[对比]按钮,选择[地区]和[营销策路]变量,单击[对比]下拉列表,选择[简单]再单击[更改]按钮,单击[继续]按钮返回上一-級主对话框。
(4)单击[绘制]按钮,将[地区]变量拉入[水平轴]栏中,将[营销策略]变量拉入[单图]栏中,作为作图的分线变量。
再单击[添加]按钮,将[地区*营销策略]添加到下面的列表框.单击[继续]按钮返回上一级主对话框。
(6)单击[两两比较]按钮,出现如图26,设置观测均值两两对比的参数。
选中因子栏
中的[地区]和[营销策路]变量,将其拉人[两两比较检验]栏中,勾选[LSD]复选框。
单击[继续]按讯返回上一级主对话框。
(7)单击[选项]按钮,出现对话框,将[因与因了交互]栏中的[地区]和[营销策略]变量拉人右侧的[显示均值]栏中,单击[比较主效应]下拉列表并选择[Bonferroni]选项。
勾选[描述统计],[方差齐性检验],[分布-水平图]和[残差图]复选,单击[继续]按钮返回上一级主对话框。
(8)单击[确定]按钮运行,SPSS输出结果如下图所示。
(9)输出结果及说明。
给出了各种水平之下的样本个数,列出不同地区以及不同营销策略对应的收益水平的样本均值、标准偏差和祥术量.直观看来,不同地区和不同营销策略之间的收益水平存在一定差距。
华比和东南地区收益水平整体较高,广告投人对应的收益水平相对也较高。
2.4.相关分析和回归分析
2.4.1双变量相关分析
(1)在用SPSS进行分析之前,要把数据录人到SPSS中。
录人完成后数据如图所示。
(2)在菜单栏中依次选择[分析][相关][双变量],打开[双变量相关]对话框。
(3)选择变量。
从源变量列表中选择需要相关分析的变量,然后单击箭头按钮将选中的变量选人[变量]列表中。
木案例中将[平均学分缘点],[基本工资]变黄进人[变量]列表中。
单击在上方的[选项]按钮,打开[双变量相关性:选项]对话框。
[统计量]选项组用于选择输山的统讣量,其中[均值和标准关]复选框表示计算出每个变量的均值和标准差;[叉积偏差和协方差]复选框表示计算出变量的叉积偏差利协方差。
本案例中勾选这两个复选柜.
(4)输出结果及说明.
为描述性统计量的输山表,包括均值,标准差和观测样本数。
描述性统计量为相关分析的输出结果。
平均学分绩点和基本L资之间的
Pearson相关系数为0.748,表明二者之间存在正相关关系;两者之间不相关的双侧见著性值为0.00<0.01,表明在0.01的显著性水平下否定了二者不相关的原假设。
所以,可以得出结论,平均学分绩点和基本工资之间存在显著的正相关关系。
2.4.2偏相关分析
(1)在菜单栏中依次选择[分析]→[相关]→[偏相关],打开“偏相关”对话框。
(2)选择变量。
从源变量列表中选择变量分别进人[变量]利[控制]列表框中。
其中,[变量]列表框显示的是需要进行偏相关分析的变量,[控制]列表框显示的是应该剔除其影响的变量。
本案例中将[平均学分绩点]、[基本工资]选人[变量]列表框,将[学科]选人控制]列表框。
变量选择完成后,。
(3)其他相应设置。
“偏相关分析”对话框的设置选项和“双变量分析”对话框的设置选项基本相同。
木案例中单击[选项]按钮,打开“偏相关性:选项”对话框。
选择[统计量]选项组中的[均值和标准差]、[零阶相关系数]两个复选框,并选择[缺失值]选项组中的[按对排除个案]单选框,最后单击[继续]按钮返回主对话框,保存设置结果。
(4)输出结果及说明。
表1为描述性统计量表,包括基本工资.平均学分绩点和学科这三个变量的均值、标准差和观测值个数。
表2为相关性输出表,表的上半部分是没有控制变最时三个变量两两间的相关关系,由表可看出,基木工资和平均学分绩点之间的相关系数为0.748,检验结果与第一问完全相同。
表3的下半部分是任含控制变量[学科]后[基本工资]和[平均学分绩点]两个变量之间的俯相关分析结果。
剔除控制变量的影响后,二者之间的偏相关系数为0.748,双侧显薯性值为0.00<0.01,因此拒绝原假设,即认为二者在0.01的显著性水平下的相关关系非常显著。
2.4.3 线性相关分析
(1)将数据录人列SPSS中,可发现本案例中有四个变量.分别是性别、学科、平均学分绩点和基本.工资,录人完成后数据。
(3)在菜单栏中选择[分析]→[回归]→[线性],打开所示的“线性回归”对话框。
(4)选择变量。
从源变量列表中选择蕭要进行线性回归分析的被解释变最和解释变量,分别选人[因变量]利[自变量]列表中,因变量利自变量的数值类刑均为数值型.
[方法]列表相用丁选择线性四归中变量的进入和剔除方法,包括[进人]、[逐步]、[删除]、[向后]和[向前]。
[选择变量]列衣框用于指定分析个案的选择规则,当回归分析中包含山选择规则定义的个案时,可将该变量选人[选择变量]列表框,然后单术[规则]按饥,弹出的“线性问归:设置规则”对话框。
本案例中,将[基本工资]选人因变量列表框,将[性别][平均学分绩点]选入K白变量]列表框,其他采用默认设置。
选择完成后。
(5)相应设置。
单击[统计显按钮后,弹出所示的“线性回归:統计量”对话框。
该对话框用于指定线性回归分析输出的统计量,包括[四归系数]选项组,该选项织用于设定同归系数。
[估计]表示会输出回归系数、标本案例中勾选[估计]、[模型报合度]、[Durbin-Watson].然后单击[继续]按钮,其他设置均使用系统默认,
设置完成,单出[确定]按钮.输出结果。
(5)输出结果及说明。
表1显示本实验采用“输入”的方法选择交量,输人的变量是[T均学分域点]和[性别]。
表2显示评价模型的检脸统计量,包括R.R、调整K、估计的标在误以及“DurbinWatson”统计量,木实验中调整的R2为0.816。
表3显示方养分析的结果。
可以看出回归部分的F值为568.018。
相应的P 值为0.000.小于显著性水平0.03。
因此可判断模型非常显著。
表3显示了线性回归模型的回归暴数及相关统计量。
可以得出该模型的常量为-550.556,性别和平均学分绩点的系数分别是一523.848和1130.075,说明基
本工资与平均学分端点正相关,与性别负和关。
另外常量、性别和平均学分绩点的t值分别为-4.710、-20.500和30.636.对应的概率在均为0.00,说明系数非常显著,与方差分析的结果-致。
表4显示了一些残差的统计量。
可以得出预测值、方差、标准顶测值和标准预测的极小值.极大值等统计量。
2.5.时间序列分析
2.5.1指数平滑模型
(1)建立指数平滑模型前,首先定义日期,对MO定义日期后,在菜单栏中依次选择[分析][预测][创建模型].弹出“时间序列建模器”对话柜后,默认显示[变量]选项卡。
(3)进行相应的设置。
将M0从左侧[变量]移到右侧[因变量],因空量]和[自变量1列表中的变量必须为数值型的度量查量。
[力法]中选中[指数平滑法],单击[条件]后,彈出如“时间序列建模器:指数平
滑条件了对话框,在[K模型]中选中[简单季节性],单击[继续]按钮,返回“时间序列建模器”中。
(4)单击[统计量]标签.打开所示的“时间序列建模器”对话框的[统计量]选项卡部分。
勾选[按模型显示拟合度量、Ljung Box统计量和国排值的数量]复远怔,表示输出模型的报合变量,1jing Box统计量和利群值的数量,只有选中该复选框[拟合废量]选项细才能激活,在[个别模型的统i局]选项组中选择[容数估计],表示输出模型的参数估计值表。
其他项为默认。
同时,其他选项下的设置也为跌认职。
设置完毕后,单击[确定]按伍,得到结果。
(5)输出结果及说明。
表1为模中的基本描述,从该表中以相道所建立的指数平滑模型的因变量标签是“MO”,模型名称为“模型1”,模型的类型为简单季节性。
表2给出了均值、取小值、最大值以及百分数。
其中,平稳的R*均值为0.511.m R2的均值为0.996 ,这主要因为因变量的數据为重。
图3统计址选项季节性数据,所以其中的R更有代表性、从两个R*值来看.该模型的拟合程度一般。
表4是模型的拟合统计量和Ljung BoxQ统计量,平稳的R值为0.511,与模型概合表中的R值一样说明拟合模型可以解释原序列51.1%的信息量。
ljung Box Q 统计量的值为105.7,显著水平为0.000。
因此拒绝方差序列为独立序列的原假设,说明模型招合后的残差序列是存在舟相关的,因此需要采用ARMA模型继缺分析。
此外所有数据中没有离群值(孤立点)。
2.5.2ARIMA模型
(1)打开相应的数据文件或者建立一个数据文件后,在菜单栏中依次选择[分析]→[预测]→[创建模型],打开所示的“时间序列建模器”对话框。
(2)ARIMA模型设置。
从左侧[变最]列表中选择M0,选入[因变量]列表中。
在[方法]下拉列表框中选择[ARIMA],然后单击[条件]按钮,打开“时间序列建模器:ARIMA条件"对话框。
在[自回归]的[季节性]列中输入[3].[差分]的[季节性]列中输人[1]、[移动平均数]的[季节性]列中输人[2],单出[继续]按钮。
(3)单击“时间序列建模器: ARIMA条件”对话框的[离群值]标签,打开其中的[离群值]选项部分,[离群值]选项卡部分主要用于对离群值进行设定,有3种方式,本崇例选择默认选项[不检测离群值或为其建模].即不检测离群值或为其建模,设置完成后,单击[继续]按钮,返回主对话框。
单击选择[统计量]选项卡,选择[参数估计]复选框和[显示预测值],然后单击[继续]按钮,保存设置。
单击[确定]按钮,便可以得到ARIMA模型建模的结果。
(3)输出结果及说明。
表1给出S模型的八个拟合优度指标的均值、最小值、最大值以及百分位数。
从两个KE值来看,ARIMA(3,1,2)的拟合情况良好。
其中,平稳的R值为0.725,而R2值.为0.997,这是由十因变量数据为季节性数据,因此平稳的R更具有代表性。
图1给出了ARIMA<3,1,2)模型参数估计值。
ARIMA(3,1,2)中有两部分:AR 和MA。
其中AR自回归部分的三项显著性水平分别为0.000.0.000和0.000,MA 移动中均部分的两项的显著性水平为0.C00和0.056。
除了MA(2)在10%的显著水平下通过检验外,其他项都非常显着。
这说明ARIMA(3,1,2)比较合适对原序列进行建模。
3 总结
统计学是我们班这个学期开设的课程,虽然只有短短一个学期的课程,但是通过这一学期的学习,我们对统计学应用领域及其内性和基本概念有了一个基本的了解,可以说,这一学期我的收获颇丰。
就统计学这门课程来说,了解到统计学是一门研究如何根据事物的随机性规律来收集、分析、处理数据并利用其进行推断的科学,只要有数据的地方,就会用到统计学;是研究如何用科学的方法收集、整理、分析实际数据,并通过统计所特有的统计指标和指标体系,表明所研究的规模、水平、速度、比例和效益,以反映其现象发展规律在一定时间、地点、条件的作用下,描述其现象数量之间的关系和变动规律。
我们学习统计学的目的是运用统计思想进行分析,在实践工作中,要善于利用统计的思维方式思考,在纷繁复杂的社会实践中,要学会发现数字、分析数字、并使用数字说话;掌握基本的统计方法,要掌握统计工作中涉及到基本统计概念和基本统计计算方法,能够阅读常规的统计报告,了解统计指标的含义,同时,能够自己处理常见的统计问题,锻炼统计的计算能力。
以上就是我的学习体会,我要树立终身学习的理念,不断学习,不断充实,积极探索,逐步成熟。
在日常的生活学习中,要学会自己运用统计学知识处理各种问题,为生活提供便利。