spss案例数据分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Spss期末作业
关于我国城镇居民消费结构及趋势的数据分析
本次分析采用的数据来源于《中国统计年鉴—2011》,我选用的是其中的第十篇章—人民生活下的城镇居民家庭基本情况的相关数据,用以研究城镇居民消费结构及其趋势。
(附数据部分截图)
(A)下面是我对该数据做的相关分析。
表一给出的是基本的描述性统计图,表中显示各个变量的全部观测量的均值、标准差和观测值总数N,表2给出的是相关系数矩阵表,其中显示4个变量两两之间的pearson相关系数,以及关于相关关系等于零的假设的单侧显著性检验概率。
描述性统计量
均值标准差N 食品2744.0660 1802.80584 5 衣着775.8200 555.67616 5 居住694.1920 565.48222 5 家庭设备用品及服务488.2500 343.94006 5
表1 描述性统计表
表2 相关系数矩阵
从表2中可以看出家庭设备用品及服务与食品、衣着之间相关系数分别为0.995、0.994,反映家庭设备用品及服务与食品、衣着之间存在显著的相关关系。
说明食品与衣着对家庭设备用品及服务条件的好转有显著的作用,此外食品与衣着之间,食品与居住之间,居住与衣着之间的相关系数分别为0.998、0.991、
0.985,这说明他们之间也存在着显著的相关关系。
在这里还要提一下相关系数旁边的两个星号的意思,它表示显著性水平α为0.01时仍拒绝原假设,一个星号则表示显著性水平α为0.05时可拒绝原假设。
因此,两个星号比一个星号拒绝原假设犯错误的可能性更小。
(B)下面是做的回归分析
表3给出了进入模型和被剔除的变量的信息。
从表中我们可以看出所有3个自变量都进入模型,说明我们的解释变量都是显著并且是有解释力的。
表4给出了模型整体拟合效果的概述,模型的拟合优度系数为1.000,反映了因变量于自变量之间具有高度显著的线性关系。
表里还显示了R平方以及经调整的R值估计标准误差
表5给出了方差分析表我们可以看到模型的设定检验F统计量的值为
411.727,显著性水平的P值为0.036。
表6给出了回归系数表和变量显著性检验的T值。
我们发现变量“食品”的T值太小,没有达到显著性水平,因此我们要将这个变量剔除。
从这里我们也可以看出模型虽然通过了设定检验,但很有可能不能通过变量的显著性检验。
表3 变量进入/剔除信息表
表4 模型概述表
表5 方差分析表
表6 回归系数表
表7 残差统计表
表7给出了残差分析表,表中显示了预测值、残差、标准化预测值、标准化残差的最小值、最大值、均值、标准偏差及样本容量等数据。
根据概率的3西格玛原则,标准化残差的绝对值最大为0.387,小于3,说明样本数据中没有奇异值。
表8 残差分布直方图
表8给出了模型的直方图。
由于我们在模型中始终假设残差服从正态分布,因此我们可以从这张图中直观地看出回归后的实际残差是否符合我们的假设。
从回归残差的直方图与附于图上的正态分布曲线相比较,可以认为残差的分布不是明显地服从正态分布。
尽管这样也不能盲目的否定残差服从正态分布的假设,因为我们用了进行分析的样本太小,样本容量仅为5。
(C)spss参数检验分析(单样本t检验)
1.单样本t检验。
在这里我选择的是转移性收入这个变量做的分析,推断转移性收入的平均值是否为2200元,下面是分析后输出的结果。
表9 转移性收入的基本描述统计结果
表10 转移性收入单样本t检验结果
由表9可知,五个年份的转移性收入的平均值为2420.4600元,标准差为2221.14元,均值的标准误差为993.32。
从表10中可以看出,该问题应采用双尾检验,因此比较α/2和p/2,也就是比较α和Ρ。
如果α给0.05,由于Ρ大于α,因此不应
拒绝原假设,不能认为转移性收入的平均值与2200有显著差异。
(D)比率分析
表11 案例处理摘要
表12工资性收入的比率分析结果
表11是案例处理摘要,表12显示的是工资性收入的比率分析结果,从表12可以看出五个年份的工资性收入占平均每人全部年收入的比率的均值为0.714,也就是说,五个年份的城镇居民平均每人全部年收入中的71.4%为工资性收入,由此可见工资性收入对城镇居民生活状况改善的重要性。
(E)因子分析
在这里先将分析后得到的结果展示如下:
表13 相关系数矩阵
表14 公因子方差
表15 解释的总方差表16 因子的碎石图表18 成分得分系数矩阵
表17 成分矩阵
表13是原有变量的相关系数矩阵。
可以看出:大部分的相关系数都较高,各变量呈较强的线性关系,能够从中提取公共因子,适合进行因子分析。
表14是因子分析的初始解,显示了所有变量的共同度数据。
第一列是因子分析初始解下的变量共同度,它表明:对原有5个变量如果采用主成分分析方法提取所有特征根(5个),那么原有变量的所有方差都可被解释,变量的共同度均为1(原有变量标准化后的方差为1)。
事实上,因子个数小于原有变量的个数才是因子分析的目标,所以不可能提取全部特征根;第二列是在按指定提取条件(这里为特征根大于1)提取特征根时的共同度。
表15中:第一列是因子编号,以后三列组成一组,每组中数据项的含义依次是特征根值、方差贡献率。
表16是因子的碎石图,横坐标为因子数目,纵坐标为特征根。
可以看到:第一个因子的特征根值很高,对解释原有变量的贡献最大;第二个以后的因子特征根值都较小,对解释原有变量的贡献很小,已经成为可被忽略的“高山脚下的碎石”,因此提取一个因子是合适的。
表17显示的是因子成分矩阵,是因子分析的核心内容。
由表可以看出5个变量在第一个因子上的载荷都很高,意味着它们与第一个因子的相关程度高,第一个因子很重要。
另外还可以看出:因子的实际含义比较模糊。
表18是成分得分系数矩阵。