数据的基本统计与非参数检验
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
北京建筑大学
理学院信息与计算科学专业实验报告
课程名称《数据分析》实验名称数据的基本统计与非参数检验实验地点基C-423 日期2016 . 3 .17
姓名班级学号指导教师成绩
【实验目的】
(1)熟悉数据的基本统计与非参数检验分析方法;
(2)熟悉撰写数据分析报告的方法;
(3)熟悉常用的数据分析软件SPSS。
【实验要求】
根据各个题目的具体要求,完成实验报告
【实验内容】
根据附件“住房状况调查”给出的相关数据,请选用恰当的分析方法,分别对数据的“家庭收入”、“现住面积”,进行数据的基本统计量分析,撰写相应的分析报告;
根据附件“住房状况调查”给出的相关数据,请选用恰当的分析方法,分别分析不同学历对家庭收入、现住面积是否有显着影响,撰写相应的分析报告。
根据附件“住房状况调查”给出的相关数据,请选用恰当的分析方法,分析家庭收入与10000元是否有显着差异,撰写相应的分析报告。
根据附件“住房状况调查”给出的相关数据,请选用恰当的分析方法,分析婚姻状况对家现住面积是否有显着影响,撰写相应的分析报告。
根据附件“减肥茶数据”给出的相关数据,请选用恰当的分析方法,分析该减肥茶对减肥是否有显着影响,撰写相应的分析报告。
【分析报告】
1.
表一家庭收入和现住面积的基本描述统计量
家庭收入现住面积
N有效29932993缺失00均值17696.156762.7241均值的标准误279.64310.47349中值15000.000060.0000众数10000.0060.00
标准差15298.8034
125.9038
3
方差 2.341E8671.008偏度 5.546.910
偏度的标准误.045.045
峰度55.425 3.078
峰度的标准误.089.089
2510000.000045.0000
百分位
数
5015000.000060.0000
7520000.000080.0000
表一说明,
家庭收入方面:
被调查者中家庭收入的均值为17696.16元,中值为15000元,普遍收入为10000元;
家庭收入的标准差和方差都相对较大,所以,各家庭收入之间有明显的差异;
偏度大于零,说明右偏;峰度大于零,说明数据呈尖峰分布;
由家庭收入的四分位数可知,25%的家庭,收入在10000以下,有50%的家庭,收入在15000以下,有75%的家庭,收入在20000以下;
现住面积方面:
被调查者中现住面积的均值为62.724平方米,中值为60平方米,普遍面积为60平方米;
现住面积的标准差和方差都相对较大,所以,各家庭现住面积之间有明显的差异;
偏度近似等于零,说明现住面积数据对称分布;峰度大于零,说明现住面积数据为尖峰分布;
由现住面积的四分位数可知,25%的家庭,现住面积为45平方米以下,有50%的家庭,现住面积在60平方米以下,有75%的家庭,现住面积在80平方米以下。
表二:学历与现住面积的交叉表
图一:家庭收入直方图
该图表明,家庭收入分布存在一定的右偏。
图二:现住面积直方图
该图形象的展示了现住面积的数据分布比标准正态分布更陡峭。
大学(专、本科)计数83251544896
预期计数867.323.6 2.4 1.2 1.5896.0
文化程度内
92.9% 5.7%0.6%0.4%0.4%100.0%
的 %
new 内的 %28.7%64.6%62.5%100.0%80.0%29.9%
占总计的百分
27.8% 1.7%0.2%0.1%0.1%29.9%
比
残差-35.327.4 2.6 2.8 2.5
标准残差-1.2 5.6 1.7 2.6 2.0
研究生及以上计数29310134
预期计数32.9.9.1.0.134.0
文化程度内
85.3%8.8% 2.9%0.0% 2.9%100.0%
的 %
new 内的 % 1.0% 3.8%12.5%0.0%20.0% 1.1%
占总计的百分
1.0%0.1%0.0%0.0%0.0% 1.1%
比
残差-3.9 2.1.9.0.9
标准残差-.7 2.2 3.0-.2 4.0
总计计数2897798452993
预期计数2897.079.08.0 4.0 5.02993.0
图三:学历与家庭收入直方图
表二表明:
首先,在所调查的2993个样本中,805个样本为初中及以下学历,1258为高中(中专)学历,896为大学(专,本科)学历,34为研究生及以上学历,分别占总样本的26.9%,42%,29.9%,和1.1%,可见高中学历居多;收入为0~5w,5w~10w,10w~15w,15w~20w,20w~25w的样本量分别为2897,79,8,4,5,各占样本的96.8%,2.6%,0.3%,0.1%,0.2%,收入在0~5w的占较大比例。
其次,对不同学历进行分析。在初中及以下学历中,98.9%的家庭收入在5万以下,1%的家庭收入在5w~10w之间;在高中学历中98.6%的家庭收入在5万以下,1.4%的家庭收入在5w~10w之间;在大学学历中92.9%的家庭收入在5万以下,5.7%的在5w~10w之间;在研究生及以上学历中85.3%的家庭收入在5万以下,8.8%的家庭收入在5w~10w,2.9%的家庭收入在10w~15w之间。
最后,对家庭收入进行分析。在家庭收入为5w(2897)以下的样本中,学历为研究生及以上学历的最少,为29;其他家庭收入中,大学学历的占大多数。由此可以得出,学历与家庭收入有一定的联系。但是,样本中的各学历的样本量存在一定的悬殊。
这些结论从图中可以直观的展现出来。
表三:不同学历的家庭收入的一致性检验结果
数值df 渐近显着性(2 端)
文化程度内
的 %
96.8% 2.6%0.3%0.1%0.2%100.0% new 内的 %100.0%100.0%100.0%100.0%100.0%100.0%占总计的百分
比
96.8% 2.6%0.3%0.1%0.2%100.0%