数据统计分析实验指导书

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

《数据统计分析》

实验指导书

彭志捌编写

适用专业:信息与计算科学

安徽建筑大学数理系(部)

2012年10月

前言

本指导手册作为《数据统计分析》课程中部分的实验内容,因而对涉及的多元统计知识一般只做简要的概括而不作详细解释。也不是SPSS 的使用说明书,并假设使用者已经掌握了基本的Windows和MS Office的操作知识,对基础的操作以及超出统计学原理范围的功能一般未作介绍。

涵盖了大部分常用的统计方法,包括了基本的数据处理技巧、描述统计、统计图和统计表、方差分析、回归分析、主成分分析、因子分析、判别分析、聚类分析等方面的内容。为了使学生更好地理解和深刻地掌握这些知识,需要学生上机实际操作SPSS应用统计软件。

实验环境使用SPSS 版本为18.0系统或以上。

实验一描述性统计分析

一、实验目的与要求

统计分析的目的在于研究总体特征。但是,由于各种各样的原因,我们能够得到的往往只能是从总体中随机抽取的一部分观察对象,他们构成了样本,只有通过对样本的研究,我们才能对总体的实际情况作出可能的推断。因此描述性统计分析是统计分析的第一步,做好这一步是进行正确统计推断的先决条件。通过描述性统计分析可以大致了解数据的分布类型和特点、数据分布的集中趋势和离散程度,或对数据进行初步的探索性分析(包括检查数据是否有错误,对数据分布特征和规律进行初步观察)。

本本实验旨在于:引到学生利用正确的统计方法对数据进行适当的整理和显示,描述并探索出数据内在的数量规律性,掌握统计思想,培养学生学习统计学的兴趣,为继续学习推断统计方法及应用各种统计方法解决实际问题打下必要而坚实的基础。

二、实验原理

描述统计是统计分析的基础,它包括数据的收集、整理、显示,对数据中有用信息的提取和分析,通常用一些描述统计量来进行分析。

集中趋势的特征值:算术平均数、调和平均数、几何平均数、众数、中位数等。其中均数适用于正态分布和对称分布资料,中位数适用于所有分布类型的资料。

离散趋势的特征值:全距、内距、平均差、方差、标准差、标准误、离散系数等。其中标准差、方差适用于正态分布资料,标准误实际上反映了样本均数的波动程度。

分布特征值:偏态系数、峰度系数、他们反映了数据偏离正态分布的程度。

三、实验内容与步骤

下面给出的一个例题是来自SPSS软件自带的数据文件“Employee.data”,该文件包含某公司员工的工资、工龄、职业等变量,我们将利用此例题给出相关的描述统计说明,本例中,我们将以员工的当前工资为例,计算该公司员工当前工资的一些描述统计量,如均值、频数、方差等描述统计量的计算。

1.频数分析(Frequencies)1

基本统计分析往往从频数分析开始。通过频数分析能够了解变量取值的状况,1频数分析多适用于离散变量,其功能是描述离散变量的分布特征。

对把握数据的分布特征是非常有用的。比如,在某项调查中,想要知道被调查者的性别分布状况。频数分析的第一个基本任务是编制频数分布表。SPSS中的频数分布表包括的内容有:

(1)频数(Frequency)即变量值落在某个区间中的次数。

(2)百分比(Percent)即各频数占总样本数的百分比。

(3)有效百分比(Valid Percent)即各频数占有效样本数的百分比。这里有效样本数=总样本-缺失样本数。

(4)累计百分比(Cumulative Percent)即各百分比逐级累加起来的结果。最终取值为百分之百。

频数分析的第二个基本任务是绘制统计图。统计图是一种最为直接的数据刻画方式,能够非常清晰直观地展示变量的取值状况。频数分析中常用的统计图包括:条形图,饼图,直方图等。

频数分析的应用步骤

在SPSS中的频数分析的实现步骤如下:

选择菜单“【文件】—>【打开】—>【数据】”在对话框中找到需要分析的数据文件“SPSS/Employee data”,然后选择“打开”。

选择菜单“【分析】—>【描述统计】—>【频率】”。如图1.1所示

询问是否输出频数分布表

图1.1 Frequencies对话框

确定所要分析的变量,例如年龄

在变量选择确定之后,在同一窗口上,点击“Statistics”按钮,打开统计量对话框,如下图1.2所示,选择统计输出选项。

图1.2 统计量子对话框

图1.3 Charts子对话框

结果输出与分析

点击Frequencies 对话框中的“OK”按钮,即得到下面的结果。

表1.4 描述性统计量

Statistics

表1.4中给出了总样本量(N),其中变量Gender的有效个数(Valid)为474个、缺失值(missing)为0。

表1.5中,Frequency是频数,Percent是按总样本量为分母计算的百分比,Valid Percent是以有效样本量为分母计算的百分比,Cumulative Percent是累计百分比。

图1.5变量Gender的条形图,图1.6变量Gender的饼图。

图1.5 变量gender的条形图

图1.6 变量gender的饼图

2.描述统计(Descriptives)2

SPSS的【描述】命令专门用于计算各种描述统计性统计量。本节利用某年国内上市公司的财务数据来介绍描述统计量在SPSS中的计算方法。具体操作步骤如下:

2描述统计主要对定距型或定比型数据的分布特征作具体分析。

选择菜单【分析】→【描述统计】→【描述】,如图1.7所示

图1.7 描述对话框

将待分析的变量移入Variables列表框,例如将每股收益率、净资产收益率、资产负债率等2个变量进行描述性统计,以观察上市公司股权集中度情况和负债比率的高低。

Save standardized values as variables,对所选择的每个变量进行标准化处理,产生相应的Z分值,作为新变量保存在数据窗口中。其变量名为相应变量名前加前缀z。标准化计算公式:

s x

xi Zi -

=

单击【选项】按钮,如图1.8 所示,选择需要计算的描述统计量。各描述统计量同Frequencies命令中的Statistics子对话框中大部分相同,这里不再重复。

相关文档
最新文档