第3章 定量数据的统计描述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(二)SPSS for Windows 的菜单命令
File 文件操作 Edit 数据编辑 View 观察 (视图) Data 建立数据与数据整 理 Transform 变量变换
Analyze 统计分析 Graphs 作图 Utilities 实用程序 Window 视窗控制 Help 在线帮助(辅助说明)
三、茎叶图
由茎和叶两部分构成,图形由数字组成, 茎叶图 用来反映原始数据分布的图形。 茎叶图类似于横置的直方图,与直方图相比,茎叶图既
能给出数据的分布状况,又能给出每一个原始数值,即
保留了原始数据的信息。
在应用方面,直方图通常适用于大批量数据,茎叶图通 常适用于小批量数据。
茎叶图的分类:
将“按时间分组” 选入 【Variable(s) 】中,选中 【Display frenquency tables】
运用Spss制作频数分布直方图
第五步:选择【Analyze】菜单中的 【 Descriptive Statistics】,点击【 Frequencies】, 进入主对话框。
,将变量值的一个区间作为一组
适合于连续变量或变量值较多的情况
遵循“不重不漏”的原则 可采用等距分组或不等距分组
~ ~ ~ ~ ~
组距分组的几个概念
下限:一个组的最小值
上限:一个组的最大值 组距:上限与下限之差 组中值:下限与上限之间的中点值 组中值=
下限
下限值+上限值
三、确定组距 可根据全部数据的最大值和最小值及所分的组 数来确定,组距的近似计算公式:
通过计算,组距可能是整数或带有小数,可对 求得的组距进行修饰,把组距取成整数。 本例中,计算的组距值为1.76,可近似取2。
四、确定组限 组限:组距两端的数值。 组限的确定要做到每一个观察值都能划分到相 应的组别中,而且仅能划分到一个组中。 第一组的下限要比最小的观察值小,最后一组 的上限要比最大的观察值大。 本例中,组限为0~2, 2~4, 4~6, 6~8, 8~10。
第三步:点击【Old and New Values…】
第四步:在Old Value中选择【Range:】输入数值【 0】through【2】;在New Value中选择【Value 】并输入【2】;点击【Add】以此类推输入所有组距
第五步:选择【Analyze】菜单中的 【 Descriptive Statistics】,点击【 Frequencies】, 进入主对话框。
保留小数位数(Decimals) 对齐方式(Align) 变量标签(Label) 度量类型(Measure)
变量的类型 (Type)
数值型变量 (Numeric)—— 1234.56 加显逗号的数值型变量 (Comma)——1,234.56 3位加点数值型变量 (Dot)— —1.234,56 科学记数法 (Scientific notation)——1.23456E+03 日期型变量 (Date) 货币型变量 (Dollar)—— $1,234.56 自定义类型 (Custom currency) 字符型变量 (String)
第一步:选择【数据】菜单,并选择 【筛选】命令。 如果要筛选出满足给定的条件的数据,可使用 【自动 筛选】命令。这时会在第一行出现下拉箭头,用鼠标点 击箭头。
第二步:在下拉箭头方框内选择要筛选出的数据。比如, 要筛选出统计学成绩为75分的学生,选择75,单击【确定】 即可。
第三步:要筛选出英语成绩最高的前三名学生,可选择 “前10个”,并在对话框中输入数据3,单击【确定】即 可。
二、累积频数分布图
累积频数 分布折线 图
累积频数 分布曲线 图
累积频数分布折线图:由累积分布资料制作的折线图。 绘制累积频数分布折线图,横坐标采用原来的分组,纵坐 标为各组的累积频数。
本例中,由累积频数分布资料制作的累积频数 分布折线图:
在累积折线图的基础上,用一条光滑的曲线近似描 绘累积折线,得到的图形为累积频数分布曲线图。 【插入】【图表】【自定义类型】【平滑直线图】
五、按组归类统计 将各个观察值按组别进行归类汇总,记录各个 组观察值总共发生的次数。 本例,0~2组的数据有4个; 2~4组的数据有13个; 4~6组的数据有16个; 6~8组的数据有14个; 8~10组的数据有3个;
六、编制表格。将分组、每组频数用表格形式展 示出来,得到频数分布表。 本例的频数分布表:
茎叶图
基本茎叶图
扩展茎叶图
混合茎叶图
1、基本茎叶图 84
97
88
85
91
90
98
94
106
110
87
95
106
101
105
93
106
103
111
107
107 108 104 120 123 119 102 113 108 116 绘制基本茎叶图: 把一个数字分成两部分,以数据的高位数值作为树茎,叶上只保留该 数值的最后一个数字。 茎在左,叶在右,茎叶间用竖线隔开。 把数据的茎按从小到大的顺序纵向排列,再在每个数据的茎后面列出 叶 树茎 树叶 数据个数
数据 分组
频数 分布
根据统计研究的需要,将原始数据按照某种标准 分成不同的组别,分组后的数据称为分组数据。
数据经分组后再计算出各组中数据出现的频数, 形成频数分布表。
数据分组方法
单变量值分组
组距分组
等距分组
异距分组
单变量值分组
将一个变量值作为一组
适合于离散变量 适合于变量值较少的情况
本例中,频率资料制作的频率分布直方图:
在直方图的基础上,可以绘制折线图——把直方图 中各长条形顶端的中点用线段顺次连接起来。 本例中,频数资料制作的频数分布折线图: 【插入】【图表】【自定义类型】【两轴线柱图】
用一条光滑的曲线近似描绘折线,就得到曲线图。 本例中,频数资料制作的频数分布曲线图:
浏览数据发现一些 明显的特征或趋势 ,找到解决问
题的线索。
排序有助于对数据进行检查纠错,以及为重新归类或
பைடு நூலகம்
分组等提供依据
在某些场合下,排序本身就是分析的目的之一 排序可以借助计算机来完成
定性数据的排序
字母型:排序有升序降序之分,但习惯上用升序
汉字型:可按汉字的首位拼音字母排列,也可按 笔画排序
频率 频率:各个组中的频数 数之和的比率。 与所有组频
本例中,各组的频率为:
频数分布的累积量
累积 频数
将各组的频数逐级累加起来得到的频数
累积 频率
将各组的频率逐级累加起来
频数分布的累积量包括大于制累积量和小于制累积量。 大于制累积量是大于某个组下限值的频数(率)之和。 小于制累积量是小于某个组上限值的频数(率)之和。
第三章 定量数据的统计描述
结构体系
数据的预处理 定量数据的频数分布 定量数据的图形描述 定量数据的特征数字
第一节 数据的预处理
数据审核
数据筛选
数据排序
一、数据审核
原始数据 审核 完整性审核
检查应调查的 个体是否有遗 漏;所有的调 查项目是否填写 齐全。
准确性审核
检查数据是否真 实反映客观实际 情况,内容是否 符合实际;数 据是否有错误, 是否存在异常值
将符合某种特
要求的数据或 有明显错误的
数据予以剔除
定条件的数据
筛选出来
表中是8名学生4门课程的考试成绩数据(单位:分)。 试找出统计学成绩等于75分的学生,英语成绩最高的前 三名学生,四门课程成绩都大于70分的学生。
注意:满足多项条件时,数据清单上面至少 留出三行作为条件区域
用Excel进行数据筛选的操作步骤
小于某个组上限值
大于某个组下限值
第三节 定量数据的图形描述
一 二 直方图、折线图与曲线图 累积频数分布图 茎叶图 时间序列数据图示:线图 多变量数据的图示
三
四
五
一、直方图、折线图与曲线图
直方图:用水平轴表示数据资料,用纵轴表示频数或频 率,用长条形的宽和高分别表示组距和频数(率)。 本例中,频数资料制作的频数分布直方图:
用Excel制作频数分布表:
(1)数据分析直方图 (2)frequency函数
(1)数据分析直方图
第一步:在接收区域输入上限值
第二步:【工具】【数据分析】【直方图】
第三步:选择【输入区域】和【接收区域】
(2)frequency函数
(1)
(2) ( 3) (4)
选择与接受区域相邻近的单元格区域,作为频数分布表 输出的区域 选择统计函数中的Frequency函数 在对话框Date-array后输入数据区域,在Bins-array后 输入接受区域 同时按下Ctrl+Shift+Enter组合键,即得到频数分布表
Spss数据的录入与保存 第一步:选择[variable view]进入变量编辑窗口
第二步:选择【Date view】录入数据
运用Spss制作频数分布表
(4)spss做频数分布表
第一步:【Transform】【Recode into Different Variables】
第二步:将时间选入 【Input Variable->Output Variable】 在Output Variable对话框中命名为按时间分组,点 击【change】
第四步:如果要筛选出四门课程成绩都大于70分的学生,由于 设定的条件比较多,需要使用【高级筛选】命令。使用高级筛 选时,必须建立条件区域。这时需要在数据清单上面至少留出 三行作为条件区域。然后在【列表区域】中选中要筛选的数据 清单,在 【条件区域】中选择匹配的条件。
三、数据排序
数据排序:按一定顺序将数据排列,以便研究者通过
定量数据的排序
递增排序:设一组数据为X1,X2,…,XN,递增排 序后可表示为:X(1)<X(2)<…<X(N) 递减排序可表示为:X(1)>X(2)>…>X(N)
第二节 定量数据的频数分布
频数分布是统计资料整理过程中经常使用的一 种方法,通过编制频数分布,可以使资料的表 现形式更加紧凑,综合信息的体现更加突出。
单变量值分组的频数分布表
频数分布表
成绩
60 62
频数
1 2
成绩
71 72
频数
1 1
成绩
89 90
频数
2 1
64
65 66 67 68 69
1
2 4 1 1 1
74
78 84 85 87 88
1
1 1 1 1 1
91
92 94 95 98 99
1
2 1 2 2 1
组距分组
将全部变量值依次划分为若干个区间
数据编辑窗 (Data Editor)
(1)数据编辑窗主要功能:
建立新数据文件,
编辑和显示已有数据文件。
注意:一次只能打开一个数据编辑窗口。
(2)数据编辑窗的组成:
数据窗口 (Data View):录入数据 变量窗口 (Variable View):定义变量
定义变量:
变量名(Name) 变量类型(Type) 变量宽度(Width) 变量值标签(Values) 缺失值(Missing) 数据列宽(Columns)
2
组中值 上限
手工编制数据频数分布,步骤:
一、对原始数据进行排序,找出其中的最大和最 小的数。表3.1中,max=9.5,min=0.7。
二、确定组数。 组数的确定需要考虑观察值变化的范围,使既 定的分组能把各项数据都包括进来。 组数在5~20为宜。数据规模比较小,分成5组即 可。本例,分为5组。
对于通过其他渠道取得的二手数据,应着重审核数据 的适用性和时效性。
适用性
应弄清楚数据的来源以及
时效性
对于时效性较强的问题,
有关的背景材料,以便
确定这些数据是否符合分 析研究的需要
如果所取得的数据过于
滞后,就可能失去研究 的意义。
二、数据筛选
根据需要找出符合特定条件的某类数据。
数据筛选
将某些不符合
Spss软件介绍
Run the tutorial (运行自学指导)
(一)SPSS for Windows Type in data (选用数据类型) 的启动与退出
Run an existing query (运行一个已经存在的问题)
Create new query using Datebase Wizard (用数据库捕获技术建立一个新问题) Open an existing data source (打开一个已经存在的数据源) Open another type of file (打开其它类型的文件)