数据的处理描述与分析1

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据的分类:
品质数据(分类数据、顺序数据)
数值型数据
品质数据: 品质数据说明的是事物的品质特征, 通常用文字来表示。例如:人口按性别分 为男、女两类,人的文化程度可分为小学、 初中、高中、大学、研究生、博士六类。 数值型数据: 数值型数据说明的是现象的数量特征, 通常用数值来表示。
品质数据(分类数据和顺序数据)本 身就是对事物的一种分类。因此没有别的 需要的话无需作进一步的分类。 数值型数据均表现为数字,因此,通 常进行数据分组。分组的方法有:单变量 分组和组距式分组两种。 。
3、单击“下一步”,出现如下的复选框:
一般会自动选定区域 4、单击“下一步”,出现如下的对话框:
5、选择数据透视表显示位置。如果选择“新建工作 表”,则单击“完成”。如果选择“现有工作表”,
则需要在其下面的空白框中输入透视表显示的位置。
然后出现如下对话框:
单击“完成”,创建数据透视表,出现如下界面:
案例:对所有员工按学历排序
(1)打开Excel文件,单击数据区域任意单元格; (2)单击“数据”下拉菜单→点击“排序”,出现如下对话 框: (3)在“主要关键字” 下的 列表框中选择 “学历”,在右侧 选择“升序”;
(4)单击“确定”,完
成排序。
2、对数据进行分类汇总,基本步骤如下:
(1)在数据排序的基础上,单击文件数据区域任一单元格;
具体操作步骤如下:
1、给不同类别的定性数据设定代码,用1、2、3……代
替原有的定性数据类别;并在源数据区域外的空白单元 格中输入源数据中的字段名,在字段名下面的单元格中 输入数据类别名称;在字段名右面相邻单元格中输入 “代码(组限)”,在“代码(组限)”下面的单元格
单变量值分组表(实例)
某车间50名工人日加工零件数分组表
零件数 (个 )
108 110 112 113 114 115 117 118
频数 (人 )
2 1 2 1 1 2 3 3
零件数 (个 )
120 121 122 123 124 125 126 127
频数 (人 )
2 1 4 4 3 3 2 3
6.组中值:下限与上限之间的中点值,可代表一组数据。
组中值 =
下限值+上限值
=350
2
邻组组距 缺下限开口组组中值 上限 2 邻组组距 缺上限开口组组中值 下限 2
组的形式:
开口组:上下限缺一个,如,60以下,60-70 70-80,80以上 闭口组: 50-60,60-70 70-80,80-90,90-100 上下线重叠: 60-70 ,70-80, 80-90 上组限不在组内 上下限间断: 50-60,61-70 71-80,81-90,91-100
分组方法
分组方法
单变量值分组
组距分组
等距分组
不等距分组
单变量值分组(要点)
1. 将一个变量值作为一组 2. 适合于离散变量 3. 适合于变量值较少的情况

单变量分组示例:
某车间工人产量分组表
单变量值分组(实例)
【例】某生产车间 50 名工人日加工零件数如下(单位 :个)。试采用单变量值对数据进行分组。 117 122 124 129 139 115 117 130 122 125
完整性审核: ①数据是否有遗漏, ②项目是否齐全。
准确性审核: ①计算检查 ,②逻辑检查
对二手资料,还应审核数据的适用性和时效性。
数据的筛选
包括两方面内容: 一是对不符合要求的数据或有明显错误的 数据予以剔除; 二是将符合某种特定条件的数据筛选出 来,对不符合特定条件的数据予以剔除。
数据筛选
【例】8名学生4门课程的考试成绩数据。找出统计学 成绩等于75分的学生,英语成绩最高的前3名学生,4 门课程成绩都大于70分的学生。
2. 数值型数据的排序
递增排序:设一组数据为 x1, x2, …, xn,递增排 序后可表示为:x(1)<x(2)<…<x(n) 递减排序:可表示为:x(1)>x(2)>…>x(n)
数据排序方法 用Excel进行数据排序
8名学生的考试成绩数据
二、统计分组与分类
统计分组是在统计资料预处理的基础 上,根据统计研究的需要,按照某种标志 将统计总体划分为若干组成部分,这些组 成部分称为统计总体的“组”。 数据经过预处理后,可进一步作分类 或分组整理。不同类型的数据,所采用的 处理方式和所使用的方法不同。
4、利用各类别合计数制作频数分布表
第二种方法:通过数据透视表实现
【例】一家市场调查公 司为研究不同品牌饮料 的市场占有率,对随机 抽取的一家超市进行了 调查。调查员在某天对 50名顾客购买饮料的品 牌进行了记录,如果一 个顾客购买某一品牌的 饮料,就将这一饮料的 品牌名字记录一次 。 右边就是记录的原始数 据。
频数分布表。
第三种方法:通过插入频数分布函数实现
频数分布函数(FREQUENCY)是Excel工作表函
数的一个,它可以对一列垂直数组返回某个区域中
数据的频数分布。其语法形式为: FREQUENCY(Data_array,Bins_array) 其中,Data_array为用来编制频数分布的数据, Bins_array为频数的接收区间。
3.统计出各组的频数并整理成频数分布表。
三、制作频数分布表
频数分布表的概念: 统计表之一,在统计分组的基础上, 将原始数据逐个分配到不同的组内,计算 出各组的单位数及各组单位数占总体单位 数的比重,进而研究现象的分布特征。这 就是频数分布表。
频数分布表的意义:
频数分布表可以划分现象的类别,从而对数 据及其特征有一个初步的了解。 利用频数分布表可计算出各类别的频率,从
*数据的排序,基本步骤如下:
打开Excel文件,选中文件数据区域任一单元格,单 击“数据”下拉菜单→点击“排序” ,然后在“主要 关键字”下的列表框中选择要排序数据的字段名,在右 侧选择“升序”或“降序”。如果要把相同的记录再排 序,则可在“次要关键字”下的列表框中选择要排序数 据的字段名,在右侧选择“升序”或“降序”。
累计频率
频数分布表的制作方法
第一种方法:通过分类汇总实现 第二种方法:通过数据透视表实现 第三种方法:通过插入频数分布函数 (FREQUENCY)实现
第一种方法:通过分类汇总实现
1、对数据进行排序 一般来说,录入数据清单的数据是无序的,不能反映
现象的本质与规律性。为了方便分析,要将其进行排序、 分组,以使数据按要求排列,同时把性质相同的数据归 为一组,让不同组数据之间的差异性显示出来。
3. 统计出各组的频数并整理成频数分布表
组距分组(几个概念)
下限:一个组的最小值,300 上限:一个组的最大值,400 组距:上限与下限之差,100 全距:全部数据最大值-最小值, 500-300=200 5. 组数:分几组,如,分4组。 1. 2. 3. 4.
300以下 ,300-400,400-500,500以上
~ ~ ~ ~ ~
组距式分组(示例)
某地区120家企业按利润分组表
组距分组步骤
1.确定组数:可以按 Sturges 提出的经验公式来确定
lg n K 1 1 3.322lg n(n为观测值的个数 ) lg 2
2. 确定组距:组距是一个组的上限与下限之差.
组距=( 最大值 - 最小值)÷ 组数
8名学生的考试成绩数据
用Excel进行数据筛选
数据的排序
• • • 将数据按一定顺序排列,以发现一些明显 的特征或趋势,找到解决问题的线索; 排序有助于对数据检查纠错,以及为重新 归类或分组等提供依据; 在某些场合,排序本身就是分析的目的之 一。
数据排序方法
1. 分类数据的排序
字母型数据,有升序、降序之分。 汉字型数据,可按首位拼音字母排列,也可按笔画 多少排序。
频数分布表的编制(例题分析)
【例】某电 脑 公 司 2009 年前四个月 各天的销售 量数据(单 位:台)。 试对数据进 行分组。
分组步骤
1.确定组数:
组数一般为5的倍数。
lg(120) K 1 8 10 lg( 2)
2. 确定组距: 组距=( 237 - 141)÷ 10=9.6 10
绿色
健康饮品
制作频数分布表
分类数据的频数分布表
(1)列出各类别
(2)计算各类别的频数



(3)生成频数分布表
分类 A B C D E 频数 比例 百分比 比率
分类数据整理—频数分布表
通过数据透视表编制频数分布表步骤
1、单击数据区域任一单元格 2、单击“数据”下拉菜单
→单击“数据透视表和数据透视图”
等距分组: 50-60,60-70 70-80,80-90,90-100 不等距分组: 50-60,60-75 ,75-90,90-100
等距分组表(上下组限重叠)
等距分组表(上下组限间断)
等距分组表(使用开口组)
不等距分组
2005年中国人口按年龄分组
本表是2005年全国1%人口抽样调查样本数据,抽样比为 1.325%
(2)单击“数据”下Biblioteka Baidu菜单→点击“分类汇总” ,出现分 类汇总的对话框;
(3)在“分类字段”下的列表框中选择要分类的字段名; (4)在“汇总方式”下的列表框中选择“计数“; (5)在“选定汇总项”下的列表框中选择要计数的字段名。 (6)单击“确定”,完成分类汇总。
案例:对所有数学建模学院按班级进行分类汇总
(1)打开Excel文件,单击数据区域任意单元格;
(2)单击“数据”下拉菜单→点击“分类汇总”,出现如 下对话框:
(3)在“分类字段”下的列表框中
选择“班级”; (4)在“汇总方式”下的列表框中 选择“计数”; (5)在“选定汇总项”下的列表框
中选择“班级”; (6)单击“确定”,完成分类汇总。 3、通过查找功能统计各类别数据的合计数
数据的处理、描述与分析
斯日古冷
数据的处理、描述与分析
什么是数据处理?
数据处理就是对原始数据进行加工处 理,形成有用的信息,使之符合统计分析 的需求,并用图标的形式将数据展示出来。 换句话说,数据处理就是对数据进行加工 处理与显示。
案例
【例】一家市场调查公 司为研究不同品牌饮料 的市场占有率,对随机 抽取的一家超市进行了 调查。调查员在某天对 50名顾客购买饮料的品 牌进行了记录,如果一 个顾客购买某一品牌的 饮料,就将这一饮料的 品牌名字记录一次 。 右边就是记录的原始数 据。
108 131 125 117 122 133 126 122 118 108
110 118 123 126 133 134 127 123 118 112
112 134 127 123 125 113 120 123 127 130
137 114 120 128 124 115 139 128 124 121
而反映现象的内部结构特征。
频数分布表也是制作各种图表的基础。
先有表后有图
分类数据整理—频数分布表
几个相关概念:
频数
频数,也称次数,用f表示,是 指分配在各组中的数据个数。
频率
频率,也称比率或比重,是指各 组频数与总数之比,用f/∑f表示。
累计频数
累积频数就是将各类别的频数逐级累加 起来,其方法有两种:一是向上累积, 即从变量值小的一方向变量值大的一方 累加频数;二是向下累计,即从变量值 大的一方向变量值小的一方累加频数。
绿色
健康饮品
数据的处理、描述与分析的步骤:
一、数据的预处理 二、统计分组与分类 三、制作频数分布表 四、绘制统计图 五、数据的描述与分析
一、数据的预处理
预处理是数据处理的第一步。其主要 内容包括:数据的审核、筛选和排序, 目的:为统计汇总提供准确信息。
数据的审核
主要从完整性和准确性两方面审核:
6、在“数据透视表字段列表”下面的列表框中点击要作为 行字段的字段名如“饮料品牌”,拖至报表的行字段处;点
击列字段如“销售日期”拖动到报表的列字段处;点击要进
行汇总的数据项如“饮料品牌”拖至报表的数据项处。 此时即完成了数据透视表样式的频数分布表。进一步编
辑频数分布表,包括计算频率等,最后制作出一张漂亮的
零件数 (个 )
128 129 130 131 133 134 137 139
频数 (人 )
2 1 2 1 2 2 1 2
组距分组 (要点)
1. 2. 3. 4. 5. 将变量值的一个区间作为一组 适合于连续变量 适合于变量值较多的情况 遵循“不重不漏”的原则 可采用等距分组,也可采用不 等距分组
相关文档
最新文档