第3章:统计资料的整理与显示

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第3章 统计资料的整理与显示
统计数据的预处理 数据分组与频数分布 频数分布的图示 统计表
学习目标
1.了解数据预处理的内容和目的 2.掌握统计分组和频数分布的基本程序和技巧 3.能运用Excel制作频数分布表和各种图形
3.1 统计数据的预处理
3.1.1 数据审核
预处理:是对数据分类或分组之前所做的必要处理, 内容包括数据的审核、筛选、排序等。
◆分析现象之间的依存关系。社会经济现象之 间存在着相互制约、相互联系的关系,通过统 计分组可以根据现象间的影响因素和结果因素 的对应更好地揭示现象之间的这种依存关系。
3.2.2 统计分组原则
1、科学性原则 : 统计分组要根据统计研究的目的,突出 反映客观现象在各组间的差异。
2、完整性原则:指分组的结果使总体中的每一个单位都应 有组可归,或者说各分组的空间足以容纳总体的所有单位。 例如:如果人口按受教育程度分为小学、初中、高中、大 学专科和大学本科五个组,则那些未上过学以及研究生学 历者则无组可归。
Excel操作步骤:
3.1.3 数据排序
数据排序是指按一定顺序将数据排列,以便研究者通过浏 览数据发现一些明显的特征或趋势,找到解决问题的线索。
对于分类数据,如果是字母型数据,排序则有升序、降 序之分,但习惯上升序用得更多,因为升序与字母的自 然排列相同;如果是汉字型数据,排序方式则很多,如 按汉字的首位拼音字母排列,这与字母型数据的排序完 全一样,也可按姓氏笔画排序,其中也有笔画多少的升 序、降序之分。
按年财政总收入分 组(万元)
800~900
乡镇数(个) 1
比率(%) 2
900~1000
5
10
1000~1100
8
16
1100~1200
11
22
1200~1300
11
22
1300~1400
7
14
1400~1500
4
8
1500~1600
3
6
合计
50
100
等距
组距式变量数列 某地区人口年龄分布表
按年龄分组(岁) 人口数(万人)
3、互斥性原则:指在特定的分组标志下,总体中的任何一 个单位只能归属于某一组,而不能同时或可能归属于几个 组。例如:某商场把服装分为男装、女装、童装三类,不 符合互斥原则,因为童装也有男、女装之分。
3.2.3 分组标志的选择
1、根据研究的具体目的选择分组标志
研究目的不同,选择的分组标志也不同。例如:对同一总 体的企业职工而言,如果研究目的是分析职工文化素质的 高低,应选择职工的文化程度作为分组标志;如果研究目 的是分析职工的收入水平,应选择职工的工资作为分组标 志。
姓名
语文
英语
数学

65
82
76

86
81
57

75
75
60

90
78
89
要求运用Excel筛选出: (1)语文成绩为75分的学生; (2)筛选出 语文成绩最高的前两名学生; (3)筛选出三门课程都大于70分的学生。
Excel操作步骤: 〖1〗选择“数据→筛选”命令,得到如下图所示结果:
〖2〗在下拉箭头方框内选择选择要筛选出的数据,例如 (1)中,在语文的下拉箭头内选择75分,得到下图结果
数据审核就是检查数据中是否有错误。对于通过调查取得 的原始数据,主要从完整性和准确性两个方面去审核。完 整性审核主要是检查应调查的单位是否有遗漏,所有的调 查项目是否填写齐全等。准确性审核主要是检查数据是否 有错误,是否存在异常值等。
3.1.1 数据审核
准确性检查: 逻辑检查和计算检查
逻辑检查:从理论上或 常识上检查资料是否有悖 常理、有无不切实际或不 符合逻辑的地方。例如: 年龄9岁职业教师;某大 型企业人数:100人等。
2、 统 计分组 的作用
3.2.1 统计分组的意义和作用
◆划分社会经济现象的类型
◆研究现象总体的内部结构及其特征。通过统 计分组可以反映总体内部各部分之间的差别和 相互关系,表明总体的内部结构。同时在各组 的基础上计算各组所占总体的比重,从总体的 构成上认识总体各部分的作用,并对总体作出 正确的评价。
频数分布由各组名称(组别)和各组频数或频率两个要 素构成。分布在各个组中的总体单位数称为频数,也称次 数;各组频数与总频数之比称为频率,也称为比率或比重, 它说明总体各部分的构成情况。
3.2.5 频数分布
(2)频数分布的种类 分类标准为标志性质 ①品质数列:按品质标志进行分组所形成的分布数列 ②变量数列:按数量标志进行分组所形成的分布数列
计算检查:即检查各 项指标的计算口径、计 量单位是否符合规定, 并通过各种计算方法来 检查各指标间的数字是 否相互衔接,一致。
3.1.2 数据筛选
数据筛选是根据需要找出符合特定条件的某类数据。
【例3.1】有4名学生语文、英语、数学三门课程考试成绩数据如表下 表所示,试用Excel进行数据筛选。
4名学生三门课程考试成绩
【例3.2】某生产车间50名工人日加工零件数(个)如下表, 试编制组距式变量数列。
50名工人日加工零件数
117 122 124 129 139 107 117 130 122 125 108 131 125 117 122 133 126 122 118 108 110 118 123 126 133 134 127 123 118 112 112 134 127 123 119 113 120 123 127 135 137 114 120 128 124 115 139 128 124 121
按各组变量值的表现形式不同分为单项式变量数列 和组距式变量数列,组距又分等距和异距。
品质数列
某地区2015年末三次产业从业人员分布状况
按产业分组 第一产业 第二产业 第三产业
合计
从业人数(万人) 1963.2 2338.0 2331.3 6632.5
比率(%) 29.6 35.3 35.1
100.0
根据上面资料,使用Excel中的Frequency函数编 制间断组距数列。
A列为原始数据,放在A2:A51单元格内;B列为分组上限。 选定D2:D8,输入公式“=Frequency(A2:A51,B2:B8)”, 然后按“CTRL+SHIFT+ENTER”组合键,即可计算出各 组的频数。
注意:Excel中的Frequency函数使用的是“上组限在内” 的统计原则
对于数值型数据,排序只有两种,即递增和递减。
3.2 数据分组与频数分布
3.2.1 统计分组的意义和作用
1、统计分 组的意义
①统计分组是根据统计研究任务的要 求和研究现象总体的内在特点,将通 过统计调查搜集到的数据资料按照一 定的标志划分为若干部分(组)的一种 统计方法。
②统计分组兼有分与 合两方面的含义,是 将总体区分为性质相 异的若干部分;将性 质相同的许多个体合 成一个小组。
各组名称
频数
频率
单项式变量数列是指变量 数列中每一个变量值代表 一组。适用于变量值不多, 变动幅度不大的离散变量。
某城市有子女家庭情况分布表
家庭按子女数分组 (个)
1
2
3 3个以上
合计
家庭数(万户)
140 470 280 110 1000
比率(%)
14 47 28 11 100
组距式变量数列
某地区50个乡镇财政总收入分布表
3.2.4 统计分组的种类
2、按分组标志的多少不同,分为简单分组和复合分组
(1)简单分组:是对总体指只按一个标志进行的分组。例 如 :如学生按性别进行分组,企业按销售额进行分组等。
(2)复合分组:同一个总体选择两个或两个以上的标志层 叠起来进行的分组。例如 :如高校教师先按“性别”分 组,然后按“职称”分组。
复合分组体系就是将总体按两个或两个以上的标志结合 起来进行层叠分组,形成复合分组体系。具体地说,它是先 按一个标志分组,再按另一个标志对已经分好的各个组进行 再分组。
初教
讲师 男 副教授
教授
按性别分组
初教

讲师 副教授
教授
3.2.5 频数分布
1、频数分布的概念和种类
(1)频数分布的含义
在统计分组的基础上,将总体中的所有单位按组归类整 理,形成总体中各个单位在各组间的分布,称为频数分布 或次数分布。
Excel操作步骤:
〖2〗在下拉箭头方框内选择选择要筛选出的数据. (2)若要筛选语文成绩最高的前两名学生,则需在“语文” 下拉箭头处的“数字筛选”中“10个最大的值”对话框中输 入据2,结果如下图所示:
(3)若要三门课程绩都大于70分的学生,由于设定的 条件比较多,需要使用“高级筛选”命令。 使用高级筛选时,必须建立条件区域。这时需要在数据清 单上面至少留出三行作为条件区域,如图3-4所示。然后 在“列表区域”中选中要筛选的数据清单,在“条件区域” 中选择匹配的条件。
0~14
151
15~64
648
65岁以上
111
合计
910
异距
比率(%)
17 71 12 100
2、变量数列的编制
当掌握的资料是离散变量且变量值的变动幅度不大时,应 编制单项式变量数列;当掌握的资料是连续变量或虽是离散 变量但变量值的变动幅度较大时,必须采用组距式变量数列 来反映总体单位数的分布情况。
组距式变量数列中各组的最大变量值与最小 变量值分别称为组上限和组下限。组限的确 定应遵循“既不重复,也不漏”的原则。
● 第四步: 离散型变量一般采用间断分组,即前一组的
确定组限
组上限与后一组的组下限不相等;
连续型变量必须采取重叠分组,即前一组的 组上限与后一组的组下限相等,为同一个变 量值。当某一个变量值恰好等于某组的组上 限时,一般规定“上组限不在内”。
经验公式为:k 1 3.322 lg n K : 为组数;n : 为变量值个数
根据上面的例子确定的组数:
k 1 3.322lg 50 6.64
取整数为7组。
● 第三步:确定组距 组距是各组最大变量值与最小变量值之差
组距 = 全距 = 32 = 4.57; 取整数为5 组数 7
组距一般取整数,通常是5或10的倍数。
组距式变量数列的编制步骤:
● 第一步:将原始数据进行排序并计算全距
50名工人日加工零件数排序表
单位:个
107 108 108 110 112 112 113 114 115 117 117 117 118 118 118 119 120 120 121 122 122 122 122 123 123 123 123 124 124 124 125 125 126 126 127 127 127 128 128 129 130 131 133 133 134 134 135 137 139 139
随着社会经济环境的发展变化,被研究对象的特征也 在不断变化。因而分组标志应该适应这种变化。
ห้องสมุดไป่ตู้
3.2.4 统计分组的种类
1、按分组标志的性质不同,分为品质标志分组和数量标 志分组
(1)按品质标志分组:是以反映现象的属性、性质的标 志进行的分组。例如 :人口按性别、企业按经济类型、 商品按类别等。
(2)按数量标志分组:按数量标志分组是把研究总体按 标志值的多少进行分组。例如 :人口按年龄进行分组, 工业企业按职工人数分组、生产能力分组,商业企业按 销售额分组等。
3.2.3 分组标志的选择
2、选择与研究目的最有关系、能反映现象本质特征的分 组标志
同一研究目的下,往往有很多分组标志可供选择,但 要选择其中最能反映企业规模本质特征的标志作为分组的 依据。如,研究职工的生活水平,人均收入比职工的工资 水平作为分组标志要好。
3、要考虑到现象所处的具体历史条件或经济条件
全距=139-107=32
● 第二步:确定组数 确定的组数应能反映出总体分布的本质特征和组间性质 上的差异。
◆根据对现象的定性分析确定组数。例如 :学生成绩实行 五级分制时分:不及格、及格、中、良好、优秀,可将此 分制换算成传统百分制。
◆采用经验公式确定:
美国学者斯特杰斯 H.A.Sturges 提出的经验公式确定组数。
将上表采用重叠分组的结果如下表所示:
某车间50名工人日加工零件数分组表(重叠分组)
按零件数分组 105~110 110~115 115~120 120~125 125~130 130~135 135~140 合计
平行分组体系
对同一个总体选择两个或两个以上的标志分别进行简单分 组,就形成平行分组体系。例如,为了解人口总体的基本 特征,我们将人口总体按性别、年龄、民族、居住地不同 进行了分组,形成平行分组体系如下:
男 性






年 15 ~ 64岁
城镇人口 乡村人口
汉族 民
族 少数民族
龄 65岁及以上
复合分组体系
相关文档
最新文档