统计学第三章 统计整理
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(二)数值数据的分组与频数分布
可先将数据进行排序,然后根据需要分组; 对较少的数据也可不排序直接根据需要分组。 ◐分组计频基本步骤:
确定组数 确定组距(按组)整理成分布频数表
例:一会计事务所对其20家客户(clients)年底帐目 辑核(audits)时间(天)统计如下表:
12 22 Table Year-End Audit Times(in days) 14 19 18 15 15 18 17 20 27 23 22 21 33 28 14 18 16 13
其中N为数据的个数(总体单位数或样本数), 一般对结果取整数。
上例中:K=1+lg20/lg2=1+4.32=5.325
第二步,确定组距(Width of classes):组距是 一个组的上限与下限之差,可根据全部数据的最 大值和最小值及所分的组数来确定:
组距=(最大值 - 最小值)/组数
上例中,组距=(33-12)/5=4.2,可取整数5为最 后选定的组距。 第三步,确定各组组限(Class limits)并据此整 理频数分布表。
2. 计算检查
数据的审核
(第二手数据)
1. 适用性审核
– 弄清楚数据的来源、数据的口径以及有关的 背景材料 确定这些数据是否符合自己分析研究的需要 应尽可能使用最新的统计数据
–
–
2. 时效性审核 3. 确认是否必要做进一步的加工整理
数据的筛选
1. 对审核过程中发现的错误应尽可能予以纠正 2. 当发现数据中的错误不能予以纠正,或者有 些数据不符合调查的要求而又无法弥补时, 需要对数据进行筛选 3. 数据筛选的内容包括:
14 12
Fre que nc y
10 8 6 4 2 0
A
p
e pl C
om
q pa G at ew
2 ay
0 00
IB
M c a P k
d ar
B
l el
• 柱状图是一种图形方法,用于描述已经 被汇总为频数分布、相对频数分布或百 分比频数分布的数据。 • 在图的横轴上,规定对数据分组(类) 的标记。在纵轴上标有频数、相对频数 分布或百分比频数的刻度。
分组与求频数 : Table, Frequency Distribution/Relative and Percentage Frequency of Computer Purchases
Company Apple Compaq Gatewy2000 IBM Packard Bell Total Frequency 13 12 5 9 11 50 Relative Frequency 0.26 0.24 0.10 0.18 0.22 1.00 Percentage Frequency 26 24 10 18 22 100
将某些不符合要求的数据或有明显错误的数
据予以剔除 将符合某种特定条件的数据筛选出来,而不 符合特定条件的数据予以剔出
数据的排序
(要点)
1. 按一定顺序将数据排列,以发现一些明显 的特征或趋势,找到解决问题的线索
2. 排序有助于对数据检查纠错,以及为重新 归类或分组等提供依据 3. 在某些场合,排序本身就是分析的目的之 一 4. 排序可借助于计算机完成
折线图也称频数多边形图(polygon),是将直方 图顶部的中点(即组中值)用直线连接起来而成的 图形。
Fig 3, Frequency Polygon for the Audit-Time Data
8
5 4 2 10 15 20 25 30 35
▼注意:
1、折线图的两个终点要与横轴相交(将第一个 矩形顶部中点通过左竖边中点连接到横轴;将最后 一个矩形顶部中点与其右竖边中点连接到横轴)。 2、折线图下所围成的面积与直方图面积相等 (为1),从而使二者表示的频率分布是一致的。
(二)茎叶图
茎叶图是一种既给出数据的分布状况,又能 显示每一个原始数值的图形。 A stem-and-leaf display can be used to rank order data and provide an idea of the shape of the distribution of a set of quantitative data. 茎叶图由两部分组成:茎(stem)与叶(leaf) 茎:通常由每组数的高位数值(leading digits) 形成,按组竖立在左边; 叶:通常由每组数的低位数值(last digits)形成, 按组横排在“茎”的右边。
第三章 统计整理
一、统计数据的预处理 二、数据分组与频数分布 三、统计表和统计图
统计数据的整理(summarizing data)是指 对所搜集的数据进行加工整理、使之系统化、 条理化,以符合分析的需要。 统计数据的整理通常包括: 数据的预处理 分类或分组 汇总
一、数据的预处理 数据的审核、筛选与排序
二、数据分组与频数分布
预处理数据 分组 计算频数
描述统计
统计分组是将预处理过的数据按照某种特征或标 准分成不同的组别。 ◎统计分组标志:分组时所依据的特征或标准, 有品质标志和数量标志。 ◎频数分布表:对分组后的数据,计算各组中数 据出现的次数或频数所形成的汇总表。
概念:频数/次数分布;相对频数;百分数频数
第一步,确定组数(Number of classes)。组数的确定 一般视数据本身的特点及数据的多少而定。 经验上以5~20之间为好,尤其注意不要确定太多的 组数,使得每组包含的数据太少。 实际分组时常按斯特格斯(Sturges)提出的经验 公式来确定组数K:
K 1 log
N 10
log
2 10
(一)直方图和折线图
直方图是用距形的 宽度和高度来表示 10 频数分布的图形 8 (以横轴表示数据 6 分组,纵轴表示频 4 数或频率)。其特 2 点是用各组条形的 0 面积表示各组频数。
图1 审计时间数据直方图
14
19
24
29
34
▼注意: 直方图基本上与柱状图相同,只是在柱 之间没有间隔,直方图中相邻的条必须接 触。
1. 数据的审核
发现数据中的错误 找出符合条件的数据
2. 数据的筛选 3. 数据排序
发现数据的基本特征 升序和降序
数据的审核
审核的内容 1. 完整性审核
– – – – – 检查应调查的单位或个体是否有遗漏 所有的调查项目或指标是否填写齐全 检查数据是否真实反映客观实际情况,内 容是否符合实际 检查数据是否有错误,计算是否正确等 如:文化程度:小学 职业:大学教师
(一)品质数据的分组与频数分布
例6: 50个计算机购买者所购买的不同品牌的机型数据
IBM Gateway200 IBM Apple Compaq IBM Apple Compaq Apple Table, Data from a sample of 50 computer purchases(11/15,1994) IBM Packard Bell Compaq IBM Packard Bell Packard Bell Apple Compaq Apple Apple IBM Apple Compaq Compaq Compaq Gateway2000 Packard Bell Apple Apple Compaq Compaq IBM Compaq Packard Bell Gateway2000 IBM Packard Bell Gateway200 Packard Bell Packard Bell Apple Packard Bell Packard Bell Gateway200 Packard Bell Apple Compaq IBM Apple Apple Compaq
2. 准确性审核
数据的审核
(原始数据)
审核数据准确性的方法
1. 逻辑检查
– – – – 从定性角度,审核数据是否符合逻辑,内容是否 合理,各项目或数字之间有无相互矛盾的现象 主要用于对定类数据和定序数据的审核 检查调查表中的各项数据在计算结果和计算方法 上有无错误 主要用于对定距和定比数据的审核
数据的排序
(方法)
1. 定类数据的排序 字母型数据,排序有升序降序之分,但习惯上
用升序 汉字型数据,可按汉字的首位拼音字母排列, 也可按笔画排序,其中也有笔画多少的升序降 序之分
2. 定距和定比数据的排序
–
–
递增排序:设一组数据为 X1 , X2 , … , XN ,递 增排序后可表示为:X(1)<X(2)<…<X(N) 递减排序可表示为:X(1)>X(2)>…>X(N)
The objective in developing a frequency distribution is to provide insights about百度文库the data that cannot be quickly obtained by looking only at the original data.
三、频数/次数分配的图示
品质数据往往使用柱状图(Bar graphs)和饼状图(Pie Charts); 数值数据往往使用直方图(Histograms)、折线图(Polygon)、茎 叶图(Stem-and-leaf display) 。 Fig1, Bar Graph of Computer Purchases
上例是离散型数据(天),采用组限间断方法,因此可得 频数分布表如下: Table, Frequency distribution, relative frequency and percent frequency distribution for the audit-time data Audit Frequency Relative Percent Time(days) Frequency Frequency 10~14 4 0.20 20 15~19 8 0.40 40 20~24 5 0.25 25 25~29 2 0.10 10 30~34 1 0.05 5 Total 20 1.00 100
▼注意: 1、分组所遵循的主要原则是“不重不漏”(each data value belongs to one class and only one class)。因 此, 最低组限(The lower class limit) 数据的最小值, 最大组限(The upper class limit) 数据的最大值; 另外,数据在每组中的归属习惯上采用“上组限 不在内”。 2、对离散型数据,可采用相邻两组组限间断的办 法解决“不重”的问题(如6~10,11~15,16~20 等); 对连续型数据,往往采用相邻两组组限重叠, 根据“上限不在内原则”解决“不重”问题(如 [5,10),[10,15),[15,20)等)。
22%
26% Apple Compaq Gatewy 2000 IBM packard Bell 24%
18% 10%
Fig 1 Pie Chart of Computer Purchases
• 饼状图是另一种表示相对频数和百分比 频数分布的图形方法。饼状图中的每一 部分所显示的数值可以是频数、相对频 数、或者百分比频数。
◎ 频数分布或次数分布(Frequency distribution): 全部数据按其分组标志在各组内的分布状况。 分布在各组内的数据个数称为频数或次数。 A frequency distribution is a tabular summary of a set of data showing the frequency (or number) of items in each of several nonoverlapping classes. ◎相对频数(Relative frequency)/频率/比重:各组频 数与全部频数之和的比重。 The relative frequency of a class is the proportion of the total number of data items belonging to the class.(=Frequency of the class/n) ◎百分数频数(Percentage frequency):is the relative frequency multiplied by 100.