数据特征的描述

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

22 ， 23 ， 24 ， 25 ， 26 ， 27 ， 28 ， 29 ，由
于各年龄的人数相同，没有明显集中趋势点的数值，所以这里没有众数。
注意：
• 1、是位置平均数，不受极端值的影响 • 2、假定各单位在组内是均匀分布的 • 3、信息量小，缺乏敏感性，不适合代数运算 • 4、用于非对称的次数数列、特别是品质标志数列 • 5、用于数列中有较多的数值向某一数值集中 • 6、有时会存在多个众数
统计讨论网站
统计资料可利用组织：
• 国际劳工组织统计局：劳动力、就业、工资、社会保险、工会等
• 联合国教科文组织：教育、科学、文化、技术等
• 联合国棉农组织、卫生组织、国际货币基金会、世界银行等
一、基本内容
•
调查目的
• 调查对象调查内容调查方法
• 调查结果满足调查目的
二、调查方法
20
8
12
16
5
17
8
2
19
3
1
20
1
20
—
—
在数量数据整理中要注意的问题有：
• 1 、在一些应用中，我们需要知道各分组的中点，也就是组中值。
• 2 、开口组（即只有上限或只有下限的组），其组中值用邻组的组距计算。
• 3 、在数据较少的情况下，可用品质数据整理的方式，采取单变量值分组。
• 4、连续变量与离散变量的组限问题上组限不在内
（二）、数量数据的整理
数量数据频数分布的分组需要 3 个步骤： 1 、确定组数； 2 、确定组距； 3 、确定组限。
引例：
表：年终审计时间（天）
12 14 19 18 15 15 18 17 20 27 22 23 22 21 33 28 14 18 16 13
1 、确定分组数目
本例组数 =
分组（品质数据、数计算频数与频率
一、数据资料的可用性
• 方法错误 • 引：时间，空间，口径等 • 逻辑错误 • 引：产值与销售值，年龄与工作年限 • 主观错误 • 敏感性、政治性等 • 引：失业率与平均每周申请失业保险人数
二、数据的分组与频率的计算
（一）品质数据的分组与计算频数：每组数据值出现的次数
表 2-5 购买 50台计算机的样本数据
IBM
IBM 帕科特 • 贝尔康柏
IBM
帕科特 • 贝尔苹果苹果
盖威特 -2000 帕科
特 • 贝尔
康柏
康柏苹
果
…………………………………
表 2-6 购买计算机数据的频数分布表
按公司分组苹果机康柏机
盖威特-2000 IBM
帕科特 • 贝尔合计
频数 13 12 5 9 11 50
2
50
8
280
10
450
4
220
1
65
25
1065
对平均数的理解：
• （1）某房间有10人平均身高1.6米,第11人走进,其身高1.9米,求11人的平均身高;若房间里20个人身高平均1.6米则第21人走进,21人的身高又会如何
• (2)一教师出3个问题,每题1分班级中30%得3 分,50%得2分,10%得1分,10%得0分;全班有10个人；全班有20人？
11365.2
61.3
114333
1991 21280.4
13145.9
60.8
115838
1992 25863.6
15952.1
59.9
117171
1993 34500.6
1994 47110.9 1995 59404.9 1996 68498.2
20182.1
58.16.2
的和意义、承诺及感谢 • 问卷正文：需要调查的问题及答案、被调查
者的背景资料 • 结尾：说明
(二)、问卷的措辞
• 清楚定义内容：5w • “您使用什么品牌的化妆品” • 用词通俗、词义明确 • “您经常收看电视节目吗？”“1、从来不看；2、
偶尔看；3、有时看；4、经常看；5、天天看” • 避免隐含的选择（乘车、牛仔裤） • 避免否定形式的提问 • 避免诱导性或倾向性的词汇、避免重叠、答案详
• （一）绝对数 • 反映社会现象整体规模和水平 • 时期数 • 时点数 • （二）相对数 • 结构、比较、计划等
（三）绝对数与相对数的应用
• 1、指标内涵和可比性：GNP、工业增加值 • 2、指标的结合运用 • 引例：在美国，1985年有19893人遭谋杀，
与1970年16848人遭到谋杀相比，增加了 20%。这些数字揭示了在1970-1985年期间美国变成一个更多暴力的社会 • 中国的国民生产总值增长了8%，美国的为 1%
15-19
20-24
25-29
30-34 合计
相对频数 0.20
百分比频数 20
0.40
40
0.25
25
0.10
10
0.05
5
1.00
100
表 2-11 审计时间数据的累积频数分布
按审计时间分组（天） 10-14
15-19
20-24
25-29
30-34 合计
频数 4
向上累计频数分布
4
向下累计频数分布
（二）、中位数 Medium
• 中位数就是把计算对象的数据按大小顺序排列后，处于中间位置上的变量值。
=
• 注意： • 1、是位置平均数，不受极端值的影响 • 2、假定各单位在组内是均匀分布的 • 3、信息量小，缺乏敏感性，不适合代数运
算
• 4、用于非对称的次数数列 • 引：个人收入、年龄
三、均值 Mean
（一）定义：均值就是分布中全部数据的算术平均值。
（二）、确定 1 、对未经整理的原始数据
，
表示均值，
则
2、对分组数据
某公司推销员工作量如下：表 3-4
组中值X 推销量（件）
20-30 30-40 40-50 50-60 60-70
合计
25 35 45 55 65
——
例
推销员人数（人） XF F
2、当分组数较少而分布又较集中时，中位数不一定准确。
均值
1、数据信息提取最充分，具有优良的数学性质； 2、既是数据分布的中心，又是数据的重心，应用广泛，是其他统计方法的基础；
1、对组距分组数据计算均值具有一定的假定性； 2、受极端数值的影响；
第四节数据分布离散程度的测度
离散程度是评价数据一般水平代表性大小的依据，并可以反映数据分布的均衡程度。一、全距（ Range ) 与四分位距、全距也称极差，是用分布数据中的最大值减去最小值的差，表示为四分位距：将所有数据分为4份，每部分之间的分界点为四分位数据
三、调查对象
一、全面调查不重复、不遗漏二、非全面调查
代表性、选择偏性引例：1936年罗斯福与兰登的总统竞选《文学摘要》罗斯福（43%）兰登（57%）1千万
实际结果：罗斯福（62%）兰登（38%）盖洛普：罗斯福（56%）5万人
泛法航空
四、调查内容-问卷设计
• （一）问卷结构： • 说明词、填写要求、问卷正文及结尾 • 说明词：主办单位及调查员身份、调查的目
=5.3
=
我们确定分 5 个组。 2 、确定组距近似的组距 =
本例组距 = 取整数 5 天。
4、计算频数与频率
表 2-9 审计时间数据频数分布
按审计时间分组
频数
（天）
10-14
4
15-19
8
20-24
5
25-29
2
30-34
1
合计
20
表 2-10 审计时间数据的相对频数和百分比频数分布
按审计时间分组（天） 10-14
2、加权的标准差
三、对标准差的理解:
• 1、相同的数列，用原始数据计算和用分组数据计算，标准差有和不同
• 2、10个数的数列，若只包括1、9且标准差最大，这10个数是什么
四、其他形式的标准差
1、是非变量的标准差在统计研究中，经常遇到这样一种情况，即统计对象
总体只有两种表现的可能，这类总体的现象表现就是是非变量。
• 5、等距与不等距分组
三、数据的表现
• 统计图 • 统计表 • 统计指标
（一）统计图
1、直方图是用图形说明数量数据的另一种常用方法。
图 2-8 审计时间数据直方图
2、条形图是用图的方式描述已概括成频数、相对频数或百分比频数分布的品质数据的图形
•
3、饼图是用圆的各部分面积来呈现品质数据的常用方法。本例中所有各组计算机购买的百分比频数总和为 100 ，一个圆有 360 ° ，则饼图中苹果机的部分为 26% ´ 360 ° =93.6 ° ，其他组的部分以
众数
1、当数据有明显的集中趋势又是偏态分布时其代表性较好； 2、不受极端数值的影响；
1、具有不唯一性，有的分布有不只一个众数，有的分布没有众数； 2、具有假定性，当假定不成立时其代表性会很差。
中位数
1、不受极端数值的影响； 2、可描述集中趋势不明显； 3、数据分布中心值；
1、具有假定性，当假定性不成立时其代表性会很差；
方法普查
对象全部单位
抽样调样本单位查
重点调重点单位查
典型调典型单位查
统计报全部单位
表
与非全部
单位
特点一次性、周期性、数据准确、全面、使用面窄经济、实用、准确、适应面广非随机性
非随机性
统一性、准确性
适用条件掌握总体情况有限总体
掌握总体情况、有限总体与无限总体掌握趋势存在重点单位用于定性分析
尽
（三）、问题的顺序
• 1、先易后难 • 2、封闭型问题置前，敏感性、开放性问题
置后 • 3、注意对后继问题的影响： • （1、您在选择购物时，哪些因素是重要的？ • 2、您在选择购物时，售后服务这个因素的
重要性如何？） • 4、逻辑思路保持一致
第二节、数据的整理
• 审核 • 量数据）数据的表现
58.2
119850
34529.4
59.0
121121
40171.7
58.6
122389
合计 274978.1
162562.6
第三节、数据特征的描述
• 绝对数与相对数 • 集中趋势： • 众数、中位数、平均数 • 离散趋势： • 全距 • 方差、标准差 • 方差系数、标准差系数
一、绝对数与相对数
二、数据集中趋势的描述
• （一）、众数 Mode
•
众数是总体数据中出现次数最多的变量值。
•
例 3-1 ：有 10 名大学生的年龄： 18 ， 18 ，
19 ， 19 ， 19 ， 19 ， 19 ， 20 ， 20 ， 21 ，在
这里 19 岁的人数最多，所以 19 岁是众数。
•
例 3-2 ：有 10 名职工的年龄： 20 ， 21 ，
最高的20%
43.2
100
100
累计收入的%
累计家庭的%
Sales of Chicago Carpet World since 1975
101 Sales up
100 1975
1985
1995
（二）、统计表
年国内生产总值份
1989
最终消费最终消费率
年末人口） 112704
1990 18319.5
一般我们将其中一种表现的变量值表示为 1 ，另一种表现的变量值表示为零，如果我们用 P 表示变量值 1 在总体中出现的频率，用 Q 表示变量值零在总体中出现的频率，则有：
，
，
，
是非变量的均值：
是非变量的方差：
2、总体方差与组方差
• 例 3-16 某厂某班组 12 名工人日产量件数如下： 9 ， 11 ， 14 ， 15 ， 16 ， 19 ， 20 ， 21 ， 21 ， 22 ， 23 ， 28 ，对上述 12 名工人求日产量的均值及总方差得：
二、标准差与方差
1、简单标准差：
例3-13、某百货公司有 6 家分店，经理要求掌握这
6 家分店的年净收入差异水平，其标准差计算如下：
年净收入（万元）
平均年净收入
离差
离差平方
（
）（
）
490
-68
4624
538
-20
400
560
2
4
570
12
144
590
32
1024
600
42
1764
合计
0
7960
此类推算出
4、统计折线图与曲线图
• 洛伦茨曲线 • 生命曲线 • 投机需求曲线 • 质量曲线
5、象形图
洛伦茨曲线
按收入大小顺序占总收入的累计家庭数累计收入
排列的家庭数 %
%
的%
最低的20%
4.7
20
4.7
第二个20%
11
40
15.7
第三个20%
17
60
32.4
第四个20%
24.4
80
56.8
Chapter 1 Measure of Central tendency
and Dispersion
数据特征的描述
数据特征的描述过程
• 数据收集 • 整理 • 显示 • 描述
第一节、统计数据的搜集
• 两种数据来源： • 原始数据 • 次级数据 • 两种数据形式 • 横截面数据 • 时间数列数据
• (3)经济衰退时,工人的平均工资高,平均失业期短; 经济繁荣时,平均工资低,平均失业期长;
• 这会是真实吗
注意：
• 平均数的大小受变量值和权重两个因素的影响
• 平均数收极端值的影响 • 权重的选择要注意其经济意义 • 正确理解各平均数指标
二）众数、中位数和均值的特点和应用场合
测度值
优点
缺点