数据特征的描述

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(三)、问题的顺序
• 1、先易后难 • 2、封闭型问题置前,敏感性、开放性问题
置后 • 3、注意对后继问题的影响: • (1、您在选择购物时,哪些因素是重要的? • 2、您在选择购物时,售后服务这个因素的
重要性如何?) • 4、逻辑思路保持一致
第二节、数据的整理
• 审核 • 量数据) 数据的表现
• (一)绝对数 • 反映社会现象整体规模和水平 • 时期数 • 时点数 • (二)相对数 • 结构、比较、计划等
(三)绝对数与相对数的应用
• 1、指标内涵和可比性:GNP、工业增加值 • 2、指标的结合运用 • 引例:在美国,1985年有19893人遭谋杀,
与1970年16848人遭到谋杀相比,增加了 20%。这些数字揭示了在1970-1985年期间 美国变成一个更多暴力的社会 • 中国的国民生产总值增长了8%,美国的为 1%
• (3)经济衰退时,工人的平均工资高,平均失业期短; 经济繁荣时,平均工资低,平均失业期长;
• 这会是真实吗
注意:
• 平均数的大小受变量值和权重两个因素的影 响
• 平均数收极端值的影响 • 权重的选择要注意其经济意义 • 正确理解各平均数指标
二)众数、中位数和均值的特点和应用场合
测度值
优点
缺点
2
50
8
280
10
450
4
220
1
65
25
1065
对平均数的理解:
• (1)某房间有10人平均身高1.6米,第11人走进,其 身高1.9米,求11人的平均身高;若房间里20个人身 高平均1.6米则第21人走进,21人的身高又会如何
• (2)一教师出3个问题,每题1分班级中30%得3 分,50%得2分,10%得1分,10%得0分;全班有10个人; 全班有20人?
此类推算出
4、统计折线图与曲线图
• 洛伦茨曲线 • 生命曲线 • 投机需求曲线 • 质量曲线
5、象形图
洛伦茨曲线
按收入大小顺序 占总收入的 累计家庭数 累计收入
排列的家庭数 %
%
的%
最低的20%
4.7
20
4.7
第二个20%
11
40
15.7
第三个20%
17
60
32.4
第四个20%
24.4
80
56.8
三、调查对象
一、全面调查 不重复、不遗漏 二、非全面调查
代表性、选择偏性 引例:1936年罗斯福与兰登的总统竞选 《文学摘要》罗斯福(43%)兰登(57%)1千万
实际结果 :罗斯福(62%)兰登(38%) 盖洛普:罗斯福(56%)5万人
泛法航空
四、调查内容-问卷设计
• (一)问卷结构: • 说明词、填写要求、问卷正文及结尾 • 说明词:主办单位及调查员身份、调查的目
最高的20%
43.2
100
100
累计收入的%
累计家庭的%
Sales of Chicago Carpet World since 1975
101 Sales up
100 1975
1985
1995
(二)、统计表
年 国内生产总值 份
1989
最终消费 最终消费率
年末人口) 112704
1990 18319.5
=5.3
=
我们确定分 5 个组。 2 、确定组距 近似的组距 =
本例组距 = 取整数 5 天。
4、计算频数与频率
表 2-9 审计时间数据频数分布
按审计时间分组
频数
(天)
10-14
4
15-19
8
20-24
5
25-29
2
30-34
1
合计
20
表 2-10 审计时间数据的相对频数和百分比频 数分布
按审计时间分组 (天) 10-14
22 , 23 , 24 , 25 , 26 , 27 , 28 , 29 ,由
于各年龄的人数相同,没有明显集中趋势点的数 值,所以这里没有众数。
注意:
• 1、是位置平均数,不受极端值的影响 • 2、假定各单位在组内是均匀分布的 • 3、信息量小,缺乏敏感性,不适合代数运算 • 4、用于非对称的次数数列、特别是品质标志数列 • 5、用于数列中有较多的数值向某一数值集中 • 6、有时会存在多个众数
15-19
20-24
25-29
30-34 合计
相对频数 0.20
百分比频数 20
0.40
40
0.25
25
0.10
10
0.05
5
1.00
100
表 2-11 审计时间数据的累积频数分布
按审计时间分组 (天) 10-14
15-19
20-24
25-29
30-34 合计
频数 4
向上累计频数 分布
4
向下累计频数 分布
二、数据集中趋势的描述
• (一)、 众数 Mode

众数是总体数据中出现次数最多的变量值。

例 3-1 :有 10 名大学生的年龄: 18 , 18 ,
19 , 19 , 19 , 19 , 19 , 20 , 20 , 21 ,在
这里 19 岁的人数最多,所以 19 岁是众数。

例 3-2 :有 10 名职工的年龄: 20 , 21 ,
20
8
12
16
5
17
8
2
19
3
1
20
1
20


在数量数据整理中要注意的问题有:
• 1 、在一些应用中,我们需要知道各分组的中点, 也就是组中值。
• 2 、开口组(即只有上限或只有下限的组),其 组中值用邻组的组距计算。
• 3 、在数据较少的情况下,可用品质数据整理的 方式,采取单变量值分组。
• 4、连续变量与离散变量的组限问题 上组限不在 内
表 2-5 购买 50台计算机的样本数据
IBM
IBM 帕科特 • 贝尔 康柏
IBM
帕科特 • 贝尔 苹果 苹果
盖威特 -2000 帕科
特 • 贝尔
康柏
康柏 苹

…………………………………
表 2-6 购买计算机数据的频数分布表
按公司分组 苹果机 康柏机
盖威特-2000 IBM
帕科特 • 贝尔 合计
频数 13 12 5 9 11 50
一般我们将其中一种表现的变量值表示为 1 ,另 一种表现的变量值表示为零,如果我们用 P 表示变量 值 1 在总体中出现的频率,用 Q 表示变量值零在总体 中出现的频率,则有:



是非变量的均值:
是非变量的方差:
2、总体方差与组方差
• 例 3-16 某厂某班组 12 名工人日产量件 数如下: 9 , 11 , 14 , 15 , 16 , 19 , 20 , 21 , 21 , 22 , 23 , 28 ,对上述 12 名工人求日产量的均值及总方差得:
11365.2
61.3
114333
1991 21280.4
13145.9
60.8
115838
1992 25863.6
15952.1
59.9
117171
1993 34500.6
1994 47110.9 1995 59404.9 1996 68498.2
20182.1
58.3
118517

27216.2
众数
1、 当数据有明显的集中趋势又 是偏态分布时其代表性较好; 2、 不受极端数值的影响;
1、 具有不唯一性,有的分布有 不只一个众数,有的分布没有众 数; 2、 具有假定性,当假定不成立 时其代表性会很差。
中位数
1、 不受极端数值的影响; 2、 可描述集中趋势不明显; 3、 数据分布中心值;
1、 具有假定性,当假定性不成 立时其代表性会很差;
(一)定义:均值就是分布中全部数据的算术平 均值。
(二)、确定 1 、对未经整理的原始数据

表示均值,

2、对分组数据
Biblioteka Baidu公司推销员工作量 如下: 表 3-4
组中值X 推销量(件)
20-30 30-40 40-50 50-60 60-70
合计
25 35 45 55 65
——

推销员人数(人) XF F
方法 普查
对象 全部单位
抽样调 样本单位 查
重点调 重点单位 查
典型调 典型单位 查
统计报 全部单位

与非全部
单位
特点 一次性、周期性、数 据准确、全面、使用 面窄 经济、实用、准确、 适应面广 非随机性
非随机性
统一性、准确性
适用条件 掌握总体情况有限总 体
掌握总体情况、有限 总体与无限总体 掌握趋势 存在重点单位 用于定性分析
(二)、数量数据的整理
数量数据频数分布的分组需要 3 个步骤: 1 、确定组数; 2 、确定组距; 3 、确定组限。
引例:
表 : 年终审计时间(天)
12 14 19 18 15 15 18 17 20 27 22 23 22 21 33 28 14 18 16 13
1 、确定分组数目
本例组数 =
58.2
119850
34529.4
59.0
121121
40171.7
58.6
122389
合计 274978.1
162562.6
第三节、数据特征的描述
• 绝对数与相对数 • 集中趋势: • 众数、中位数、平均数 • 离散趋势: • 全距 • 方差、标准差 • 方差系数、标准差系数
一、绝对数与相对数
• 5、等距与不等距分组
三、数据的表现
• 统计图 • 统计表 • 统计指标
(一)统计图
1、直方图 是用图形说明数量数据的另一种常用方法。
图 2-8 审计时间数据直方图
2、条形图 是用图的方式描述已概括成频数、相对 频数或百分比频数分布的品质数据的图形

3、饼图 是用圆的各部分面积来呈现品质数据的常用方法。本例中 所有各组计算机购买的百分比频数总和为 100 ,一个圆有 360 ° , 则饼图中苹果机的部分为 26% ´ 360 ° =93.6 ° ,其他组的部分以
二、标准差与方差
1、简单标准差:
例3-13、 某百货公司有 6 家分店,经理要求掌握这
6 家分店的年净收入差异水平,其标准差计算如下:
年净收入(万元)
平均年净收入
离差
离差平方

)(

490
-68
4624
538
-20
400
560
2
4
570
12
144
590
32
1024
600
42
1764
合计
0
7960
2、 当分组数较少而分布又较集 中时,中位数不一定准确。
均值
1、 数据信息提取最充分,具有 优良的数学性质; 2、 既是数据分布的中心,又是 数据的重心,应用广泛,是其他 统计方法的基础;
1、 对组距分组数据计算均值具 有一定的假定性; 2、 受极端数值的影响;
第四节 数据分布离散程度的测度
离散程度是评价数据一般水平代表性大小的 依据,并可以反映数据分布的均衡程度。 一、全距( Range ) 与四分位距 、 全距也称极差,是用分布数据中的最大值减去最 小值的差,表示为 四分位距 :将所有数据分为4份,每部分之间的 分界点为四分位数据
2、加权的标准差
三、对标准差的理解:
• 1、相同的数列,用原始数据计算和用分组 数据计算,标准差有和不同
• 2、10个数的数列,若只包括1、9且标准差 最大,这10个数是什么
四、其他形式的标准差
1、是非变量的标准差 在统计研究中,经常遇到这样一种情况,即统计对象
总体只有两种表现的可能,这类总体的现象表现就是 是非变量。
(二)、中位数 Medium
• 中位数就是把计算对象的数据按大小顺 序排列后,处于中间位置上的变量值。
=
• 注意: • 1、是位置平均数,不受极端值的影响 • 2、假定各单位在组内是均匀分布的 • 3、信息量小,缺乏敏感性,不适合代数运

• 4、用于非对称的次数数列 • 引:个人收入、年龄
三、均值 Mean
的和意义、承诺及感谢 • 问卷正文:需要调查的问题及答案、被调查
者的 背景资料 • 结尾:说明
(二)、问卷的措辞
• 清楚定义内容:5w • “您使用什么品牌的化妆品” • 用词通俗、词义明确 • “您经常收看电视节目吗?”“1、从来不看;2、
偶尔看;3、有时看;4、经常看;5、天天看” • 避免隐含的选择(乘车、牛仔裤) • 避免否定形式的提问 • 避免诱导性或倾向性的词汇、避免重叠、答案详
统计讨论网站
统计资料可利用组织:
• 国际劳工组织统计局:劳动力、就业、工资 、社会保险、工会等
• 联合国教科文组织:教育、科学、文化、技 术等
• 联合国棉农组织、卫生组织、国际货币基金 会、世界银行等
一、基本 内容

调查目的
• 调查对象 调查内容 调查方法
• 调查结果满足调查目的
二、调查方法
分组 (品质数据、数 计算频数与频率
一、数据资料的可用性
• 方法错误 • 引:时间,空间,口径等 • 逻辑错误 • 引:产值与销售值,年龄与工作年限 • 主观错误 • 敏感性、政治性等 • 引:失业率与平均每周申请失业保险人数
二、数据的分组与频率的计算
(一)品质数据的分组 与计算 频数:每组数据值出现的次数
Chapter 1 Measure of Central tendency
and Dispersion
数据特征的描述
数据特征的描述过程
• 数据收集 • 整理 • 显示 • 描述
第一节、统计数据的搜集
• 两种数据来源: • 原始数据 • 次级数据 • 两种数据形式 • 横截面数据 • 时间数列数据
相关文档
最新文档