第2章 数据的表述(1)
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
总体
随机样本
统计学
STATISTICS
2.3 统计数据的质量
统计学
STATISTICS
数据的误差
数据的误差
抽样误差
非抽样误差
抽样框误差
回答误差
无回答误差
调查员误差
2 - 19
统计学
STATISTICS
抽样误差
(sampling error)
1. 由于抽样的随机性所带来的误差
2. 所有样本可能的结果与总体真值之间的平
(sampling survey)
1.
从总体中随机抽取一部分单位作为样本进行调查, 根据样本调查结果来推断总体特征的数据收集方 法(大数定律保证推断)
2. 具有经济、时效性强、适应面广、准确性高等特点
3. 虽然不可避免抽样
误差,但统计方法
可以估计误差的大 小,并控制误差。
2 - 17
√
√ √
√ √ √
√ √ √ √
“√”表示该尺度所具有的特性
2-9
统计学
STATISTICS
2.2 统计数据的来源
一、间接获取的数据 二、直接获取的数据
统计学
STATISTICS
间接取得的数据
统计学
STATISTICS
间接取得的数据
1.
2. 3. 4.
统计部门和政府部门公布的有关资料, 如各类统计年鉴
统计学
STATISTICS
直接取得的数据
统计学
STATISTICS
普查
(census)
1. 为特定目的专门组织的非经常性全面调查
2. 通常是一次性或周期性的
3. 一般需要规定统一的标准调查时间
4. 数据的规范化程度较高 5. 应用范围比较狭窄
总体
2 - 16
统计学
STATISTICS
抽样调查(详见第四章)
统计学
STATISTICS
我一眼就看 出来了,周 加工零件在 100 ~ 110 之 间的人数最 多!
2 - 28
~ ~ ~ ~ ~
数量标志(数量大小)。
统计学
STATISTICS
组距分组
(要点)
等距分组
可直接根据绝对频数来观察频数分布的特征
不等距分组
各组绝对频数的多少不能反映频数分布的实际 状况 需要用频数密度(频数密度=频数÷组距)反 映频数分布的实际状况
2 - 29
3. 若纵轴表示频率,直方图下的总面积等于1
2 - 36
统计学
STATISTICS
使用Excel频数函数 (FREQUENCY)
Excel的“直方图”工具的缺陷是:频数分布和直方图 没有与数据联系起来,这样,如果你改变任何一个数 据,频数分布表和直方图不会跟着改变 使用Excel中的统计函数“FREQUENCY”来创建频数 分布表和直方图,可解决这一问题。创建频数分布表 的步骤是
STATISTICS
学习目标
1. 了解数据的计量尺度
2. 了解统计数据的来源和数据的质量要求 3. 掌握数值型数据的整理方法 4. 掌握数据集中趋势和离散程度的测度方法 5. 掌握茎叶图和箱线图的制作方法 6. 掌握分布偏态与峰度的测度方法 7. 掌握统计表和统计图的使用
2-2
统计学
STATISTICS
•
次数分配表:将数据按其分组标志进行分组,并将
每组与其频次 (次数) 对应成表。
2 - 32
统计学
STATISTICS
次数分配表的编制
(例题分析)
【例】某车 间30名工人 每周加工某 种零件件数 如右表,试 对数据进行 分组。
2 - 33
统计学
STATISTICS
次数分配表
次数分配,是观察值按其分组标志分配在各组内的 次数。 观察累积分配比例 P 24
如长度、重量等。但温度是 间隔尺度,因为在摄氏温度中, 0C表示在标准大气压下, 纯水的冰水共存时刻的温度.
2-8
统计学
STATISTICS
四种计量尺度的比较
四种计量尺度的比较
计量尺度 数学特性
定类尺度 源自文库序尺度 定距尺度 定比尺度
分类( = ,≠ ) 排序( < ,> ) 间距( + ,- ) 比值( × ,÷ )
数据分组(主要研究变量分组方法) 统计学
STATISTICS
在对数据进行分组时,分组标志是最重要的;
分组后,组内同质,组间差异;
分组是基础,汇总是中心,编表是结果;
按分组标志的多少分为简单分组和复合分组;
一个标志、多个标志(类似于数据库查询条件);
按分组标志的性质分为品质分组和变量分组; 间隔尺度和比例尺度是按事物的数量标准划分的, 又称为数量标志分组;
间隔尺度可转换成顺序尺度,反之不然, 如百分制 – 五分制。 2-7
统计学
STATISTICS
比率尺度
(Ratio scale)
1.
2.
3. 4. 5.
6.
也称定比尺度,大多数情况都使用它 对事物的准确测度 与定距尺度处于同一层次,常常不加区别 数据表现为“数值” 有绝对零点,0表示“没有”或”无” 具有 或 的数学特性
统计学
STATISTICS
间隔尺度
(Interval scale)
1.
2.
也称定距尺度
对事物的准确测度
3. 比定序尺度精确 4. 数据表现为“数值”,可计算差异的大小 5. 没有绝对零点, 0表示一个数值, 不表示”没有”或” 无” 6. 具有 + 或 - 的数学特性
百分制成绩,分值之间间隔相等;温度计每一度的温差相等;
1.
注意:开口组(上、下限只有一个,如年龄小于6岁); 向上累积、向下累积,了解某一数值以上、 2 - 30 以下的百分比(P 24)。
统计学
STATISTICS
组距分组
(几个概念)
1. 下组限(low limit) :一个组的最小值
2. 上组限(upper limit) :一个组的最大值
3. 组距(class width) :上限与下限之差
2 - 13
宏观经济、财经、 货币金融等
经济信息及各类 网站 国家统计局授权 的数据中心 决策知识及案例 三农信息、论坛 及相关网站
http://www.cei.gov.cn http://data.acmr.com.cn http://www.juece.gov.cn http://www.sannong.gov.cn
统计学
STATISTICS
顺序尺度
(Ordinal scale)
1. 也称定序尺度 2. 对事物分类的同时给出各类别的顺序 3. 比定类尺度精确 4. 未测量出类别之间的准确差值
5. 数据表现为“类别”,但有序
6. 具有>或<的数学特性 如考试成绩分优、良、中、及格; 产品质量分一、二、三等品。
2-6
• •
2 - 22
调查员的挑选
调查员的培训 督导员的调查专业水平 调查过程控制
调查结果进行检验、评估 现场调查人员进行奖惩的制度
统计学
STATISTICS
2.4 统计数据的整理
一、统计数据的分组 二、次数分配 三、次数分配直方图 四、洛伦茨曲线
统计学
STATISTICS
统计数据的分组
2 - 25
统计学
STATISTICS
数据分组(续)
品质分组:
性别(列名尺度):男生、女生; 成绩(顺序尺度): 优、良、中、及格、不及格; 年龄(比例尺度:0代表不存在): 17岁、18岁、19岁。
列名尺度、顺序尺度的数据是按事物的性质、属性划分;
变量分组: 主要用于数值型数据
单变量(单项式)分组:整个数据中,将每一数据值 (变量取 值) 作为一组;适用于离散型变量,且变量值较少的情况; 组距分组:将全部变量值一次划分为若干数量区域,并将 2 -在每个区域的变量值作为一组;适用于连续型变量。 26
STATISTICS
统计学 提供统计数据的部分政府网站
美国政府机构 网址 数据内容
人口普查局 联邦储备局 预算编制办公室 商务部
2 - 14
http://www.census.gov 人口和家庭等 http://www.bog.frb.fed. 货币供应、信 us 誉、汇率等 http://www.whitehouse 财政收入、支 .gov/omb 出、债券等 http://www.doc.gov 商业、工业等
2 - 34
统计学
STATISTICS
次数分配直方图
Excel
统计学
STATISTICS
直方图
(histogram)
1. 用矩形的宽度和高度来表示频数分布的图
形,实际上是用矩形的 面积 来表示各组的 频数分布
2. 在直角坐标中,用横轴表示数据分组,纵
轴表示频数或频率,各组与相应的频数就 形成了一个矩形,即直方图
的样本观察结果与总体真值之间的差异
3. 存在于所有的调查之中,理论上可以避免
概率抽样,非概率抽样,全面性调查
4. 有抽样框误差、回答误差、无回答误差、调
查员误差、测量误差
2 - 21
统计学
STATISTICS
误差的控制
1. 抽样误差可计算和控制,但不可避免
2. 非抽样误差的控制,理论上可以避免
统计学
STATISTICS
组距分组
(步骤)
确定组数:组数的确定应以能够显示数据的分布 特征和规律为准则(一般分5-15组) 2. 确定组距:组距(class width)是一个组的上限与下 限之差,可根据全部数据的最大值和最小值及所 分的组数来确定,即 等距组距=( 最大值 - 最小值)÷ 组数 3. 统计出各组的频数,并整理成频数分布表
• • • •
2 - 37
选择与接受区域相临近的单元格区域,作为频数分布表输 出的区域 选择统计函数中的“FREQUENCY”函数 在对话框Date-array后输入数据区域,在Bins-array后输入 接受区域 同时按下ctrl-shift-Enter组合键,即得到频数分布
利用菜单画直方图
统计函数—FREQUENCY
各类经济信息中心、信息咨询机构、专 业调查机构等提供的数据 各类专业期刊、报纸、书籍提供的资料 各种会议,如博览会、展销会、交易会 及专业性、学术性研讨会上交流的有关 资料 从互联网或图书馆查阅到的相关资料
2 - 12
中 国 人 口 统 计 年 鉴
Internet
http//WWW.
5.
中 国 市 场 统 计 年 鉴
统计学
STATISTICS
数据分组(续)
分组方法
单变量值分组
(适用于离散变量)
组距分组
等距分组
2 - 27
异距分组
统计学
STATISTICS
组距分组
(要点)
1.
2.
将变量值的一个区间作为一组
适合于连续变量、取值较多的离散变量
3. 原则: 不重不漏, 上组限不算在内, 即 [ ) 4. 可采用等距分组,也可采用不等距分组。 当标志值变动比较均匀时,可采用等距分 组。当标志值变动很不均匀时,宜采用不 等距分组。 分组标准:品质标志(性质、属性);
2.1 数据的计量尺度(四种)
一、列名尺度 二、顺序尺度 三、间隔尺度 四、比率尺度
统计学
STATISTICS
四种计量尺度
数据的计量尺度
定类尺度
定序尺度
定距尺度
定比尺度
2-4
统计学
STATISTICS
列名尺度
(Nominal scale)
1. 也称名义尺度或分类尺度
2. 计量层次最低 3. 对事物进行平行的分类 4. 各类别可以指定数字代码表示 5. 使用时必须符合类别穷尽且互斥的要求 6. 数据表现为“类别” 7. 具有=或的数学特性 如 1-汉族,2-满族,3-壮族, 2 - 5 数字只是代码,不能计算1+2
统计学
STATISTICS
第 2章 统计数据的描述
2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9
2-1
数据的计量尺度 统计数据的来源 统计数据的质量 统计数据的整理 分布集中趋势的测度 分布离散程度的测度 分布偏态与峰度的测度 茎叶图与箱线图 统计表与统计图 本章小结
统计学
4. 组中值(class midpoint) :下限与上限之
间的中点值
组中值 =
2 - 31
下限值+上限值 2
统计学
STATISTICS
次数分配表
•
次数分配:将观察值按其分组标志进行分组,并计
算出分配在各组内的观察值个数;
两个组成要素:分组、次数(频次)。
•
种类:
品质数列:品质标志 变量数列:离散(单项式、组距式)、连续(组距)
均性差异
3. 影响抽样误差大小的因素
2 - 20
样本量的大小(越大误差越小,抽样误差与 样本容量的平方根大致成反比) 总体的变异性(越小误差越小)
统计学
STATISTICS
非抽样误差
(non-sampling error)
1. 相对于抽样误差而言
2. 除抽样误差之外的,由其他原因(人为)造成
STATISTICS
统计学 提供统计数据的部分政府网站
网址 http://www.stat.gov.cn 数据内容 统计年鉴、统计 月报等
中国政府及相关机构 国家统计局
国务院发展研究中心 http://www.drcnet.com.cn 信息网
中国经济信息网 华通数据中心 中国决策信息网 三农数据网