数据收集与整理

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
抽样误差也就越大
第三节
数据整理和频数分布
统计数据的整理是将收集到的各种原始数据条理化、 系统化,使之符合统计分析与推断要求。 整理数据的中心任务:分组、编制频数分布表。
数 据 整 理 过 程
数据的预处理 数据分组与频数分布 数据的展示
一、数据的审核与筛选
(一)审核
准确性 时效性 一致性
(二)筛选
对居民家庭按家庭人口数进行分组: 1人 2人 3人 4人 5人及以上
适用于离散型 变量,且变量 值不多时。
组距式分组
适用于连续型变量,或 变量值变化范围大的离 散变量。
如果变量的变异较大,则可以把变量的整个的取 值范围依次划分为若干个区间,一个区间内的所有变 量值归为一组。这样的分组称为组距式分组。
1,453.82
1,324.82 1,198.48
1,453.83
1,324.81 1,198.48
1,454.04
1,316.56 1,192.84
1,453.83
1,324.81 1,198.48
数据来源:维基百科
间接数据取得的途径
1.统计部门和政府部门公布的有关资料,如各类
统计年鉴 2.各类经济信息中心、信息咨询机构、专业调查 机构等提供的数据
任务:
优点:
种类:
调查范围:全面报表、非全面报表
全面报表:要求调查对象每一个单位都填报。 非全面报表:要求调查对象中的部分单位填报。 内容和实施范围:国家统计报表/部门~/地方~ 报送周期长短:日报、旬报、月报、季报、半年报、年报
报送单位不同:基层统计报表、综合统计报表。
(三)抽样调查
按随机原则从总体中抽取样本; 特点: 1· 2· 以样本指标(统计量)为依据,推断总体参数, 检验总体的某种假设; 3· 抽样误差可以事先计算并加以控制。


数据内容
统计年鉴、统计月 报等
http://www.stat.gov.cn
国务院发展研究中心 http://www.drcnet.com.cn 信息网
中国经济信息网 华通数据中心 中国决策信息网 三农数据网
http://www.cei.gov.cn http://data.acmr.com.cn http://www.juece.gov.cn http://www.sannong.gov.cn
二、数据分组与频数分配
(一)统计分组
根据统计研究的需要,将数据按照按照一定的标志划 分为若干组成部分的一种统计方法。分组的关键是分组标 志的选择。
分类:
按品质标志分组(非数值型数据分组) 按数量标志分组 (数值型数据分组)
单变量值分组
组距式分组
品质标志分组

选择反映事物属性差异的品质标志作为分组标志, 并在品质标志的变异范围内划定各组界限,将总体划分 成为若干个性质不同的组成部分。由于品质数据是用文 字来表现的,每种表现即为一种类别,因此对品质型数 据主要是做分类整理。
第二章
统计数据的收集与整理
1、了解各种统计调查方式和方法的特点 和适用场合; 2、明确统计数据的误差类型; 3、掌握统计分组和图表显示数据的方法。
主要内容
(一)数据的计量 (二)数据的搜集方式与方法 (三)统计数据的整理 (四)统计数据的质量
第一节
数据的计量尺度
1、定类尺度(列名尺度) Nominal scale
34,090.28 31,404.54 26,581.03 21,631.44 18,493.74 15,987.83 13,582.28
34,090.28 31,404.54 26,581.03 21,631.44 18,493.74 15,987.83 13,582.28
34,050.69 30,685.98 26,309.38 22,165.13 18,869.21 16,028.04 13,639.88
优点:经济灵活、时效性强、适应面广和准确性高
(四)重点调查
是在研究对象中只选择一部分重点单位进行调查 以了解总体情况的一种非全面调查 优点:省时、省力、不带主观性。 比重较大
(五)典型调查
是在对研究对象进行全面分析的基础上,有意识地 选择部分有代表性单位进行调查 优点:调查范围小、省时力、具体深入
第二节
统计数据的来源
统计数据主要来源于两种渠道;一是来源于 直接调查和科学实验;二是来源于别人调查或试验 的数据。
一、统计数据的直接来源及获取
统计数据的直接来源有两个渠道,一是专门 组织的调查(所得结果称为观测数据),二是科学试 验(所得结果称为试验数据) 。 统计调查是获得直接数据的重要手段。
直接数据获取的方式
是对事物之间等级差别或顺序差别的一种测度。
它是把各类事物按一定特征的大小、高低、强弱等顺序 排列起来,构成定序数据。
按现象顺序差异进行的辨别与区分。确切的值是以 文字表述的,也可以用数值标识,也仅起标签作用。各 类别间有高低优劣之分,不能随意排列。
3、定距尺度(间隔尺度) Interval scale
按现象绝对差异与相对差异进行的辨别与区分。 确切的值也以数字表述,有计量单位 ,可以进行加 减运算。有绝对意义上的零点,既可以加减运算, 也可以乘除运算。
高 层 次 低
比例尺度 间隔尺度 顺序尺度
列名尺度
对 宗教、种族、民族、性
别、党派、国别、职业等等 品质方面的差异进行测量
定类测量
对于人的主观态度———定序尺度
4,991.26 4,521.83 3,494.06 2,712.95 2,256.90 1,931.64 1,640.96
2002
2001 2000
12,033.27
10,965.52 9,921.46
12,033.27
10,965.52 9,921.46
12,035.03
10,897.24 9,874.90
原则: 规定统一的标准时点、普查期限、调查项目和
指标。
(二) 统计报表制度
特点:
由政府部门组织,采用统一的表格、统一规定 的指标内容、统一规定的报送程序和报送时间, 自上而下布置,自下而上报告。
搜集国民经济和社会发展基本情况的资料,为 制订国民经济和社会发展计划和检查计划执行 情况服务。 A、精心周密设计、高度统一、规范 B、回收率高,内容相对稳定,便于资料 积 累、对比 C、层层上报、逐级汇总,可以满足各部门需要

人口总体按性别,分为男、女两组
企业总体按经济成分,分为公有经济(国有经济、 集体经济)、非公有经济(私有经济、港澳台经济、 外商经济)

数量标志分组
选择反映事物数量差异的数量标志为分组标志,并在 数量标志的变异范围内划定各组界限,将总体划分为性质 不同的若干组成部分。由于数值型数据表现为具体的数值, 因此主要是按照数值进行分组。
是指用样本数据进行推断时所产生的误差。所有 样本可能的结果与总体真值之间的平均性差异。依据随 机原则抽取样本,样本不同,就会得到不同的观测结果。 代表性误差通常无法消除,但事先可以进行控制和计算。 影响代表性误差大小的主要因素: 样本容量:样本容量越大,代表性误差就越小
总体的离散程度:总体中各个体间的差异越大,
将研究对象按某种属性特征对其进行平行的分类
或分组,并给每一类别定名。定类尺度是最粗略、精度 最低的计量尺度,也是最基本的尺度。
按现象性质差异进行的辨别与区分。确切的值是以 文字表述的。各类别间是平等的,没有高低、大小、优 劣之分。性别、种族、运动项目等等
2、定序尺度(顺序尺度) Ordinal scale
对学生成绩分组,可分为60分以下、60~70分、70~80分、 80~90分、90分以上5个组。 对居民家庭按子女数分组,可分为0人(无子女)、1人、2人、 3人;等等。
就具体分组形式可分为单变量值分组和组距式分组
单变量值(单项式)分组
用一个具体数值作为一组的名称,即是把每一个 变量值作为一组,从而把总体区分为若干个部分,这 样的分组叫做单变量值分组。
宏观经济、财经、 货币金融等
经济信息及各类网 站 国家统计局授权的 数据中心 决策知识及案例 三农信息、论坛及 相关网站
三、统计数据的误差
是指统计数据与客观现实之间的差距。 误差主要来源:登记性误差和代表性误差。
1.登记性误差(非抽样误差)
是指由于调查者或被调查者的人为因素所造成的误差。
调查者所造成的误差:
3.各类专业期刊、报纸、书籍所提供的资料
4.各种会议,如博览会、展销会、交易会及专业 性、学术性研讨会上交流的有关资料 5.从互联网或图书馆查阅到的相关资料
中 国 人 口 统 计 年 鉴 中 国 市 场 统 计 年 鉴
Internet
http//WWW.
提供统计数据的部分政府网站
中国政府及机构
国家统计局
三大国际组织与中国国家统计局中国GDP数据对比表 (单位:10亿元)
年份 本币(人民币) 美元折算
中国 2010 39,798.32
IMF 39,798.32
UN
中国 5,879.06
IMF 5,878.26
UN
WB 5,878.63
2009 2008 2007 2006 2005 2004 2003
统计调查方式
抽 样 调 查 随机抽样 非随机抽样


统 计 报 表
(一)普查
普查是一种专门组织的、对总体全部单位进行的一次 性调查。普查往往涉及面广,资料要求细,需要耗费较多 的人、物、财力和时间。一方面不宜多采用,另一方面要 搞好普查的组织工作。(人口普查、农业普查、经济普查)
中华人民共和国成立以来,已成功地进行了六次人 口普查,这些普查分别于1953、1964、1982、 1990、2000年进行,第六次为2010年。
普查的组织形式:
一是组织专门的普查机构,配备一定数 量的普查人员,对调查单位直接进行登记; 二是利用被调查单位的原始记录和核算 资料,由调查单位发放一定的调查表格,由 被调查单位填报。
工作量大,时间性强,需要大量人力、物力和 特点: 财力,但收集的信息资料比较全面、系统、准 确可靠。
任务:
搜集重要的国情国力和资源状况的全面资料,为 政府制定长期规划、宏伟发展目标、重大决策提 供全面、详细的信息和资料,为搞好定期调查和开 展抽样调查奠定基础
4,990.53 4,521.83 3,495.66 2,713.50 2,257.62 1,931.64 1,640.97
4,990.53 4,519.95 3,494.24 2,712.92 2,256.92 1,931.65 1,640.96
4,984.43 4,416.10 3,458.33 2,779.87 2,302.72 1,936.50 1,647.92
9月5日最高温度28℃,最低17℃
3月20日最高温度4℃ ,最低-2℃

二者最高温度相差24℃
3月20日最低温度较9月5 日最低温度低19℃
9月5日最高温度是3月20 日最高温度的7倍

4、定比尺度(比例尺度) Ratio scale
是量度层次最高的数据测定尺度。它是在定距 尺度的基础上增加了一个绝对零点,并抽象掉事物 的度量差异的测定尺度。
缺点:具有主观性
人为选择的 典型单位
直接数据获取的方法
统计资料搜集方法
问 卷 调 查
访 问 调 查
观 察 法
实 验 法
网 上 调 查 法
二、统计数据的间接来源及获取
统计数据的间接来源主要是公开出版
或公开报道的数据(图书、报纸、杂志、
统计年鉴、互联网),还有的是未公开出
版需购买的数据。在引用这些数据时,一 定要注明数据来源,以尊重他人劳动成果。 (文献研究法)
剔出某些不符合要求的数据或明显错误 的数据; 选出符合条件的数据,剔出不符合 特定条件的数据。
(三) 数据的排序
目的:
将数据按一定顺序排列,以便研究者更好地浏览 数据。此外,排序还有助于对数据检查纠错。可借助 计算机来完成。
方法:数字型数据: 递增、递减
字母型数据: 升序、降序 文字型数据: 升序、降序(按拼音或笔画)
Fra Baidu bibliotek调查方案中有关的规定或解释不明确导致的填报错误; 调查员粗心,在记录调查结果时出现错误; 调查员的态度、情绪以及责任心等。
被调查者所造成的误差:
不理解调查方案中有关规定或解释不明确导致的填报错误; 因人为因素干扰形成的有意虚报或瞒报调查数据等。 注:登记性误差理论上讲是可以消除的。
2.代表性误差(抽样误差)
是把定序排列的各类事物间的差距,以一 定的度量单位明确起来,构成定距的数据。这 是比前两种尺度更精确的计量尺度,一般要求 建立某种物理的量度单位。 按现象绝对数量差异进行的辨别与区分。 值以数字表述,有计量单位。可以进行加减运 算。各类别间自然有大小之分,但没有绝对的 零点,不能乘除计算。
温 度
天气预报:石河子
相关文档
最新文档