第二章 数据的收集
第二章 数据收集与整理
《统计学》习题(2013版)第二章数据收集与数据整理一、判断题1.观测单位就是统计数据的提供单位。
2.普查是全面调查,抽样调查是非全面调查,所以普查比抽样调查准确。
3.无论是概率抽样还是非概率抽样,误差都是可以计算的。
4.偶然性误差只存在于抽样调查,观测性误差则可能存在于任何统计调查。
5.为了尽可能多地收集统计数据信息,所以问卷应尽可能地长。
6.统计分组应使组间差异尽量小。
7.凡是离散型变量都适合编制单项式数列。
8.各组的频数或频率都是可以直接比较的。
二、单项选择题1.最常用的统计调查方式是()。
A.普查B.重点调查C.抽样调查D.科学推算2.调查小学男生的身高,则身高是()。
A.观测标志B.观测单位C.调查对象D.变量值3.抽样调查中不可避免的误差是()。
A.系统性误差B.偶然性误差C.观测性误差D.登记性误差4.在组距式数列中,对组限值的处理原则是()。
A.上组限不在内、下组限在内B.下组限不在内、上组限在内C.上下组限均不在内D.上下组限均在内5.最常见的变量分布类型是()。
A.正J型分布B.U型分布C.钟型分布D.反J型分布三、计算分析题某生产车间55名工人日加工零件数如下:(单位:件)117 122 124 129 139 107 117 130 122 125 108 131 125 117 122 133 126 122 140 108 150 118 123 126 133 134 127 123 118 141 112 112 134 127 123 119 113 120 123 127 143 135 137 114 120 128 124 115 139 128 124 121 110 140 118要求:(1)编制频数分布数列和频率分布数列;(2)编制向上、向下累计频数分布数列和累计频率分布数列;(3)绘制直方图、折线图、曲线图和累计分布曲线图(可利用Excel);(4)说明工人日加工零件数的分布特征。
统计学 第二章 统计数据的搜集、整理和显示
(二)实验方式
所谓实验方式,就是运用自然科学的试验 法,通过观测人为安排条件下试验产生的各种 结果并加以记录的方式来获取数据,或通过人 为安排条件下的试验来探求某个或某些因素对 所研究事物的数量影响程度和作用方式,凭借 实验结果来揭示所考察因素与所研究事物之间 的数量因果关系。
1、实验的原则
运用实验方式需要遵循下列两个原则:均衡分散
1、普查
普查是根据特定的统计研究目的而专门组织的 一次性的全面调查,用以收集所研究现象总体的全 面资料(即总体中的所有个体都是观测单位)。 普查的组织方式一般有两种:一是建立专门的 普查机构,配备一定数量的普查人员,对观测单位 直接进行登记。如我国历次的人口普查等。二是利 用观测单位的原始记录和核算资料,颁发调查表, 由观测单位按要求填报。如物资库存普查等。
重点调查的单位可以是一些企业、行业、 也可以是一些地区、城市。此种调查方式的优点是, 所投入的人力、物力少,而又较快地搜集到统计 信息资料。一般来讲,在调查任务只要求掌握基 本情况,而部分单位又能比较集中反映研究项目 和指标时,就可以采用重点调查。
在下列问题中为了得到数据,采用什么调查? • 为了买校服,了解每个学生衣服的尺寸。 • 商检人员在某超市检查出售的饮料的合格率。 • 对占全市工业总产值五分之一的六个大型企 业进行调查,以了解全市工业总产值的基本 情况。
观测性误差
数 据 收 集 误 差
也叫登记性误差或调查性误差,它 是在调查观测的各个环节因工作粗 心或被观测者不愿很好配合而造成 的所收集数据与实际情况不符的误 差,包括计量错误、记录错误、计 算错误、抄写错误、汇总错误、计 算机输入误差等工作误差,以及被 调查者不愿或难以提供真实情况的 误差,有时还存在调查人员弄虚作 假的误差和各种人为因素干扰的误 差。 这部分误差通常是人为造成的,通 过对统计调查资料的严密审核,是 可以发现并加以更正的。观测性误 差则可能存在于任何统计调查。 因样本不能完全代表总体而产生 的估计结果与总体真实数量特征 不符的误差。根据样本不能完全 代表总体的原因不同,代表性误 差又分为系统性代表性误差和偶 然性代表性误差两种。
统计学原理(第二章)
East China University of Science And Technology
第二章 数据收集 (统计调查)
主要内容
2.1 数据的计量和类型 2.2 统计数据的收集 2.3 统计调查方案设计 2.4 统计报表制度 2.5 专(项)门调查 2.6 次级资料的收集
本章学习目标……
调查的目的
2006年全国开展第二次农业普查; 其目的是: 1)收集年度间变动缓慢的农业结构性数据 2)为抽样调查提供样本框。 主要调查:农业生产经营单位的数量、规模和 结构;耕地资源;农业生产条件;劳动力就业 和流动;农村社会福利事业等基本内容
调查的目的
2009年上海市第二次全国R&D资源清查的目的 1.全面调查了解R&D活动的总体规模和分布情况 2.研发队伍的规模和素质状况 3.研发资源的投入、成果及产出效益情况 4.政府对R&D活动扶持政策的落实情况
2.2.2 统计调查的种类
1)统计报表制度和专门(项)调查 2)全面调查和非全面调查 3)连续性调查和非连续性调查 4)直接观察法和询问调查法
统计报表制度和专门调查
1)统计报表制度: 是收集统计资料的一种重要方法,是按照国家有关法规的规定, 自下而上的逐级提供基本统计资料的一种调查方式。如统计公报。 2)专(项)门调查: 为了研究某个专(项)门问题而组织的调查方式,有普查、重 点调查、典型调查、抽样调查。 如: 2008年,奶粉三聚氰胺含量的专项调查; 2009年8月8日,台湾水灾人员伤亡情况调查(台风‘莫拉克’) 人民币升值对出口企业的影响调查; 房贷利率升高对贷款者还贷的影响调查
2.3.4确定调查时间
调查时间有两层含义: 1)确定调查的起止时间,即调查期间。 第二次经济普查的调查时期为: 2009年1月1日—5月31日。 2)确定资料所属的时期或时点。 第二次经济普查的标准时点为: 2008年12月31日24时。 第二次经济普查的时期资料为2008年度。
第二章数据的收集
第二章数据收集§引言§第一节调查方案设计§第二节数据收集来源§第三节原始数据的收集§第四节统计数据的质量思考:•1.调查方案设计包括几个部分?•2.如何区分调查对象与调查单位?•3.如何区分调查时间与调查期限?•4.调查报告一般包括几部分?•5.数据有哪些来源?•6.数据收集的分类?•7.数据的调查方式?•8.数据的抽样方式?•9.随机抽样的方法有?•10.数据的收集方法有?•11.数据的误差有哪些?•12.控制误差的途径?调查方案设计:就是统计调查组织和实施者在进行实际调查之前,根据调查研究目的和调查对象的性质,对调查工作总任务的各个方面和分阶段进行的整体设计,提出相应的调查实施方案,制定出合理的工作程序,它是指导整个调查过程的纲领性文件。
➢调查方案设计主要包括以下内容:一、明确调查目的二、确定调查对象和调查单位三、选择合适的调查方式、调查方法四、设计调查项目和调查表五、确定调查时间和调查期限六、调查报告的撰写七、制定调查工作的组织实施计划⏹一、明确调查目的调查目的是调查所要达到的具体目标,它所回答的是“为什么调查”、“要解决什么样的问题”等。
✓调查目的不同,调查的对象、范围、内容、方法就不同。
✓只有确定调查目的后,我们才能确定向谁调查,调查什么以及采用什么方法进行调查。
二、确定调查对象和调查单位调查对象是根据调查的目的和调查对象特性而确定的调查研究总体。
调查单位是指所要调查的具体单位,即构成调查对象中的每一个单位,它是调查项目和标志的承担者和载体,是我们搜集数据、分析数据的基本单位。
三、选择合适的调查方式、调查方法调查方式是指调查的组织方式,主要有普查、抽样调查、典型调查、重点调查和统计报表制度。
调查方法是指收集统计资料的方法,主要有问卷法、访谈法、观察法和实验法。
四、设计调查项目和调查表调查项目是调查的具体内容,是调查中所要登记的调查单位的特征,即调查单位所承担的基本特征。
统计学第二章
一、统计数据的类型和来源
1. 统计调查概述
(1)统计调查的定义和意义。 ①统计调查的定义。统计调查是按照统计任务的要求, 运用科学的调查方法,有计划、有组织地向社会实际收集各项 资料的过程。统计资料的收集内容有两方面:一是直接收集反 映被调查者的个体原始资料(又称初级资料);二是根据研究 的目的,收集已经加工、整理出来的,说明现象总体的第二手 资料(又称次级资料)。由于第二手资料来源于原始资料,因 而,统计调查的基本任务是收集社会经济现象的原始资料。
前两类数据也称定性数据或品质数据,后两类数据也称 定量数据或数量数据。
一、统计数据的类型和来源
二、 统计数据的直接来源
统计数据的直接来源主要有两个:一是专门组织 的调查,二是科学试验。专门调查有统计部门进行的 统计调查,也有其他部门或机构为特定目的而进行的 调查,如新产品投放市场前所做的市场调查。专门调 查是取得社会经济数据的重要手段,而科学试验是取 得自然科学数据的主要手段。
一、统计数据的类型和来源
(1)定类尺度。定类尺度也称类别尺度或列名尺度, 是最粗略、最低层次的计量尺度。这种计量尺度只能按照事 物的某种属性对其进行平行的分类或分组。
(2)定序尺度。定序尺度又称顺序尺度,是对客观现 象之间等级差别或顺序差别的一种测度。这种计量尺度不仅 可以将客观现象分成不同的类别,还可以确定这些类别的优 劣或顺序。
一、统计数据的类型和来源
(3)定距数据。定距数据也称区间类别数据,说明的是 事物的数量特征,能够用数值表示。其结果是由定距尺度计量 形成的,表现为数值,可进行加、减运算。
(4)定比数据。定比数据也称比率类别数据,说明的也 是事物的数量特征,能够用数值表示。其结果是由定比尺度计 量形成的,表现为数值,可进行加、减、乘、除运算。
统计学第二章数据搜集整理
普查的规定
• • • • 规定统一的调查项目 规定统一的标准时点 规定统一的普查周期 例如:第六次人口普查,调查表,性别、年龄、 民族、受教育程度、行业、职业、迁移流动、社 会保障、婚姻生育、死亡、住房情况等 • 截止时间,标准时点是2010年11月1日零时 • 人口普查的周期是10年,2000年,2010年
频率
fi
fi
fi :第i组频数
32
(2)频率的性质 (A )
0
fi
1 fi
(B ) (3)频数密度与频率密度(消除异距分组对频数影响) (A) (2.7) 频数密度=频数/组距 (B) (2.8) 频率密度=频率/组距 各组频数密度与各组组距乘积之和等于总体单位数,各 组频率密度与各组组距乘积之和等于1.
29
组数的确定(H.A.Struges经验公 式)
•
n = 1 + 3.3logN
N – 24 – 44 – 89 – 170 – 359 n 5 6 7 8 9
(斯特杰斯)
• • 15 • 25 • 45 • 90 • 180 • 组距=
30
四、频数(次数)分布
1.频数分布的基本理论
(1)频数分布的定义 在统计分组的基础上,将总体所有单位按某一标志 归类排列,并计算其相应出现的次数。 频数分布是统计整理的重要形式,通过对零乱的、 分散的原始资料进行有次序的整理,形成一系列反映 总体各组之间单位分布状况的数列,即分布数列。
10
• 概率抽样的特点: 1、样本单位按随机原则抽取,排除了主观因素对 选样的影响。 2、根据部分调查的实际资料对调查对象总体的数 量特征作出估计。 3、抽样误差可以事先计算并加以控制。 • 抽样调查的适用场合
统计学(4)
.
第一节 数据的收集
统计报表
按实施 范围分
按调查 范围分
按主管 系统分
按填报 单位分
按报送 方式分
国部地 全 非 基 专 基 综 电 书 家门方 面 全本 业 层 合 讯 面 统统统 统 面统 统 报 报 报 报 计计计 计 统计 计 表 表 表 表 报报报 报 计 报 表 表表表 表 报表 报
明确规定调查资料的起止时间; 调查资料登记时间:是指对调查单位进行调查并取得调
查资料的时间; 调查工作期限:是指从调查工作开始到调查工作结束所
经历的全部时间。 2.调查空间: 调查单位应在什么地点接受调查。
.
第一节 数据的收集
(五)制定调查的组织实施计划 调查的组织计划,是指为确保实施调查的具体工作计划。 调查的组织实施计划应包括以下内容: ➢ 建立调查工作的组织领导机构,做好人员的配备与分工; ➢ 做好调查前的准备工作。如宣传教育、人员培训、文件
重点单位:是指这些单位的标志总量在总体标志总量中占 有绝大比重的单位。
选取重点单位的原则:根据调查任务和调查对象的基本情 况确定选取的重点单位及数量;也要注意选取管理比较健全、 业务能力强、统计工作基础好的单位为重点单位。
特点:调查单位少;调查对象的标志值比较集中于某些单 位的场合。
注意:重点单位的选择是客观的。只适用于客观存在着重 点单位的情况。
注:1.资料来源于《世界概况》,由美国中央情报局(CIA出版)最权威报道; 2.中国2010年人均GDP为4283美元,居世界182个国家的95位。
.
第一节 数据的收集
1.定类尺度(类别尺度、列名尺度) 是对统计客体类别差异所作的反映,是最粗略、计量层次 最低的测量尺度。
二、数据的搜集整理
第二章统计数据的搜集与整理第一节数据的计量与类型一、数据的计量尺度统计数据是对客观现象进行计量的结果。
不同的十五计量和测度的程度是不同。
有些可以进行属性分类,有些则可以采用数字计量。
不同的计量尺度,可以得到不同类型的统计数据,使用与不同的统计分析方法。
一般可采用的计量尺度有以下四种:(一)、定类尺度定类尺度也成列名尺度,他就是按照事物的某种属性进行平行的分类或分组。
丁类尺度只是册读了事物之间的类型差别,而事物之间的其他差别却无法表现。
对丁类尺度的脊梁解雇,可以计算每一类中个个体出现的聘书。
在使用定类尺度进行分类是必须符合穷尽和护持的要求。
穷尽是指在所作的全部分类中,必须保证每个个体都能归属于某一类别,不能遗漏。
类别护持是指每一个体只能在一个类别中出现,而不能在其他类别中重复出现。
(二)、定序尺度定序尺度有成顺序尺度,它是对事物之间登记差别和顺序差别的一种册度。
这种尺度不仅可以将事物分成不同的类别,还可以确定这些事物的优劣和顺序。
也就是说不仅可以册度类别差,还可以册度次序差。
定序尺度的计量结果虽然也表现为类别,但这些类别之间是可以比较顺序的。
相比较而言,定序尺度对事物的计量必定类尺度要精确一些,计量的结果能比较大小,但不能进行数学运算。
(三)、定距尺度定距尺度也称间隔尺度。
他不仅能够区分事务类型,并进行排序,而且可以掷出类别之间的差距是多少。
定距尺度斯对事物类别或次序之间艰巨的侧度,这种尺度通常使用自然或无力单位作为剂量的标准。
因此,定距尺度的计量结果表现为数值。
由于这类尺度的每一间隔都是相等的,只要给出一个度量单位,就可以准确地指出两个技术之间的差值。
因此,其计量结果可以进行加、减的数学运算。
(四)、定比尺度定比尺度也称比率尺度。
他预订距尺度属于同一层次,他的计量结果也表现为数值。
它具有以上三种尺度的全部特性,另外还具有一个特性,就是可以计算两个测读书之之间的比值。
这要求定比尺度中必须有一个固定的“零点”,这是它与定距尺度的差别。
第2章 数据收集、整理与显示
4、定比尺度 定比尺度又称比率尺度,它是对事物之间比值的一种测 度。其功能要比定距尺度更强一些,除能区分类别、排 序、比较大小、求出大小差异、可采用加减运算以外, 还可以进行乘除运算; 在计量尺度的应用中,需要注意的是,同类事物采用不 同的尺度量化,会得到不同的尺度数据。如农民收入数 据按实际填写就是定距尺度;按高、中、低收入水平分 就是定序尺度;按有无收入计量则是定类尺度;而说某 人的收入是另一人的两倍,便是定比尺度了。
随着社会主义市场经济的建立与完善,抽样调查在我国 统计调查中的应用领域越来越广泛。
18
(四)重点调查
重点调查是指在调查对象中,只选择少数重点单位进 行的非全面调查。所谓重点单位,是着眼于现象的量的方 面而言,尽管这些单位在全部单位中只是一部分,但它们 在所研究现象的标志总量中却占有绝大的比重,在总体中 具有举足轻重的作用。 (五)典型调查 有意识地选择若干个具有代表性的典型单位进行深入、 周密、系统地调查研究。典型调查的主要目的不在于取得 总体数值,而在于了解与数字相关的生动具体情况。
3.统计分组的原则
穷尽原则,就是使总体中的每一个单位都应有组可归,或 者说各分组的空间足以容纳总体所有的单位。 互斥原则,就是在特定的分组标志下,总体中的任何一个 单位的只能归属于某一组,不能同时归属于几个组。
典型调查
具体的统计调查形式
(一)普查
普查是专门组织的一种全面调查。普查一般是调查 属于一定时点上的社会经济现象的总量,但也可以调查某 些时期现象的总量,乃至调查一些并非总量的指标。 (二)统计报表制度
统计报表制度是我国统计调查方法体系中的一种重 要的组织方式。它是根据国家的统一规定,按统一的表格 形式,统一的指标内容,统一的报送时间,自下而上逐级 提供统计资料的统计报告制度。
【统计学 精】第二章 统计数据的搜集和整理
(2)对普查资料进行必要的修正。
4、典型调查
• 这是一种专门组织的非全面调查。它根据调查的目的,在对所研 究的对象进行初步分析的基础上,有意识地选取若干(一个或少 数几个)具有代表性的单位进行调查和研究,借以认识事物发展 变化的规律。
• 重点调查适用的条件:
•
当统计调查的任务只要求了解调查对象的基本情况,而
调查对象中确实存在重点单位时,比较适宜进行重点调查。
• 例如,为了掌握全国钢铁生产的基本情况,可以选出鞍钢、宝钢、首钢、 马钢、武钢等几个大型钢铁企业调查,以便对钢铁产量有个大致的了解。
3、抽样调查
•抽样调查是一种非全面调查,是实际中应用最广 。 泛的一种调查方式
(3) 是运用概率的估计方法 。
• 例如:通过抽样推断得出,厦大学生的平均 月支出在(420,470)元上的可靠性为90%。
(4)抽样推断的误差可以事先计算,并加以控制。
• 抽样调查的优越性: 第一,经济性强。 第二,时效性高。 第三,适应面广。 第四,准确性大。
抽样调查的适用范围 (1)一些不可能或不必要进行全面检查的社会 现象。
性和时效性。
三、统计分组
(一)统计分组的概念和种类
• 1、定义:统计分组根据统计研究的目的和客 观现象的内在特点,按照某个标志或几个标 志把研究的总体划分为若干性质不同的部分 (或组)的一种统计方法。
统计分组
• 2.兼有“分”和“合”的双重含义: •对于现象总体,是 “分”;对于单位, 是“合”。 • 对于分组标志,是“分”,对于其他标 志,是“合”。
数据分析基础课程 第2章 数据的收集
2.2.2 二手数据 二手数据也称为次级数据,是指那些从同行或一些媒体上获得的、经过加工整理的数据,比如国家统计 局定期发布的各种数据,从报纸、电视上获取的各种数据。 1.导入Access数据 (1)在Excel中单击“数据”|“自Access”按钮,如图2-5所示。
图2-5 导入Access数据
义的语言或概念。
(5)简明性原则,即表述问题的语言应该尽可能简单明确,不要冗长和啰唆。
(6)客观性原则,即表述问题的语言要客观,不要有诱导性或倾向性语言。
(7)非否定性原则,即要避免使用否定句形式表述问题。 (8)可能性原则,即必须符合被调查者回答问题的能力。凡是超越被调查者理解能力、记 忆能力、计算能力、回答能力的问题,都不应该提出。 (9)自愿性原则,即必须考虑被调查者是否自愿真实回答问题。凡被调查者不可能自愿真 实回答的问题,都不应该正面提出。
6.报告法
报告法是通过报告单位根据一定的原始记录和台账,根据统计表的格式和要求,按照隶属关 系,逐级向有关部门提供统计资料的一种调查方法。
7.自动生成
在大数据时代,数据的产生方式呈现多样化,如从传
感器、摄像头自动收集的数据,电子商务在线交易日志数 据、应用服务器日志数据等自动保存的数据都是自动生成 的数据。
图2-8 选择显示方式和放置位置
(5)单击“确定”按钮,导入的结果如图2-9所示。
图2-9 导入的结果
2.导入网站表格数据
(1)在Excel中单击“数据”|“自网站”按钮,如
图2-10所示。 (2)输入或复制并粘贴网址。
图2-10 导入网站数据
图2-11 选择导入的表格
导入的结果如图2-12所示。
目录/Contents
第二章 数据的收集
第二章统计数据的搜集与整理
第⼆章统计数据的搜集与整理第⼆章统计数据的搜集与整理(⼀)教学⽬的通过本章的学习,了解统计数据搜集与整理的基本理论与⽅法,掌握各种⽅法的特性。
(⼆)基本要求要求灵活运⽤各种数据搜集的⽅式⽅法,并对所得数据进⾏加⼯整理,为以后各章学习打下基础。
(三)教学要点1、数据搜集的⽅式⽅法;2、统计调查⽅案的设计;3、统计分组;4、变量数列的编制;5、统计数据的显⽰。
(四)教学时数9课时(五)教学内容本章共分四节:第⼀节数据的计量与类型⼀、数据的计量尺度在计量学的⼀般分类⽅法中,依据对事物计量的精确程度,可将所采⽤的计量尺度由低级到⾼级、由粗略到精确分为四个层次,即名类尺度、顺序尺度、区间尺度和⽐尺度。
1.定类尺度定类尺度(Nominal scale,亦称分类尺度、列名尺度等)是这样⼀种品质标志,按照它可对研究客体进⾏平⾏的分类或分组,使同类同质,异类异质。
例如,按照性别将⼈⼝分为男、⼥两类;按照经济性质将企业分为国有、集体、私营、混合制企业等。
这⾥的“性别”和“经济性质”就是两种名类尺度。
名类尺度是最粗略、计量层次最低的计量尺度,利⽤它只可测度事物之间的类别差,⽽不能了解各类之间的其他差别。
名类尺度计量的结果表现为某种类别,但为了便于统计处理,例如为了计算和识别,也可⽤不同数字或编码表⽰不同类别。
⽐如⽤1表⽰男,0表⽰⼥;⽤1表⽰国有企业,2表⽰集体企业,3表⽰私营企业,等等。
这些数字只是不同类别的代码,决不意味着它区分了⼤⼩,更不能进⾏任何数学运算。
名类尺度能对事物做最基本的测度,是其他计量尺度的基础。
2.定序尺度定序尺度(Ordinal scale,亦称序数尺度、顺位尺度等)是这样⼀种品质标志,利⽤它不仅能将事物分成不同的类别,还可确定这些类别的等级差别或序列差别。
例如“产品等级”就是⼀种测度产品质量好坏的顺序尺度,它可将产品分为⼀等品、⼆等品、三等品、次品等;“考试成绩”也是⼀种顺序尺度,它可将成绩分为优、良、中、及格、不及格等;“对某⼀事物的态度”作为⼀种顺序尺度,可将⼈们的态度分为⾮常同意、同意、保持中⽴、不同意、⾮常不同意,等等。
统计学——以excel为分析工具2第二章数据的搜集习题答案
【练习题】一、名词解释:统计调查;统计报表;普查;重点调查;典型调查;抽样调查答:(1)统计调查:统计数据的直接来源主要有两个渠道:一是调查或观察;二是实验。
调查是取得社会经济数据的重要手段,其中有统计部门进行的统计调查。
(2)统计报表:统计报表是按照国家有关法规规定,自上而下统一布置,自下而上逐级填报的一种调查组织方式。
(3)普查:普查是为某一特定目的而专门组织的一次性全面调查方式,如人口普查、工业普查、农业普查等。
(4)重点调查:重点调查只从全部总体单位中选择少数重点单位进行调查,这些重点单位尽管在全部总体单位中出现的频数极少,但其某一数量标志却在所要研究的数量标志值总量中占有很大的比重。
(5)典型调查:典型调查是从全部总体单位中选择一个或几个有代表性的单位进行深入细致调查的一种调查组织方式。
(6)抽样调查:抽样调查是按照一定的概率从总体中抽取一部分单位构成样本,并根据样本信息推断总体数量特征的一种非全面调查。
这是一种应用最为广泛的调查组织方式。
二、简答1、区分普查、抽样调查、典型调查和重点调查?答:1.普查是为某一特定目的而专门组织的一次性全面调查方式,如人口普查、工业普查、农业普查等。
普查主要用于搜集处于某一时点状态上的社会经济现象的数量,具有特定目的、特定对象,旨在搜集有关国情国力的基本统计数据,为国家制定有关政策或措施提供依据。
2.抽样调查是按照一定的概率从总体中抽取一部分单位构成样本,并根据样本信息推断总体数量特征的一种非全面调查。
4.重点调查只从全部总体单位中选择少数重点单位进行调查,这些重点单位尽管在全部总体单位中出现的频数极少,但其某一数量标志却在所要研究的数量标志值总量中占有很大的比重。
5.典型调查。
典型调查是从全部总体单位中选择一个或几个有代表性的单位进行深入细致调查的一种调查组织方式。
典型调查的目的是通过典型单位具体生动、形象的资料来描述或揭示事物的本质或规律,因此所选择的典型单位应能反映所研究问题的本质属性或特征。
贾俊平统计学第二章 数据的搜集
2 - 21
方便抽样
1. 调查过程中由调查员依据方便的原则,自行 调查过程中由调查员依据方便的原则, 确定入抽样本的单位
调查员在街头、 公园 、 调查员在街头 、 公园、 商店等公共场所进行拦 截调查 厂家在出售产品柜台前对路过顾客进行的调查
2. 优点:容易实施,调查的成本低 优点:容易实施, 3. 缺点:样本单位的确定带有随意性 ,样本无 缺点:样本单位的确定带有随意性, 法代表有明确定义的总体, 法代表有明确定义的总体, 调查结果不宜推 断总体
速度快, 速度快,能在短时间内完成调 适合于样本单位十分分散的情况
3. 局限
如果被调查者没有电话, 如果被调查者没有电话,调查将无法实施 访问的时间不能太长 使用的问卷需要简单 被访者不愿意接受调查时, 被访者不愿意接受调查时,难以说服
2 - 32
观察式调查
1. 就调查对象的行动和意识 , 调查人员边 就调查对象的行动和意识, 观察边记录以收集所需信息 2. 调查人员不是强行介入 3. 能够在被调查者不察觉的情况下获得资 料
2 - 17
整群抽样
(cluster sampling) sampling)
1. 将总体中若干个单位合并为组 ( 群 ), 抽样时直接 将总体中若干个单位合并为组( ),抽样时直接 抽取群, 抽取群 , 然后对中选群中的所有单位全部实施 调查 2. 特点
抽样时只需群的抽样框, 抽样时只需群的抽样框,可简化工作量 调查的地点相对集中,节省调查费用, 调查的地点相对集中,节省调查费用,方便调查的 实施 缺点是估计的精度较差
2 - 30
面访式问卷调查
1. 调查员与 被调查者面对面提问、 被调查 调查员与被调查者面对面提问 、 者回答的一种调查方式 2. 优点
管理统计学 第2版 第二章 统计数据的收集整理与显示
(4)系统抽样
首先将总体中各 单位按一定顺序 排列,根据样本 容量要求确定抽 选间隔,然后随 机确定起点,每 隔一定的间隔抽 取一个单位的一 种抽样方式。是 纯随机抽样的变
种
最主要的优势就 是经济性。最大 的缺陷在于总体 单位的排列上。 一些总体单位数 可能包含隐蔽的 形态或者是“不 合格样本”,调 查者可能疏忽, 把它们抽选为样
• 普查需要规定标准的时点:如第五次人口普查规定的标准时间 为2010年11月1日零时为标准时间。
统计报表
• 统计报表是按照国家有关的规定,自上而下同一布置,自下而上逐级 提供统计资料的调查组织方式。
• 统计报表是我国特有的一种统计调查方式,是建立在各基层单位原始 记录的基础上的一种统计调查方式,由于统计报表是逐级上报和汇总 的,有利于各级部门了解本地区、本部门或本行的的社会和经济发展 现状。
2.1 统计数据的收集
数据的来源
• 间接来源 研究者直接从公开出版物或通过网络渠道获取
所需数据,如《中国统计年鉴》、《中国统计摘 要》、《中国社会统计年鉴》 • 直接来源
研究者直接通过调查取得研究所需数据资料
2.1 统计数据的收集
普查
常用的统计 调查方式
抽样调查
重点调查
典型调查
简单随 机抽样
分层抽样
抽样调查
• 抽样调查是取得数据资料的最主要的一种方式,它是按照 随机原则从总体中抽取部分单位组成样本,对样本指标进 行测定,根据样本指标推断总体指标的一种非全面调查。
抽样调查的具体组织形式 抽样调查
简单随 机抽样
分层抽样
等距抽 样
整群抽样
(1)简单随机抽样
从总体N个单位中任意抽取n个单位作为样本, 使每个可能的样本被抽中的概率相等的一种 抽样方式
统计学第二章
第二章统计数据的收集、整理与显示2.1统计数据的收集一、统计数据的来源1、直接来源(原始来源):分为实验和统计调查(直接观察、报告、采访、登记)2、间接来源(二手资料):出版物、网络二、统计调查组织方式1、分类①按调查单位的范围大小分:全面调查和非全面调查②按调查时间是否连续分:经常性调查和一次性调查③按调查组织方式分:统计报表和专门调查。
其中专门调查又分为普查、重点调查、典型调查、抽样调查2、统计报表制度:按照国家统一规定的各项要求,自下而上地定期向国家和主管部门报送基本统计资料的一种报告制度①优点:能保证统计资料的全面性和连续性;能保证统计资料的统一性和及时性;能满足各级部门对统计资料的需要②缺点:统计报表过多会增加基层负担;有可能由于虚假瞒报而影响统计资料质量3、普查:是指国家为详尽了解某项重要的国情国力而专门组织的一次性全面调查(主要用于搜集时点资料)①作用:可以为抽样调查提供抽样框;可以收集统计报表所不能提供的反映重大国情国力的基本统计信息②局限:由于需要大量的人力、物力、财力,不宜经常进行4、重点调查:是指为了解总体基本情况,在调查对象中只选择一部分重点单位进行调查的一种非全面调查组织方式。
(这些单位数目不多,但其标志值在总体标志总量中占有较大比重,能反映总体的基本情况)①作用:能以较少的投入和较快的速度取得总体基本情况及变动趋势的资料②局限:只适用于客观存在重点单位的情况5、典型调查:是指在对调查对象有一定了解的基础上,有意识的选择少数典型单位进行调查的一种非全面调查方式。
(指在数量表现上具有普遍意义呵呵代表性的总体单位,可以用来推断总体的数量)①作用:一定条件下能估计总体指标数值;可以用来研究新生事物②缺陷:不能确定推断的把握程度,无法计算和控制推断误差6、抽样调查:是指按照随机原则从调查对象中抽取一部分样本单位进行调查,再用样本资料推断把握总体的数量特征的一种非全面调查组织方式。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
图2-4 数据清单
Excel数据清单包含一行列标题和多行数据,清单中的每一列称为一个字段,列标题称为字段 名(即统计学中的标志);清单中的每一列数据的类型和格式完全相同;清单中每一行数据称为 一条记录。
数据清单中不能有合并单元格的形式。 多个相关的数据清单在一起,就称为一个数据库。
2.2 数据的来源
图2-1 Excel数据类型
在1数.1据数运字算通过信程系中统,的我基们本发概现念,数值、货币、日期与时间都可以进行加、减、乘、除等算术运算, 所以统称为数值型;而文本只能进行简单的“计数”,不能进行算术运算,仍称文本型。
所以,在Excel数据分析中,我们把数据类型分成两种:数值型数据和文本型数据。 数值型数据对应统计学中的数量标志的标志表现,文本型数据对应统计学中的品质标志的标志表 现。
数据分析基础
宁赛飞 主编 李小荣 副主编 管银枝 主审
以分析大数据时代对大学生就业能力基本要求 出发,以数据的处理与数据的分析为重点,
采用案例教学模式组织内容,将理论融入案例
人民邮电出版社
目录/Contents
第二章 数据的收集
2.1 理解数据
2.2 数据的来源
2.1 理解数据
2.1.1 数据的类型 在Excel中,数据类型细分起来有很多(见图2-1),但是归根结底还是四大类,分别是:数值、 货币、日期与时间、文本。
4.抽样调查法 抽样调查法是根据随机性原则,从研究对象的总体中抽取一部分个体作为样本进行调查研究, 据此推断有关总体的数字特征的研究方法。抽样应遵循以下原则。 (1)随机取样。 (2)取样应具有代表性。 (3)若样本由具有明显不同特征的部分组成,应按比例从各部分抽样。 5.实验法 实验法是在设定的特殊实验场所、特殊状态下,对原始记录和台账,根据统计表的格式和要求,按照隶属关 系,逐级向有关部门提供统计资料的一种调查方法。
(5)简明性原则,即表述问题的语言应该尽可能简单明确,不要冗长和啰唆。 (6)客观性原则,即表述问题的语言要客观,不要有诱导性或倾向性语言。 (7)非否定性原则,即要避免使用否定句形式表述问题。 (8)可能性原则,即必须符合被调查者回答问题的能力。凡是超越被调查者理解能力、记 忆能力、计算能力、回答能力的问题,都不应该提出。 (9)自愿性原则,即必须考虑被调查者是否自愿真实回答问题。凡被调查者不可能自愿真 实回答的问题,都不应该正面提出。
2.1.2 数据的呈现形式 1.不同个体在同一标志上的不同取值 在Excel中,这样的数据可以排成一列,也可以排成一行或一个矩形块。 某公司100名职工的月基本工资数据资料如图2-2和图2-3所示。
图2-2 单列数据
图2-3 矩形块数据
2.数据清单 不同个体在多个标志上的取值所组成的二维表格,在Excel中叫数据清单,如图2-4所示。
2.2.1 一手数据 1.观察法 观察法是指调查人员亲自到现场对调查对象进行观察,在被 调查者不察觉的情况下获得数据资料的一种调查方法。 2.采访法 采访法是通过指派调查人员对被调查者提问,据被调查者的 答复取得资料的一种调查方法。
3.问卷调查法 问卷调查法是把调查项目列于表格上形成问卷,通过发放问卷搜集调查对象情况的一种采集 资料的方法。问卷中问题的设计应注意以下原则。 (1)具体性原则,即问题的内容要具体,不要提抽象、笼统的问题。 (2)单一性原则,即问题的内容要单一,不要把两个或两个以上的问题合在一起提。 (3)通俗性原则,即表述问题的语言要通俗,不要使用使被调查者感到陌生的语言,特别 要避免使用过于专业的术语。 (4)准确性原则,即表述问题的语言要准确,不要使用模棱两可、含混不清或容易产生歧 义的语言或概念。
导入的结果如图2-12所示。 (3)也可以选择网页上的数据后,单击鼠标右键,在弹出的快捷菜单中选择“复制”命令, 如图2-13所示,再到Excel中粘贴即可。
图2-12 导入的结果
图2-13 复制数据
3.利用爬虫软件下载网络数据 万维网上更多的数据是以非表格形式呈现的。 如何有效地提取并利用这些信息成为一个巨大的挑战。 为了解决上述问题,定向抓取相关网页资源的软件——聚焦网络爬虫应运而生。 聚焦网络爬虫是一种能自动下载万维网数据的程序,它能按照一定的规则,根据既定的目标, 自动地抓取万维网上的数据。
7.自动生成 在大数据时代,数据的产生方式呈现多样化,如从传 感器、摄像头自动收集的数据,电子商务在线交易日志数 据、应用服务器日志数据等自动保存的数据都是自动生成 的数据。
2.2.2 二手数据 二手数据也称为次级数据,是指那些从同行或一些媒体上获得的、经过加工整理的数据,比如国家统计 局定期发布的各种数据,从报纸、电视上获取的各种数据。 1.导入Access数据 (1)在Excel中单击“数据”|“自Access”按钮,如图2-5所示。
图2-7 选择Access表
图2-8 选择显示方式和放置位置
(5)单击“确定”按钮,导入的结果如图2-9所示。
图2-9 导入的结果
2.导入网站表格数据 (1)在Excel中单击“数据”|“自网站”按钮,如 图2-10所示。 (2)输入或复制并粘贴网址。
图2-10 导入网站数据
图2-11 选择导入的表格
图2-5 导入Access数据
(2)在弹出的对话框中选择需要的Access文件“图书销售.accdb”,如图2-6所示。
图2-6 选择Access文件
(3)单击“打开”按钮,在弹出的对话 框中选择需要的表“销售情况”,如图2-7所 示。
(4)在弹出的对话框中确定数据的显示 方式和放置位置,如图2-8所示。