第2章 数据的收集与整理
第二章 数据收集与整理
《统计学》习题(2013版)第二章数据收集与数据整理一、判断题1.观测单位就是统计数据的提供单位。
2.普查是全面调查,抽样调查是非全面调查,所以普查比抽样调查准确。
3.无论是概率抽样还是非概率抽样,误差都是可以计算的。
4.偶然性误差只存在于抽样调查,观测性误差则可能存在于任何统计调查。
5.为了尽可能多地收集统计数据信息,所以问卷应尽可能地长。
6.统计分组应使组间差异尽量小。
7.凡是离散型变量都适合编制单项式数列。
8.各组的频数或频率都是可以直接比较的。
二、单项选择题1.最常用的统计调查方式是()。
A.普查B.重点调查C.抽样调查D.科学推算2.调查小学男生的身高,则身高是()。
A.观测标志B.观测单位C.调查对象D.变量值3.抽样调查中不可避免的误差是()。
A.系统性误差B.偶然性误差C.观测性误差D.登记性误差4.在组距式数列中,对组限值的处理原则是()。
A.上组限不在内、下组限在内B.下组限不在内、上组限在内C.上下组限均不在内D.上下组限均在内5.最常见的变量分布类型是()。
A.正J型分布B.U型分布C.钟型分布D.反J型分布三、计算分析题某生产车间55名工人日加工零件数如下:(单位:件)117 122 124 129 139 107 117 130 122 125 108 131 125 117 122 133 126 122 140 108 150 118 123 126 133 134 127 123 118 141 112 112 134 127 123 119 113 120 123 127 143 135 137 114 120 128 124 115 139 128 124 121 110 140 118要求:(1)编制频数分布数列和频率分布数列;(2)编制向上、向下累计频数分布数列和累计频率分布数列;(3)绘制直方图、折线图、曲线图和累计分布曲线图(可利用Excel);(4)说明工人日加工零件数的分布特征。
统计学第二章 统计数据的收集、整理与显示试题及答案
第二章统计数据的收集、整理与显示二、单项选择题1、人口普查的调查单位是(C )。
A、每一户B、所有的户C、每一个人D、所有的人2、对一批商品进行质量检验,最适宜采用的调查方法是(B )。
A、全面调查B、抽样调查C、典型调查D、重点调查3、下列调查中,调查单位与填报单位一致的是(D )。
A、企业设备调查B、人口普查C、农村耕畜调查D、工业企业生产经营现状调查4、抽样调查与重点调查的主要区别是(D )。
A、作用不同B、组织方式不同C、灵活程度不同D、选取调查单位的方法不同5、先对总体中的个体按主要标志加以分类,再以随机原则从各类中抽取一定的单位进行调查,这种抽样调查形式属于( D )。
A、简单随机抽样B、等距抽样C、整群抽样D、类型抽样6、对某省饮食业从业人员的健康状况进行调查,调查单位是该省饮食业的(D )。
A、全部网点B、每个网点C、所有从业人员D、每个从业人员7、调查时限是指(B )。
A、调查资料所属的时间B、进行调查工作的期限C、调查工作登记的时间D、调查资料的报送时间8、对某市全部商业企业职工的生活状况进行调查,调查对象是(B )。
A、该市全部商业企业B、该市全部商业企业的职工C、该市每一个商业企业D、该市商业企业的每一名职工9、作为一个调查单位(D )。
A、只能调查一个统计标志B、只能调查一个统计指标C、可以调查多个统计指标D、可以调查多个统计标志10、某市规定2018年工业经济活动成果年报呈报时间是2019年1月31日,则调查期限为( B )。
A、一天B、一个月C、一年D、一年零一个月11、统计分组对总体而言是( B )A、将总体区分为性质相同的若干部分B、将总体区分为性质不同的若干部分C、将总体单位区分为性质相同的若干部分D、将总体单位区分为性质不相同的若干部分12、按某一标志分组的结果表现为( B )A、组内差异性,组间同质性B、组内同质性,组间差异性C、组内同质性,组间同质性D、组内差异性,组间差异性13、设对某地区的人口按年龄分组如下:不满周岁,1—3岁,4—6岁,7—12岁,……60—64岁,65—79岁,80—99岁,100岁以上,最后一组的组中值近拟为( C )A、110岁B、104岁C、104.5岁D、105岁14、为充分利用所得到的原始资料以取得大量统计指标,在统计整理时关键是要( C )A、进行各种汇总B、进行各种计算C、充分利用分组法D、对原始资料进行分析15、按变量的性质和数据的多少划分,变量数列可分为( C )。
统计学 第二章 统计数据的搜集、整理和显示
(二)实验方式
所谓实验方式,就是运用自然科学的试验 法,通过观测人为安排条件下试验产生的各种 结果并加以记录的方式来获取数据,或通过人 为安排条件下的试验来探求某个或某些因素对 所研究事物的数量影响程度和作用方式,凭借 实验结果来揭示所考察因素与所研究事物之间 的数量因果关系。
1、实验的原则
运用实验方式需要遵循下列两个原则:均衡分散
1、普查
普查是根据特定的统计研究目的而专门组织的 一次性的全面调查,用以收集所研究现象总体的全 面资料(即总体中的所有个体都是观测单位)。 普查的组织方式一般有两种:一是建立专门的 普查机构,配备一定数量的普查人员,对观测单位 直接进行登记。如我国历次的人口普查等。二是利 用观测单位的原始记录和核算资料,颁发调查表, 由观测单位按要求填报。如物资库存普查等。
重点调查的单位可以是一些企业、行业、 也可以是一些地区、城市。此种调查方式的优点是, 所投入的人力、物力少,而又较快地搜集到统计 信息资料。一般来讲,在调查任务只要求掌握基 本情况,而部分单位又能比较集中反映研究项目 和指标时,就可以采用重点调查。
在下列问题中为了得到数据,采用什么调查? • 为了买校服,了解每个学生衣服的尺寸。 • 商检人员在某超市检查出售的饮料的合格率。 • 对占全市工业总产值五分之一的六个大型企 业进行调查,以了解全市工业总产值的基本 情况。
观测性误差
数 据 收 集 误 差
也叫登记性误差或调查性误差,它 是在调查观测的各个环节因工作粗 心或被观测者不愿很好配合而造成 的所收集数据与实际情况不符的误 差,包括计量错误、记录错误、计 算错误、抄写错误、汇总错误、计 算机输入误差等工作误差,以及被 调查者不愿或难以提供真实情况的 误差,有时还存在调查人员弄虚作 假的误差和各种人为因素干扰的误 差。 这部分误差通常是人为造成的,通 过对统计调查资料的严密审核,是 可以发现并加以更正的。观测性误 差则可能存在于任何统计调查。 因样本不能完全代表总体而产生 的估计结果与总体真实数量特征 不符的误差。根据样本不能完全 代表总体的原因不同,代表性误 差又分为系统性代表性误差和偶 然性代表性误差两种。
数据的搜集与整理讲解
第二章、数据的搜集与整理统计工作总是从收集资料开始的,但由于生产和实践过程中收集到的资料和数据往往是分散的,而且从表面上看不出有什么规律性,也不能说明任何问题,必须经过整理和归纳后,这一批数据所遵循的规律才能显露出来,方可得出有意义的统计结论。
数据的收集数据的整理数据的收集从理论上讲,进行大量观测、试验,就可以清楚地掌握随机现象的统计规律。
但有时大量试验客观上是不允许的(如破坏性试验),这时只能得到有限的,甚至是很少的数据,以什么样的方式收集资料更为有效?——抽样抽样例子:国家医护协会对于医护专业未来护士的缺乏十分关注。
为了了解现阶段护士们对于工作的满意程度,该协会发起了一向对全国的医院护士的调查研究。
作为研究的一部分,一个由50名护士组成的小组被要求写出她们对工作、工资和升职机会的满意程度(见表一)几个概念总体(population):全国的医院护士---研究对象的全体/或研究对象的某项数量指标X的值的全体。
一般用X表示。
样本(sample):被抽到的这50名护士--总体中抽出若干个体所组成的集合。
一般用XX2…X n表示一个样本容量为n1的样本。
抽样的目的!1. 总体?全体医护人员对工作的满意度 3. 这50 名护士对工作的满意度资料2. 样本! 被抽到的50名 护士4. 将样本的结论推广到总体上抽样抽样调查的应用抽样方法抽样方法的优点抽样调查中应当注意的问题抽样方法的优点费用较低速度较快应用范围较广准确度较高费用较低如果数据是从总体的一个很小的部分取得,那么他的费用就比普查小。
在美国,政府说进行的最重要的经常性调查,使用的样本在105,000人左右,或者说大约从1240人中抽取一个人。
在市场研究中,可能只要对几千人的样本进行调查。
速度较快收集和综合样本资料要比收集和综合全面调查的资料更快些。
在迫切需要有关的信息时,考虑这一点是极为重要的。
应用范围较广就能取得的信息的种类来说,抽样调查可以发挥作用的范围更为宽广,而且具有更大的灵活性。
第2章-统计数据的来源与整理(3学时)
70
60
50
40
30
20
10
横坐标代表广告投入, 而纵坐标代表销售收入。 看得出有何种关系吗?
0 2 4 6 8 10 12 14
额 销售
0
广告投入
定量变量间的关系
• • • • • • 能否从该数据回答下面问题: 这两个变量是否有关系? 如果有,它们的关系是否真实的(显著)? 这些关系是什么关系,能否用数学模型来描述? 这个关系是否带有普遍性? 这个关系是不是因果关系?
搜集数据的基本方法
调查的数据
实验的数据
自填式
面访式
电话式
自填式问卷调查
1. 没有调查员协助的情况下由被调查者自己完成 调查问卷
– 问卷递送方法有:调查员分发、邮寄、网络、媒体
• •
要求调查问卷结构严谨,有清楚的说明 弱点
– – – – 问卷的返回率比较低 不适合结构复杂的问卷 调查周期比较长 数据搜集过程中出现的问题难于及时采取调改措施
统计数据的来源与整理
第 2 章
§2.1 §2.2 §2.3 §2.4
数据的搜集与整理
数据案例 数据的计量与类型 统计数据的收集 统计数据的整理
数据案例
案例:证券交易数据
案例:成都市居民理财行为调查
• 提高居民的财产性收入成为经济发展 目标 • 成都居民理财情况具有代表性的 • 调研目的
–商业银行个人理财产品的市场定位 –制定提高居民财产性收入的政策
1. 对现象进行计量的结果 2. 不是指单个的数字,而是由多个数据构成 的数据集 3. 不仅仅是指数字,它可以是数字的,也可 以是文字的
统计数据的分类
• 统计数据的分类
• 按计量层次 • 按收集方法 • 按时间状况
西南财经大学向蓉美、王青华《统计学》第三版——第2章:统计数据的收集、整理与显示
– 调查内容详细、提供重要国情国力资料、数 据的规范化程度较高
提供抽样框
总
– 特别注意
体
• 必须规定标准时间 • 在规定时间内统一进行
• 基本内容和指标解释统一并相对稳定
• 需要PPT配套视频,请加VX:1033604968 11
Statistics
2.统计报表 –概念 • 按照国家有关法规的规定、自上而下地统一 布置、自下而上地逐级提供基本统计数据。 –特点 • 全面性、稳定性、连续性、可比性 • 曾经是我国数据收集的主要方式 • 耗费大、数据质量差等等。
3
Statistics
§2.1.2 统计调查方案
调查方案的内容
调
调查
调查
查
对象
项目
其
目
调查
和调
的
单位
查表
他
4
Statistics
1.确定调查目的
调查要达到的具体目标 回答“为什么调查?” 调查之前必须明确
5
Statistics
2.确定调查对象和调查单位
调查对象:调查研究的总体或调查范围 调查单位:需要对之进行调查的单位。可以是调查
12
Statistics
第二次全国经济普查的标准时点是2008年12月31日,时
期资料为2008年度。
第六次quanguo人口普查
主要目的:人口普查是一项重大的国情国力调查。组织开
展第六次全国人口普查,将查清十年来我国人口在数量、结构、
分布和居住环境等方面的变化情况,为科学制定国民经济和社
会发展规划,统筹安排人民的物质和文化生活,实现可持续发
重点单位——标志值在总体标志总量中占有 较大比重的单位
统计学2. 数据的收集与整理
统计年鉴、《中国县(市)社会经济统计年鉴》、《中国金 融年鉴》、《中国人口和就业统计年鉴》、《中国统计摘要 》……
2.外文出版物:世界银行各年度的《世界发展报告》、联合
第一节 统计数据的搜集
三、统计调查的各种形式: 统计调查的形式:指统计调查的组织形式,
即组织统计调查,搜集信息资料的方式。
普查、统计报表制度、抽样调查、重点调查和 典型调查。
核心在于如何选取调查对象。
统计调查方法:获取数据的方法。
直接观测法、报告法(通讯法)、采访法、登记法、 电话访问法、网络调查法、试验设计法。
3. 调查项目一经确定,不能随意改变或增减,以免影响 汇总总和,降低资料质量。
普查的组织形式:
专门组织普查机构并配普查人员直接登记(人口普查); 利用原始资料由调查单位自填表格(物资库存普查)
第一节 统计数据的搜集
三、统计调查的各种形式:2、统计报表制度:
统计报表是依照国家有关法规(《中华人民共和 国统计法》),自上而下的统一布置,以一定的 原始记录为依据,按照统一的表式,统一的指标 项目,统一的报送时间和报送程序,自下而上地 逐级地定期提供统计数据的一种调查方式。是搜集
三个基本特征:
① 按照随机的原则抽取单位,排除个人主观意图的 影响;
② 对一部分单位(样本)做深入细致的调查研究, 取得数据,并据此从数量上推断总体。
③ 抽样误差可以事先计算并加以控制。
第一节 统计数据的搜集
三、统计调查的各种形式: 3、抽样调查: 适用范围:
① 不可能或很难进行全面调查的现象,必须采取抽样调查 方法。如产品寿命等;
核心在于如何获取数据。
第2章 统计数据的收集与整理习题
单位:%
6
2
9
4
25
4
10
27
9
8
12
8
17
16
10
18
14
24
11
9
具体分组如下:
序号
按产值利润率分组(%)
企业数(个)
1
0——10
9
2
10——20
8
3
20——30
3
产值利润率的取值范围从0——30%,使20个企业都有组可归,这就遵循了分组的“穷尽原则”。其中有两个企业的产值利润率为10%,该数值同时作为相邻两组的界限值,统计上规定“上限不在内”,把这两个企业列在第2组,这就遵循了“互斥原则”。
②执行菜单命令[工具][数据分析],调出“数据分析”对话框,选择“直方图”选项,调出“直方图”对话框。
注意,若“数据分析”命令没有出现在“工具”菜单上,则应先使用[工具][加载宏]命令来加载“分析工具库”。
③在“直方图”对对话框中,输入相关数据,见下图。
输入区域:$A$1:$A$51
接收区域:$B$1:$B$6(接收区域的数值应按升序排列)
包括折线图的直方图如下:
⑦对于曲线图。右键单击上图中的折线,在弹出式菜单中单击“数据系列格式”,在调出的对话框的“图案”选项卡下,选中“平滑线”选项,再单击“确定”按钮即可。结果如下图。
(4)累计曲线图
(5)根据频数分布曲线图,人均可支配收入的分布类型属于钟型分布。
10236
4
20
27
86
合营饮食业
17
1144
17
1144
—
—
—
统计学第二章数据搜集整理
普查的规定
• • • • 规定统一的调查项目 规定统一的标准时点 规定统一的普查周期 例如:第六次人口普查,调查表,性别、年龄、 民族、受教育程度、行业、职业、迁移流动、社 会保障、婚姻生育、死亡、住房情况等 • 截止时间,标准时点是2010年11月1日零时 • 人口普查的周期是10年,2000年,2010年
频率
fi
fi
fi :第i组频数
32
(2)频率的性质 (A )
0
fi
1 fi
(B ) (3)频数密度与频率密度(消除异距分组对频数影响) (A) (2.7) 频数密度=频数/组距 (B) (2.8) 频率密度=频率/组距 各组频数密度与各组组距乘积之和等于总体单位数,各 组频率密度与各组组距乘积之和等于1.
29
组数的确定(H.A.Struges经验公 式)
•
n = 1 + 3.3logN
N – 24 – 44 – 89 – 170 – 359 n 5 6 7 8 9
(斯特杰斯)
• • 15 • 25 • 45 • 90 • 180 • 组距=
30
四、频数(次数)分布
1.频数分布的基本理论
(1)频数分布的定义 在统计分组的基础上,将总体所有单位按某一标志 归类排列,并计算其相应出现的次数。 频数分布是统计整理的重要形式,通过对零乱的、 分散的原始资料进行有次序的整理,形成一系列反映 总体各组之间单位分布状况的数列,即分布数列。
10
• 概率抽样的特点: 1、样本单位按随机原则抽取,排除了主观因素对 选样的影响。 2、根据部分调查的实际资料对调查对象总体的数 量特征作出估计。 3、抽样误差可以事先计算并加以控制。 • 抽样调查的适用场合
第2章 统计数据的收集整理与显示
A:您至今未买电脑的原因是什么?(单选不可以,多 选可以) (a)买不起(b)没有用(c)不懂(d)其它
(3) 无论多/单选题,任一个备选答案都不能有多 重含义。 A.您选择信息专业的目的是:
(a)自己喜欢,好就业(b)„„
(4) 无论多/单选题,备选答案之间不能有包含关 系。 A.您上大学的目的是:
例2.1 某车间50个工人看管机床台数资料如下:
3 6 2 4 3 2 6 4 3 2 4 2 5 2 6 2 3 5 4 3 2 3 6 5 4 2 4 3 2 2 3 5 4 5 6 2 2 6 4 3 2 6 3 4 5 4 5 2 3 5
试对数据进行分组。 解:由于机器台数属于离散型变量,因此使用单项式分 组方法。将原始资料按变量值升序排列,然后将相同变 量值分为一组,最后将资料分成若干组。
2.按数量标志分组 数值型数据:主要是按照数值进行分组。 例:对学生成绩分组,可分为60分以下、60~70分、 70~80分、80~90分、90分以上5个组。
单项式分组 按数量标志分组的方法: 组距式分组
单项式分组:把每一个变量值作为一组。 适用条件:通常只适于离散变量且变量值较少的情况
表2-2 变量编码表
NUM SEX JOB A11 A12 A13 A14 A15 A21 A22 A23 A24
001
002
1
1
1
210来自001
1
1
1
0
1
1
1
1
0
0
0
1
0
编码表说明:
NUM- 编码 SEX- 性别 jOB- 职务 A11~A15代表第一题中5个选项,选中者输入1, 未选中者输入0。 A21~A24代表第二题中4个选项,选中者输入1, 未选中者输入0。
《统计学》教学课件 第二章 统计数据收集、整理与呈现
全面调查 非全面调查
普查、统计报表制度、抽 样调查、重点调查和典型 调查等是常见的统计调查 方式,其中普查即全面调 查,其余的为非全面调查。
1.普查 普查是根据特定研究目的而专门组织的一次性的全 面调查,以收集研究对象的全面资料。
目前,我国组织实施的普查主要包括人口普查、经济普查和 农业普查三种。
缺然点后:通过典细型致单分析位典的型选单位取以受认人识总为成功经验、找出失败 现(一3)定突的出倾选典向式性。,突出且选典典型式是调指查选结择总体教中训的或先观进察单新位生、事后物进的单情位况或。新生事 果物不作宜为典用型以单推位,算进全行面深入数细据致。的调查。
2.报告法
3.采访法
又称凭证法,指要求调查 由调查人员对被调查者进
对象以原始记录、台帐和 行采访,根据被调查者的
核算资料为依据,向有关 答复来收集数据的方法,
单位提供统计资料的方法。 包括面谈访问、电话访问、
邮寄访问 和网络访问等。
4.登记法 指当事人根据有关法制法规规定,在开展某些活动或 发生某事时,主动到有关机构进行登记,填写有关表 格,提供有关统计信息。
④滚雪球抽样。是一种针对稀疏总体进行的抽样调查,抽选样本时 先找到几个符合条件的调查单位,然后通过这些调查单位找到更多 符合条件的调查单位,以此类推,样本如同滚雪球般由小变大,直 至达到要求的样本数为止。
⑤流动总体抽样。流动总体抽样是采用“捕获—放回—再捕获”的方式 来估计总体。
4.重点调查
重点调查也是一种非全面调查,是对数据收集对象总体 中的部分重点单位进行观测的统计调查方式。
频数(人) 频数(%)
30岁以下
39.3
30-40岁
37.9
40-50岁
第二章统计数据资料的搜集与整理
分类:
按报送范围: 全面报表——要求调查对象中的每一个 单位均要填报 非全面报表——只要求一部分调查单位 填报 按报送日期: 月报、季报、年报 月报内容简单、时效性强 年报内容比较全面
(二)报告法
基层单位根据上级的要求,以各种原始 记录与核算资料为基础,搜集各种资料, 逐级上报给有关部门
统计报表制度
(三)观察与实验
调查者通过直接的观察或实验获得数据 的一种方法
1.直接观察法
是指就调查对象的行动和意识,调查人 员边观察边记录以收集信息的方法
由于调查人员不是强行介入,受访者无 需任何反应,因而常能够在被观测者不 觉察的情况下获得信息资料
第二章 统计数据资料的搜集与整理
第一节 统计数据资料的来源
一、统计数据资料的来源渠道 直接来源
是通过直接的调查获得的原始数据, 一般称之为第一手或直接的统计数据 主要通过统计调查获得 间接来源 是别人调查的数据,并将这些数据进 行加工和汇总后公布的数据,通常称之 为第二手或间接的统计数据
二、统计数据资料的间接来源
内容:
表式 由国家统计部门根据研究的任务 与目的而专门设计制定的统计报表表格, 用于搜集统计资料。是统计报表制度的 主体
填表说明 是对统计报表的统计范围、 指标等做出的规定,具体有填报范围、 指标解释、分类目录、其他有关事项的 规定
(四)重点调查
概念:是在调查对象中选择一部分重点 单位进行的一种非全面调查。
市场调查和社会调查常用方法
2.邮寄调查
是通过邮寄或宣传媒体等方式将调查表 或调查问卷送至被调查者手中,由被调 查者填写,然后将调查表寄回或投放到 指定收集点的一种调查方法
统计学 第二章 统计调查
抽样调查
概念:是一种非全面调查,它从总体中抽 出部分单位组成样本,以样本推断总体 的调查方式。 根据抽取样本的方式不同分概率抽样和 非概率抽样。
优点:经济节省、时效性强、准确度高、 灵活方便。
作用:P29-30
1、用于认识不能或难以进行全面调查的总体数量特征。如无限 或范围很大的有限总体,以及破坏性产品的质量检验。 2、用于收集灵敏度高、时效性强或时间要求紧迫的统计数据。 如市场信息 3、用于不必进行全面调查的总体。(从经济效益考虑) 4、用于提高调查数据的质量(如与普查结合、重点调查结合) 5、用于对总体特征的某种假设检验,判断这种假设的真伪,支 持决策。
1953年的第一次人口普查,普查对象仅需填写5 个普查项目,到了1964年,普查项目增加到了9 项。改革开放后,普查项目继续大幅增加,1982 年19项,1990年21项,最近一次2000年人口普查, 长表所填项相比90年增加了38项,达到了59项。 普查项目的逐次增加,
• 五普普查表共分为:普查表短表、普查表长表、 死亡人口调查表和暂住人口调查表(附表)四 种表。 长表之于短表,在按户填报的部分增 加了关于调查对象生活情况的内容,而按人填 报的部分则增加了关于调查对象的学业完成情 况,迁移情况,经济活动情况,婚姻情况等许 多更加具体的内容。相比于前四次人口普查, 第五次人口普查不仅保证了中国人口的基本信 息如实汇总,而且加入了长表的抽样调查,这 样就可以获取更多更具有代表性的人口,经济 和社会数据,
• 单一表:“一户一表”。一张表格只列一个观测单位。问卷是其 特例。
一览表:“多户一表”。一张表格列多个观测单位。
问卷是一种特殊的调查表。
表头 表体 表脚
名称、编号、 制表单位、填 表日期等等
【统计学 精】第二章 统计数据的搜集和整理
(2)对普查资料进行必要的修正。
4、典型调查
• 这是一种专门组织的非全面调查。它根据调查的目的,在对所研 究的对象进行初步分析的基础上,有意识地选取若干(一个或少 数几个)具有代表性的单位进行调查和研究,借以认识事物发展 变化的规律。
• 重点调查适用的条件:
•
当统计调查的任务只要求了解调查对象的基本情况,而
调查对象中确实存在重点单位时,比较适宜进行重点调查。
• 例如,为了掌握全国钢铁生产的基本情况,可以选出鞍钢、宝钢、首钢、 马钢、武钢等几个大型钢铁企业调查,以便对钢铁产量有个大致的了解。
3、抽样调查
•抽样调查是一种非全面调查,是实际中应用最广 。 泛的一种调查方式
(3) 是运用概率的估计方法 。
• 例如:通过抽样推断得出,厦大学生的平均 月支出在(420,470)元上的可靠性为90%。
(4)抽样推断的误差可以事先计算,并加以控制。
• 抽样调查的优越性: 第一,经济性强。 第二,时效性高。 第三,适应面广。 第四,准确性大。
抽样调查的适用范围 (1)一些不可能或不必要进行全面检查的社会 现象。
性和时效性。
三、统计分组
(一)统计分组的概念和种类
• 1、定义:统计分组根据统计研究的目的和客 观现象的内在特点,按照某个标志或几个标 志把研究的总体划分为若干性质不同的部分 (或组)的一种统计方法。
统计分组
• 2.兼有“分”和“合”的双重含义: •对于现象总体,是 “分”;对于单位, 是“合”。 • 对于分组标志,是“分”,对于其他标 志,是“合”。
应用统计学第2章 数据的搜集与整理
掌握数掌握数据的测量尺度及常用类型; 了解统计数据搜集的意义; 掌握统计分组、分配数列的编制方法; 掌握数据图表展示方法。
本章教学目的
第2章 数据的搜集与整理
第2章
统计分组、分配数列的编制方法数据图表展示方法
本章重点和难点
第2章 数据的搜集与整理
第2章
2.4 分配数列
第2章
1.列表法
2.4 分配数列
2.4.3 品质分配数列的表示方法
第2章
2.图示法(1)条形图。条形图是指用宽度相同、高度不同的条形来表示数据变化的图形。条形图可以横向展示,也可以纵向展示,纵向展示时又称柱形图。
2.4.3 品质分配数列的表示方法
2.4 分配数列
第2章
2.图示法(2)饼图。饼图是用圆形及圆形面积的大小来表示数据数值大小的图形。饼图通常用来表示研究总体中各个组成部分的比例分布,对于结构性的研究问题非常实用。
2.5.2 统计表的分类
2.5 统计表
第2章
2.分组表 统计表的主词按照某种标志进行分组后所形成的表称为分组表,利用分组表可以展示统计总体不同现象的特征,说明各个分组之间的内部结构和相互关系,如表2-13所示。
2.5.2 统计表的分类
2.5 统计表
第2章
3.复合表统计表的主词按照两个或两个以上的标志进行分组的表称为复合表,如表2-14所示。
2.1.1 数据的测量尺度
第2章
2.1 数据的测量尺度与常用类型
第2章
1.绝对数、相对数和平均数绝对数是数据最基本的表现形式,是其他数据指标形成的基础。相对数反映了研究对象的相对水平,由两个相互联系的绝对数的对比而得到。平均数反映了研究对象的总体表现水平,是一个抽象了的研究对象总体各单位在某一数量标志下的表现差异,表示研究对象的总体各单位的一般水平,而不是某个单位的具体水平。
第二章统计数据的搜集与整理
第⼆章统计数据的搜集与整理第⼆章统计数据的搜集与整理(⼀)教学⽬的通过本章的学习,了解统计数据搜集与整理的基本理论与⽅法,掌握各种⽅法的特性。
(⼆)基本要求要求灵活运⽤各种数据搜集的⽅式⽅法,并对所得数据进⾏加⼯整理,为以后各章学习打下基础。
(三)教学要点1、数据搜集的⽅式⽅法;2、统计调查⽅案的设计;3、统计分组;4、变量数列的编制;5、统计数据的显⽰。
(四)教学时数9课时(五)教学内容本章共分四节:第⼀节数据的计量与类型⼀、数据的计量尺度在计量学的⼀般分类⽅法中,依据对事物计量的精确程度,可将所采⽤的计量尺度由低级到⾼级、由粗略到精确分为四个层次,即名类尺度、顺序尺度、区间尺度和⽐尺度。
1.定类尺度定类尺度(Nominal scale,亦称分类尺度、列名尺度等)是这样⼀种品质标志,按照它可对研究客体进⾏平⾏的分类或分组,使同类同质,异类异质。
例如,按照性别将⼈⼝分为男、⼥两类;按照经济性质将企业分为国有、集体、私营、混合制企业等。
这⾥的“性别”和“经济性质”就是两种名类尺度。
名类尺度是最粗略、计量层次最低的计量尺度,利⽤它只可测度事物之间的类别差,⽽不能了解各类之间的其他差别。
名类尺度计量的结果表现为某种类别,但为了便于统计处理,例如为了计算和识别,也可⽤不同数字或编码表⽰不同类别。
⽐如⽤1表⽰男,0表⽰⼥;⽤1表⽰国有企业,2表⽰集体企业,3表⽰私营企业,等等。
这些数字只是不同类别的代码,决不意味着它区分了⼤⼩,更不能进⾏任何数学运算。
名类尺度能对事物做最基本的测度,是其他计量尺度的基础。
2.定序尺度定序尺度(Ordinal scale,亦称序数尺度、顺位尺度等)是这样⼀种品质标志,利⽤它不仅能将事物分成不同的类别,还可确定这些类别的等级差别或序列差别。
例如“产品等级”就是⼀种测度产品质量好坏的顺序尺度,它可将产品分为⼀等品、⼆等品、三等品、次品等;“考试成绩”也是⼀种顺序尺度,它可将成绩分为优、良、中、及格、不及格等;“对某⼀事物的态度”作为⼀种顺序尺度,可将⼈们的态度分为⾮常同意、同意、保持中⽴、不同意、⾮常不同意,等等。
2 第二章 统计资料的收集和整理
二、资料的搜集
(Collection of Data) 要求:原始数据准确、完整、及时。 资料的主要来源: 1.经常性资料:①统计报表:国家统一 制定并要求定期逐级上报的报表;②报 告卡(单);③日常医疗卫生工作记录。 2.一时性资料:①专题调查(不施加 处理因素);②实验(试验)研究(施 加处理因素) 。
三类资料间关系
例:一组2040岁成年人的血压
等 级 资 料
<8 8 12
低血压 正常血压 轻度高血压
计量资料 计数资料
15
17
中度高血压
重度高血压
以8kPa和12kPa为界分为正常 与异常两组,统计每组例数
第三节 统计工尽可能少的人力、财力及物力达到 预期的研究目的。设计是后三个步骤的 依据,是统计工作中最关键的一步。 方法:应遵循对照、齐同、随机和重复4个 基本原则。医学科研设计有调查设计和 实验设计。调查设计包括专业设计和统 计设计,统计设计包括资料搜集整理与 分析全过程的统计设想和安排;实验设 计包括动物实验、临床试验、社区干预 实验。
第二节 统计资料的类型
计量资料
(measurement data) 对每个观察单位用定量的方 法测定某项指标数量的大小所收 集的资料称为计量资料,一般有 度量衡单位。与计数资料的主要 区别在于观察单位之间只有量的 差别,没有质的不同。
计数资料
(enumeration data)
将观察单位按照某种性质或 类别进行分组,然后计数各组的 观察单位数所收集的资料称为计 数资料。与计量资料的主要区别 在于观察单位之间只有质的不同, 没有量的差别。
数值变量
(numerical variable)
数值变量又称为定量变 量,是指相同性质的观察单 位所具有的变量值是定量的, 表现为数值大小,一般有度 量衡单位,大多数数值变量 属于连续性变量。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
链接
世界银行的数据库
/data-query/
数据中华—情报分析
/DataCenter/GeneralData.asp
世界银行1
世界银行2
世界银行3
世界银行4
第二章 数据的收集与整理
王文举 wangwenju@
本章内容
一、 数据的收集 二、 数据的整理
三、 次数分布
数据的收集
统计资料收集是根据统计研究的目的要求, 采用一定组织形式与科学方法,进行采集与研 究问题有关的各类信息资料的工作过程。
1. 统计资料及其来源
(1)原始资料
2. 统计调查
2 - )
第1步:选择【数据】菜单中的【数据透视表和数据透视图】 第2步:确定数据源区域 第4步:在【向导—3步骤之3】中选择数据透视表的输出位置 。然后选择【布局】 第5步:在【向导—布局】对话框中,依次将“分类变量“(这 里 是饮料品牌)连续拖放两次:一次拖至左边的“行”区 域 ,一次拖至 “数据”区域 第6步:然后单击【确定】,自动返回【向导—3步骤之3】对 话框。然后单击【完成】,即可输出数据透视表
典型调查
典型调查(Model Survey)是指根据调 查目的,在对所研究现象全面分析的基础 上,有意识地选择有代表性的典型单位进 行深入细致地调查,以便认识事物的本质 与发展变化规律的一种非全面调查方法。
关键词:典型单位,是指那些能充分、集中地 体现调查对象总体某些方面共性特征的最有代 表性的单位。
保证样本的结构与总体的结构比较相近,从 而提高估计的精度 组织实施调查方便 既可以对总体参数进行估计,也可以对各层 的目标量进行估计
1 - 26
统计学
STATISTICS
系统抽样
(systematic sampling)
将总体中的所有单位(抽样单位)按一定顺序排 列,在规定的范围内随机地抽取一个单位 作为初始单位,然后按事先规定好的规则 确定其他样本单位
•
2 - 42
表例1
表例2
表例3
原始资料
原始资料也称为第一手资料, 是反映被调查对象原始状况的资料。 如原始记录、统计台帐、调查问卷 答案、实验结果等。
举例:数据集03、数据集04
次级资料
次级资料也称为第二手资料, 是已经存在的经他人整理分析过 的资料。如期刊、报纸、广播、 电视以及因特网上的资料,各级 政府机构公布的资料,企业内部 记录和报告等。
普查
普查(Census)是对调查对象的全 部调查单位逐一进行的调查。其特点: 是一次性调查,是专门组织的全面调查, 即普查主要用来调查属于一定时点上的 现象总量。 关键词:全面调查、一次性、时点资料
美国普查局
/
美国普查局
抽样调查
抽样调查(Sampling Survey)是 一种非全面调查,它是在全部调查单 位中抽取一部分单位作为样本进行调 查,再根据调查结果推断总体的一种 调查方法。广义的抽样调查包括随机 抽样与非随机抽样。 抽样调查具体可以分为
按一定的概率以随机原则抽取样本
• 抽取样本时使每个单位都有一定的机会被抽中
每个单位被抽中的概率是已知的,或是可以计 算出来的 当用样本对总体目标量进行估计时,要考虑到 每个样本单位被抽中的概率
1 - 23
统计学
STATISTICS
简单随机抽样
(simple random sampling)
从总体N个单位(元素)中随机地抽取n个单位作为样本, 使得总体中每一个元素都有相同的机会(概率)被 抽中 抽取元素的具体方法有重复抽样和不重复抽样 特点
统计调查方 法 1. 现场观察法 2. 报告法 3. 问卷法
4. 访谈法 5. 实验采集法
统计调查 1. 统计报表 组织方式
2. 普查 3. 抽样调查
全面调查
4. 重点调查
5. 典型调查
非全面调查
统计报表
统计报表(Statistical Report Forms) 是指依照国家统计局或国家各行政管理部 门的规定,自上而下地统一布置,以一定 的原始记录为依据,按照统一的表式,统 一的指标项目,统一的报送时间与报送程 序,自下而上地逐级定期提供基本统计资 料的一种调查方式。
由简单随机抽样形成的样本
从总体N个单位中随机地抽取n个单位作为样
本,使得每一个容量为n样本都有相同的 机会(概率)被抽中 参数估计和假设检验所依据的主要是简单随 机样本
1 - 25
统计学
STATISTICS
分层抽样
(stratified sampling)
将总体单位按某种特征或某种规则划分为不 同的层,然后从不同的层中独立、随机地 抽取样本 优点:
2 - 38
分组中的几个概念
1. 2. 3. 4. 下限(lower limit) :一个组的最小值 上限(upper limit) :一个组的最大值 组距(class width) :上限与下限之差 组中值(class midpoint) :下限与上限之 间的中点值 下限值+上限值 组中值 = 2
资料审定
调查资料的审定目的,就是要 保证资料的准确性,尽可能地缩小 调查误差。即对对调查资料的准确 性、完整性和及时性进行检查 。
调查必然产生误差
分组
统计分组是根据统计研究的目的,选择某 一标志作为分组的依据,将总体分成若干个不 同的组。经统计分组后,各组组内的个体的性 质是相同的,不同组的个体的性质是不同的。 对总体而言是“分”,即将总体分为性质相异 的若干组成部分;对个体而言是“合”,即将 性质相同的个体组合起来。
统计学
STATISTICS
抽样方法
抽样方式
概率抽样 非概率抽样
简单随机抽样
整群抽样
分层抽样
系统抽样
方便抽样
自愿样本
判断抽样
滚雪球抽样
多阶段抽样
1 - 22
配额抽样
统计学
STATISTICS
概率抽样
(probability sampling)
根据一个已知的概率来抽取样本单位,也称随 机抽样 特点
抽样时只需群的抽样框,可简化工作量 调查的地点相对集中,节省调查费用,方便 调查的实施 缺点是估计的精度较差
1 - 28
重点调查
重点调查(Key-point Survey)是指在 调查对象中,选择一部分重点调查单位收 集统计资料的一种非全面调查。
关键词:重点调查单位,是指这些被调查的总 体单位中数目不多,所占比重不大,但其调查 的标志值却在总量中占有很大比重,在总体中 具有举足轻重的作用。
(2)次级资料
链接
(1)统计调查方案设计 (2)统计调查方法
(3)统计调查的组织方式
统计资料的整理
统计资料的整理,是根据统计研究的 目的,对所收集到的大量、零星分散的原 始资料进行科学加工与综合,使之系统化、 条理化、科学化,为统计分析提供反映事 物总体综合特征资料的工作过程。 1. 统计资料的审定 2. 统计资料的分组
• • • 选择与接受区域相临近的单元格区域,作为频数分布表 输出的区域 选择统计函数中的【FREQUENCY】函数 在 对 话 框 【Date-array】 后 输 入 数 据 区 域 , 在 【Binsarray】后输入接受区域 同时按下“ctrl-shift-Enter”组合键,即得到频数分布
简单、直观,在抽样框完整时,可直接从中抽取样本 用样本统计量对目标量进行估计比较方便 当N很大时,不易构造抽样框 抽出的单位很分散,给实施调查增加了困难 没有利用其他辅助信息以提高估计的效率
局限性
1 - 24
统计学
STATISTICS
简单随机样本
(simple random sample)
2 - 35
生成频数分布表
(定性数据)
不同类型饮料的频数分布
2 - 36
生成频数分布表
(定量数据)
【 例】某电脑 公司2008年前 4个月各天的 销售量数据(单 位:台)。生成 一张频数分布 表观察销售额 分布的特征
2 - 37
生成频数分布表
(例题分析)
确定组数:组数的确定应以能够显示数据的分布特征为目 的。在实际分组时,组数一般为5K 15。本例中由 于数据较多,可考虑分为10组 。 确定组距:组距(Class Width)是一个组的上限与下限之差, 可根据全部数据的最大值和最小值及所分的组数来确 定,即 组距=( 最大值 - 最小值)÷ 组数 例 如 , 本 例 最 大 值 为 237 , 最 小 值 为 141 , 组 距 =(237-141)÷10=9.6。为便于计算,组距宜取5或10 的倍数,且第一组的下限应低于最小变量值,最后一 组的上限应高于最大变量值,因此组距可取10。 统计出各组的频数。每个组的数据满足a x<b (上限值不 在内。
数据中华
明确调查目的
确定调查对象和调查单位
确定调查项目
调查表与问卷的设计
确定调查时间和调查期限 制定调查的组织实施计划
具体关系可以作如下表示
统计调查方案
统计误差
登记误差是由于调查过程中各有关环节工作的失 误而造成的。
代表性误差是由于非全面调查只观察总体一部分 单位,这部分单位不能完全反映总体的性质而产 生的误差。
2 - 39
生成频数分布表
(例题分析)
某电脑公司销售额的频数分布
2 - 40
生成频数分布表
(例题分析—使用开口组)
2 - 41
使用Excel频数函数
(FREQUENCY)
Excel的【直方图】工具的缺陷是:频数分布及直方图没 有与数据链接,当改变任何一个数据时,频数分布 表和直方图不会跟着改变 使用统计函数【FREQUENCY】创建频数分布表和直方 图可解决这一问题。具体步骤是