第二章统计数据的搜集与整理
统计学第2章 统计数据的搜集、整理和显示
![统计学第2章 统计数据的搜集、整理和显示](https://img.taocdn.com/s3/m/1f8f9ce419e8b8f67c1cb91d.png)
第二节 数据整理
三、统计指标
(二)统计指标的分类
1. 数量(总量)指标
作用:反映现象的总规模、总水平或工作总量 以绝对数表示(国内生产总值、人口总数、工资总额等) 分类 总体单位数、总体标志总量 时期指标、时点指标 实物指标、价值指标和劳动量指标
第二节 数据整理
三、统计指标
搜集数据的两条途径:统计调查 + 实验 统计调查 —— 调查数据;实验 —— 实验数据 1. 确定调查目的 2. 确定调查对象和调查单位 3. 确定调查项目 4. 调查表格和问卷设计(一览表、单一表,要求简明扼要) 5. 确定调查时间(调查时间、调查期限) 6. 确定调查的组织实施计划
(三)统计调查的方案设计
上限不在内
等距分组与异距分组
等距分组
各组的标志值变动都限于相同的范围 优点:便于计算、绘制统计图 适用场合
异距分组
第一,标志值分布很不均匀的场合 第二,标志值相等的量具有不同意义的场合 第三,标志值按一定比例发展变化的场合
品质分组 单项式分组 间断组距式分组 数量分组 组限 连续组距式分组 组距式分组 等距式分组
6组:530 530 530 540 620 620 620 620 720 720 7组:720 720 630 630 630 630 620 620 620 620
8组:650 650 650 650 650 650 650 650 650 650
提问:从上述资料中,同学们能否直接看出该车间总的生产完成
类型分组
“日产量”分组
500以下 500 500以上 合计
统计学 第二章 统计数据的搜集、整理和显示
![统计学 第二章 统计数据的搜集、整理和显示](https://img.taocdn.com/s3/m/23388d95a0116c175f0e48ff.png)
(二)实验方式
所谓实验方式,就是运用自然科学的试验 法,通过观测人为安排条件下试验产生的各种 结果并加以记录的方式来获取数据,或通过人 为安排条件下的试验来探求某个或某些因素对 所研究事物的数量影响程度和作用方式,凭借 实验结果来揭示所考察因素与所研究事物之间 的数量因果关系。
1、实验的原则
运用实验方式需要遵循下列两个原则:均衡分散
1、普查
普查是根据特定的统计研究目的而专门组织的 一次性的全面调查,用以收集所研究现象总体的全 面资料(即总体中的所有个体都是观测单位)。 普查的组织方式一般有两种:一是建立专门的 普查机构,配备一定数量的普查人员,对观测单位 直接进行登记。如我国历次的人口普查等。二是利 用观测单位的原始记录和核算资料,颁发调查表, 由观测单位按要求填报。如物资库存普查等。
重点调查的单位可以是一些企业、行业、 也可以是一些地区、城市。此种调查方式的优点是, 所投入的人力、物力少,而又较快地搜集到统计 信息资料。一般来讲,在调查任务只要求掌握基 本情况,而部分单位又能比较集中反映研究项目 和指标时,就可以采用重点调查。
在下列问题中为了得到数据,采用什么调查? • 为了买校服,了解每个学生衣服的尺寸。 • 商检人员在某超市检查出售的饮料的合格率。 • 对占全市工业总产值五分之一的六个大型企 业进行调查,以了解全市工业总产值的基本 情况。
观测性误差
数 据 收 集 误 差
也叫登记性误差或调查性误差,它 是在调查观测的各个环节因工作粗 心或被观测者不愿很好配合而造成 的所收集数据与实际情况不符的误 差,包括计量错误、记录错误、计 算错误、抄写错误、汇总错误、计 算机输入误差等工作误差,以及被 调查者不愿或难以提供真实情况的 误差,有时还存在调查人员弄虚作 假的误差和各种人为因素干扰的误 差。 这部分误差通常是人为造成的,通 过对统计调查资料的严密审核,是 可以发现并加以更正的。观测性误 差则可能存在于任何统计调查。 因样本不能完全代表总体而产生 的估计结果与总体真实数量特征 不符的误差。根据样本不能完全 代表总体的原因不同,代表性误 差又分为系统性代表性误差和偶 然性代表性误差两种。
第2章-统计数据的来源与整理(3学时)
![第2章-统计数据的来源与整理(3学时)](https://img.taocdn.com/s3/m/8570de35a32d7375a4178051.png)
70
60
50
40
30
20
10
横坐标代表广告投入, 而纵坐标代表销售收入。 看得出有何种关系吗?
0 2 4 6 8 10 12 14
额 销售
0
广告投入
定量变量间的关系
• • • • • • 能否从该数据回答下面问题: 这两个变量是否有关系? 如果有,它们的关系是否真实的(显著)? 这些关系是什么关系,能否用数学模型来描述? 这个关系是否带有普遍性? 这个关系是不是因果关系?
搜集数据的基本方法
调查的数据
实验的数据
自填式
面访式
电话式
自填式问卷调查
1. 没有调查员协助的情况下由被调查者自己完成 调查问卷
– 问卷递送方法有:调查员分发、邮寄、网络、媒体
• •
要求调查问卷结构严谨,有清楚的说明 弱点
– – – – 问卷的返回率比较低 不适合结构复杂的问卷 调查周期比较长 数据搜集过程中出现的问题难于及时采取调改措施
统计数据的来源与整理
第 2 章
§2.1 §2.2 §2.3 §2.4
数据的搜集与整理
数据案例 数据的计量与类型 统计数据的收集 统计数据的整理
数据案例
案例:证券交易数据
案例:成都市居民理财行为调查
• 提高居民的财产性收入成为经济发展 目标 • 成都居民理财情况具有代表性的 • 调研目的
–商业银行个人理财产品的市场定位 –制定提高居民财产性收入的政策
1. 对现象进行计量的结果 2. 不是指单个的数字,而是由多个数据构成 的数据集 3. 不仅仅是指数字,它可以是数字的,也可 以是文字的
统计数据的分类
• 统计数据的分类
• 按计量层次 • 按收集方法 • 按时间状况
卫生统计学第二章
![卫生统计学第二章](https://img.taocdn.com/s3/m/1d8e340ef12d2af90242e674.png)
六、资料的贮存
1、纸带机或卡片paper tape, card 2、磁带magnetic tape 3、软盘floppy disk 4、硬盘hard disk 5、光盘CD Rom 6、USB移动存贮设备(flash memory)
• Database 的优点:
– 便于资料的再利用 – 便于汇总交流 – 便于查询 – 便于补充、修改和连接
– x为组中值class mid-value (midpoint)=本组下限 与相邻较大组段的下限相加除以2 – k 为组数 – f 为各组的频数,又称权数weight – ∑f 各组频数之总和 – ∑fx 为各组组中值与频数乘积之和 • 计算实例见P3
表
110名7岁男童的身高均数的计算
身高组段 110~ 112~ 114~ 116~ 118~ 120~ 122~ 124~ 126~ 128~ 130~ 132~ 134~136 合计 频数 f 1 3 9 9 15 18 21 14 10 4 3 2 1 110 组中值 X 111 113 115 117 119 121 123 125 127 129 131 133 135 fx 111 339 1035 1053 1785 2178 2583 1750 1270 516 393 266 135 13314
• 注意事项:
– 1、一般不能计算发病率和患病率 – 2、不同医院的病人差别大,相互比较要谨慎 – 3、某医院就诊(住院)病人中各种病人的比例, 不一定代表居民中各种病人所占的比例 – 4、同一医院同一科室不同时期病的病情也会不 同 – 5、资料记载的详细程度和标准一致性问题
• 四、实验数据experimental data(指在动植物 实验研究中获得的数据)、试验数据trial data(指在人体进行试验所得到的数据) • 五、现场调查field survey资料
管理统计学 第二章 统计数据的搜集与整理
![管理统计学 第二章 统计数据的搜集与整理](https://img.taocdn.com/s3/m/9e69401b590216fc700abb68a98271fe900eaf5b.png)
• 计算相对数的基本公式为:
相 对 数 =比 较 数 值 ( 比 数 ) 基 础 数 值 ( 基 数 )
• 相对数的种类很多,根据其表现形式可分为两类:
一类是有名数,即凡是由两个性质不同而又有联系的绝对 数或平均数指标对比计算所得的相对数,一般都是有名数,而 且多用复合计量单位,如人口密度、人均占有土地和人均国内 生产总值等。
• 总体和个体的概念不是固定不变的, 均工资水平、学生的智商。
我们能否得到A部队的患病率较高的结论。 一家移动 公司最近宣布它将从东南亚运营机构裁减80名职员。
随着研究目的的不同,它们二者是会 也就是说,数值可以是区间内的任意点。
询问法、观察法和实验法三种。
统计总体按其包含的单位数分,可分成:有限总体和无限总体两类。
– 询问法、观察法和实验法三种。 我们关心什么变量?变量的性质是什么?
也就是说,离散变量表现为某些数值,各个可能的数值之间存在间隙。
定性
– 除了以上三种主要的调查方法外,还有计算机 连续变量:如果得到的一组可能结果是区间集合内的任意数值,那么我们称这种定量变量为连续变量。
相对数通常用百分比、千分比或万分比等来表示。
根据Gallop公司的调查结果,我们很想证实是否 有足够的证据让我们得出以下结论:80%以上的 消费者愿意通过互联网利用信用卡进行购物。
1.我们关心什么变量?变量的性质是什么?
2.测量指标是什么?
【例2-3】 在下列事项中采用什么测量指标 能够最好地描述相关信息?
A.一家移动 公司最近宣布它将从东南亚运营机构裁减80名职员。 B.天气预报说,昨天下午1点53分观察到的温度值突破了新加坡的 记录。 C.一家大公司的人力资源管理部门想要调查员工是否对在职培训感到满
统计学第二章数据搜集整理
![统计学第二章数据搜集整理](https://img.taocdn.com/s3/m/34058d70561252d381eb6e03.png)
普查的规定
• • • • 规定统一的调查项目 规定统一的标准时点 规定统一的普查周期 例如:第六次人口普查,调查表,性别、年龄、 民族、受教育程度、行业、职业、迁移流动、社 会保障、婚姻生育、死亡、住房情况等 • 截止时间,标准时点是2010年11月1日零时 • 人口普查的周期是10年,2000年,2010年
频率
fi
fi
fi :第i组频数
32
(2)频率的性质 (A )
0
fi
1 fi
(B ) (3)频数密度与频率密度(消除异距分组对频数影响) (A) (2.7) 频数密度=频数/组距 (B) (2.8) 频率密度=频率/组距 各组频数密度与各组组距乘积之和等于总体单位数,各 组频率密度与各组组距乘积之和等于1.
29
组数的确定(H.A.Struges经验公 式)
•
n = 1 + 3.3logN
N – 24 – 44 – 89 – 170 – 359 n 5 6 7 8 9
(斯特杰斯)
• • 15 • 25 • 45 • 90 • 180 • 组距=
30
四、频数(次数)分布
1.频数分布的基本理论
(1)频数分布的定义 在统计分组的基础上,将总体所有单位按某一标志 归类排列,并计算其相应出现的次数。 频数分布是统计整理的重要形式,通过对零乱的、 分散的原始资料进行有次序的整理,形成一系列反映 总体各组之间单位分布状况的数列,即分布数列。
10
• 概率抽样的特点: 1、样本单位按随机原则抽取,排除了主观因素对 选样的影响。 2、根据部分调查的实际资料对调查对象总体的数 量特征作出估计。 3、抽样误差可以事先计算并加以控制。 • 抽样调查的适用场合
第2章 统计数据的收集整理与显示
![第2章 统计数据的收集整理与显示](https://img.taocdn.com/s3/m/17ff0035e2bd960590c6772e.png)
A:您至今未买电脑的原因是什么?(单选不可以,多 选可以) (a)买不起(b)没有用(c)不懂(d)其它
(3) 无论多/单选题,任一个备选答案都不能有多 重含义。 A.您选择信息专业的目的是:
(a)自己喜欢,好就业(b)„„
(4) 无论多/单选题,备选答案之间不能有包含关 系。 A.您上大学的目的是:
例2.1 某车间50个工人看管机床台数资料如下:
3 6 2 4 3 2 6 4 3 2 4 2 5 2 6 2 3 5 4 3 2 3 6 5 4 2 4 3 2 2 3 5 4 5 6 2 2 6 4 3 2 6 3 4 5 4 5 2 3 5
试对数据进行分组。 解:由于机器台数属于离散型变量,因此使用单项式分 组方法。将原始资料按变量值升序排列,然后将相同变 量值分为一组,最后将资料分成若干组。
2.按数量标志分组 数值型数据:主要是按照数值进行分组。 例:对学生成绩分组,可分为60分以下、60~70分、 70~80分、80~90分、90分以上5个组。
单项式分组 按数量标志分组的方法: 组距式分组
单项式分组:把每一个变量值作为一组。 适用条件:通常只适于离散变量且变量值较少的情况
表2-2 变量编码表
NUM SEX JOB A11 A12 A13 A14 A15 A21 A22 A23 A24
001
002
1
1
1
210来自001
1
1
1
0
1
1
1
1
0
0
0
1
0
编码表说明:
NUM- 编码 SEX- 性别 jOB- 职务 A11~A15代表第一题中5个选项,选中者输入1, 未选中者输入0。 A21~A24代表第二题中4个选项,选中者输入1, 未选中者输入0。
第2章统计资料的搜集与整理
![第2章统计资料的搜集与整理](https://img.taocdn.com/s3/m/96e523f3f61fb7360b4c652d.png)
• 2)目的是推断总体的未知数字特征。 • 3)最常用的调查方式。 • 4)具有经济性好、时效性强、适应面广、
准确性高等特点。
2020/3/3
20
• 3、统计报表 • 统计调查方式之一。 • 过去曾经是我国主要的数据搜集方式。
• 按照国家有关法规的规定,自上而下地 布置,自下而上地逐级提供基本统计数 据。
出来,为统计资料的使用和分析做好准备。
2020/3/3
40
四、统计分组(P39)
• (一)统计分组的意义 • 统计分组是将总体所有单位按照一定的
标志区分为若干部分。在不同部分之间, 存在着着差异,而在每一部分内部,我 们忽略其差异,视其性质相同。
• 分组的关键是选择恰当的分组标准和准 确地划分组的界限。
测量、登记、计算上的差错以及调查者和被调查者 主观原因使调查中获得的原始资料不准确引起的误 差而引起的误差。 • 这种误差不是抽样调查所特有的,而是所有统计工 作都可能存在、并难以计算和控制的。 • 它的减少或避免,只有通过改进调查设计、加强组 织和管理、提高统计人员素质予以实现。
2020/3/3
32
真题分析
• 统计资料的基本特征是【 】 • A.数量性、总体性、客观性 • B.准确性、及时性、全面性 • C.大量性、同质性、差异性 • D.科学性、具体性、社会性 •A
2020/3/3
7
真题分析
• 判断并改正划线部分:统计资料描述的 是大量的、密集性事物的综合特征。这 说明统计资料具有客观性。
16
我国历次人口普查资料
普查时间 1953.7.1 1964.7.1 1982.7.1 1990.7.1 2000.11.1 2011.11.1
第二章统计数据资料的搜集与整理
![第二章统计数据资料的搜集与整理](https://img.taocdn.com/s3/m/4b57bcd2a6c30c2258019e18.png)
分类:
按报送范围: 全面报表——要求调查对象中的每一个 单位均要填报 非全面报表——只要求一部分调查单位 填报 按报送日期: 月报、季报、年报 月报内容简单、时效性强 年报内容比较全面
(二)报告法
基层单位根据上级的要求,以各种原始 记录与核算资料为基础,搜集各种资料, 逐级上报给有关部门
统计报表制度
(三)观察与实验
调查者通过直接的观察或实验获得数据 的一种方法
1.直接观察法
是指就调查对象的行动和意识,调查人 员边观察边记录以收集信息的方法
由于调查人员不是强行介入,受访者无 需任何反应,因而常能够在被观测者不 觉察的情况下获得信息资料
第二章 统计数据资料的搜集与整理
第一节 统计数据资料的来源
一、统计数据资料的来源渠道 直接来源
是通过直接的调查获得的原始数据, 一般称之为第一手或直接的统计数据 主要通过统计调查获得 间接来源 是别人调查的数据,并将这些数据进 行加工和汇总后公布的数据,通常称之 为第二手或间接的统计数据
二、统计数据资料的间接来源
内容:
表式 由国家统计部门根据研究的任务 与目的而专门设计制定的统计报表表格, 用于搜集统计资料。是统计报表制度的 主体
填表说明 是对统计报表的统计范围、 指标等做出的规定,具体有填报范围、 指标解释、分类目录、其他有关事项的 规定
(四)重点调查
概念:是在调查对象中选择一部分重点 单位进行的一种非全面调查。
市场调查和社会调查常用方法
2.邮寄调查
是通过邮寄或宣传媒体等方式将调查表 或调查问卷送至被调查者手中,由被调 查者填写,然后将调查表寄回或投放到 指定收集点的一种调查方法
二、数据的搜集整理
![二、数据的搜集整理](https://img.taocdn.com/s3/m/20cceb00a6c30c2259019ed5.png)
第二章统计数据的搜集与整理第一节数据的计量与类型一、数据的计量尺度统计数据是对客观现象进行计量的结果。
不同的十五计量和测度的程度是不同。
有些可以进行属性分类,有些则可以采用数字计量。
不同的计量尺度,可以得到不同类型的统计数据,使用与不同的统计分析方法。
一般可采用的计量尺度有以下四种:(一)、定类尺度定类尺度也成列名尺度,他就是按照事物的某种属性进行平行的分类或分组。
丁类尺度只是册读了事物之间的类型差别,而事物之间的其他差别却无法表现。
对丁类尺度的脊梁解雇,可以计算每一类中个个体出现的聘书。
在使用定类尺度进行分类是必须符合穷尽和护持的要求。
穷尽是指在所作的全部分类中,必须保证每个个体都能归属于某一类别,不能遗漏。
类别护持是指每一个体只能在一个类别中出现,而不能在其他类别中重复出现。
(二)、定序尺度定序尺度有成顺序尺度,它是对事物之间登记差别和顺序差别的一种册度。
这种尺度不仅可以将事物分成不同的类别,还可以确定这些事物的优劣和顺序。
也就是说不仅可以册度类别差,还可以册度次序差。
定序尺度的计量结果虽然也表现为类别,但这些类别之间是可以比较顺序的。
相比较而言,定序尺度对事物的计量必定类尺度要精确一些,计量的结果能比较大小,但不能进行数学运算。
(三)、定距尺度定距尺度也称间隔尺度。
他不仅能够区分事务类型,并进行排序,而且可以掷出类别之间的差距是多少。
定距尺度斯对事物类别或次序之间艰巨的侧度,这种尺度通常使用自然或无力单位作为剂量的标准。
因此,定距尺度的计量结果表现为数值。
由于这类尺度的每一间隔都是相等的,只要给出一个度量单位,就可以准确地指出两个技术之间的差值。
因此,其计量结果可以进行加、减的数学运算。
(四)、定比尺度定比尺度也称比率尺度。
他预订距尺度属于同一层次,他的计量结果也表现为数值。
它具有以上三种尺度的全部特性,另外还具有一个特性,就是可以计算两个测读书之之间的比值。
这要求定比尺度中必须有一个固定的“零点”,这是它与定距尺度的差别。
【统计学 精】第二章 统计数据的搜集和整理
![【统计学 精】第二章 统计数据的搜集和整理](https://img.taocdn.com/s3/m/9231a1aac5da50e2534d7f19.png)
(2)对普查资料进行必要的修正。
4、典型调查
• 这是一种专门组织的非全面调查。它根据调查的目的,在对所研 究的对象进行初步分析的基础上,有意识地选取若干(一个或少 数几个)具有代表性的单位进行调查和研究,借以认识事物发展 变化的规律。
• 重点调查适用的条件:
•
当统计调查的任务只要求了解调查对象的基本情况,而
调查对象中确实存在重点单位时,比较适宜进行重点调查。
• 例如,为了掌握全国钢铁生产的基本情况,可以选出鞍钢、宝钢、首钢、 马钢、武钢等几个大型钢铁企业调查,以便对钢铁产量有个大致的了解。
3、抽样调查
•抽样调查是一种非全面调查,是实际中应用最广 。 泛的一种调查方式
(3) 是运用概率的估计方法 。
• 例如:通过抽样推断得出,厦大学生的平均 月支出在(420,470)元上的可靠性为90%。
(4)抽样推断的误差可以事先计算,并加以控制。
• 抽样调查的优越性: 第一,经济性强。 第二,时效性高。 第三,适应面广。 第四,准确性大。
抽样调查的适用范围 (1)一些不可能或不必要进行全面检查的社会 现象。
性和时效性。
三、统计分组
(一)统计分组的概念和种类
• 1、定义:统计分组根据统计研究的目的和客 观现象的内在特点,按照某个标志或几个标 志把研究的总体划分为若干性质不同的部分 (或组)的一种统计方法。
统计分组
• 2.兼有“分”和“合”的双重含义: •对于现象总体,是 “分”;对于单位, 是“合”。 • 对于分组标志,是“分”,对于其他标 志,是“合”。
应用统计学第2章 数据的搜集与整理
![应用统计学第2章 数据的搜集与整理](https://img.taocdn.com/s3/m/3d9cdccdb9f67c1cfad6195f312b3169a451eacc.png)
掌握数掌握数据的测量尺度及常用类型; 了解统计数据搜集的意义; 掌握统计分组、分配数列的编制方法; 掌握数据图表展示方法。
本章教学目的
第2章 数据的搜集与整理
第2章
统计分组、分配数列的编制方法数据图表展示方法
本章重点和难点
第2章 数据的搜集与整理
第2章
2.4 分配数列
第2章
1.列表法
2.4 分配数列
2.4.3 品质分配数列的表示方法
第2章
2.图示法(1)条形图。条形图是指用宽度相同、高度不同的条形来表示数据变化的图形。条形图可以横向展示,也可以纵向展示,纵向展示时又称柱形图。
2.4.3 品质分配数列的表示方法
2.4 分配数列
第2章
2.图示法(2)饼图。饼图是用圆形及圆形面积的大小来表示数据数值大小的图形。饼图通常用来表示研究总体中各个组成部分的比例分布,对于结构性的研究问题非常实用。
2.5.2 统计表的分类
2.5 统计表
第2章
2.分组表 统计表的主词按照某种标志进行分组后所形成的表称为分组表,利用分组表可以展示统计总体不同现象的特征,说明各个分组之间的内部结构和相互关系,如表2-13所示。
2.5.2 统计表的分类
2.5 统计表
第2章
3.复合表统计表的主词按照两个或两个以上的标志进行分组的表称为复合表,如表2-14所示。
2.1.1 数据的测量尺度
第2章
2.1 数据的测量尺度与常用类型
第2章
1.绝对数、相对数和平均数绝对数是数据最基本的表现形式,是其他数据指标形成的基础。相对数反映了研究对象的相对水平,由两个相互联系的绝对数的对比而得到。平均数反映了研究对象的总体表现水平,是一个抽象了的研究对象总体各单位在某一数量标志下的表现差异,表示研究对象的总体各单位的一般水平,而不是某个单位的具体水平。
第二章统计数据的搜集与整理
![第二章统计数据的搜集与整理](https://img.taocdn.com/s3/m/33952c6f26284b73f242336c1eb91a37f111329f.png)
第⼆章统计数据的搜集与整理第⼆章统计数据的搜集与整理(⼀)教学⽬的通过本章的学习,了解统计数据搜集与整理的基本理论与⽅法,掌握各种⽅法的特性。
(⼆)基本要求要求灵活运⽤各种数据搜集的⽅式⽅法,并对所得数据进⾏加⼯整理,为以后各章学习打下基础。
(三)教学要点1、数据搜集的⽅式⽅法;2、统计调查⽅案的设计;3、统计分组;4、变量数列的编制;5、统计数据的显⽰。
(四)教学时数9课时(五)教学内容本章共分四节:第⼀节数据的计量与类型⼀、数据的计量尺度在计量学的⼀般分类⽅法中,依据对事物计量的精确程度,可将所采⽤的计量尺度由低级到⾼级、由粗略到精确分为四个层次,即名类尺度、顺序尺度、区间尺度和⽐尺度。
1.定类尺度定类尺度(Nominal scale,亦称分类尺度、列名尺度等)是这样⼀种品质标志,按照它可对研究客体进⾏平⾏的分类或分组,使同类同质,异类异质。
例如,按照性别将⼈⼝分为男、⼥两类;按照经济性质将企业分为国有、集体、私营、混合制企业等。
这⾥的“性别”和“经济性质”就是两种名类尺度。
名类尺度是最粗略、计量层次最低的计量尺度,利⽤它只可测度事物之间的类别差,⽽不能了解各类之间的其他差别。
名类尺度计量的结果表现为某种类别,但为了便于统计处理,例如为了计算和识别,也可⽤不同数字或编码表⽰不同类别。
⽐如⽤1表⽰男,0表⽰⼥;⽤1表⽰国有企业,2表⽰集体企业,3表⽰私营企业,等等。
这些数字只是不同类别的代码,决不意味着它区分了⼤⼩,更不能进⾏任何数学运算。
名类尺度能对事物做最基本的测度,是其他计量尺度的基础。
2.定序尺度定序尺度(Ordinal scale,亦称序数尺度、顺位尺度等)是这样⼀种品质标志,利⽤它不仅能将事物分成不同的类别,还可确定这些类别的等级差别或序列差别。
例如“产品等级”就是⼀种测度产品质量好坏的顺序尺度,它可将产品分为⼀等品、⼆等品、三等品、次品等;“考试成绩”也是⼀种顺序尺度,它可将成绩分为优、良、中、及格、不及格等;“对某⼀事物的态度”作为⼀种顺序尺度,可将⼈们的态度分为⾮常同意、同意、保持中⽴、不同意、⾮常不同意,等等。
2 第二章 统计资料的收集和整理
![2 第二章 统计资料的收集和整理](https://img.taocdn.com/s3/m/e4620f2c4b73f242336c5f26.png)
二、资料的搜集
(Collection of Data) 要求:原始数据准确、完整、及时。 资料的主要来源: 1.经常性资料:①统计报表:国家统一 制定并要求定期逐级上报的报表;②报 告卡(单);③日常医疗卫生工作记录。 2.一时性资料:①专题调查(不施加 处理因素);②实验(试验)研究(施 加处理因素) 。
三类资料间关系
例:一组2040岁成年人的血压
等 级 资 料
<8 8 12
低血压 正常血压 轻度高血压
计量资料 计数资料
15
17
中度高血压
重度高血压
以8kPa和12kPa为界分为正常 与异常两组,统计每组例数
第三节 统计工尽可能少的人力、财力及物力达到 预期的研究目的。设计是后三个步骤的 依据,是统计工作中最关键的一步。 方法:应遵循对照、齐同、随机和重复4个 基本原则。医学科研设计有调查设计和 实验设计。调查设计包括专业设计和统 计设计,统计设计包括资料搜集整理与 分析全过程的统计设想和安排;实验设 计包括动物实验、临床试验、社区干预 实验。
第二节 统计资料的类型
计量资料
(measurement data) 对每个观察单位用定量的方 法测定某项指标数量的大小所收 集的资料称为计量资料,一般有 度量衡单位。与计数资料的主要 区别在于观察单位之间只有量的 差别,没有质的不同。
计数资料
(enumeration data)
将观察单位按照某种性质或 类别进行分组,然后计数各组的 观察单位数所收集的资料称为计 数资料。与计量资料的主要区别 在于观察单位之间只有质的不同, 没有量的差别。
数值变量
(numerical variable)
数值变量又称为定量变 量,是指相同性质的观察单 位所具有的变量值是定量的, 表现为数值大小,一般有度 量衡单位,大多数数值变量 属于连续性变量。
管理统计学 第2版 第二章 统计数据的收集整理与显示
![管理统计学 第2版 第二章 统计数据的收集整理与显示](https://img.taocdn.com/s3/m/ad8fd09a88eb172ded630b1c59eef8c75ebf9553.png)
(4)系统抽样
首先将总体中各 单位按一定顺序 排列,根据样本 容量要求确定抽 选间隔,然后随 机确定起点,每 隔一定的间隔抽 取一个单位的一 种抽样方式。是 纯随机抽样的变
种
最主要的优势就 是经济性。最大 的缺陷在于总体 单位的排列上。 一些总体单位数 可能包含隐蔽的 形态或者是“不 合格样本”,调 查者可能疏忽, 把它们抽选为样
• 普查需要规定标准的时点:如第五次人口普查规定的标准时间 为2010年11月1日零时为标准时间。
统计报表
• 统计报表是按照国家有关的规定,自上而下同一布置,自下而上逐级 提供统计资料的调查组织方式。
• 统计报表是我国特有的一种统计调查方式,是建立在各基层单位原始 记录的基础上的一种统计调查方式,由于统计报表是逐级上报和汇总 的,有利于各级部门了解本地区、本部门或本行的的社会和经济发展 现状。
2.1 统计数据的收集
数据的来源
• 间接来源 研究者直接从公开出版物或通过网络渠道获取
所需数据,如《中国统计年鉴》、《中国统计摘 要》、《中国社会统计年鉴》 • 直接来源
研究者直接通过调查取得研究所需数据资料
2.1 统计数据的收集
普查
常用的统计 调查方式
抽样调查
重点调查
典型调查
简单随 机抽样
分层抽样
抽样调查
• 抽样调查是取得数据资料的最主要的一种方式,它是按照 随机原则从总体中抽取部分单位组成样本,对样本指标进 行测定,根据样本指标推断总体指标的一种非全面调查。
抽样调查的具体组织形式 抽样调查
简单随 机抽样
分层抽样
等距抽 样
整群抽样
(1)简单随机抽样
从总体N个单位中任意抽取n个单位作为样本, 使每个可能的样本被抽中的概率相等的一种 抽样方式
统计学第二章
![统计学第二章](https://img.taocdn.com/s3/m/7566226ada38376baf1faea8.png)
第二章统计数据的收集、整理与显示2.1统计数据的收集一、统计数据的来源1、直接来源(原始来源):分为实验和统计调查(直接观察、报告、采访、登记)2、间接来源(二手资料):出版物、网络二、统计调查组织方式1、分类①按调查单位的范围大小分:全面调查和非全面调查②按调查时间是否连续分:经常性调查和一次性调查③按调查组织方式分:统计报表和专门调查。
其中专门调查又分为普查、重点调查、典型调查、抽样调查2、统计报表制度:按照国家统一规定的各项要求,自下而上地定期向国家和主管部门报送基本统计资料的一种报告制度①优点:能保证统计资料的全面性和连续性;能保证统计资料的统一性和及时性;能满足各级部门对统计资料的需要②缺点:统计报表过多会增加基层负担;有可能由于虚假瞒报而影响统计资料质量3、普查:是指国家为详尽了解某项重要的国情国力而专门组织的一次性全面调查(主要用于搜集时点资料)①作用:可以为抽样调查提供抽样框;可以收集统计报表所不能提供的反映重大国情国力的基本统计信息②局限:由于需要大量的人力、物力、财力,不宜经常进行4、重点调查:是指为了解总体基本情况,在调查对象中只选择一部分重点单位进行调查的一种非全面调查组织方式。
(这些单位数目不多,但其标志值在总体标志总量中占有较大比重,能反映总体的基本情况)①作用:能以较少的投入和较快的速度取得总体基本情况及变动趋势的资料②局限:只适用于客观存在重点单位的情况5、典型调查:是指在对调查对象有一定了解的基础上,有意识的选择少数典型单位进行调查的一种非全面调查方式。
(指在数量表现上具有普遍意义呵呵代表性的总体单位,可以用来推断总体的数量)①作用:一定条件下能估计总体指标数值;可以用来研究新生事物②缺陷:不能确定推断的把握程度,无法计算和控制推断误差6、抽样调查:是指按照随机原则从调查对象中抽取一部分样本单位进行调查,再用样本资料推断把握总体的数量特征的一种非全面调查组织方式。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第二章统计数据的搜集与整理一、教学目的与要求通过本章的学习,了解统计数据的计量尺度和数据的类型,了解绝对数和相对数的意义及比例和比率的计算方法;了解各种统计调查方式的特点和适用场合;掌握统计调查方案设计的内容,了解数据预处理的意义;掌握统计数据的分组方法,能够对原始数据进行适当的分组并编制频数分布表,绘制频数分布的直方图和茎叶图。
二、教学重点1、统计调查方案设计2、统计数据的分组3、变量数列的编制三、教学难点1、抽样调查、重点调查与典型调查的比较2、调查方案的设计3、次数分布的概念4、变量数列的基本术语及编制四、教学基本内容第一节数据的计量与类型一、数据的计量尺度(一)定类尺度按事物的某种属性对其进行平行的分类或分组。
(只能测度事物之间的类别差,其他差别无法得知)例:按照性别将人口分为男、女两类。
(二)定序尺度又称顺序尺度,是对事物之间等级差别和顺序差别的一种测度。
它不仅可以测度类别差,还可以测度次序差。
(不能测量类别之间的准确差值,只能比较大小,不能进行加、减、乘、除数学运算)例:考试成绩可分为优、良、中、及格、不及格。
(三)定距尺度又称间隔尺度,是对事物类别或次序之间距离的测度。
该尺度通常使用自然或物理单位作为计量尺度。
例:考试成绩80分与90分之间相差10分。
定距数据可以进行加、减运算,不能进行乘、除运算。
其原因为定距尺度中没有绝对零点(定距尺度中的“0”表示水平,不表示没有)。
(四)定比尺度又称比率尺度,由于定比尺度有绝对零点(定比尺度中的“0”表示没有,不存在)。
因此,不仅可以加减运算,还可以乘除运算。
例如,甲工资为600元,乙工资为1200元,则乙的工资为甲的2倍。
二、数据的类型统计数据大体上分为两种类型:定性的数据和定量的数据。
定性数据也称品质数据,它说明的是事物的品质特征,是不能用数值表示的,这类数据由定类尺度和定序尺度计量形成。
定量数据也称数量数据,它说明的是事物的数量特征,是能够用数值表示的,这类数据由定距尺度和定比尺度计量形成。
说明现象某种特征的概念称为变量,变量的具体表现称为变量值。
变量可分为连续型变量和离散型变量。
离散变量只能取有限个数,而且其取值都以整位数断开,如企业个数、职工人数等;连续变量可以取无穷个数值,其取值是连续不断的,不能一一列举,如零件尺寸、年龄、温度等。
三、统计数据的表现形式数量型统计数据通常有两种基本的表现形式,即绝对数与相对数。
(一)总量指标(绝对数)1、概念:反映客观现象总规模、总水平的指标。
2、种类按反映现象总体内容的不同,可分为:总体单位总量:反映总体所有单位总数的指标。
总体标志总量:反映总体中各单位标志值总和的指标。
按指标反映的时间状况不同时期指标:反映现象在一段时期发展变化的总量指标。
时点指标:反映现象在某个时点所达总量的指标。
(二)相对指标1、概念:两个相互联系的指标数值对比的比值(相对水平)2、作用:用一个抽象化了的数值来反映两个有联系的事物之间的数量关系3、种类计划完成程度相对数、结构相对数、比例相对数、比较相对数、强度相对数、动态相对数第二节统计数据的搜集一、统计数据的直接来源直接来源:专门组织的调查、科学试验;(一)统计调查方式1、普查专门组织的一次性的全面调查。
特点:(1)、一次性调查;(2)、全面性调查;(3)、是有关国情、国力的调查。
标准时点:对调查对象登记时所依据的统一时点。
标准时点的作用:(1)、避免调查数据的重复或遗漏,确保数据的准确性。
(2)、反映现象在该时点上的状况。
普查的组织方式(1)、通过专门组织的普查机构进行。
如人口普查(2)、利用企事业单位日常核算资料和报表资料进行。
如物资库存普查、快速普查等2、抽样调查从调查总体中按随机原则抽取部分单位进行调查,并根据其结果推断总体数量特征。
特点:(1)、根据样本资料推断总体数量特征;(2)、按随机原则抽取调查单位;(3)、抽样误差可以计算和控制。
3、重点调查从调查对象中选择一部分重点单位进行调查。
重点单位是指调查的标志值在总体标志总量中占有绝大比重的单位。
特点:(1)、调查目的是了解总体的基本情况;(2)、重点单位的重点位置是客观存在的;(3)、不可推断总体数量特征。
4、典型调查在对调查对象初步分析的基础上,选择几个有代表性的单位进行深入细致的调查。
特点:(1)、是深入细致的调查;(2)、典型单位的选择带有明显的主观因素;(3)、可以据以估算总体数值,但不能计算和控制调查误差。
5、统计报表制度自上而下布置任务,自下而上上报资料的统计制度或调查方法。
(二)数据的搜集方法1、访问调查2、邮寄调查3、电话调查4、座谈会5、个别深度访问(三)调查方案设计1、确定调查目的(Why)2、确定调查对象与调查单位(Who)调查对象:被研究现象的总体(即调查范围)。
调查单位:需要对它的标志进行登记的总体单位填报单位:填写、上报统计资料的单位。
注:调查单位与填报单位有时一致,有时不一致。
3、确定调查项目和调查表(What)调查项目:调查时应进行登记的标志。
调查表:具体可区分为单一表与一览表。
单一表:一个调查单位用一张表;一览表:多个调查单位共一张表。
4、确定调查时间(When)调查时间:资料所属时间(一段时期、某个时点)。
时期现象:资料所反映的起止时间。
时点现象:调查规定的时点。
调查期限:调查工作进行的起止时间。
5、组织实施计划(How)二、统计数据的间接来源第二手数据:主要有公开出版或公开报道的数据。
第三节统计数据的整理统计整理的概念:根据研究的目的和要求,对调查资料进行科学的加工处理,使之条理化、系统化,以反映总体特征的工作过程。
一、数据的预处理(一)数据的审核与筛选准确性审核(包括逻辑检查和计算检查)及时性审核(是否按时交统计数据)完整性审核(调查单位是否全包括?调查项目是否都回答?)(二)数据的排序二、数据分组与频数分布(一)统计分组1、统计分组的概念和作用概念:将总体按照一定的分组标志区分为若干个性质不同的组成部分的一种统计方法。
作用:(1)、划分现象的不同类型;(2)、揭示现象的内部结构;(3)、分析现象之间的依存关系。
2、统计分组的原则和关键原则:保持组内的同质性与组与组之间的差异性关键:选择分组标志和划分各组界限(二)、次数分布的概念及类型1、概念次数:分布在各组的单位数频率:各组次数与总次数的比重次数分布:反映总体单位数在各组间的分布(表、图)。
次数分布作用:显示现象的分布规律和分布特征。
2、类型属性分布数列:按品质标志分组所形成的分布数列。
体现现象质上的差别且较稳定。
变量分布数列:按数量标志分组所形成的分布数列。
体现现象量上的差别且有多种编制方法。
变量数列的构成:(1)变量及变量值;(2)次数或频率。
3、变量数列的编制组限:一组的数量界限。
组限的确定原则:确保组内的同质性,组间的差异性。
组距=本组上限-本组下限组数=全距/组距组中值=(上限十下限)/2开口组首组组中值=上限一邻组组距/2开口组末组组中值=下限+邻组组距/2次数密度=本组次数/本组组距对连续型变量,只可编制组距数列,且相邻的组限必须重叠。
记住:“上组限不在内”对离散型变量,可编制单项数列和组距数列。
编制组距数列时采用不重叠组限依据:遵循不重复、不遗漏的原则。
三、次数分布的图示和类型(一)直方图和折线图(1)直方图横轴:表示变量;纵轴:表示次数。
(2)折线图:将组中值用折线连接而成。
(二)茎叶图茎叶图可用于展示原始数据的分布,同时还保留原始数据在图形里面,相当直观。
从茎叶图中,可直接看出数据是否对称、是否有极端值以及数据的集中趋势和离中趋势。
茎叶图由“茎”和“叶”两部分构成,其图形由数字组成。
绘制茎叶图的关键是设计好树茎,通常是以该组数据的高位数值作为树茎。
树茎一经确定,树叶就自然地长在相应的树茎上了。
第三章数据分布特征的描述一、教学目的与要求通过本章的学习,要求学生熟练掌握数据分布特征的各种描述方法;掌握不同测度方法的特点、应用条件及应用场合;能利用所学的方法对统计数据作各种统计描述。
二、教学重点1、集中趋势测度的方法及应用场合2、离散程度测度的方法及应用场合3、分布偏态与峰度的测度三、教学难点1、集中趋势测度的方法及应用场合2、离散程度测度的方法及应用场合四、教学基本内容第一节分布集中趋势的测度集中趋势是指一组数据向分布的中心集中的现象。
数据分布集中趋势的测度指标又称平均指标。
一、众数众数是指总体中出现次数最多的标志值。
一般只有在总体单位比较多,且存在明显集中趋势的数列中才存在众数。
众数是根据标志值在数列中所处的位置来计算的,不受极端值影响。
在实际工作中,可以利用众数来表明现象的一般水平。
例如,某农贸市场某种蔬菜的单价有1.00、1.20、1.50、2.00元不等,在了解这种蔬菜的平均价格时,不需登记这种蔬菜所有的成交量和成交额来加以平均计算,只要掌握这种蔬菜成交量最大的价格就可以了。
(一)、由单项数列确定众数在单项数列中,出现次数最多的标志值就是众数。
(二)、由组距数列确定众数下限公式:上限公式:二、中位数把总体各单位标志值按大小顺序排列起来,处于中点位置的标志值就是中位数。
中位数不受极端值影响,当一个总体的大部分总体单位的标志值比较集中时,以中位数为代表值,比算术平均数还能更确切地反映次数分配的集中趋势。
(一)、根据未分组资料确定中位数当总体单位数为奇数时,处于中间位置上的那个标志值就是中位数;如果总体单位数为偶数,中位数则是位于中间位置的两个标志值的算术平均数。
(二)根据分组资料确定中位数1、由单项数列确定中位数。
第—步,根据中位数位置公式确定中位数所在组;第二步:中位数所在组的标志值,就是中位数。
2、由组距数列确定中位数。
第一步:根据中位数位置公式确定中位数所在组;第二步:在假定中位数所在组的次数是均匀分布的前提下,利用比例插值法推算中位数的近似值。
下限公式:上限公式:三、均值(算术平均数)(一)、简单算术平均数(适用于未分组资料):(二)、加权算术平均数(适用于分组资料):次数之所以具有权数的作用,是因为各组的次数不相等。
如果各组次数相同,那它对各组标志值来说,就失去了权衡轻重的作用。
用绝对数权数与用相对数权数计算的结果一致。
(三)、算术平均数的数学性质1、各个变量值与其算术平均数离差之和等于零。
2、各变量值与其算术平均数的离差平方和为最小值。
四、几何平均数几何平均数是N个变量值乘积的N次方根。
(一)、简单几何平均数当各变量值的次数不相同时,采用简单几何平均数。
(二)加权几何平均数当各变量值的次数不相同时,采用加权几何平均数。
用同一资料计算算术平均数、调和平均数和几何平均数的结果是:H≤G≤。
五、集中趋势测定指标的比较(一)、各种数值平均数的比较1、适用场合不同。