统计学第二章 数据的收集与整理
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
St 2-3
atistics
第二章 数据的收集和整理
2
通过本章的学习,我们应该知道: 1. 数据来源 2. 数据是如何收集的 3. 数据是如何整理的 4. 如何做次数分布表
2-4
统计工作的三个中心阶段
调查收集
有组织、 有计划地 搜集资料。 要求:准确、
统计整理
对调查资料 去伪存真、 去粗取精、 科学分类、
含义: 是一种非全面调查,根据某种原则抽取一部分单 位作为样本进行光差,然后根据样本数据推算总 特特征。 特点: 1 (随机抽样)按照随机原则从总体种选择样本; 2 以样本指标(统计量)为依据,估计总体特征 3 抽样误差可以事先计算并加以控制。 作用: 不可能或不必要做全面调查的(无限总体;破坏 性实验) 修正普查资料
统计分析
描述性分析
推断分析、 决策分析。
要求:定性
定量结合
完整、及时
浓缩简化
2-5
一、数据来源
Data Sources
数据 来源
直接来源 (原始资料)
间接来源 (次级资料) 出版物 (或者网上)
试验
问卷调查
观察
2-6
二、数据收集方法
直接 观 察 法
被调查者受调 查者的强制与 约束
调查者与被调 查者平等合作
第三步,确定组限: 第一组组限定为400—500; 第二组500—600;……;依此类推, 第六组为900—1000 也可以 第一组组限定为500以下,第六组为900及以上
2-46
第四步,进行归组,即将各个变量值归入相应的组Leabharlann Baidu,数 出各个组中变量的个数,即为频数。
第五步,计算频率。将各组频数除以总样本个数,即为频 率
组限 组距
指每组两端表示各组界限的变量值,各组 的最小值为下限,最大值为上限
每组变量值变动区间的长度,为上下限 之差
连续式分组组距d=上限-下限 间断式分组组距d=上限-下限+1
2-41
相关概念
组数 数据一共分为多少组
对于等距分组,组数n=R/d, 其中R为全距,即R=最大标志值-最小标志值 d=组距 显然组距越大,组数越小,怎样选择组距和组数比较合理?
频率
各组单位数占总体单位总数的比重
频率=频数/总样本个数
频数密度 单位组距中的频数
某组频数密度=该组频数/该组组距
频率密度 单位组距中的频率
某组频率密度=该组频率/该组组距
2-47
居民月消费分布表 月消费(元) 400-500 500-600 600-700 700-800 800-900 900-1000 户数 1 8 15 21 11 4 频率(%) 1.7 13.3 25.0 35.0 18.3 6.7
2-20
抽样调查
优点:经济性 时效性 准确性 灵活性 原则:随机 最大抽样效果(最小抽样误差)
2-21
重点调查(key point survey)
概念: 在总体中选择个别或部分重点单位进行非全 面调查。重点单位指在总体中这些单位的标 志值在标志总量中占有绝大比重。 特点: 能以较少的投入和较快的速度取得总体基 本情况及变动趋势的资料;只适用于客观 存在重点单位的情况(适用于存在类似 “寡头”或者“垄断”的情况)
2-49
累计次数(频率)
n 1 3.33lg N
其中N为样本单位数 组中值 注意:连续型变量 每组变量取值范围的中点数值 分组时上限的选取
上限下限 组中值= 2
2-42
编制等距数列
编制步骤:
变量数列中的组距数列编制比较复杂,下面主要研究它: (1)排序,找到最大最小值 (2) 组数的确定
n 1 3.33lg N
审核原始资料
分组, 分布数列
汇总
统计表 统计图
2-37
数据分组 将统计总体中所有单位按一定的标 统计分组 志分为性质不同但又有联系的若干 个组 总体经过分组,能够突出组与组之间的差异 而抽象掉组内各单位之间的差异,使数据变 得条理化,便于进一步分析研究。
2-38
统计分组的种类
根据分组标志的个数分类: 简单分组:仅按照一个标志进行分组 复合分组:按照两个或两个以上的标志进行层叠分组 根据分组标志的性质分类: 品质标志分组:如上市公司的行业分类 数量标志分组:人口按年龄分组
2-17
统计报表制度(statistical report forms)
概念: 由政府部门组织,采用统一的表格,自 上而下布置,自下而上报告。
任务: 搜集国民经济和社会发展基本情况的资 料,为制订国民经济和社会发展计划和 检查计划执行情况服务。 特点: 来源基层 逐级上报 经常性调查
2-18
抽样调查(sampling survey)
2-31
调查误差
抽样误差:由于随机性原因产生的误差
非抽样误差:由于各种操作环节失误,或设 计不合理等原因造成的误差
2-32
二手统计资料来源
次级资料的主要收集渠道:
⒈查阅公开出版物; ⒉向政府统计机构咨询; ⒊向其他机构咨询; ⒋网上查询。
2-33
返回
2-34
2-35
2-36
2 数据的整理 数据整理的程序
2-22
典型调查(model survey)
概念: 在初步分析的基础上,有意识地选择代表性的 典型单位进行非全面调查。对于典型单位的挑 选,更多地取决于主观判断 作用:适宜于研究处于萌芽状态事物和倾向性问题;
起步早 措施力 效果好—重庆合川市思居村新农村建设典型调查 农村信息化建设调查分析——以湖北省仙桃市的5个村镇为典型 调查对象
2-2
对某系学生情况的进行统计调查,抽取若干 学生进行问卷调查。 则某系全体学生是( ), 问卷中,要求同学填写生源地是( ), 抽取的某位同学的性别为男是( ), 该系学生上学期及格率是( ), 某系的男生比例为30%是( )。 A 总体 B 样本 C 标志 D 指标 E 标志值(标志表现) F 指标值
2-13
三、统计调查的种类
按调查单位的范围大小分为 非全面调查
全面调查
按调查时间是否连续分为 经常性调查 一次性调查
2-14
我国统计调查方法体系改革的目标模式是:
建立以周期性普查为基础,以经 常性的抽样调查为主体,以必要 的统计报表、重点调查和科学的 推断为辅助手段的调查方法体系 模式
2-15
制度化的 经常性调查 专门组织的 一次性调查
2-30
统计调查方案的设计
统计调查方案:用来指导整个调查工作的纲领性 文件,是统计设计在统计调查阶段的具体化
组织调查之前统计调查方案的设计内容: 1、明确调查目的(为什么调查?) 2、确定调查对象和调查单位(调查谁?) 3、确定调查项目(调查什么?) 4、确定调查方式,问卷设计(怎么调查?) 5、确定调查时间和调查期限 返回 6、制定调查的组织实施计划
统计调查的各种形式
普 查 统计报表 抽样调查 重点调查 典型调查
2-16
普查(census)
概念: 指国家为详尽了解某项重要的国情国力 而专门组织的一次性全面调查 建立专门机构,配备专门人员调查。 特点: 全面调查 一次性调查(非经常性调查) 原则:规定统一的标准时点。 规定统一的普查期限,尽可能快地完成。 规定调查的项目和指标。
报 告 法 采访法 登记法 实验设计法
2-7
直接观察法
2-8
报告法
调查者
强制、约束
2-9
采访法
调查者
平等合作
被调查者
口头询问
自填问卷
返回
2-10
调查问卷的问题类型:
封闭式问题 开放式问题 您认为吸烟有哪 些害处? 您认为吸烟有 您认为吸烟有 ①危害自身健康 哪些害处? 哪些害处?
②影响他人健康 ①危害自身健康 容易造成人际 ②影响他人健康 ③浪费钱财 关系紧张 容易控制, 不易控制, ③浪费钱财 ④容易引起火灾 但不易全面 但内容丰富 ④容易引起火灾 ⑤破坏家庭团结 ⑤破坏家庭团结 ⑥其他 。
2-45
第一步,先将60个数据排序,找出最大值998和最小值415, 这个数列的全距R=998-415=583厘米。 第二步,确定组数和组距: 根据公式:n = 1 + 3.33×(lg60)≈7, 再根据实际情况调整(因为全距583,分6组可使每组组距 为100,分组后组限可取整)取组数为6,组距为100
2-39
分组方法
一般原则: 穷尽原则:各有归属,不能遗漏任何一个单位 互斥原则:一个单位不能归属于几个组 标志表现只 有一个值 变量值变动 区间的长度 相等
分 类
品质分组
数量分组 单项分组 组距分组
标志表现在 一个区间 组距?组限?
等距分组 异距分组
变量值变动区 间的长度不完 全相等
2-40
相关概念
在按实际情况稍做调整 (3)组距的确定 R=Xmax-Xmin i=R/n(小数进一) (4)组限的确定 (5)数出在每一组中的个体数(频数),计算频率,列表整 理得到等距数列
2-43
编制等距数列
组限的表示方法
对于离散变量,相邻组组限可以间断,也可重叠;
对于连续变量,相邻组组限必须重叠;
符合“上组限不计入”原则;
2-1
复习
1.为了了解某工厂工人的工资水平,抽取了其 中的200名工人进行问卷调查,这时,总体是 ( ),样本是( ),( )是标志, ( )是统计指标,该指标是( )尺度,在 问卷调查中还将询问工人的性别、工龄、工种 和级别,其中工种是( )尺度,级别是( ) 尺度,工龄是( )尺度。 A 某工厂每一个工人的工资额 B 某工厂的每一个工人 C 抽取的某一位工人的工资额 D 抽取的某一位工人 E 某工厂工人的平均工资 F 定类 G 定序 H 定距 I 定比
首末两组可使用“××以下”及“××以上”的开
口组。
2-44
【例】根据抽样调查,某镇60户居民月消费资料如下,要 求编制变量数列,形成次数分布。 753 845 740 723 891 860 563 556 670 998 663 790 925 589 683 776 700 703 639 807 708 715 643 661 545 671 780 708 667 701 500 612 650 840 778 777 775 889 653 631 948 827 910 698 760 623 415 523 763 738 647 835 770 878 578 569 805 516 768 775
2-11
问卷设计的基本要求:
主题明确
提问科学 逻辑性强
问题的提出要紧扣主题 问句和标准答案要易于理解 和回答
先易后难、先封闭后开放、 先基本问题后派生问题
容量适度
以不超过20分钟为宜
2-12
其他统计方法:登记法、电话访问、网络调 查、试验设计,等等
学校统计毕业生就业情况,一般流程:学生签署三方协议 后通知辅导员,向辅导员递交相关材料,由辅导员定期整 理本学院毕业生的就业情况,并向学校就业办公室上报数 据。在该项统计工作中用到了哪些数据收集方法?
2-23
统计调查的组织方式
总体单位
调查单位
2-24
统计调查的组织方式
报表制度
总体单位
调查单位
可以全面调查,但 通常是调查限定规 模以上的总体单位
2-25
统计调查的组织方式
普
查
总体单位
调查单位
对全部单位 进行调查
2-26
统计调查的组织方式
重点调查
总体单位
调查单位
只调查重点单位(单位 数不多但其标志量占标 志总量比重较大的单位)
2-27
统计调查的组织方式
典型调查
总体单位
调查单位
对典型单位进行调 查,典型单位的选 择并不一定按规模
2-28
统计调查的组织方式
抽样调查
总体单位
调查单位
按随机原则选择调 查单位,各单位被 选中的机会相同。
2-29
统计调查的组织形式
全 面 调 查 非 全 面 调 查
统计报表 普 查 重点调查 典型调查 抽样调查
合计
60
100
2-48
第六步,绘图:一般绘制散点、折线或柱状图 ◆如果是等距分组,EXCEL绘制折线图、散点图或柱 状图基本相似。但散点图需要再计算组中值,以组中 值为横坐标 ◆如果不是等距分组,则一般绘制散点图,需要计算 组中值,以组中值为横坐标。 ◆在其他分组类型中需要具体情况具体分析。例如: 如果进行品质分组,无法绘制散点图,只能绘制折线 图或柱状图,还可以通过绘制饼图表现分组后的结构。 单项式分组,一般绘制折线图或柱状图,也可以通过 绘制饼图表现分组后的结构。
2-19
抽样调查的组织方式
调查一个班的学生(共60人,其中男生10人,女生50人)情况, 需要抽取12位同学作为样本
1 简单随机抽样;
2 系统抽样;
抽签决定
学号为2,7,12,17,22,27……
3 分层抽样; 男生中随机抽取2人,女生中随机抽取10人
4 整群抽样; 抽取一个男生宿舍,一个女生宿舍的同学