第二章 统计数据的收集整理与显示
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
表- 宿舍所住学生数的频数分布表
宿舍所住学生数/人
4 5 6 7 8 合计 频数/户 20 35 60 12 25 152 频率/% 13.16 23.03 39.47 7.89 16.45 100
2) 组距式频数分布 步骤:a 、分组 b 、统计出每组变量的频数,频率 c 、按各组组限的大小顺序列出组距式变量数列 d 、给出频数分布表
2.1.4 统计数据的误差
统计数据的误差:指统计数据与客观现实之间 的差距。 研究误差的目的:找出导致误差产生的原因, 进而采取对策避免、减少误差或控制误差水平。 误差的主要来源:登记性误差和代表性误差。
1.登记性误差(非抽样误差)
登记性误差:人为因素所造成的误差。 调查者 规定或解释不明确导致的填报错误; 调查员粗心,记录出现错误; 调查员的态度、情绪以及责任心等。 被调查者 不理解规定或解释不明确导致的填报错误; 有意虚报或瞒报调查数据等。 注:登记性误差理论上讲是可以消除的。
统计报表
普
查
本节小结
统计数据搜集
重点调查
典型调查
抽样调查
本节小结
统计数据误差
登记性误差
代表性误差
2.2 统计数据的整理
整理数据的中心任务:分组/编制频数分布表。 2.2.1 统计数据分组 统计数据分组:就是根据统计研究的需要,将统计 数据按照一定的标志划分为若干组成部分的一种 统计方法。
品质标志 分组的标志: 数量标志
表2-2 变量编码表
NUM SEX JOB A11 A12 A13 A14 A15 A21 A22 A23 A24
001
002
1
1
1
2
1
0
0
0
1
1
1
1
0
1
1
1
1
0
0
0
1
0
编码表说明:
NUM- 编码 SEX- 性别 jOB- 职务 A11~A15代表第一题中5个选项,选中者输入1, 未选中者输入0。 A21~A24代Hale Waihona Puke Baidu第二题中4个选项,选中者输入1, 未选中者输入0。
等距分组的基本步骤: 数据排序 分组数目的确定 使每组所包含的数据个数,平均不少于4个或5个, 或采用斯特吉斯经验公式,即 k=1+3.322lgN k为组数;N为总体中的个体数。
表2-3 分组组数参考表 N k 15~24 5 25~44 6 45~89 7 90~179 8 180~359 9
表2-1 问卷调查表
您的性别:1男生 您的职务:1主任 2女生 2组长
3教师
一.您认为目前教改阻力来自哪些单位?(可复选) A1 1教育行政单位 A11 2学校行政人员 A12 3家长团体 A13 4教师本身 A14 5其他团体 A15
二.您认为目前教改对哪些人会有影响?(可复选) A2 1教师 A21 2行政人员 A22 3学生 A23 4其他 A24
2 3 4 5 6 2 3 4 5 6 2 3 4 5 6 2 3 4 5 6 2 3 4 5 6 2 3 4 5 6 2 2 2 2 2 2 2 3 3 3 3 4 4 4 5
2) 组距式分组 组距式分组:将全部变量值依次划分为若干区间,并将 这一区间的变量值作为一组。 适用条件:连续变量/离散变量且变量值较多 组距: 等距分组: 适用于变量值的变动比较均匀 不等距分组: 适用于变动很不均匀,且变动幅度大 例:对学生成绩的分组可以分为0~20分、20~40分、 40~60分、60~80分、80~100组 等距分组 例:学生成绩分组也可分为0~60(D)、 60~80(C) 不等距分组 80~90(B)、90~100(A) 关键问题:分组数目的确定/组距的确定
2.代表性误差(抽样误差)
代表性误差:用样本数据推断总体时所产生的误差。 影响误差的主要因素 样本容量的大小:样本容量越大,代表性误差就越小 总体的离散程度的高低:总体中各个体间的差异越大, 抽样误差也就越大
注:代表性误差通常无法消除,但事先可以进行 控制和计算。
本节小结
统计数据搜集
统计调查涵义
2.按数量标志分组 数值型数据:主要是按照数值进行分组。 例:对学生成绩分组,可分为60分以下、60~70分、 70~80分、80~90分、90分以上5个组。
单项式分组 按数量标志分组的方法: 组距式分组
单项式分组:把每一个变量值作为一组。 适用条件:通常只适于离散变量且变量值较少的情况
(a)将来有一份收入高的工作(b)能够过上比较富裕的生活 (c) „„
4.问卷设计的基本原则
1)主题鲜明 目的明确,重点突出,没有可有可无的问题。 2) 结构合理 先封闭后开放,先易后难。 封闭性问题:事先设计好答案 开放性问题:自由回答 例如,您对学校的教学管理有何更具体的看法? 3) 适当控制回答时间(尽量不超过30分钟) 4) 便于计算机处理 易于编码、录入、汇总和数据出表
A:您至今未买电脑的原因是什么?(单选不可以,多 选可以) (a)买不起(b)没有用(c)不懂(d)其它
(3) 无论多/单选题,任一个备选答案都不能有多 重含义。 A.您选择信息专业的目的是:
(a)自己喜欢,好就业(b)„„
(4) 无论多/单选题,备选答案之间不能有包含关 系。 A.您上大学的目的是:
数据,称为实验数据
收集数据的要求:准确、及时 拟定统计调查方案:确定统计调查的目的、调查的对象、 调查的项目等内容
2.1.1 统计调查方案的确定 1.确定调查目的(为什么调查) 2.确定调查对象和调查单位(向谁调查) 3.设计调查项目和调查表(调查什么) 4.方案设计中的其他内容(如何调查) 2.1.2 常用的统计调查方法
调查方式/调查时间 调查的组织与实施
1.普查:是专门组织的一般用来调查属于一定时点上 社会经济现象数量的全面调查。 优点:全面、系统 缺点:只限于有限总体、工作量大、时间性强
2.重点调查:只在对象中选择一部分重点单位进行调查 以了解总体情况的一种非全面调查 优点:省时、省力、不带主观性。
比重较大
3.典型调查:在对研究对象进行全面分析的基础上,有 意识地选择部分有代表性单位进行调查 优点:调查范围小、省时省力、具体深入 人为选择的 缺点:具有主观性 典型单位 4.抽样调查:是从调查对象中随机抽取一部分单位作为 样本进行调查的一种非全面调查 优点:经济灵活、时效性强、适应面广和准确性高
(3)开口组:当变量值变动范围较大时,最小组为
“……以下”,或最大组为“……以上”。 如:2以下,[2,4),[4,6),[6,8),8以上
组中值的确定 组中值=(上限+下限 )÷2 开口组的组中值 =下限+邻组组距/2(缺上限) =上限-邻组组距/2(缺下限) 见例2.2-P39
2.2.2 频数分布 频数(frequency)=分布在各组内的数据个数. 频率 (percentage)=各组频数/全部频数之和 频数分布:在统计分组的基础上,将总体中所有的个体按 某一标志进行归类排序 2.2.2.1 频数分布表
第2章 统计数据的收集整理与显示
2.1 统计数据的收集
2.2 统计数据的整理
学习重点
1、统计数据的搜集 2、分组的概念、特点和原则,分组的作用,能 熟练进行分组 3、频数分布的概念及其构成; 4、组限的表现形式及原则、组距和组中值的计算 5、统计表的含义及其构成,统计表的编制方法和原 则
本部分难点
2.1.3 调查问卷设计与问卷调查表的编码 2.1.3.1 调查问卷设计
1.问卷的基本结构
问卷是调查者根据调查目的和要求所设计的, 一般由开头部分、甄别部分、主体部分和背景部 分组成。
主体部分是调查问卷的核心内容, 它包括了所要调查的全部问题。
例:见P356
案例
2.设立问卷问题的注意事项
(1) 提问的内容尽可能短。 (2) 问题设计的用词要准确,用语要含义明确。 例:×您通常喜爱选购什么样的鞋? √您外出旅游时,会选购什么牌号的旅游鞋? 例:×您对它的价格和服务质量满意还是不满意? √您对它的价格是否满意?
2.1.3.2 问卷调查表的编码
1.单选题问卷调查表的编码 (1) 题号代号不能重复。 (2) 同一量表的题号最好有相同的识别码。 (3) 名义或类别问题的代号最好与其意义内涵有关, 以3~6个英文字母简写代表最好。 例:年龄为AGE,年级为YEAR,工作类别为JOB等, 学生性别为SEX,教育程度为EDU等。 2.复选题问卷调查表的编码。
1.按品质标志分组 品质型数据:主要是做分类整理。 例如:按所有制性质划分,我国的经济类型可分为国有 经济,集体经济,私营经济,个体经济,联营经济,股份 制经济,外商投资经济,港、澳、台投资经济8组。
例如. 你是否认为你的任课教师在本门课程方面学识渊博。 为学生提供了以下几个选择: 1=非常赞同 2=赞同 3=不赞同 4=非常不赞同 从九个学生处得到如下数据: 3,2,2,4,2,1,3,1,4 对数据进行分组得到: 1,1 2,2,2 3,3 4,4
(5) 尽量避免诱导性、否定性和敏感性问题。 例:购买盗版制品是不道德的,你是否购买过盗版制品。 您并不认为应该增加反污染法规吧? 您的个人收入是多少?
3.设立问卷答案的注意事项
(1) 对单选问题,备选答案应当是一个空间的完整划分。 A:您对食堂的伙食满意么? (a)非常满意(b)满意(c)不满意 (2) 对单选,备选答案不应当是两个空间(层面)的混淆。
组距的确定 组距=(最大值-最小值)÷组数。 组限的确定 (1)第一组的下限应略低于最小变量值,最后一组的上 限应高于最大变量值。
(2)对于离散型变量,相邻组的上下限可以不重叠;
如:2-4,5-6,7-8
对于连续型变量,相邻两组的上下限应重叠,用“上 限不在内”原则解决不重问题(左闭右开) 如:[2,4)[4,6)[6,8)
频数分布表:将频数分布用表格的形式表现出来
频数分布 品质频数分布:按品质标志分组 变量频数分布:按数量标志分组 1.品质频数分布
表2-5 职工性别的频数分布表
按性别分组 男 女 合计 频数/人数 48 50 98 频率/% 49 51 100
2.变量频数分布
单项式频数分布:每一组只有一个值
组距式频数分布:按组距式分组 1)单项式频数分布
√您对它的服务质量是否满意?
例:您最常用的获取新闻的方式是什么?(只适合单选) 例:×最近您是否浏览过www.stat.com网站?
√今天您是否浏览过www.stat.com网站?
(3) 在问卷中的问题,必须是能够获得诚实回答的问题。 例: 你对本课程的任课教师是否满意?(实名调查) (4) 问题的不同提法,可能导致不同的回答结果。 例:1941年罗格(Rugg)进行的试验: A:您是否认为美国应该禁止反对民主的公开言论? B:您是否认为美国应该允许反对民主的公开议论? 调查结果:A54% “是” B75% “否”
随机原则:调查单位以等可能被抽到,保证代表性 最大抽样效果原则:误差尽量小or调查费用尽可能小。
5.统计报表是按照国家有关法规的规定,自上而下地 逐级提供统计数据的一种调查方式。 特点:是由政府部门组织、采用统一的表格、自上而下 布置、自下而上报告。统计报表是经常性的全面调查。 种类: (1) 调查范围:全面报表、非全面报表 全面报表:要求调查对象每一个单位都填报。 非全面报表:要求调查对象中的部分单位填报。 (2) 内容和实施范围:国家/部门/地方统计报表 (3) 报送周期长短:日报、旬报、月报、季报、半年报、 年报 (4)报送单位不同:基层统计报表、综合统计报表。
1.调查方法的比较; 2. 统计分组的方法; 3.频数分布的编制; 4.组限的表现形式、组距和组中值的计算
?
§2.1 统计数据的收集
统计调查 :按照统计研究的任务,运用科学的 统计调查方法,有计划、有组织地 数据来源 向客观实际搜集资料的过程 科学实验 :在实验中控制实验对象而收集到的
例2.1 某车间50个工人看管机床台数资料如下:
3 6 2 4 3 2 6 4 3 2 4 2 5 2 6 2 3 5 4 3 2 3 6 5 4 2 4 3 2 2 3 5 4 5 6 2 2 6 4 3 2 6 3 4 5 4 5 2 3 5
试对数据进行分组。 解:由于机器台数属于离散型变量,因此使用单项式分 组方法。将原始资料按变量值升序排列,然后将相同变 量值分为一组,最后将资料分成若干组。