调查数据综合分析完整文档
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
调查数据综合分析完整文档(可以直接使用,可编辑完整文档,欢迎下载)
调查数据分析概念
《调查数据分析》张海波主编,中国统计出版社出版。
自学考试以及调查分析师考试指定教材
第一章调查数据分析的基本问题
第二章调查数据的整理
第三章调查数据的描述分析
第四章调查数据的推断分析
第五章调查数据的相关分析
第六章调查数据的回归分析
第七章调查数据的多元统计分析
第八章调查数据的预测分析
第九章调查数据的理论分析
第十章调查分析报告
第一章调查数据分析的基本问题
(一)调查数据分析的意义
1、调查数据分析是根据研究的目的和要求,运用科学的方法和手段,对调查数据进行定性和定量分析,揭示现象的本质和规律,为决策和管理提供咨询服务的过程。
2、调查数据分析是调查研究过程中的一个十分重要的环节。
调查数据分析具有自身的内在规律和特点,
主要表现在以下几个方面:数据分析过程要定性分析和定量分析相结合;数据的定量分析以统计分析方法为主;数据分析不能孤立于被调查研究的现象独立地进行;数据分析过程是一次认识上的质的飞跃。
3、调查数据分析在整个调查研究过程中占有十分重要的地位,其重要性主要表现在以下几个方面:
数据分析是调查研究不可缺少的重要环节;数据分析是充分发挥调查研究作用的重要保证;数据分析在检验调查研究其他环节的工作质量中有着特殊的作用;通过数据分析还可以促进调查数据分析方法的研究。
(二)调查数据分析的原则与方法
1、调查数据分析作为调查研究的一个重要阶段,有其自身的规律和要求。
在进行调查数据分析时,应该遵循的原则主要有:
①.科学性原则。
科学性原则是指在数据分析中,应该根据调查数据的属性和特点,调查数据的来源渠道,调查研究的任务和目的,选择科学合理的分析方法进行分析
②.客观性原则。
客观性原则是指在数据分析中,必须遵守实事求是原则,充分了解研究对象的各种实际情况,尊重调查数据事实,保证分析结果的公正与客观
③.目的性原则。
目的性原则是指数据分析必须围绕调查研究的任务和目的来进行,其分析的结果必须能够满足调查研究的需要;
④.系统性原则。
系统性原则是指数据分析要将所的现象进行分解,然后对各种复杂的联系进行分析和综合。
2、调查数据的分析方法有多种,但从方法论的角度来看,有定性分析方法和定量分析方法两大类。
定性分析方法是人们根据事实,运用经验和判断能力、逻辑思维方法、哲学方法和相关专业理论,对现象进行判断、归纳、推理和概括,得出对事物的本质和规律性的认识的方法体系。
具体包括归纳分析法、演绎分析法、比较分析法、因果分析法、结构与功能分析方法等。
定量分析方法是对调查数据进行数学和统计处理分析的方法体系的总称。
调查数据分析中所运用的定量分析方法主要是统计分析方法。
统计分析方法分为描述统计分析方法和推断统计分析方法。
描述统计分析方法是指对调查数据进行综合整理和计算综合指标等加工处理,用来描述总体特征的统计方法;推断统计分析方法是指根据调查的样本数据去推断总体数量特征的方法。
3、在调查数据分析过程中,应该正确地选择分析方法。
调查数据分析方法的选择,主要是定量分析方法的选择,而定量分析方法主要是统计分析方法。
选择统计分析方法,主要是依据研究假设、调查方式、变量多少、数据类型来确定。
(三)调查数据分析的程序和要求
1、调查数据的分析过程包括分析计划的制订、原始数据的整理、分析方法的选择、数据的定量分析、数据的定性分析、调查报告的撰写等环节。
2、调查数据的分析不是一项简单的工作,也不是一项孤立的工作,要作好这项工作,必须具备一定的条件:1.对调查数据质量的要求。
包括真实性要求、准确性要求和完整性要求;2.对分析方案的完备性要求,即要求在数据分析开始之前,必须充分考虑各方面因素,制订出详细、可行的分析方案;3.对分析人员素质的要求。
要求分析人员具有系统的统计学功底、具有熟练的计算机操作能力、具有广泛的专业理论知识、具有较高的认识水平、具有良好的表达能力。
第二章调查数据的整理
(一)数据整理的概念与作用
1、数据整理,就是根据调查研究的目的与任务,对搜集到的各种数据,采用科学的方法,进行审核汇总与初步加工,使之条理化、系统化,并以图表的方式显示数据特征,以符合数据分析需要的工作过程。
2、其作用有:①数据整理能全面检查数据的质量,保证了数据的有用性;②数据整理是数据分析的基础;③数据整理是积累及保存资料的客观要求。
3、数据整理应遵循以下原则:①真实性原则。
即一方面要认真审核原始数据的真实性,又应注意在整理的各个环节,合理地选择整理方法和技术,保障原始数据的真实性不受损害;②准确性原则;③科学性原则;④目的性原则。
4、数据整理的一般步骤是:①数据的审核;②数据的编码;③数据的分组;④数据的汇总;⑤数据的显示。
(二)编码,是将问卷的问题及答案转化为计算机可以识别的数字或符号。
1、通过编码,方便录入,适宜电脑进行处理。
有事前编码与事后编码。
事前编码是指在设计问卷时就给予每一个变量和可能答案分配代码,适用于封闭性问卷。
事后编码是在数据收集完成以后正式整理开始之初,对调查问题的可能答案所进
行的编码。
对开放型问题,只能采取事后编码的方式。
2、常用的几种编码方法有:
①顺序编码法:是用一个标准对数据进行分类,并按一定的顺序用连续数字或字母进行编码的方式;②分组编码法:是根据调查数据的属性特点和处理要求,将具有一定位数的代码单元分成若干组(或区间),每一个组的数字均代表一定的意义;③信息组码编码法:是把调查数据区分不同的组,给每一个组以一定组码来进行编码的方法;④表义式文字编码法:是用数字符号等表明编码对象属性,并依此方式对调查数据进行编码的方法。
3、编码是一项细致的工作,为方便使用,需要编制统一的编码手册。
编码手册包括四个主要项目,即问题顺序号、每个项目的预留代码位置、项目名称和内容说明。
4、编码时应注意以下问题:①编码符号绝大多数情况下都必须用数字,个别时也可以采用英文字母;②可以对某些数字赋予特殊的意义,便于整理资料时识别;③编码位数应根据具体情况予以确定。
5、编码完成以后,就可进行数据录入。
数据的录入是指将问卷或调查表或登录卡上的编码数字读到磁盘、磁带中,或通过键盘直接输入到计算机的工作过程。
有手工录入和光电录入两种方式。
6、对收集到的数据是否真实可靠,还应进行审核。
一般从准确性、完整性两方面进行。
审核准确性是关键,主要是检查数据是否存在差错,有无异常值。
检查的方法有逻辑检查与计算检查。
审核数据的完整性是检查应调查的个体是否存在遗漏,所要求调查的项目是否齐全,有无缺项等。
对不符合调查要求的数据,则应进行筛选。
筛选有两方面的内容,一是对不符合要求或确认有错误的数据予以剔除,保留可靠性的数据。
二是过滤,将符合某种特定条件的数据选取出来,而不符合条件的数据予以剔除。
7、为合理安排数据,应首先对数据进行排序。
排序是按一定顺序排列数据,便于观察数据的分布范围及特征。
能为重新归类或分组等作准备,方便数据检索。
对分类数据,一般按其英文字母或汉语拼音字母进行升序排列,也可按首个汉字的笔画数目由少到多的顺序排列。
对数值型数据,可采用递增与递减两种方式排列。
递增排序是由小到大排列,递减排序是由大到小排列。
8、分组是将原始数据按照某种标准划分为不同组别,以满足研究的需要。
对数值型数据由各组的表示方法不同分为单变量值分组和组距分组。
单变量值分组中的每一组用一个变量值来表示。
组距分组中每一组用一定变动范围的两个变量值表示。
有等距组距分组和异距组距分组。
组距分组的基本步骤是:①通过排序的数据观察其极大值与极小值,找出变动的总范围;②确定组数。
一组数据分成多少组是分组中首先需要确定的。
通常可根据下列公式计算出建议组数
2lg lg 1N K +=;③确定各
组组距。
组距与组数成反比;④确定组限的表示方法,编制成频数分布表。
9、频数是指落入各类或组中数据的个数,当我们把各组及相应频数按顺序全部加以排列,并用表格的形式表现出来,就是频数分布。
它可以显示数据的分布状况,用于研究事物的内部结构。
将各组频数逐级累加得到的频数,称为累积频数。
10、为更好地表现数据特点。
需要展示数据。
其中图形表现,就是一种有效方法。
常用的统计图有下列几种:①条形图、直方图。
条形图和直方图大都是用来表现频数分布的。
但两者适用的数据类型不同。
条形图是使用等宽条形的长短或高度来表示数据的多少的图形。
直方图是用一定宽度与长度所围成的矩形面积来表示数据大小的图形。
矩形的宽度与高度均有意义。
此外,还可根据累积频数或累积频率,绘制累积频数及累积频率分布图。
②饼型图、环形图。
饼型图及环型图是来描述各种比例的图形。
饼型图是用圆内扇形的面积表示数值大小的图形。
以圆为整体,形象的说明各部分在总体中所占的份额。
环形图是用圆内各环中每一段的面积来表示数值的大小的图形。
能够同时显示多个总体的内部结构。
③茎叶图、箱线图。
对未经分组的数值型数据,适合用茎叶图、箱线图来显示。
茎叶图是由“茎”和“叶”两部分组成,“茎”代表分组,表示高位数值;“叶”代表频数,列示个位数值。
箱线图是用一组数据的五个特征值来描述该组数据的分布状况。
既可显示单组数据,也可显示多组数据。
其五个特征值分别是一组数据的最小值、最大值、中位数、下四分位数、上四分位数。
④线图。
线图,是反映时间序列数据的图形,即在平面坐标上标注各数据点并连接成折线,表现数量变化规律及特点的统计图。
其横轴上列示时间的先后次序,纵轴上列示变量值。
⑤雷达图。
雷达图,反映多个变量多个观察样本数据的图形。
在一个平面上绘有多个数轴,每个轴上显示一个变量的取值,每个样本的各观察值分别在各轴上标出。
11、统计表是表现调查数据的另一个重要形式。
是指将一系列说明现象特性的经加工整理后的调查数据,按一定次序和格式排列形成的专用表格。
其作用不仅能有效表现数据,更有利于资料的贮存保管,还是积累资料的有效手段。
为下一步分析提供基础,为进一步挖掘数据提供便利。
统计表由两端不封口的纵横交错的直线围成各区域。
从外形看,由总标题、行标题、列标题和具体数值及表外附加组成。
从内容看,统计表分为主词与宾词两部分。
主词是指统计表要说明的主体,也即研究的对象,通常是各个总体单位的名称或总体经分类(分组)形成的各个组。
宾词是统计表要说明研究对象的某些方面状况、事实。
根据主词是否分组及分组的状况,可将统计表分为简单表、分组表、复合分组表。
为更好地表现调查数据,就需要精心设计统计表,设计时须注意以下几点:①合理安排表的内容,简明扼要,集中醒目,根据表的内容决定行标题与列标题的摆放位置,确定合适的长宽比例。
②采用适当的排列顺序,置于顶端的总标题要确切,明确表明统计表要反映的内容,时间与空间范围。
各项标题也要简单明了。
③表的上下两条横线要用粗线标出,中间各行一般不画线,有特殊要求需标横线的则用细线。
使观看效果清楚醒目。
④当统计表的栏次较多时,一般会进行编号。
⑤统计表中的数字应填写清楚,排列有序,并采用统一的精确度,按位置对齐。
第三章 调查数据的描述分析
本章讲述的是如何用指标的形式来认识调查数据数量特征的理论和方法。
内容包括相对指标、平均指标和变异程度指标的设计思想、计算方法及运用原则。
调查数据分析中常用的相对指标,有无名数和名数两种表现形式,按功能不同,相对指标分为:结构相对指标、比例相对指标、比较相对指标、动态相对指标及计划完成程度相对指标。
学习时应注意掌握各种相对指标的计算方法。
在计算相对指标时首先应注意分子与分母的可比性,同时还应注意各类指标的应用条件。
在运用相对指标时应遵循相对指标与绝对指标相结合的原则。
平均指标是表明一组数据值一般水平的指标,是一个代表性的数值。
当不计较数据中极端值对均值水平的影响时,平均指标可用数值平均法计算;否则,采用位置平均法计算。
学习时应理解平均的实质,熟练掌握各种平均值的计算方法,要深刻理解权数的意义并明白算术平均是最基本的、使用面最广的平均方法。
此外还应了解算术平均值、调和平均值、几何平均值的关系以及数值平均值与位置平均值的关系。
变异指标是描述一组数据值间具体差异程度大小的统计指标,其数值的大小一方面反映数据值变异程度的大小;另一方面反映均值的代表性好坏。
学习时应熟练掌握各种变异指标的涵义和计算方法,特别是标准差的计算和运用。
第四章 调查数据的推断分析
基本内容概述
本章讲述的是如何用样本数据认识总体数量特征的理论和方法。
内容包括参数估计、参数的假设检验和方差分析的统计思想、计算方法及运用原则。
参数估计是基本统计推断方法之一。
未知参数θ的点估计,就是构造一个统计量()n X X X ,,,ˆ21 θ作为参数θ的估计。
其方法有:矩法、似然函数法和最小二乘法。
评价估计量的优良标准一般有:无偏性、有效性和一致性。
未知参数θ的区间估计,就是在给定的概率()α-1下,估计参数θ的变化范围()()[]n U n L X X X X X X ,,,ˆ,,,,ˆ2121 θθ。
其中:()α-1称为置信水平,U L θθˆ,ˆ分别称为置信下限及置信上限,区间()()[]n U n L X X X X X X ,,,ˆ
,,,,ˆ2121 θθ称为置信水平为()α-1的置信区间。
学习时应注意掌握统计量的抽样分布理论,这是统计推断的基础,重中之重。
要熟练掌握各种情况下参数均值(μ)、方差(2
σ)和成数(P )的区间估计方法。
参数的假设检验是另一类重要的统计推断方法,它利用样本统计量并按一定的决策规则对零假设H 0作出接受或拒绝的推断。
假设检验的依据是样本信息,判断规则是“小概率”原理,推断方法是概率反证法。
学习时应理解假设检验的
统计思想,明白假设检验作出的推断结论(决策)不能保证绝对正确,可能会犯两类错误。
要熟练掌握Z检验法、t检验法、2 检验法和F检验法的原理,记住假设检验的操作过程。
方差分析是多个总体的方差都相等的条件下,其均值是否也全都相等的判断方法,同时也是实验数据中是否存在系统因素影响的判断方法。
学习时应掌握方差分析的统计思想及假定条件,熟练掌握单因素方差分析的操作过程。
第五章调查数据的相关分析
基本内容概述
(一)相关分析概述
在自然界与人类社会中,许多现象之间存在着相互联系、相互制约的关系。
现象之间的关系可以概括为两种不同的类型,即函数关系和相关关系。
函数关系是指现象之间客观存在的、在数量变化上按一定法则严格确定的相互依存关系。
相关关系是指现象之间客观存在的、在数量变化上受随机因素影响的、不确定的相互依存关系。
在相关关系中,现象之间在数量变化上也存在着一定依存关系,但这种依存关系并不是确定的。
由于受随机因素的影响,当某一现象在数量上发生变化时,另一现象并不按某一确定法则发生变化,而是在一定的范围内发生波动。
但通过大量观察,仍然可以发现现象之间具有内在的变化规律。
相关关系与因果关系有着较密切的联系。
在相关关系中,有许多相关现象之间存在单向因果关系。
单向因果关系有直接单向因果关系与间接单向因果关系之分。
在相关关系中,有许多相关现象之间存在双向因果关系。
双向因果关系也有直接双向因果关系和间接双向因果关系。
对双向因果关系的现象进行统计分析时,常常根据分析研究的目的来确定自变量和因变量。
相关关系多种多样。
从相关关系涉及的变量多少看,相关关系可分为单相关与复相关。
单相关是指两个变量之间存在的相关关系。
复相关是指三个及三个以上的因素之间所存在的相关关系。
从相关关系的不同形式来看,相关关系可分为线性相关与非线性相关。
线性相关也称为直线相关,它是指相关的变量中,如果自变量变动时,因变量大致地围绕一条直线发生变动。
非线性相关也称为曲线相关,它是指相关的变量中,如果自变量变动时,因变量大致地围绕一条曲线发生变动。
从相关关系的密切程度来看,相关关系可分为不相关、完全相关和不完全相关三种。
如果各变量彼此的变化相互独立,这种关系为不相关;如果一个变量的变化由另一个变量所唯一确定,这时两个变量之间的关系称为完全相关。
从相关关系的方向来看,相关关系可分为正相关与负相关。
如果相关自变量和因变量的变化方向一致,则自变量和因变量之间就存在着正相关;如果相关的自变量和因变量的变化方向相反,则自变量和因变量之间就存在着负相关。
相关分析是指对变量之间的相关关系的表现形式、密切程度和变化方向进行分析和研究。
相关分析主要内容包括三个方面:确定变量之间有无关系;确定相关关系的表现形式;判断关系的密切程度和方向。
相关分析作为一种认识现象之间数量变化关系的一种方法,它对数据的采集具有一定的要求。
在进行相关分析时,由于条件的限制,在大多数场合下,我们只能根据样本数据进行相关分析。
那么,足够的样本观察点是进行相关分析的重要条件。
对于不同类型的数据,进行相关分析时所选择的方法是不同的。
定性数据中,定类数据一般采用交互列表方法、x2检验方法、品质相关系数分析方法进行分析;定序数据则采用等级相关系数分析方法进行分析。
对于定量数据则采用相关表、相关图、简单相关系数、复相关系数、偏相关系数等进行分析。
(二)定性数据的相关分析
在实际进行的大量社会经济调查中,我们所搜集到的数据许多是定性数据,个别一些数据如收入、年龄等也主要分析它们的层次差异与其他定性变量之间的关联结构关系。
对于定性数据进行相关分析,主要采用交互列表方法、x2检验方法、品质相关系数和等级相关系数分析方法进行分析。
交互列表分析方法是以交互列表(也称为列联表)为工具,同时将两个或两个以上具有有限类目和确定值的变量按照一定顺序对应排列在一张表中,从中分析变量之间的相关关系,得出科学结论的分析技术。
交互列表分析方法有双变量交互列表分析和三变量交互列表分析两种方法。
其中,双变量交互列表分析是最基本的交互列表分析方法。
双变量交互列表分析因为涉及的变量较少,在揭示变量之间的关系时可能不太深入或产生虚假的结果。
为了克服这一缺陷,在许
多场合我们要在双变量交互列表分析的基础上,引入第三个变量作深入分析,即进行所谓的三变量交互列表分析。
三变量交互列表分析法主要有三个方面的作用:(1)更精确地反映原有双变量之间的关系;(2)检验双变量交互列表分析结果的真伪;(3)揭示新的变量关系。
x 2检验分析是运用x 2统计量对定类或定序变量之间是否具有相关关系进行统计检验的分析方法。
x 2检验是对交互列表中变量的相关关系进行检验,是交互列表分析的深入。
所以,在进行x 2检验之前,必须编制出交互列表。
x 2检验分析的基本步骤是:①建立两个变量间无关系的假设;②计算x 2统计量; ③规定显著性水平; ④根据自由度和规定的显著性水平,查x 2分布表,得到临界值;⑤作出统计决策。
x 2检验分析,研究的是两个变量之间是否存在相关关系的问题。
而两个变量之间的相关关系的强弱,还需通过品质相关系数来反映。
常用的品质相关系数是φ系数、v 系数、c 系数和λ系数。
等级相关系数是用来描述两个定序变量即等级序列之间的相关程度的指标。
在等级相关系数中,尤以斯皮尔曼
(C.Spearman )等级相关系数的运用最为普遍。
等级相关系数r s 只是就样本而言的,它所表明的变量之间的相关程度是否在总体范围内显著地存在,还要对r s 进行显著性检验。
(三) 定量数据的相关分析
对于定量数据进行相关分析,常采用的方法是简单相关系数、复相关系数、净相关系数等方法。
简单相关系数是用来测度两个变量之间线性相关程度的统计指标,也叫线性相关系数,一般情况下简称为相关系数。
简单相关系数r 测定的是变量x 和y 之间的线性相关程度。
其取值范围是[-1,1]。
若0≤r ≤1,表明x 与y 之间存在正相关;若-1≤r ≤0,表明x 与y 之间存在负相关;若r =1,表明x 与y 之间存在完全正相关;若r =-1,表明x 与y 之间存在完全负相关;若r =0,说明x 与y 之间不存在线性相关关系。
但要注意,这种判断只在样本范围内有效。
那么,样本相关系数所描述的变量之间的相关程度是否也在总体范围内显著地存在,还必须通过相关系数的显著性检验来回答。
对样本相关系数进行显著性检验的步骤是:①建立假设;②确定显著性水平;③建立检验的统计量;④查t 分布表,得到临界值2t α;⑤作出统计决策。
简单相关系数只能说明两个变量之间的线性相关程度。
然而现象之间的关系往往是多元的、复杂的,一个现象的变动常常要受许多因素的影响,而且这些因素之间还存在相互交错的关系。
如果研究的目的涉及多个变量,需要揭示一个自变量与多个因变量之间的相关关系的程度,就需要计算复相关系数。
复相关系数是反映一个因变量与多个自变量之间数量变化关系密切程度的指标。
复相关系数的具体计算方法依自变量的个数不同而异。
复相关系数总取正值,越接近于1,表明因变量与多个自变量之间的线性关系越显著。
复相关系数揭示了多个自变量同时对一个因变量发生作用时,这个因变量与这些自变量之间的相关程度。
如果相关分析的任务是要揭示对因变量有影响作用的多个自变量中,某一个特定变量与因变量之间数量变化上的相关程度,就需要计算偏相关系数。
偏相关系数是在多变量观测数据中分析两个特定变量之间数量变化关系密切程度的指标。
单纯的相关分析只能揭示变量之间是否存在相关关系,存在何种相关关系,关系的密切程度如何,还不能测度变量之间的数量变动关系。
要分析变量之间的数量变动关系,则要进行回归分析。
第六章 调查数据的回归分析
(一) 一元线性回归分析
回归分析是一种运用十分广泛的统计分析方法。
回归分析按照涉及的自变量的多少,可分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。
如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。
如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。
本章重点介绍线性回归分析。
回归分析的内容和步骤有:(1)确立预测目标和影响因素;(2)绘制散点图;(3)求回归系数,并建立回归模型;
(4)对回归模型进行检验;(5)进行估计和预测。