调查资料的数据统计分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
市场调查与预测
第七章 调查资料的数据统计分析
第七章 调查资料的数据统计分析
第一节 数据统计分析的概述 第二节 单变量数据统计分析 第三节 双变量统计分析 第四节 多变量统计分析
第一节 数据统计分析的概述
所谓数据统计分析,就是在数学科学基础上运 用各种方法对事物数量特征进行分析,进而揭 示出事物的特征及其规律性的分析方法。
判别分析的原理
判别分析是一种对事物进行归类的方法。判 别分析是在已知研究对象分为若干类型(或 组),并已经取得各种类型的样本观测数据 基础上,根据某些准则建立起尽可能把属于 不同类型的数据区分开来的判别函数,然后 用它们来判别未知类型的样品应该属于哪一 类。
判别分析过程包括五个基本步骤: 第一步,明确研究目标,确定判别变量与
第二,估计或预测某一调查总体中各具体单 位的数值。
第三,可以用来进行两组数据间的比较,以 判断一组数据与另一组数据的数值差别。
第四,可以用来分析社会现象之间的依存关系。
3.反映数据中心趋势的常用指标
(1)平均值:平均值是总体中各单位数值之和除以标志值
项数得到的数值。 x xi / n
四、因子分析
因子分析是把多个变量转化为少数几个综合 变量的多元分析方法。被描述的变量是可以 观测的显变量,而综合变量是不可观测的潜 变量。因子分析的基本思想是,将观测变量 分类,将相关性较高的即联系比较紧密的变 量放在同一类中,每一类的变量实际上隐含 着一个综合变量;而不同类的变量之间则相 关性较弱,即各个综合变量之间是不相关的。
比较相对指标=
某地区(单位)的指标数值 另一地区(单位)的同一指标数值
3.比例相对指标
为了掌握社会经济现象总体内各组成部分 之间数量的联系程度,需要把不同的部分进 行对比。
比例相对指标=
总体中某一部分数值 总体中另一部分数值
4.强度相对指标
强度相对指标是指有密切联系的两种性质 不同的总量值之比,它反映现象的强度、密 度和普通程度。强度相对指标是一种特殊的 相对数,一般采用复名数单位表示。
2.数据统计分析的要求
第一,数据统计分析应与前面几个环节结合起来。 第二,数据统计分析必须和定性分析结合起来。 第三,数据统计分析必须和严肃认真的工作态度相
结合。 第四,数据统计分析必须与调查目的相结合。
第二节 单变量数据统计分析
一、描述性统计分析 描述性统计分析是市场调查资料分析中最常见
预测或解释的能力。测量的程度不同,使用的分析方法也不同。 (3)多变量统计分析 多变量统计分析是统计方法的一种,包含了许多的方法,最基本
的为单变量,再延伸出来的多变量分析。当统计资料中有多个变 量(或称因素、指标)同时存在时所采用的统计分析,是统计学 的重要分支,是单变量统计的发展。
(二)数据统计分析的步骤
自变量,对问题进行界定。
第二步,估计判别函数系数。 第三步,判别函数的显著性检验。 第四步,对判别系数进行解释。 第五步,结果的验证。
三、聚类分析
聚类分析是一种建立分类的多元统计分析方 法,又称群分析、类分析或归类分析,是指 依据某种准则或其诸多特征,按照在性质上 的亲疏程度在没有先验知识的情况下对个体 (样品或变量)进行自动分类的一种多元统计 分析方法。
(3)中位数:中位数是总体中各单位按其在某一标 志上数值的大小顺序排列时,居于中间位置的 变量值。在某些情况下,用中位数反映现象的 一般水平比算术平均数更具有代表性,尤其对 于两极分化严重的数据。
(4)调和平均数
调和平均数又称倒数平均数,是指各变量值 倒数的算术平均数的倒数。一般用符号 X H
n
强度相对指标=
某一总量指标数值 另一性质相同的总量指标数值
二、推断性分析
推断性统计分析分为两大类: (1)参数估计。 所谓参数的估计,就是根据一个随机样本的统
计值来估计总体之参数值是多少。包括点估计 和区间估计
(2)假设检验。 它是首先假设总体的情况,然后以一个随机样
本的统计值来检验这个假设是否正确。即要先 构思总体情况,才进行抽样和分析样本的资料。
X H
1
xi
公式中 xi 代表各单位的数值, n代表样本的个
数。调和平均数是集中趋势的测度值之一,
是平均数的另一种表现形式,适合用于定比
数据的分析,同样也容易受到极端值的影响。返回
(5)几何平均数
几何平均数是指n个变量值乘积的n次方根, 一般用符号X G 表示,适用于对比率数据的平 均,主要用于计算平均增长率与平均发展速
(三)数据的相对分析
市场调查分析中常用的相对指标,主要有结 构相对指标、比较相对指标、比例相对指标 和强度相对指标等四种。
1.结构相对指标
结构相对指标=
总体中部分数值 总体全部数值
100%
2.比较相对指标
比较相对指标可以反映同类现象在同一时间、 不同空间的差别程度,一般用倍数或百分数 表示。
1.明确数据统计分析的目的。 2.统计资料的整理工作。 3.确定变量类型选用统计方法。 4Байду номын сангаас计算统计值。 5.统计推论。
三、数据统计分析的作用和要求
1.数据统计分析的作用 (1)有利于提供一种简洁、清晰、明确化的语言,使调查研究人员
能够进行科学的定量分析。任何事物总是具有质和量两种特性。 (2)有利于我们驾驭大量调查资料,方便了数据资料的显示、储存
和比较。 (3)有利于我们认识复杂的社会现象,找出其中内在的联系及其规
律性。 (4)有利于我们较为准确地预测社会现象的发展变化趋势。它不仅
能预测某一社会现象将要发生什么变化,而且能估计出这种预测 本身有多大的可靠性。 (5)经常地运用统计分析,对调查研究人员本身思维方法和调查研 究态度也有很大的影响,有助于调查人员避免“先入为主”的片 面性,培养思维上和行动上的严密性和准确性。
=
(X X )
n
5.离散系数
上述的各种标志变异度指标,都是对总体中 各单位指标值变异测定的绝对量指标。
常用的离散系数主要是标准差离散系数。其
公式:
X
100%
6.频率
在数学中的频率是指在相同的条件下,进 行了n次试验,在这n次试验中,事件A发生 的次数n(A)称为事件A发生的频数。比值 n(A)/n称为事件A发生的频率,并记为 fn(A).
三、交叉表分析
交叉表是一种以表格的形式同时描述两个或 多个变量以及结果的统计方法,反映了变量 的联合分布。交叉表分析的变量必须是离散 变量。在进行市场研究过程中,我们可以通 过简单的描述性分析解决很多的数据分析问 题。
第四节 多变量统计分析
一、多元相关分析 多元相关分析主要用于描述两个以上变量之
3.平均差 平均差是总体各单位标志值与其算术平均数离差绝对值
的算术平均数。平均差与平均数代表性的关系,与极差 基本一致。
平均差= X X N
4.方差与标准差
这两个指标均是反映总体中所有单位标志值对平均数 的离差关系,是测定数据离散程度最重要的指标,其 数值的大小与平均数代表性的大小呈反方向变化。标 准差计算公式为:
的定量统计分析方法,主要用于描述和评价调 查对象的数量特征和规律。 (一)数据的中心趋势分析 1. 数据中心趋势分析的定义 数据中心趋势分析,是对调查总体的特征进行 准确描述的重要前提。中心趋势是指数据分布 趋向集中于一个分布的中心。
2.中心趋势值的意义
第一,说明在一定条件下某一社会现象数量的 一般水平。
表7-1数据的四种计量尺度及其适用统计方法的比较
2.按涉及的变量多少分为单变量、双变量 和多变量统计分析
(1)单变量统计分析 即通过对某一变量数据进行计算分析,对其数量水平或其他特征
进行概括,或对总体进行推断。 (2)双变量统计分析 双变量分析目标是确定两个变量之间的相关性,测量它们之间的
因子分析的基本步骤
1.明确研究的问题 2.考察相关矩阵 3.选择抽取因子的方法 4.确定因子的个数 5.旋转因子 6.评价模型的拟合效果 7.解释因子和命名
第三节 双变量统计分析
一、相关分析 相关关系是指一个变量与另一个变量之间存
在着非严格的、不确定的依存关系。
其计算公式为
rxy
( Xi X )(Yi Y ) ( X i X )2 (Yi Y )2
二、方差分析
方差分析用于两个及两个以上样本均数差别 的显著性检验。其目的是通过数据分析找出 对该事物有显著影响的因素,各因素之间的 交互作用,以及显著影响因素的最佳水平等。
一、数据统计分析的特点 (一)数量化 (二)客观性 (三)系统性分析 (四)方法与工具 (五)科学性
二、数据统计分析的类型和步骤
(一)数据统计分析的类型 1.按照统计学的主要功能来划分,数据统
计分析分为描述统计分析和推断统计分析。 (1)描述统计分析 (2)推断统计分析
度。
计算公式为
n
X G n x1x2...xn n xi i 1
(二)数据的离散程度分析
1.全距 全距(也称极差)是数据中的两个极端值的差。一般来说,全距
越大,值的代表性越小。 2.极差 又称全距,是指变量数列中最大变量值与最小变量值之差,一
般用符号R表示。 其计算公式为: 极差=最大标志值—最小标志值 根据组距数列求极差的计算公式为: 极差=最高组上限—最低组下限 根据极差的大小能说明标志值变动范围的大小。
间的相关程度。偏相关系数是指在控制其他 变量的条件下,得出的两个变量之间的相关 性指标。
二、多元判别分析
判别分析是判别样本所属类型的一种多元统 计方法,是费舍(R.A.Fisher)在1936年 提出的。在生产、科研与日常生活中都经常 用到。例如,在市场调查研究中,市场调研 人员可以根据调查数据,判断产品是畅销、 一般还是滞销。
如果等差或等比量表数据是以组、群或层的形式出现的,
那么可以用下面的公式计算其平均值: x
1 n
k i1
fi xi
式中,x 为样本在某一特性上的平均值,n为样本单位数,
fi 为第i组、群或层中的样本单位数,xi 为第i组、群或层
内平均值,k为组、群或层数。
返回
(2)众数:众数是总体中各单位在某一标志上出现 次数最多的变量值,也是测定数据集中趋势的 一种方法。它克服了平均数指标会受到数据中 极值影响的缺陷。
第七章 调查资料的数据统计分析
第七章 调查资料的数据统计分析
第一节 数据统计分析的概述 第二节 单变量数据统计分析 第三节 双变量统计分析 第四节 多变量统计分析
第一节 数据统计分析的概述
所谓数据统计分析,就是在数学科学基础上运 用各种方法对事物数量特征进行分析,进而揭 示出事物的特征及其规律性的分析方法。
判别分析的原理
判别分析是一种对事物进行归类的方法。判 别分析是在已知研究对象分为若干类型(或 组),并已经取得各种类型的样本观测数据 基础上,根据某些准则建立起尽可能把属于 不同类型的数据区分开来的判别函数,然后 用它们来判别未知类型的样品应该属于哪一 类。
判别分析过程包括五个基本步骤: 第一步,明确研究目标,确定判别变量与
第二,估计或预测某一调查总体中各具体单 位的数值。
第三,可以用来进行两组数据间的比较,以 判断一组数据与另一组数据的数值差别。
第四,可以用来分析社会现象之间的依存关系。
3.反映数据中心趋势的常用指标
(1)平均值:平均值是总体中各单位数值之和除以标志值
项数得到的数值。 x xi / n
四、因子分析
因子分析是把多个变量转化为少数几个综合 变量的多元分析方法。被描述的变量是可以 观测的显变量,而综合变量是不可观测的潜 变量。因子分析的基本思想是,将观测变量 分类,将相关性较高的即联系比较紧密的变 量放在同一类中,每一类的变量实际上隐含 着一个综合变量;而不同类的变量之间则相 关性较弱,即各个综合变量之间是不相关的。
比较相对指标=
某地区(单位)的指标数值 另一地区(单位)的同一指标数值
3.比例相对指标
为了掌握社会经济现象总体内各组成部分 之间数量的联系程度,需要把不同的部分进 行对比。
比例相对指标=
总体中某一部分数值 总体中另一部分数值
4.强度相对指标
强度相对指标是指有密切联系的两种性质 不同的总量值之比,它反映现象的强度、密 度和普通程度。强度相对指标是一种特殊的 相对数,一般采用复名数单位表示。
2.数据统计分析的要求
第一,数据统计分析应与前面几个环节结合起来。 第二,数据统计分析必须和定性分析结合起来。 第三,数据统计分析必须和严肃认真的工作态度相
结合。 第四,数据统计分析必须与调查目的相结合。
第二节 单变量数据统计分析
一、描述性统计分析 描述性统计分析是市场调查资料分析中最常见
预测或解释的能力。测量的程度不同,使用的分析方法也不同。 (3)多变量统计分析 多变量统计分析是统计方法的一种,包含了许多的方法,最基本
的为单变量,再延伸出来的多变量分析。当统计资料中有多个变 量(或称因素、指标)同时存在时所采用的统计分析,是统计学 的重要分支,是单变量统计的发展。
(二)数据统计分析的步骤
自变量,对问题进行界定。
第二步,估计判别函数系数。 第三步,判别函数的显著性检验。 第四步,对判别系数进行解释。 第五步,结果的验证。
三、聚类分析
聚类分析是一种建立分类的多元统计分析方 法,又称群分析、类分析或归类分析,是指 依据某种准则或其诸多特征,按照在性质上 的亲疏程度在没有先验知识的情况下对个体 (样品或变量)进行自动分类的一种多元统计 分析方法。
(3)中位数:中位数是总体中各单位按其在某一标 志上数值的大小顺序排列时,居于中间位置的 变量值。在某些情况下,用中位数反映现象的 一般水平比算术平均数更具有代表性,尤其对 于两极分化严重的数据。
(4)调和平均数
调和平均数又称倒数平均数,是指各变量值 倒数的算术平均数的倒数。一般用符号 X H
n
强度相对指标=
某一总量指标数值 另一性质相同的总量指标数值
二、推断性分析
推断性统计分析分为两大类: (1)参数估计。 所谓参数的估计,就是根据一个随机样本的统
计值来估计总体之参数值是多少。包括点估计 和区间估计
(2)假设检验。 它是首先假设总体的情况,然后以一个随机样
本的统计值来检验这个假设是否正确。即要先 构思总体情况,才进行抽样和分析样本的资料。
X H
1
xi
公式中 xi 代表各单位的数值, n代表样本的个
数。调和平均数是集中趋势的测度值之一,
是平均数的另一种表现形式,适合用于定比
数据的分析,同样也容易受到极端值的影响。返回
(5)几何平均数
几何平均数是指n个变量值乘积的n次方根, 一般用符号X G 表示,适用于对比率数据的平 均,主要用于计算平均增长率与平均发展速
(三)数据的相对分析
市场调查分析中常用的相对指标,主要有结 构相对指标、比较相对指标、比例相对指标 和强度相对指标等四种。
1.结构相对指标
结构相对指标=
总体中部分数值 总体全部数值
100%
2.比较相对指标
比较相对指标可以反映同类现象在同一时间、 不同空间的差别程度,一般用倍数或百分数 表示。
1.明确数据统计分析的目的。 2.统计资料的整理工作。 3.确定变量类型选用统计方法。 4Байду номын сангаас计算统计值。 5.统计推论。
三、数据统计分析的作用和要求
1.数据统计分析的作用 (1)有利于提供一种简洁、清晰、明确化的语言,使调查研究人员
能够进行科学的定量分析。任何事物总是具有质和量两种特性。 (2)有利于我们驾驭大量调查资料,方便了数据资料的显示、储存
和比较。 (3)有利于我们认识复杂的社会现象,找出其中内在的联系及其规
律性。 (4)有利于我们较为准确地预测社会现象的发展变化趋势。它不仅
能预测某一社会现象将要发生什么变化,而且能估计出这种预测 本身有多大的可靠性。 (5)经常地运用统计分析,对调查研究人员本身思维方法和调查研 究态度也有很大的影响,有助于调查人员避免“先入为主”的片 面性,培养思维上和行动上的严密性和准确性。
=
(X X )
n
5.离散系数
上述的各种标志变异度指标,都是对总体中 各单位指标值变异测定的绝对量指标。
常用的离散系数主要是标准差离散系数。其
公式:
X
100%
6.频率
在数学中的频率是指在相同的条件下,进 行了n次试验,在这n次试验中,事件A发生 的次数n(A)称为事件A发生的频数。比值 n(A)/n称为事件A发生的频率,并记为 fn(A).
三、交叉表分析
交叉表是一种以表格的形式同时描述两个或 多个变量以及结果的统计方法,反映了变量 的联合分布。交叉表分析的变量必须是离散 变量。在进行市场研究过程中,我们可以通 过简单的描述性分析解决很多的数据分析问 题。
第四节 多变量统计分析
一、多元相关分析 多元相关分析主要用于描述两个以上变量之
3.平均差 平均差是总体各单位标志值与其算术平均数离差绝对值
的算术平均数。平均差与平均数代表性的关系,与极差 基本一致。
平均差= X X N
4.方差与标准差
这两个指标均是反映总体中所有单位标志值对平均数 的离差关系,是测定数据离散程度最重要的指标,其 数值的大小与平均数代表性的大小呈反方向变化。标 准差计算公式为:
的定量统计分析方法,主要用于描述和评价调 查对象的数量特征和规律。 (一)数据的中心趋势分析 1. 数据中心趋势分析的定义 数据中心趋势分析,是对调查总体的特征进行 准确描述的重要前提。中心趋势是指数据分布 趋向集中于一个分布的中心。
2.中心趋势值的意义
第一,说明在一定条件下某一社会现象数量的 一般水平。
表7-1数据的四种计量尺度及其适用统计方法的比较
2.按涉及的变量多少分为单变量、双变量 和多变量统计分析
(1)单变量统计分析 即通过对某一变量数据进行计算分析,对其数量水平或其他特征
进行概括,或对总体进行推断。 (2)双变量统计分析 双变量分析目标是确定两个变量之间的相关性,测量它们之间的
因子分析的基本步骤
1.明确研究的问题 2.考察相关矩阵 3.选择抽取因子的方法 4.确定因子的个数 5.旋转因子 6.评价模型的拟合效果 7.解释因子和命名
第三节 双变量统计分析
一、相关分析 相关关系是指一个变量与另一个变量之间存
在着非严格的、不确定的依存关系。
其计算公式为
rxy
( Xi X )(Yi Y ) ( X i X )2 (Yi Y )2
二、方差分析
方差分析用于两个及两个以上样本均数差别 的显著性检验。其目的是通过数据分析找出 对该事物有显著影响的因素,各因素之间的 交互作用,以及显著影响因素的最佳水平等。
一、数据统计分析的特点 (一)数量化 (二)客观性 (三)系统性分析 (四)方法与工具 (五)科学性
二、数据统计分析的类型和步骤
(一)数据统计分析的类型 1.按照统计学的主要功能来划分,数据统
计分析分为描述统计分析和推断统计分析。 (1)描述统计分析 (2)推断统计分析
度。
计算公式为
n
X G n x1x2...xn n xi i 1
(二)数据的离散程度分析
1.全距 全距(也称极差)是数据中的两个极端值的差。一般来说,全距
越大,值的代表性越小。 2.极差 又称全距,是指变量数列中最大变量值与最小变量值之差,一
般用符号R表示。 其计算公式为: 极差=最大标志值—最小标志值 根据组距数列求极差的计算公式为: 极差=最高组上限—最低组下限 根据极差的大小能说明标志值变动范围的大小。
间的相关程度。偏相关系数是指在控制其他 变量的条件下,得出的两个变量之间的相关 性指标。
二、多元判别分析
判别分析是判别样本所属类型的一种多元统 计方法,是费舍(R.A.Fisher)在1936年 提出的。在生产、科研与日常生活中都经常 用到。例如,在市场调查研究中,市场调研 人员可以根据调查数据,判断产品是畅销、 一般还是滞销。
如果等差或等比量表数据是以组、群或层的形式出现的,
那么可以用下面的公式计算其平均值: x
1 n
k i1
fi xi
式中,x 为样本在某一特性上的平均值,n为样本单位数,
fi 为第i组、群或层中的样本单位数,xi 为第i组、群或层
内平均值,k为组、群或层数。
返回
(2)众数:众数是总体中各单位在某一标志上出现 次数最多的变量值,也是测定数据集中趋势的 一种方法。它克服了平均数指标会受到数据中 极值影响的缺陷。