管理研究方法论第五章数据分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1、多变量关联表分析(细化分析)
1.1研究原因 为了充分解释某种现象,管理研究一般会面临两个以上 变量,假设检验中也要处理多个变量,因此多变量分析 就变的很是必要。 1.2定义:就是引入第三个变量,按此变量的属性来分 析考察自变量和因变量之间的关系。 零级表:反映自变量和因变量关系的表称为零级表, “零”意味着未引入另外的控制变量。引入控制变量后 得出各种细分表,如只有一个控制变量此细分表为一级 细分表,一级细分表的数量和控制变量的属性值有关, 每个属性值相应有一个细分表,相当于控制变量的某个 属性进行一次试验的结果。
②定序数据
全序:如果每个分析对象都 有单独的序号,没有重复的情况,则称为 全序。 偏序:一般情况下并非对每 个分析对象都能排定单独的序次,而是若 干分析对象都归结为某个序次,或者说出 现重复序号,这种数列称为偏序。
2、定距和定比变量的关联分析
(1)回归分析(Regression analysis)通过一个变 量或一些变量的变化解释另一变量的变化。 主要内容和步骤:首先依据经济学理论并且通过对问题 的分析判断,将变量分为自变量和因变量,一般情况下, 自变量表示原因,因变量表示结果;其次,设法找出合 适的数学方程式(即回归模型)描述变量间的关系;接 着要估计模型的参数,得出样本回归方程;由于涉及到 的变量具有不确定性,接着还要对回归模型进行统计检 验,计量经济学检验、预测检验;当所有检验通过后, 就可以应用回归模型了。 y=a+bx
回归方程可用来计算任何x值情况下y的观测 值,以及每次观测中y的观测值和预测值之差, 即残差。 多元回归分析的内容和功能与一元回归分析 完全一样,只是回归方程中包含两个或更多的自 变量,回归系数表示方程中其他自变量受控的情 况下一个自变量与因变量的关联。多元回归分析 是较为完善且普遍应用的描述多变量关联的技术, 从多元回归方程可以检验自变量和因变量关联的 统计显著性,一个多元回归方程对于因变量总偏 差的解释程度与一元回归方程类似,但是多元回 归方程并不能反映出各个自变量的相对重要性。
用一元回归分析年 龄(自变量)和工 作绩效(因变量) 之间的关系,得出 方程和残差
注:残差项说明因变量不能由自变量来解释的那部分偏差
偏相关系数
表示控制变量的影响消除后因变量可解释偏差 部分,此系数平方后便是可解释偏差在因变量 总偏差中所占的比例。
Z为控制变量,x,y为自变量和因变量
(2)多元回归分析
wenku.baidu.com
一、单变量描述统计 单变量描述统计描述某个变量属性值的集中 趋势、离散趋势及分布 1、集中趋势分析 常用指标: (1)众数:观测数据中出现频率最高的 属性值。 (2)中位数:将变量数据一分为二的变 量值。中位数适合描述定序尺度的数据集中趋 势有时也能描述定比和定距的集中趋势。 (3)平均数:观测值的总和除以观测次 数。定距和定比尺度下运用最多。特点是稳定, 精准,多次抽样平均趋于接近。
正态分布与有关的分布
statistics)
◆定义1 设连续型随机变量X的密度函数为
称X服从正态分布,记作X~N(μ, σ2). 其中μ,σ均为常数,-∞< μ <+∞, σ >0.
◆当μ=0,
σ2=1时,我们称X服从标准正态分布,
即X ~N(0, 1).
标准正态分布的密度和分布函数分别为:
◆定理 1
例1: 欲分析个人受教育水平和工作绩效之间的关联, 两者的关联又受年龄影响。(如下图)
建立回归方程
第二步 第一步
用第三个回归方程 来分析第一个回归 方程和第二个回归 方程残差之间的关 联,得出相关系数 即 偏相关系数
第三步
用一元回归分析年 龄(自变量)和教 育水平(因变量) 之间的关系,得出 方程和残差
2、离散趋势分析 常用指标: (1)极差 (2)四分互差 (3)标准差
3、频数和频率分布 频数分布:描述变量观测值中各属性值 出现的次数。 频率分布:频数分布/个案总数 比如:一个班级男生50人,女生25人,若以性 别作为变量,这就是最简单的频数分布。 频率分布则为男生67%,女生33%。
二、双变量描述统计 双变量描述统计分析两个变量间的 关联
管理研究方法论
第五章 数据分析
数据分析包括描述统计和推断统计 推断统计是在描述统计的基础上检验研究 假设
本章目录
§1 描述统计 §2 推论统计 §3 结构方程建模 §4 评估研究 §5 理论研究
§1 描述统计
描述统计:用数学语言表述一组样本的特征 或者样本各变量间关联的特征,用来概括 和解释样本数据. 描述统计可分为三类:单变量、双变量、 多变量
★ 自变量和因变量之间存在关联并非表明 自变量就是因,因变量就是果,因果辨析一 般属于实证研究之后机理分析的内容。 数据分析的主要内容主要围绕变量间关 联的存在性、趋向和形式、强度和统计显著 性四个方面。描述统计已涉及到存在性、趋 向和形式的内容,推论统计则主要回答统计 显著性问题。
§2 推论统计(inferential
多变量关联分析法 利VS弊
利
适用于控 制变量属性值 为离散型的情 况 对于定序、 定类尺度,是 唯一适用的方 法
VS
弊
变量数增 加,细分表级 数增多,模型 复杂 每个控制 组的样本数据 减少,影响准 确性
2、偏相关分析和多元回归
(1)偏相关分析
定义:在消除第三个变量的影响后,自变量 和因变量的关联程度。
(四)原因事件的辨识 (三要点)
1 事件的变异性
在进行细分分析之前,“变异性”准则可帮助研究者辨析何者 应作为原因事件的自变量,何者作为控制变量。至于变异性的分 析,要审视事件发生的情境。如判断火灾原因,可能是电路短路 原因,然而还会有易燃品、报警灭火系统也会形成火灾。通常把 变异最明显的因素作为原因事件,即电器短路视为火灾原因。
1 分析步骤
2 确认型和探索型因子分析
主成分分析和公共因子分析两种抽取因子的方法不同引发了两 者功能的差异。公共因子分析法用来挖掘潜在的影响所有原来变 量的新变量,研究者事先并无任何关于变量和因子间关联的假设。 主成分因子分析,由于因子反映变量间最优线性组合,有可能事 先提出假设,设定一组变量与某个因子或因子与因子之间存在强 关联,然后去检验他们之间的负荷系数。所以,主成分分析用于 确认型因子分析。
1、定类和定序变量的关联分析 (1)关联表
关联表 以表格的形式显示两变量各种属性值组合的频数和频率。
定序变量频率关联表
(2)变量关联的度量 ①定类数据:管理研究中,许多变量属性 值属于定类尺度,如性别、行业、职业等。 最适合的关联度指标是λ,表示误差降低额 占总体误差的比例.
λ=600/900=0.67
(2)相关分析(correlation analysis):相关分析是研究现 象之间是否存在某种依存关系,并对具体有依存关系的现 象探讨其相关方向以及相关程度。 回归分析和相关分析的差别主要是: 1、在回归分析中,y被称为因变量,处在被解释的特殊 地位,而在相关分析中,x与y处于平等的地位,即研究x 与y的密切程度和研究y与x的密切程度是一致的;
●样本统计值是否能代表总体参数值,怎样才能代表参数值, 这正是推论统计解决问题的出发点。 ●统计值和参数值两者的关系可以通过“抽样分布” (sampling distribution)这个概念连通起来。统计值的分布 情况就是抽样分布。 ●统计推论可分为参数估计(parameter estimation)和假 设检验。
从统计学而言,理论上,一切认识的对象均可被量化。而 其量化的方法则无外乎四种--定量、定比、定序、定类。 1、定类尺度:也称类别尺度或名义尺度,是将调查对象 分类,标以各种名称,并确定其类别的方法。它实质上是 一种分类体系。 2、定序尺度:也称等级尺度或顺序尺度,是按照某种逻 辑顺序将调查对象排列出高低或大小,确定其等级及次序 的一种尺度。 3、定距尺度:也称等距尺度或区间尺度,是一种不仅能 将变量(社会现象)区分类别和等级,而且可以确定变量 之间的数量差别和间隔距离的方法。 4、定比尺度:也称比例尺度或等比尺度,是一种除有上 述三种尺度的全部性质之外,还有测量不同变量(社会现 象)之间的比例或比率关系的方法。
◆定义2
设X~N(0,1),Y~ (n),且X与Y
相互独立,记
则T服从自由度为n的t分布,又称为学生 (student)分布,记作T~t(n)
◆定理3 布,记
设X1,X2,…,Xn独立,同N(μ,σ2)分
◆定理4 设X1,X2,…,Xn独立,同N(μ1,σ2) 分布,Y1,Y2,…Ym独立,同N(μ2,σ2)分布, 且它们相互独立,记
则当μ1=μ2时 T~t(n+m-2).
◆定义
设 X~
,Y~
,
X与Y独立,则称随机变量
服从自由度为(n1,n2)的F分布,记作F~F(n1,n2)
一、抽样分析
●样本统计值(sample statistics):描述样本分布情况的特 性值。
●总体参数值(population parameter):描述总体分布情况 的特性值。
3、因子分析 定义:因子分析是一类降维的相关分析技术,用来考察一组变量
之间的协方差或相关系数结构,并用以解释这些变量与为数较少 的因子之间的关联。因子分析的结果体现在将原来的一组变量聚 类并浓缩成较少的称为因子的新变量,而这些因子能涵盖原来变 量的主要特征。 第一步是构造一个相关矩阵,在参数标注化情况下,此相关 矩阵(即协方差)反映所研究变量间的关联性。 第二步是在相关矩阵的基础上抽取新变量(即因子),提取 因子是因子分析的主要内容。最常用的有主成分分析法和共同因 子分析法。
假设中的自变量和因变量之间有无关联?
这种关联的趋向和形式如何?
这种关联的强度如何?
这种关联是否是因果?
★ 自变量的属性值变化引起因变量的属性值变 化,说明两变量间存在关联。 ★ 关联强度的判断则是指观测值中有多大比例 的因变量属性值可以从自变量的属性值来解释。
★ 统计技术用统计显著性来检验所观测到的关 联是随机性的还是系统性的原因。
2、相关分析中,x与y都是随机变量,而在回归分析中, y是随机变量,x可以是随机变量,也可以是非随机的,通 常在回归模型中,总是假定x是非随机的; 3、相关分析的研究主要是两个变量之间的密切程度,而 回归分析不仅可以揭示x对y的影响大小,还可以由回归方 程进行数量上的预测和控制。
三、多变量描述统计
2 时序性
如果存在因果关系,自变量必须发生在因变量之前。实证研究属 于序惯性研究,跟踪事件发生的全过程,事件的时序性应该很清 楚。例如,通过经济效益指标来考核企业的绩效这并没有错,但 凭这些指标的好坏来推断该企业管理者管理有方或管理不善,将 经济效益指标看成是“自变量”,管理者的管理水平是“因变 量”,这就违反了时序性原则。
引入控制变量后可能的四种结果:
第一种无效应。一级细分表和零级细分表的结果相同 或相似,这意味着引入的控制变量和自变量及因变量都无 关联。 第二种干预效应。从时序关系来看,自变量对因变量 产生作用的过程中,或者先通过控制变量,或者同时受控 制变量的作用而产生影响。此时控制变量在受控的情况下, 零级表和一级细分表所反映的自、因变量间的关联强度应 该保持一致。 第三种掩盖效应。零级表显示的并非自变量和因变量 两者直接存在的关联强度,而是控制变量z对x和y作用的 结果。 第四种抑制效应。控制变量z对x和y产生影响,同时x、 y也直接相关。
3 呼应性
呼应性指与自变量、因变量关联的事件发生在特定的空间范围之 内。自变量和因变量之间如存在因果关系,必然存在相关关系。
§2 推论统计
一、抽样分析 二、参数估计 三、假设检验的基本概念 四、t检验 五、F检验 六、 检验 七、示例
管理研究和社会研究绝大部分都采用 样本研究,从较大的研究对象总体中抽样 收集数据。最终目的是从样本来判断样本 所在的总体的特性。 统计推断是一套有清晰逻辑程序的统 计计算,对于从样本观测值得出的发现 (findings),作出是否适用于总体的判断。 发现亦即研究的结果,这些结果不外乎以 下几个方面的内容:
设 X~N(μ, σ2),则
(X-μ)/σ~ N(0,1).
◆定义 设X1,X2,…,Xn为相互独立的随机 变量,它们都服从标准正态N(0,1)分布,则称 随机变量
服从自由度为n的
分布,记作Y~
(n).
◆定理 2 分布,记
设X1,X2,…,Xn独立,同N(μ,σ2)
则(1)
( 3)
与S2 相互独立.