高级统计方法简介
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
偏关联检验、自动筛选、参数估计、Z值、置信区间、观测频 数、期望频数、残差)
管理学院
3.8 典型相关分析
主要功能:两组变量之间的相关分析
注意事项:
它描述的是两个变量组之间的整体的相关形式; 要求两组变量之间为线性关系,即每对典型变量之 间为线性关系;每个典型变量与本组所有观测变量 的关系也是线性关系。如果不是线性关系,可先线 性化(如取对数);所有观测变量为定量数据,定 性数据按照一定形式设为虚拟变量后也可放入典型 相关模型中进行分析
高级统计方法简介
管理学院
汇报提纲
数据的分类 统计方法的分类体系 各种统计方法简介 推荐书目
管理学院
1 数据的分类
定类变量(名义数据) 定序变量(等级数据)
非测量型
定距变量(间距数据)
测量型
定比变量(比例数据)
管理学院
2 统计方法的分类体系
A:截面数据
因果模型 因变量数? 多重因 果关系 有否潜变量? 有 无 多因变量 因变量类型? 测量型 非测量型 单因变量 因变量类型? 测量型 非测量型
管理学院
3.3 对应分析
主要功能:揭示定性/非测量变量之间的联系
基本步骤:
对定性/非测量型变量进行交叉汇总,得到对应分析 要求的汇总表(注意检查Crosstabs中是否有频数为 零的单元格) 运行程序(AnalyseData reduction correspondence) 检查运行结果和各种统计图,看是否已反映变量关系; 若否,调整参数重新运行 解释分析结果
数/鉴别负载;鉴别力指数/方差百分比、残余鉴别力—— Wilk’S lambda;Fisher鉴别系数)
管理学院
Байду номын сангаас
3.7 对数线性模型
主要功能:通过数学方法来描述多个分类变量的交
互频数分布;可以在控制其他变量的情况下研究任意 两个变量之间的关联
注意事项:
对数线性模型包括三类分析程序:分层模型分析 (从饱和模型入手得到简约模型)、一般模型分析(检验 简约模型能否准确拟合观测数据并推断总体)和logit 模型 分析(直接服务于分类变量之间的因果关系) 运用不同的模型,变量设置、项目设置均不同,能 够提供的功能类型也不同(整体检验、分层检验、单项
管理学院
3.11 结构方程模型
主要功能:确定多个变量之间的因果关系是否 存在或因果关系强弱程度
基本步骤:
模型设定(应根据理论或以往研究成果设定初始模型) 模型识别(判定模型能否求出参数估计的唯一解:数据点的
数目不能少于自由参数的数目)
模型估计(最大似然估计、广义最小二乘估计) 模型评价(GFI、AGFI、NFI、NNFI、IFI、CFI、RMSEA) 模型修正 软件:LISRELAMOS
管理学院
3.5 Logistic回归
主要功能:分析一个定性因变量与多个自变量 之间的关系
注意事项:
因变量是非测量型二值变量;若自变量为非测量型, 也需设置虚拟变量 重点是回归模型的各项检验(整体检验——对数似 然比的卡方检验;回归系数的检验——Wald统计量 的卡方检验;系数子集的联合假设检验——对数似 然比的卡方检验) 难点:回归系数的解释(以logit p方程的线性表达 式来解释;以发生比的指数表达式解释√)
管理学院
3.14 其他一些连续时间模型
指数模型
Gompertz模型 Weibull模型
常被称为单纯模型,因为它假设事件发生的概率为常数
lnh(t) b0 b1 x1 b2 x2
lnh(t) b0 b1 x1 b2 x2 b3t
lnh(t) b0 b1 x1 b2 x2 b3 ln t
管理学院
3.10 路径分析
主要功能:确定多个变量之间的因果关系是否 存在或因果关系强弱程度
注意事项:
实质内容就是计算路径系数(=标准回归系数,可通过 回归分析得到)、残值项路径系数(=根号下1-R^2,通
过回归分析得到的R^2手工计算)
更重要的功用是通过对变量间的简单相关系数进行 分解(=直接效应+间接效应+虚假相关+未析部分),从而 获得变量间相互作用的更深刻认知 路径分析的检验是通过回归分析中对标准回归系数 的T检验实现的
管理学院
3.4 多元线性回归
主要功能:分析一个测量型因变量与多个自变 量之间的线性关系 注意事项:
因变量必须是测量型随机变量 若自变量为非测量型,则需设置虚拟变量 重点是回归模型的各项检验(整体线性拟合度检 验——方差分析+判定系数R^2;回归系数的检验—— T检验;多重共线性的检验——容忍度和方差膨胀系 数;残差项异方差检验和自相关检验) 难点:多重共线性、异方差和自相关的诊断和排除
管理学院
4 推荐书目
郭志刚、社会统计分析方法——spss软 件应用、中国人民大学出版社、1999 翁定军、社会定量研究的数据处理——原 理与方法、上海大学出版社、2002 薛薇、统计分析与SPSS的应用、中国人 民大学出版社、2001 朱顺泉、管理科学研究方法——统计与运 筹优化应用、清华大学出版社、2007
管理学院
3.13 Cox比例风险模型
主要功能:研究连续时间单位下的某一事件的 发生与否及其决定因素 注意事项:
lnh(t) a(t ) b1 x1 b2 x2
首先要对原始数据进行预处理,建立人年 (person year)数据文件 然后利用“分析——生存——Cox regeression” 进行分析 例:已婚妇女初育间隔、学历、结婚年龄
关系类型?
相依模型 变量类型? 测量型 非测量型
关系结构类型? 类别结构 变量之间 案例之间 聚类 分析 对应 分析
自变量类型? 多元回归 自变量类型? 虚拟变量典 结构方 路径 因子 测量型 非测量型 型相关分析 程模型 分析 分析 测量型 非测量型 Logistic 鉴别 对数线 回归 分析 性模型 典型相 多元方 关分析 差分析
管理学院
管理学院
3.2 聚类分析
主要功能:对研究对象进行分类
基本步骤:
选择变量(注意克服“加入尽可能多的变量”的倾 向;所选变量之间不应高度相关) 计算相似性(相关测度——pearson相关系数;距 离测度——欧式距离**、绝对值距离、明科夫斯基 距离、马氏距离;关联测度*——简单匹配系数、雅 克比系数、果瓦系数) 聚类(层次聚类——聚集法、分解法;迭代聚类/快 速聚类) 聚类结果的解释与证实
随机变量t服从Gompertz分布
b3被限制为必须大于1
加速失效时间模型 lnT b0 b1 x1 b2 x2 u
随机扰动u有四种分布:正态分布、logistic分布、极 端值分布、对数伽玛分布,故T得分布也有四种
管理学院
事件史模型的选择
如果研究者认为研究方案中的时间单位最好按离散方 式描述,就采用离散时间logit模型 对于连续时间模型,如果可以认为风险函数是随时间 单调变化的,可以考虑选用Weibull模型或Gompertz 模型;若果认为风险函数不是单调变化的,可以考虑 对数正态、对数logistic或Cox比例风险模型
管理学院
3.9 多元方差分析
主要功能:同时分析和检验不同类别在多个测 量型变量上是否存在显著差别 注意事项:
因变量有多个且必须是测量型变量,自变量是非测 量型变量 因变量应为正态分布且方差相等,而且需要存在一 定程度的线性相关 例:Income、EduRatio、Natinality、Rural可构 建单因素二元模型、双因素二元饱和模型、双因素 二元非饱和模型
管理学院
3.6 鉴别分析
主要功能:进行统计鉴别和分组(根据一些已经
分组的已知案例建立鉴别函数,然后根据鉴别函数对 所有案例重新分组)
注意事项:
因变量是非测量型的分组变量;自变量是用以分组 的特征变量称为鉴别变量 重点掌握鉴别分析模型即鉴别函数的各参数指标及 统计检验(非标准化鉴别系数、标准化鉴别系数;结构系
管理学院
3.12 离散时间Logit模型
主要功能:研究离散时间单位下的某一事件的 发生与否及其决定因素 注意事项:
P(t ) ln a(t ) b1 x1 b2 x2 (t ) 1 P(t )
首先要对原始数据进行预处理,建立人年(person year)数据文件 然后运用Logistic回归模型分析 例:晋升否、进入公司时间长短、进入前有否工作 经验、性别
管理学院
2 统计方法的分类体系
B:时间序列数据
离散时间模型 Logit 模型
事件史分析 连续时间模型
Cox比例风险模型 指数模型 Gompertz模型
Weibull模型 加速失效时间模型
事件历史分析的主要目的是研究某一事件发生的方式和它的决定因素。
管理学院
3.1 因子分析
主要功能:缩减变量数(降维)
基本步骤:
计算所有变量相关矩阵,判别是否适合因子分析 (相关矩阵大部分相关系数大于0.3适合;反映像 相关矩阵很多元素值较大不适合;Bartlett test of sphericity显著;KMO0.7以上) 提取公共因子(常用主成分分析法) 因子旋转(便于为公共因子命名,常用Varimax) 一种重要用法:评价