高级统计方法简介
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3.3 对应分析
• 主要功能:揭示定性/非测量变量之间的联系
• 基本步骤: – 对定性/非测量型变量进行交叉汇总,得到对 应分析要求的汇总表(注意检查Crosstabs中 是否有频数为零的单元格) – 运行程序(AnalyseData reduction correspondence) – 检查运行结果和各种统计图,看是否已反映 变量关系;若否,调整参数重新运行 – 解释分析结果
3.5 Logistic回归
• 主要功能:分析一个定性因变量与多个自变量 之间的关系
• 注意事项: – 因变量是非测量型二值变量;若自变量为非 测量型,也需设置虚拟变量 – 重点是回归模型的各项检验(整体检验—— 对数似然比的卡方检验;回归系数的检验— —Wald统计量的卡方检验;系数子集的联 合假设检验——对数似然比的卡方检验) – 难点:回归系数的解释(以logit p方程的线 性表达式来解释;以发生比的指数表达式解
3.10 路径分析
• 主要功能:确定多个变量之间的因果关系是否 存在或因果关系强弱程度
• 注意事项: – 实质内容就是计算路径系数(=标准回归系数,可 通过回归分析得到)、残值项路径系数(=根号下1-
R^2,通过回归分析得到的R^2手工计算)
– 更重要的功用是通过对变量间的简单相关系 数进行分解(=直接效应+间接效应+虚假相关+未析部分 ),从而获得变量间相互作用的更深刻认知
3.2 聚类分析
• 主要功能:对研究对象进行分类
• 基本步骤: – 选择变量(注意克服“加入尽可能多的变量 ”的倾向;所选变量之间不应高度相关) – 计算相似性(相关测度——pearson相关系 数;距离测度——欧式距离**、绝对值距离 、明科夫斯基距离、马氏距离;关联测度*— —简单匹配系数、雅克比系数、果瓦系数) – 聚类(层次聚类——聚集法、分解法;迭代 聚类/快速聚类) – 聚类结果的解释与证实
层检验、单项偏关联检验、自动筛选、参数估计、Z值、置信 区间、观测频数、期望频数、残差)
3.8 典型相关分析
• 主要功能:两组变量之间的相关分析
• 注意事项: – 它描述的是两个变量组之间的整体的相关形 式; – 要求两组变量之间为线性关系,即每对典型 变量之间为线性关系;每个典型变量与本组 所有观测变量的关系也是线性关系。如果不 是线性关系,可先线性化(如取对数);所 有观测变量为定量数据,定性数据按照一定 形式设为虚拟变量后也可放入典型相关模型
测量型 非测量型
Logistic 鉴别 对数线
典型相 多元方
回归
分析 性模型
关分析 差分析
2 统计方法的分类体系
B:时间序列数据
离散时间模型
Logit 模型
事件史分析 连续时间模型
Cox比例风险模型 指数模型 Gompertz模型 Weibull模型 加速失效时间模型
事件历史分析的主要目的是研究某一事件发生的方式和它的决定因素。
3.9 多元方差分析
• 主要功能:同时分析和检验不同类别在多个测 量型变量上是否存在显著差别
• 注意事项: – 因变量有多个且必须是测量型变量,自变量 是非测量型变量 – 因变量应为正态分布且方差相等,而且需要 存在一定程度的线性相关 – 例:Income、EduRatio、Natinality、Rural 可构建单因素二元模型、双因素二元饱和模 型、双因素二元非饱和模型
3.4 多元线性回归
• 主要功能:分析一个测量型因变量与多个自变 量之间的线性关系
• 注意事项: – 因变量必须是测量型随机变量 – 若自变量为非测量型,则需设置虚拟变量 – 重点是回归模型的各项检验(整体线性拟合 度检验——方差分析+判定系数R^2;回归系数 的检验——T检验;多重共线性的检验——容 忍度和方差膨胀系数;残差项异方差检验和 自相关检验) – 难点:多重共线性、异方差和自相关的诊断
相依模型 变量类型?
多重因 果关系 有否潜变量?
多因变量 因变量类型?
单因变量 因变量类型?
测量型 非测量型 关系结构类型?类别结构
测量型 非测量型 测量型 非测量型
有
无
变量之间 案例之间
自变量类型?
多元回归 自变量类型?
结构方 路径 程模型 分析
虚拟变量典 型相关分析
测量型 非测量型 因子 聚类 对应 分析 分析 分析
高级统计方法简介
汇报提纲
• 数据的分类 • 统计方法的分类体系 • 各种统计方法简介 • 推荐书目
1 数据的分类
– 定类变量(名义数据) 非测量型
– 定序变量(等级数据) – 定距变量(间距数据) 测量型 – 定比变量(比例数据)
2 统计方法的分类体系
A:截面数据
关系类型?
因果模型 因变量数?
3.6 鉴别分析
• 主要功能:进行统计鉴别和分组(根据一些已经
分组的已知案例建立鉴别函数,然后根据鉴别函数对 所有案例重新分组)
• 注意事项: – 因变量是非测量型的分组变量;自变量是用 以分组的特征变量称为鉴别变量 – 重点掌握鉴别分析模型即鉴别函数的各参数 指标及统计检验(非标准化鉴别系数、标准化鉴别系
数;结构系数/鉴别负载;鉴别力指数/方差百分比、残余鉴别 力——Wilk’S lambda;Fisher鉴别系数)
3.7 对数线性模型
• 主要功能:通过数学方法来描述多个分类变量的交
互频数分布;可以在控制其他变量的情况下研究任意 两个变量之间的关联
• 注意事项: – 对数线性模型包括三类分析程序:分层模型 分析(从饱和模型入手得到简约模型)、一般模型分 析(检验简约模型能否准确拟合观测数据并推断总体)和 logit 模型分析(直接服务于分类变量之间的因果关系) – 运用不同的模型,变量设置、项目设置均不 同,能够提供的功能类型也不同(整体检验、分
3.1 因子分析
• 主要功能:缩减变量数(降维)
• 基本步骤: – 计算所有变量相关矩阵,判别是否适合因子分 析(相关矩阵大部分相关系数大于0.3适合;反 映像相关矩阵很多元素值较大不适合;Bartlett test of sphericity显Байду номын сангаас;KMO0.7以上) – 提取公共因子(常用主成分分析法) – 因子旋转(便于为公共因子命名,常用 Varimax) – 一种重要用法:评价