因子分析 PPT课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
之因子分析
SPSS软件
• 因子分析(Factor Analysis)是多元统计 分析中处理降维问题的一种重要方法。变 量的共线性很多是都对分析结果具有显著 的影响。所谓降维,就是独钓共线性,剩 下的,或者合并的都是线性无关的,或者 正交的,或者垂直的。
一、什么是主成分分析和因子分析?
• 主成分分析(Principal Components Analysis)也是多元统计分析中简化数据 结构(降维问题)的一种重要方法。简化 数据结构是指将某些较复杂的数据结构通 过变量变换等方法使相互依赖的变量变成 互不相关的;或把高维空间的数据投影到 低维空间,使问题得到简化而损失的信息 又不太多。
• 因子分析是主成分分析的推广和发展。它 是通过研究相关阵或协方差阵的内部关系, 它将多个变量综合为少数几个因子,以再 现原始变量与因子之间的相关关系。在多 元统计分析中,目前很多人将主成分分析 看做因子分析提取公因子的一种方法。 SPSS软件中也是这么处理的。
• 具体来说,主成分分析的基本目标是从尽 可能多的地占有原始矩阵的总变差出发来 构造少数线性组合变量;而因子分析的基 本目标在于研究原始变量的内部关系,通 过寻找众多变量的共同因素来化简和分析 变量中存在的复杂关系。
• 换句话说,因子分析把每个原始变量分解 为两部分因素,一部分是由所有变量共同 具有的少数几个因子构成的,即所谓公共 因素部分,另一部分是每个变量独自具有 的因素,即所谓独特因素部分或单一因素 部分。所以因子分析注意的是因子分解的 具体形式,而不注意各自的变差贡献大小。
• 把学生的语文、数学、物理、化学和外语 的成绩分别看作一个变量,那么大家都会 想象到这些变量必定受一些共同因素影响。 比如全面智力,或者细分一点,逻辑思维 能力、形象思维能力和记忆力就是影响这 些功课成绩的主要因素或公共因素。另外, 每门功课成绩还可能受自己特点的因素影 响,如语文的写作能力,化学的动手实验 能力等。
• 请利用因子分析过程分析各个城市的实证 设施建设情况。
设 X ( X1 , X 2 ,
E( F ) 0 , Cov( F ) I m (即 F 的各分量方差为 1,且互不相关) 。又设 (1, 2 , , p ) 与 F 互不相关,且
2 E ( ) 0 , Cov( ) diag(12 ,2 , 2 , p )。
• 因子分析的基本目的是,用少数几个因子 去描述许多变量之间的关系。被描述的变 量是可以观测的随机变量,即显在变量。 而这些因子是不可观测的潜在变量。
• 在社会科学、经济科学、管理科学、心理 学、行为科学、教育学等领域中,许多基 本特征例如“态度”、“认识”、“爱 好”、“能力”、“智力”等等实际上是 不可能直接观测的,我们把它们看成是潜 在变量。而对人的测量例如“教育水平”、 “收看电视频度”、“是否喜欢某种节 目”、“考试成绩”、“平均收入”等等 是显在的,可以观测的。对人的测量可以 看成是一些潜在变量(不可观测的基本特 征)的表现。
• 再如在医学上,测得若干人的5个生理指标: 血压的收缩压、舒张压、心脏间隔、呼吸 间隔和舌下温度,由生理学知道这5个变量 是受植物神经支配的,植物神经又分为交感 神经和副交感神经,所以这两个因素应是 前面5个变量的主要因素或公共因素。 • 而主要因素不可测。
• 因子分析问题的一个特点是,虽然这些公 共因素和独特因素是客观存在的,但是又 不能直接被测量到。这种分析方法最早是 由心理学家提出来的,并且用于心理测验 和分析上。
其中: ei ei 1(i 1, 2,
, p) , Y1 是一切 Yi eiX 中方差最大者, Y 2 是一切
Yi eiX 中方差次大者,……, Yp 是一切 Yi eiX 中方差最小者; Y1 、
Y 2 、…、 Yp 互不相关。
ຫໍສະໝຸດ Baidu、因子分析模型
, X p ) 是 可 观 测 的 随 机 向 量 , 其 协 方 差 阵 为 Cov( X ) ;且设 F ( F1, F2 , , Fm )(m p) 是不可观测的随机变量,
同时假定随机向量 X 满足以下模型: X 1 a11F1 a12 F2 a1m Fm 1 X a F a F a F 2 12 1 22 2 2m m 2 X p a p1 F1 a p 2 F2 a pm Fm P 则称模型(3.1)为正交因子模型。
• 因子分析正是利用这些潜在变量或本质因 子(基本特征)去解释可观测的变量的一 种工具。
二、主成分分析模型
设 X ( X1 , X 2 ,
, X p ) 是 p 维随机向量,它的主成分为:
X e11 X 1 e21 X 2 e p1 X p Y1 e1 X e12 X 1 e22 X 2 e p 2 X p Y2 e2 Y e X e X e X e X p 1p 1 2p 2 pp p p
• 英国统计学家斯格特(M.Scott)在1961 年对157个英国城镇发展水平进行调查时, 原始测量的变量有57个。而通过主成分分 析发现,只需5个新的综合变量(它们是原 变量的线性组合),就可以以95%的精度 表示原始数据的变异情况。这样,对问题 的研究一下子从57维降到5维。可以想象, 在5维空间对系统进行任何分析,都比在57 维中更加快捷、有效。
案例1
• 中国统计年鉴,2005,各地区城市市政设施数据。 变量有: • City—城市名称; • X1—年末实有道路长度(公里); • X2—年末实有道路面积(万平方公里); • X3—城市桥梁(座); • X4—城市排水管道长度(公里); • X5—城市污水日处理能力(万立方米); • X6—城市路灯(盏);
SPSS软件
• 因子分析(Factor Analysis)是多元统计 分析中处理降维问题的一种重要方法。变 量的共线性很多是都对分析结果具有显著 的影响。所谓降维,就是独钓共线性,剩 下的,或者合并的都是线性无关的,或者 正交的,或者垂直的。
一、什么是主成分分析和因子分析?
• 主成分分析(Principal Components Analysis)也是多元统计分析中简化数据 结构(降维问题)的一种重要方法。简化 数据结构是指将某些较复杂的数据结构通 过变量变换等方法使相互依赖的变量变成 互不相关的;或把高维空间的数据投影到 低维空间,使问题得到简化而损失的信息 又不太多。
• 因子分析是主成分分析的推广和发展。它 是通过研究相关阵或协方差阵的内部关系, 它将多个变量综合为少数几个因子,以再 现原始变量与因子之间的相关关系。在多 元统计分析中,目前很多人将主成分分析 看做因子分析提取公因子的一种方法。 SPSS软件中也是这么处理的。
• 具体来说,主成分分析的基本目标是从尽 可能多的地占有原始矩阵的总变差出发来 构造少数线性组合变量;而因子分析的基 本目标在于研究原始变量的内部关系,通 过寻找众多变量的共同因素来化简和分析 变量中存在的复杂关系。
• 换句话说,因子分析把每个原始变量分解 为两部分因素,一部分是由所有变量共同 具有的少数几个因子构成的,即所谓公共 因素部分,另一部分是每个变量独自具有 的因素,即所谓独特因素部分或单一因素 部分。所以因子分析注意的是因子分解的 具体形式,而不注意各自的变差贡献大小。
• 把学生的语文、数学、物理、化学和外语 的成绩分别看作一个变量,那么大家都会 想象到这些变量必定受一些共同因素影响。 比如全面智力,或者细分一点,逻辑思维 能力、形象思维能力和记忆力就是影响这 些功课成绩的主要因素或公共因素。另外, 每门功课成绩还可能受自己特点的因素影 响,如语文的写作能力,化学的动手实验 能力等。
• 请利用因子分析过程分析各个城市的实证 设施建设情况。
设 X ( X1 , X 2 ,
E( F ) 0 , Cov( F ) I m (即 F 的各分量方差为 1,且互不相关) 。又设 (1, 2 , , p ) 与 F 互不相关,且
2 E ( ) 0 , Cov( ) diag(12 ,2 , 2 , p )。
• 因子分析的基本目的是,用少数几个因子 去描述许多变量之间的关系。被描述的变 量是可以观测的随机变量,即显在变量。 而这些因子是不可观测的潜在变量。
• 在社会科学、经济科学、管理科学、心理 学、行为科学、教育学等领域中,许多基 本特征例如“态度”、“认识”、“爱 好”、“能力”、“智力”等等实际上是 不可能直接观测的,我们把它们看成是潜 在变量。而对人的测量例如“教育水平”、 “收看电视频度”、“是否喜欢某种节 目”、“考试成绩”、“平均收入”等等 是显在的,可以观测的。对人的测量可以 看成是一些潜在变量(不可观测的基本特 征)的表现。
• 再如在医学上,测得若干人的5个生理指标: 血压的收缩压、舒张压、心脏间隔、呼吸 间隔和舌下温度,由生理学知道这5个变量 是受植物神经支配的,植物神经又分为交感 神经和副交感神经,所以这两个因素应是 前面5个变量的主要因素或公共因素。 • 而主要因素不可测。
• 因子分析问题的一个特点是,虽然这些公 共因素和独特因素是客观存在的,但是又 不能直接被测量到。这种分析方法最早是 由心理学家提出来的,并且用于心理测验 和分析上。
其中: ei ei 1(i 1, 2,
, p) , Y1 是一切 Yi eiX 中方差最大者, Y 2 是一切
Yi eiX 中方差次大者,……, Yp 是一切 Yi eiX 中方差最小者; Y1 、
Y 2 、…、 Yp 互不相关。
ຫໍສະໝຸດ Baidu、因子分析模型
, X p ) 是 可 观 测 的 随 机 向 量 , 其 协 方 差 阵 为 Cov( X ) ;且设 F ( F1, F2 , , Fm )(m p) 是不可观测的随机变量,
同时假定随机向量 X 满足以下模型: X 1 a11F1 a12 F2 a1m Fm 1 X a F a F a F 2 12 1 22 2 2m m 2 X p a p1 F1 a p 2 F2 a pm Fm P 则称模型(3.1)为正交因子模型。
• 因子分析正是利用这些潜在变量或本质因 子(基本特征)去解释可观测的变量的一 种工具。
二、主成分分析模型
设 X ( X1 , X 2 ,
, X p ) 是 p 维随机向量,它的主成分为:
X e11 X 1 e21 X 2 e p1 X p Y1 e1 X e12 X 1 e22 X 2 e p 2 X p Y2 e2 Y e X e X e X e X p 1p 1 2p 2 pp p p
• 英国统计学家斯格特(M.Scott)在1961 年对157个英国城镇发展水平进行调查时, 原始测量的变量有57个。而通过主成分分 析发现,只需5个新的综合变量(它们是原 变量的线性组合),就可以以95%的精度 表示原始数据的变异情况。这样,对问题 的研究一下子从57维降到5维。可以想象, 在5维空间对系统进行任何分析,都比在57 维中更加快捷、有效。
案例1
• 中国统计年鉴,2005,各地区城市市政设施数据。 变量有: • City—城市名称; • X1—年末实有道路长度(公里); • X2—年末实有道路面积(万平方公里); • X3—城市桥梁(座); • X4—城市排水管道长度(公里); • X5—城市污水日处理能力(万立方米); • X6—城市路灯(盏);