主成分分析和因子分析应用中值得注意的问题
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.000 0.218 1.000 0.290 0.833 0.138 0.067 - 0.066 0.033
1.000 0.058 1.000 0.051 0.861
1.000
分析 在对 n 个 p( >
2) 维 样 品 进 行 聚 类时, 除了使用正 规的聚类分析方
特大的股票, 会对因子分析的结果产生 法外, 我们有时也试图使用主成分分析
增 加 , 随 着 手 机 、电 脑 的 普 及 , 通 信 费 用 支出也相应有大幅增加; 最后一项是“衣 着”, 除北京、西藏在服装方面支出较大, 其它城市人均支出在此方面的支出远小 于其它项目。这样的排序结果比较符合 我国的国情, 也证明了这种属性重要性 排序方法的正确性。
五 、结 论 属性重要性的测度在数据挖掘预处 理和综合评价中都非常重要。本文提出 的基于因子分析的无监督属性重要性的 测度方法, 通过两次加权达到了通过整 个属性集来考察属性重要性的目的。它 不仅能够对属性的重要性排序, 还能够 将计算结果作为赋权的依据。这种方法 的另一个优点就是能够处理连续属性 值, 并且易于理解, 容易操作, 应用范围 比较广泛。 但需要注意的是, 在使用该方法之 前应该对数据集进行 KMO 检验, KMO 值 低 于 0.6 的 数 据 集 是 不 适 宜 通 过 因 子 分 析来进行属性重要性的排序的。另外, 在 确定个公因子的过程中, 由于累积贡献率 很少会取到 100%, 会损失一部分信息。 ( 作者单位/ 厦门大学经济学院计划统计系)
因子分析。
x5 0.171 0.325 0.539 0.559 1.000
三 、用 作 聚 类
x6 0.149 0.228 0.284 0.274 0.585 x7 0.096 0.177 0.362 0.402 0.776 x8 0.066 0.204 0.455 0.500 0.849 x9 0.748 0.768 0.574 0.567 0.125 x10 0.622 0.619 0.485 0.500 0.002
这个排序结果表明: 对于大多数城 镇居民来说, 住房、教育及医疗保健已成 为家庭负担中的最主要部分; 在饮食方 面, 虽然城市居民家庭饮食支出占消费 总支出的比重持续降低, 但追求饮食的 多样性和营养结构的搭配, 加之许多家 庭和个人在外用餐的次数也越来越多, 使得家庭人均在食品方面的支出仍比较 多; 随着对居住条件要求的提高, 居民家 庭除了进行大规模的室内装修, 还对家 里的家用电器进行添置和更换, 并将一 部分收入用于家政服务, 因此, 家庭设备 用品和服务的支出占据了收入中不小的 份额; 在交通和通信方面, 家庭汽车拥有 量及居民出行的增加带动了相关的支出
个异常值的影响。
法对各样品点进行直观地聚类。尽管仅
如果从表 1 的相关阵出发进行因子 使用两个主成分或因子会使信息有所损
分析, 那么单从表面上看, 因子分析似乎 失, 但样品散点图中却包含着正规的聚
取得了成功, 前三个因子有着较高的( 样 类方法所反映不出的信息, 将这种图形
本) 累计贡献率, 且它们都能得到很好的 聚类方法与正规聚类方法结合起来使用
出发对该例作了因子分析, 并取得了较 算各样品之间的距离, 那就不合适了, 下
好的效果。
面我们针对使用主成分和欧氏距离来说
二 、时 间 序 列 数 据
明这一点。
设 x1,x2, …,xn 是 一 组 p 维 时 间 序 列
设 x1,x2,…,xn 是 n 个 样 品 , 从 样 本 协
数据, 对此种数据进行主成分分析或因 方差阵出发可求得第 j 个样品的第 i 个
表2
由剔除四家后的 604 家上市公司数据计算的样本相关阵
则样本协方差阵 S
x1
x2
x3
x4
x5
x1 1.000
就可用来代替总
x6
x7
x8
x9
x10
体 协 方 差 阵 Σ, 进
x2 0.723 1.000
而可进一步试着
x3 0.427 0.743 1.000
作主成分分析或
x4 0.407 0.697 0.982 1.000
类记作 Ψ1, 其中 , “居 住 ”的 载 荷 最 高 , 其 次 是 “教 育 文 化 娱 乐 服 务 ”; “衣 着 ”单 独
为一类记作 Ψ2。 根据式(3)- (7), 对这 8 个属性进行属
性重要性的计算。表 2 是这 8 个属性重
要性的计算结果。
从表 2 中的计算结果, 得到属性重
要性的排序依次为 “居住”、“食品”、“教
子分析需格外小心, 因为在大多数情况 下 x1, x2,…,xn 彼此间不是独立的, 而是相 关的, 因而不是一个简单随机样本。若 x1,x2…,xn 相 关 , 则 由 x1,x2,…,xn 算 得 的 样 本协方差阵 S 将不是总体协方差阵 Σ
主 成 分 得 分 为 yji=t' ixj, i=1,2, … ,p, j=1,2, … ,n, 于 是 yj=T' xj, 其 中 yj=(yj1,yj2, … ,yjp)' 为 第 j 个 样 品 的 主 成 分 得 分 向 量 , T=(t1, t2,…,tp)为正交矩阵。若取前 m 个主成分 ( 累计贡献率已达到了一个较高的百分
一个容量为 n 的( 简单随机) 样本, 在实
际问题中, μ和 Σ一般都是未知的, 可用
样本分别估计为
n
n
! ! x= 1 n
i
=
1
xi,
s=
1 n- 1
(xi- x)(xi- x)'
i=1
它们都是无偏的。因此, 在实际应用中,
人们一般都是从样本协方差矩阵 S 或样 算所得的样本主成分得分或因子得分画
本相关矩阵 R 出发来进行主成分分析 两两散点图; 直接查看某种计算结果; 等
和因子分析的。
等。下面的例子将告诉我们异常值会对
一 、异 常 值 的 影 响
数据分析的结果产生多么大的影响。
在实际问题中, 我们所遇到的( 特别
例 1. 沪市 608 家上市公司 2001 年
是反映规模的) 总体经常会含有一个取 财务报表中有如下十个主要财务指标:
wk.baidu.com
x4 0.956 0.972 0.997 1.000
x5 0.024 0.044 0.108 0.133 1.000
x6 - 0.018 - 0.008 0.017 0.027 0.585 1.000
x7 0.032 0.041 0.088 0.109 0.776 0.218 1.000
x8 0.016 0.036 0.093 0.118 0.846 0.291 0.831 1.000
TJ YJ C
知识Z丛HIS林HICONGLIN
2007 年 第 6 期( 总 第 239 期 )
和 主成分分析 因子分析应用中值得注意的问题 ■王学民
主成分分析和因子分析方法是对多
元数据进行降维分析的强有力工具, 在
我国已得到了越来越广泛的应用, 并有
着许多成功应用的例子。尽管成功的例
子越来越多, 但误用的例子也有不少, 有
明显的不利影响。表 1 和表 2 分别是根 或因子分析方法进行降维。如果前两个
据 608 家数据和剔除四家后的 604 家数 主成分或因子的累计贡献率达到了一个
据计算出的上述十个财务指标的样本相 较高的百分比, 则可以在由这两个主成
关阵, 可见, 表 1 的结果严重地受到了四 分或因子构成的得分散点图上用目测方
做法是, 删除样本中极个别的异常值, 然 否有异常值, 经过初步的因子分析计算,
后用这稍缩减了一点点的样本对总体中 发现有这样四只股票的第一因子 ( 反映
取值非异常的部分( 几乎占整个总体) 进 行统计推断, 这样往往能使推断的有效 性大为提高。因此, 在作主成分分析和因 子分析时我们一般需首先对原始数据进 行检查, 用适当的方法作异常值的识别。 这些方法可以包括: 对每两个原始变量 作一样本观测值的散点图; 对前几个计
( 责任编辑 /亦 民)
142
统计与决策
TJ YJ C
ZHISHICO知 NGL识IN丛林
2007 年 第 6 期( 总 第 239 期 )
表1
由 608 家上市公司数据计算的样本相关阵
市股票的周五收
x1
x2
x3
x4
x5
x6
x7
x8
x9
x10
x1 1.000
x2 0.993 1.000
x3 0.970 0.983 1.000
值异常的极小部分, 虽然只是极小的一 部分却使得整个总体的变异性较大或很 大。通过( 简单随机) 样本对这样的总体 进行统计推断, 其有效性往往是较低、甚 至很低的, 以致统计推断的结果不太可 靠。针对这种情况, 我们通常采用的一种
主 营 业 务 收 入 ( x1, 元 ) 、主 营 业 务 利 润 ( x2, 元 ) 、利 润 总 额 ( x3, 元 ) 、净 利 润 ( x4, 元 ) 、每 股 收 益 ( x5, 元 ) 、每 股 净 资 产 ( x6, 元 ) 、净 资 产 收 益 率 ( x7, %) 、总 资 产 收 益 率 ( x8, %) 、资 产 总 计 ( x9, 元 ) 、股 本 ( x10) 。 在正式作因子分析之前应先检查一下是
些误用也出现在了公开发表的学术论文
中。这两种方法虽然很有用, 但它们都有
自己的适用场合和需符合的条件, 如果
不注意这些就有可能陷入方法使用的误
区。只有科学合理地使用这些方法才能
取得理想的效果。本文将从四个方面阐
述使用主成分分析和因子分析时需注意
的问题。
设 x1, x2, … , xn 是 来 自 均 值 向 量 为 μ、协 方 差 矩 阵 为 Σ的 某 个 p 维 总 体 的
规模 ) 得 分 ( f^1) 非 常 大 , 它 们 是 : “中 国 石 化”( f^1=23.853) 、“宝钢股份”( f^1=3.239) 、 “华能国际”( f^1=3.032) 和“浦发银行”( f^ 1=2.327) 。 为 了 取 得 较 好 的 因 子 分 析 结 果, 应剔除这四只( 规模) 因子得分异常 的 股 票 , 尤 其 是 “中 国 石 化 ”为 一 个 规 模
育 文 化 娱 乐 服 务 ”、“医 疗 保 健 ”、“家 庭 设
表 2 8 个属性的重要性程度的计算结果
属性
属性的重要性程度
食品
0.0917
衣着
0.0569
家庭设备用品及服务
0.0878
医疗保健
0.0885
交通和通信
0.0872
教育文化娱乐服务
0.0900
居住
0.0975
杂项和其它
0.0824
备 用 品 及 服 务 ”、“交 通 和 通 信 ”、“杂 项 和 其 它 ”以 及 “衣 着 ”。
11.144%, 累 计 贡 献 率 为 85.687%, 提 取 前 2 个因子的特征向量建立因子载荷 阵, 作正交旋转, 表 1 为正交旋转后的因 子载荷阵。
表 1 正交旋转后的因子载荷阵
Component
12
食品
0.878 0.201
衣着
0.176 0.973
家庭设备用品及服务 0.888 0.308
医疗保健
0.784 0.286
交通和通信
0.865 0.333
教育文化娱乐服务 0.916 0.224
居住
0.937 0.003
杂项和其它
0.780 0.500
数 据 来 源 : 中 国 统 计 年 鉴 2005, 中 国统计出版社
从表 1 的分析结果可知, 8 个属性
被 分 为 两 类 : 除 “衣 着 ”以 外 的 属 性 为 一
符合实际意义的解释。但实际上这个因 将会很有益处。聚类分析中使用主成分
子分析结果是有问题的, 原因就在于未 分析或因子分析方法的目的就是为了作
剔除这四个异常值而计算出的样本相关 图( 当取两个主成分或因子时) 或看单个
阵是很不稳定的, 不能有效地估计总体 数值的大小 ( 当取一个主成分或因子
相关阵。我曾在另文中从表 2 的相关阵 时) , 如果将主成分( 或因子) 得分用来计
x9 0.905 0.899 0.917 0.911 0.041 - 0.013 0.040 0.009 1.000
x10 0.989 0.990 0.975 0.964 0.001 - 0.051 0.024 0.016 0.911 1.000
盘价进行主成分 分析和因子分析。
( 2) 将 ( 1) 中 的周五收盘价改 为 周 回 报 率 ( =( 本 周五收盘价上周 五 收 盘 价 ) /上 周 五收盘价), 如果 数据 x1,x2, …,xn 表 现为独立分布的,