因子分析在市场调研中的应用

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

因子分析在市场调研中的应用
市场调研过程中，研究人员经常需要面对大批量的数据，这些数据不但数据量大，涉及的变量众多，而且变量间往往存在一定的有关性，为分析咨询题带来了一定的难度。

因此，如何正确有效的处理这些多变量大样本的数据，既是研究人员感爱好的一个咨询题，也是研究人员需要具备的一种能力。

在这方面，因子分析有着较为广泛的应用。

因子分析是一种要紧用于数据化简和降维的多元统计分析方法。

在面对诸多具有内在有关性的变量时，因子分析试图使用少数几个随机变量来描述这许多变量所体现的一种差不多结构，从而将数据降至一个能够把握的水平（a manageable level）。

这既便于咨询题的分析，易于抓住咨询题的本质所在，同时也为后续的统计分析奠定了基础。

一、因子分析的数理统计背景
从数理统计的角度来看，因子分析的差不多目的是，用少数几个随机变量去描述许多变量之间的协方差关系。

与多元回来不同的是，那个地点的少数几个随机变量是不可观测的，通常称之为因子。

本质上，因子分析基于如此的思想：按照有关性的大小将变量分组，使得同组内的变量之间有关性较高，但不同组的变量有关性较低。

由此，能够认为，每组变量代表一个差不多结构（因子），它们能够反映咨询题的一个方面，或者讲一个维度。

因子模型假定观测到的每一个随机变量Xi线性的依靠于少数几个不可观测的随机变量F1，F2,，…Fm（通常称为公共因子，common factor）和一个附加的方差源ei（通常称为专门因子或误差，unique factor），即：
（1）
其中，lij为第i个变量在第j个因子上的载荷，称为因子负载（factor l oad）。

通常对随机变量Fj和ei进行如下假定：
（1.1）
（1.2）
（1.3）
即：（1）各公共因子的均值为0，方差为1，且因子之间不有关；
（2）各误差的均值为0，具有不等方差，且误差之间不有关；
（3）公共因子和误差间相互独立。

满足（1）式及假设（1.1）—（1.3）的因子模型通常称之为正交因子模型。

这也是因子模型中应用最为广泛的一类模型。

除此之外，还有斜交因子模型，即各因子间存在有关，这种模型在寻求因子讲明方面存在一定优势，但由于有关性的存在降低了其应用价值，在实际应用并不多见。

统计中，常常将变量间的一种有关关系看作为一种“信息”。

因子分析正是基于变量间的方差-协方差矩阵（有关-协有关矩阵，对标准化的随机变量而言二者是一致的）的一种分析方法，它期望利用公共因子来尽可能的讲明变量间的这种关系。

在正交因子模型中，我们具有如下的协方差结构：
（2.1）
（2.2）
（2.3）
即：（1）可测变量Xi的方差可由该变量在m个公共因子上的负载平方和（第i个共同度，communality）和专门因子的方差（专门度，spe ciality）表出；
（2）可测变量Xi、Xj间的协方差可由可测变量在所有公共因子上的负载的对应乘积之和给出；
（3）可测变量和公共因子之间的协方差即为因子负载。

上述的协方差结构（2.1）—（2.3）为我们分析因子模型的适合度、选择和评判公共因子等方面提供了依据。

二、如何进行因子分析
统计软件，如SPSS等的广泛应用使因子分析的实际运算过程相当简易，然而对研究人员而言，明白一种分析方法的意义往往比知晓其运算过程更为重要。

一个完整的因子分析过程应当包含如下方面：
1、咨询题的定义（problem of formulation）
这包括定义一个因子分析的咨询题并确定实施因子分析的变量。

应用统计分析方法的关键往往并不在于方法本身，而在于对合适的咨询题选择合适的方法。

因子分析适用的场合往往是一些多变量大样本的情形，研究者的目的则在于寻求这些具有内在有关性的变量背后的一种差不多结构。

包含在因子分析中的变量应当依据过去的体会、理论或者研究者自己的判定而被选择。

但专门重要的一点是，这些变量必须具备区间或者比率测度等级。

在样本大小方面，粗略而言，进行因子分析的样本容量至少应是因子分析所涉及变量数目的４—５倍。

２、运算并检验协方差（有关）矩阵（construction&test of correlation matrix）
如前所述，因子分析基于变量间的协方差矩阵。

换言之，包含在因子分析中的变量必须具有一定的有关性，如果变量间不存在有关，或者有关性专门小，那么因子分析将不是一种合适的分析方法。

实际中，变量间的有关性往往是存在的，然而否达到适合进行因子分析的程度呢？除了直观的判定外，所幸的是还存在一些客观的检验方法。

巴特利特球体检验（Bartlett’s test of sphericity）能够用来检验变量间是否存在有关。

它是一种建立在协方差阵是单位阵（即变量间不有关）的假设基础之上的检验。

一个大的检验值通常意味着检验结果的明显性，因此能够拒绝原假设，能够进行因子分析，否则应该慎重考虑。

另一个有用的方法是KMO测度（Kaiser-Meyer-Olkin measure of sampl ing adequacy），它比较了观测到的变量间的有关系数和偏有关系数的大小。

一个大的KMO测度值同样支持我们进行因子分析。

一样而言，KMO 测度〉0.5意味着因子分析能够进行，而在0.7以上则是令人中意的值。

3、选择因子分析的方法（method of factor analysis）
主成分分析法（principal component analysis）和公因子分析法（comm on factor analysis）是两种要紧的查找公因子的方法。

前者要紧考虑变量的全部方差，而后者则着重考虑共同方法。

因此，主成分分析法使用直截了当由数据运算出的协方差阵，而公因子分析法则先将运算出的协方差阵的
对角线元素替换为一个估量的共同度，再进行后续分析。

如果研究者关注的咨询题是寻求能够讲明数据中的最大方差的尽可能少的因子时，主成分分析法是一种值的举荐的方法，同时这也是应用比较广泛的一类方法。

4、确定因子数目（number of factors）
主成分法所猎取的因子解的数目是同原先变量的个数一样多的，而因子分析的要紧目的则是用少数几个公因子来阐释数据的差不多结构。

这既要求因子的数目应该远比远来的变量个数要少，同时又要求保留的因子能够尽可能多的保留原先变量的信息。

因此因子数目的选取也就比较讲究。

除了体会判定外，特点值法是选用较多的判定方法。

因子对应的特点值确实是因子所能讲明的方差大小，而由于标准化变量的方差为1，因此特点值法要求保留因子特点值大于1的那些因子。

这意味着要求所保留的因子至少能够讲明一个变量的方差。

需要注意的是，如果变量的数目少于20，该方法通常会给出一个比较保守的因子数目。

此外，基于所保留的因子能够讲明的方差比例的方法也常常使用。

一样而言，所保留的公因子至少应该能够讲明所有变量60%的方差。

因子碎石图（scree plot）提供了因子数目和特点值大小的图形表示。

能够用于直观的判定因子数目。

半分法及统计检验法也是确定因子数目的方法，但并不常用。

5、因子旋转（rotation of factors）
因子负载给出了观测变量和提取的因子之间的有关程度的大小，这意味着在某一因子上的负载大的变量对该因子的阻碍较大，因子的实际意义较大地取决于这些变量。

这能够关心我们来讲明因子的实际意义。

然而，基于公因子本身的意义，实际中往往会显现所有变量在一个因子上的负载都比较大的情形，这为因子的讲明带来了困难。

因子旋转（rotation of factors）为因子讲明提供了便利。

因子旋转的目的是使某些变量在某个因子上的负载较高，而在其它因子上的负载则明显的低，这事实上是依据因子对变量进行更好的“聚类”。

同时，一个合理的要求是这种旋转应并不阻碍共同度和全部所能讲明的方差比例。

因子模型本身的协方差结构在正交阵下的“不可识别性”决定了因子旋转的可行
性。

正交旋转（orthogonal rotation）和斜交旋转（oblique rotation）是因子旋转的两类方法。

前者由于保持了坐标轴的正交性（成直角），即因子之间的不有关性，因此使用最多，也是正交因子模型的旋转方法。

正交旋转的方法专门多，其中以方差最大化法（varimax procedure）最为常用。

斜交旋转能够更好的简化因子模式矩阵，提升因子的可讲明性，然而因为因子间的有关性而不受欢迎。

然而如果总体中各因子间存在明显的有关关系则应该考虑斜交旋转。

6、因子讲明（interpretation of factors）
因子分析的重要一步应该是对所提取的公因子给出合理的讲明。

因子讲明能够通过考虑在因子上具有较高负载的变量的意义进行。

通过因子旋转后的因子负载阵能够大为提升因子的可讲明性。

需要注意的是，即是通过旋转后，仍有可能存在一个因子的所有因子负载均较高的情形，这种因子通常能够称之为一样或者基础性因子，一个合理的讲明是它是由于所研究的咨询题的共性所决定的，而并不单一的取决于咨询题的某一个方面。

此外，关于某些负载较小、难以讲明或者实际意义不合理的因子，如果其讲明的方差较小，则通常予以舍弃。

7、因子得分（factor scores）
如果后续分析需要，如进行回来分析等等，通常需要进一步运算各公因子的因子得分。

即给出各因子在每一个案例上的值。

事实上，既然各观测变量能够表为各公因子的线性组合，那么反之，各公因子也能够表为各观测变量的线性组合：
（2）
其中：Wij为第i个因子在第j个变量处的因子得分系数。

注意，它并不等于（1）中的因子负载Lij。

因子得分正是通过如此的方法利用各观测变量的值而估量得到的。

主成分分析法能够给出各因子得分的精确值，同时这些值之间是不有关的。

因子得分值能够用来代替原先的变量用于后续的分析。

由于排除了有关性，为后续的统计分析方法的应用提供了较大便利。

8、模型的适合度（model fitness）
因子分析的最后，应该对构建的模型是否适合咨询题本身有一个认识，这就涉及到模型的适合度的判定。

这种判定常常基于残差矩阵而进行。

由因子模型的协方差结构（2.1）和（2.2）可知，一旦因子模型建立，有了因子负载后，我们就能够运算的观测变量的方差-协方差阵，这种由公因子再生的方差-协方差阵（reproduce correlation matrix）与实际观测到的方差——协方差阵（observed correlation matrix）之间的偏差，即残差矩阵（residuals matrix）是我们判定模型适合度的重要依据。

如果残差矩阵中的值都比较大，那么我们有理由认为模型并不是专门适合；反之如果残差矩阵接近于零矩阵，那么明显公因子能够专门好的讲明变量的方差-协方差关系，模型是合适的。

再次指出，由于因子分析的实际过程在SPSS等统计分析软件中易于实现，因此在那个地点不再以实例赘述其操作过程，而是着重指出正确实施因子分析所应遵循的步骤及其意义。

我们认为，这种素养关于研究者而言更为重要。

三、因子分析的实际应用
由于因子分析的这种处理多个具有一定有关性的变量的能力，因此在市场调研的各个领域中有着广泛的应用。

1．消费者使用习惯和态度研究（U&A）
在U&A研究中，对消费者对产品的态度探查往往需要使用因子分析，探查阻碍消费者产品态度的差不多因子，并在此基础上，利用各因子进行聚类分析对消费群进行细分，从而达到市场细分的目的。

在那个地点，差不多因子在消费群的细分中具有基础性的作用。

例如，选取有关啤酒饮用的20个态度语句，采纳5级量表法（1-专门不中意，5-专门中意）对消费者进行了产品态度调查，因子分析的结果给出了阻碍产品态度的6个态度因子：1）男子气概；2）品牌转换；3）有吸引的额外利益的啤酒；4）独悠闲家饮；5）社会认可；6）品牌试验者/社交饮用者。

再如，因子分析的结果表明，新车的购买者要紧关注购车因子包括经济性、方便性、性能、舒服度和豪华性五个方面，由此能够产生五个细分市场。

2、生活形状研究（life-style）
对生活方式（life-style）的研究中不可幸免的要用到因子分析技术。

目前生活方式的研究要紧使用功能句子测量技术，这些句子数量众多而且具有较强的有关性，不管从数据本身依旧从实际意义动身都适合于因子分析。

3、品牌形象和特性研究（brand-imagine & attributes）
产品调研中，经常需要品牌形象和产品属性。

在这一方面，因子分析同样能够发挥重要的作用。

例如。

顾客是如何评判银行的呢？对15个有关银行特性的变量的因子分析结果表面，传统服务（包括贷款利率、社会声望等）、方便性（包括服务速度、A TM机的位置等）、可见度（包括亲友举荐、社会活动的参与度等）以及能力（包括雇员能力、辅助服务可得性等）是评判银行时所使用的四个评判因子。

4、中意度研究（CSR）
中意度研究中同样可能需要使用因子分析对顾客态度进行探查，以寻求阻碍顾客中意度评判的基础因子。