数学建模案例分析8主成分分析的应用--概率统计方法建模

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

解出的三个特征值和相应的三个标准正交化的特征向量为 ,, 由于三个主成分的贡献率分别为 当保留前两个主成分时,累计贡献率已达98.86%,因此第三个主成分可 以舍去。得到的前两个样本主成分的表达式为 现在我们来解释这两个主成分的意义,从的表达式可以看出,是身 高、胸围、体重三个变量的加权和,当一个学生的数值较大时,可以推 断其或较高或较胖或又高又胖,故是反映学生身材魁梧与否的综合指 标。的表达式中系数的符号为一正()两负(,),当一个学生的数值 较大时,表明其大,而,小,即为瘦高个,故是反映学生体形特征的综 合指标。 需要指出的是,虽然利用主成分本身可对所涉及的变量之间的关系在 一定程度上作分析,但这往往并不意味着分析问题的结束。主成分分析 本身往往并不是最终目的,而只是达到某种目的的一种手段。很多情况 下,主成分分析只是作为对原问题进行统计分析的中间步骤,目的是利 用主成分变量代替原变量作进一步的统计分析,达到减少变量个数的效 果。例如,利用主成分变量作回归分析、判别分析、聚类分析等等。 下面再举一个利用主成分进行样品排序的例子。 例2 电子工业部所属的15个工厂某年份的经济效益数据如下表。其中
162.5 162.7 162.2 156.5 156.1 172.0 173.2 159.5 157.7 由表中数据计算得到
77.0 78.5 87.5 74.5 74.5 76.5 81.5 74.5 79.0
55.5 50.8 65.5 Fra Baidu bibliotek9.0 45.5 51.0 59.5 43.5 53.5
§8 主成分分析的应用
主成分分析的基本思想是通过构造原变量的适当的线性组合,以产 生一系列互不相关的新变量,从中选出少数几个新变量并使它们尽可能 多地包含原变量的信息(降维),从而使得用这几个新变量替代原变量 分析问题成为可能。即在尽可能少丢失信息的前提下从所研究的个变量 中求出几个新变量,它们能综合原有变量的信息,相互之间又尽可能不 含重复信息,用这几个新变量进行统计分析(例如回归分析、判别分 析、聚类分析等等)仍能达到我们的目的。 设有个样品,个变量(指标)的数据矩阵 寻找个新变量,使得 1、 2、彼此不相关 这便是主成分分析。主成分的系数向量的分量刻划出第个变量关于第 个主成分的重要性。 可以证明,若为维随机向量,它的协方差矩阵的个特征值为,相应的 标准正交化的特征向量为,则的第主成分为。 称为主成分的贡献率,为主成分的累计贡献率,它表达了前个主成 分中包含原变量的信息量大小,通常取使累计贡献率在85%以上即可。 当然这不是一个绝对不变的标准,可以根据实际效果作取舍,例如当后 面几个主成分的贡献率较接近时,只选取其中一个就不公平了,若都选 入又达不到简化变量的目的,那时常常将它们一同割舍。 计算步骤如下: 1、由已知的原始数据矩阵计算样本均值向量; 其中 2、计算样本协方差矩阵 其中 3、把原始数据标准化,即,记。形成样本相关矩阵; 4、求的特征根及相应的标准正交化的特征向量,可得主成分为。 关于主成分的实际意义,要结合具体问题和相关的专业知识才能给出 合理的解释。 例1 下表是10名初中男学生的身高(),胸围(),体重()的数据, 试进行主成分分析。 身高()/cm 胸围()/cm 体重()/kg 149.5 69.5 38.5
231 1.92 9.28 2.42 3.33 9.67 135 按照上述步骤,可以计算出样本相关矩阵为 的特征根及相应的标准正交化的特征向量分别为 特征向量 累计贡献率 (%) 0.441 0.437 0.436 0.410 0.359 83.7 -0.358 94.5 0.083 -0.092 0.175 -0.184 0.667 97.5 0.678 99.5 0.013 0.057 -0.006 0.737 -0.360 99.9 0.568 100 -0.364 -0.401 -0.347 0.501 0.502 -0.285 0.177 -0.757 0.554 0.050 -0.170 -0.095 0.796 -0.243 -0.551 -0.002 -0.003 0.006 第一个主成分为 此主成分主要反映前四个经济指标的效果,因为其系数之值比较接近, 它们几乎以一样的重要性综合说明了各厂的经济效益。 第二个主成分为 此主成分主要反映后两个经济指标的效果。 由于前两个主成分的累计贡献率已达94.5%,因此可以选取,来评价 这些工厂的综合经济效益。用下式作为每个样品的“综合数值”,按其大 小给样品排序。 其中。 这里。结果每个样品的值列于表中最右边一列,按值大小排序结果列 于右边第二列。 5.0390 0.6230 0.1030 0.1030 0.0260 0.0004
—资金利税率(%) —固定资产利税率(%) —流动资金利税率(%) —全员利税率(%) —成本利税率(%) —流动资金周转天数 厂序 经济效益 排序 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 69.87 269.10 94.38 23.85 74 66.31 260.00 89.01 40.09 80 67.26 272.54 89.29 26.70 84 68.46 250.18 94.24 24.98 18 39.45 146.17 54.04 17.46 109 24.82 116.86 31.51 10.42 117 30.21 73.60 51.23 31.06 227 31.24 168.31 38.37 14.29 129 23.29 109.42 29.59 8.23 99 23.10 92.41 30.80 12.48 136 18.95 57.63 28.24 17.23 231 8.65 21.71 14.35 8.26 177 5.10 27.27 6.38 239 4.66 18.42 6.24 115.74 93.30 78.90 76.87 90.95 81.59 39.52 62.16 29.67 43.57 21.91 9.63 8.60 8.59 6.46 4.54 (1) (2) (3) (4) (5) (6) (8) (7) (9) (10) (11) (12) (13) (15) (14) 0.785 0.727 0.672 0.634 0.206 0.029 -0.083 -0.050 -0.170 -0.196 -0.32 -0.51 -0.55 -0.66 -0.64 值
相关文档
最新文档