主成分分析(论文)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
高校人文社科科研综合实力评价研究
摘要
一、问题重述
高校人文社科科研综合实力评价研究
根据所给数据,并搜集更多相关数据,回答下面的问题
1.研究数据之间的内在关系;
2.设计几种方案对各省市科研实力进行综合评价并进行分类,论证方法的合
理性,给出合适的建议
二、条件假设
(1)假设高校人文社科科研指标在一定程度上会反映高校的人文社科科研综合实力
(2)假设资料所提供数据准确有效
三、符号约定x—同一葡萄酒样品的平均值
_
四、问题分析
3.主成分分析法
建立模型:基于主成分分析法研究高校人文社科科研综合实力
影响高校人文社科科研综合实力的成分有很多,例如投入的人年数,投入科研事业经费,课题总数等等。常用于研究各变量对结果影响因素的方法有多元回归分析、主成分分析、因子分析、回归分类树等。每种算法各有各的特点,本文尝试选取主成分分析法。
主成分分析:PCA 是将多指标重新组合成一组新的无相关的几个综合指标,是根据实际需要从中选取尽可能少的综合指标,以达到尽可能多地反应原指标信息的分析方法。由于这种方法的第一主成分在所有的原始变量中方差最大,因而综合评价函数的方差总不会超过第一主成分的方差,所以该方法有一定的缺陷。 (1)题中共给影响高校人文社科科研综合能力的7种因素,分别是投入人年数、投入高级职称的人年数、投入科研事业费、课题总数等。设各影响因素为
p 2,1,...,x x x ,它们的综合指标——主成分设为:p ,,...,,21 ⎪⎩⎪ ⎨ ⎧+++=+++=p p 2 211p 12121111 (x) l x l x l z l x l x l z m m m m m z z z ,...,,21分别为原变量指标p 21,...,,x x x 的第一,第二,…,第m 个主成分。 (2)对原始数据进行标准化处理 由于原始数据的量纲不同,为了使不同量纲的数据能够进行运算,故对数据进行标准化处理。设有随机变量x 1,x 2,…,x p , 其样本均数记为1x ,2x ,…, p x ,样本标准差记为S 1,S 2,…,S p 。首先作标准化变换 (3)计算相关系数矩阵,对应的特征值p λλλ,...,,21(按从小到大排列)及其对应的特征向量 S X X x -= ⎥⎥⎥⎥⎥⎦ ⎤⎢⎢⎢⎢⎢⎣⎡=pp p p p p r r r r r r r r r R ......................212222111211,其中∑∑∑----===n k j kj n k i ki j kj n k i ki ij x x x x x x x x r 2 21 1 ()() ()() (4)计算主成分贡献率及累计贡献率 主成分i z 的贡献率为: ),...,2,1(1 p i p k k i =∑=λ λ 累计贡献率为: ),...,2,1(11 p i p k k i k k =∑∑==λ λ 一般取累计贡献率达85%左右的特征值m λλλ,...,,21,对应第一、二,…, )(p m m ≤个主成分。 (5)根据第一主成分的得分对高校人文社科科研综合实力进行评价 模型求解: 一般认为,在主成分分析法中,主成分的累计特征值占特征值总和的85%左右时,即可视为第一、二……主成分。根据题中所给数据,在SPSS 中进行主成 提取方法:主成份分析。 根据表格结果可知,第一项的累计贡献率就达85.631%,故投入人年数即为影响高校人文社科科研综合实力的第一主成分。该省投入人年数越高,则其省内所有高校人文社科科研综合实力越强。仅按第一项因素排序,可得排名前三位的省份分别是:北京(6795.0)、江苏(5480.0)、湖北(4427.0),排名较落后的三位分别是:海南(163.0)、青海(159.0)、西藏(75.0)。