基于主成分分析与神经网络的非线性评价模型
基于主成分分析的BP神经网络模型的形变预测方法
1 引 言
B =H H B =D D A
() 1 () 2
显 然 ( n 是实 对称正 定矩 阵 , × ) B可分解 为 : 式 中, A为 个特征 根 ( A …A ) 成 的对角 阵 ; A ,: 组 D
的 凡个列 为互相 正交 的特 征 向量 d ( =12 … , ) k ,, n ,
的复杂 网络 系统 。 目前 神经 网络诸 多 算法 中应用 最 广 的是 B b c rpg t n 网 络 , 结 构 比较 简 P( ak po aa o ) i 其 单 , 作性 强 , 操 据统 计 ,0 ~ 0 的神 经 网络 模 型 8% 9% 采用 了 B P网络 或者它 的变化形 式 “J 。 结 合 主成 分 分 析 法 和 B 网络 的 优 点 , 于 形 P 用 变 预测 , 过 MA L B编 程 实 现 , 预 测 结 果 与 灰 通 TA 将 色模 型和 传 统 的 B P神 经 网络 预测 结 果 进 行 比较 , 结论 是基 于 主成分 的 B P神经 网络 预测结 果较 好 。
维 空 间的坐标 旋转 , 并不 改变 样本 数据 结构 , 到 的 得
主成 分是 原变 量 的线 性 组 合 且 两 两不 相 关 , 够 最 能 大程 度地 反 映元 变 量 所 包 含 的信 息 , 以一 定 标 准 在 选取 前 k 较重 要 的主 成 分 之后 , 个 原来 的多 维 问题 得 以简化 … 。 人工 神经 网络 ( rf i e t l e ok , N at ca n ur t rsA N) i l i anw
可靠性 。结果表 明 : 与其他方法相 比, 基于 主成分分析 的改进 B P神经 网络能取得更好 的预测效果 。 关键词 : 变预测 ; 形 主成分分析 ;P神 经网络 B
人工智能开发技术的自动特征提取方法
人工智能开发技术的自动特征提取方法随着人工智能技术的迅速发展,越来越多的领域开始应用机器学习和深度学习模型。
为了让这些模型能够准确地理解和处理数据,特征提取成为了一个非常重要的步骤。
传统的特征提取方法需要人工参与,耗时费力,且很难适应不同领域的数据。
因此,研究人员开始着手开发自动特征提取方法,以提高特征提取的效率和准确性。
一、传统特征提取方法的局限性传统的特征提取方法主要是依靠专家经验和领域知识来手工挑选和设计特征。
这种方法有局限性,首先是需要专家的参与,而且不同领域的数据需要不同的专家,这增加了开发的难度。
其次,手工挑选特征需要大量的时间和精力,特别是当数据规模庞大或者特征空间复杂时,手工特征提取几乎是不可行的。
此外,手工特征提取容易限制了模型的表达能力,因为人类无法挖掘到所有的特征。
二、基于机器学习的自动特征提取方法基于机器学习的自动特征提取方法通过训练一个特征提取器,使其能够从原始数据中学习到有用的特征表示。
这种方法的核心思想是将特征提取任务视为一个监督学习或无监督学习问题。
1. 主成分分析(Principal Component Analysis)主成分分析是一种无监督学习的降维技术,可以将高维数据映射为低维数据。
主成分分析通过找到数据中最重要的方向(主成分),从而减少数据的维度。
在特征提取方面,主成分分析可以用于提取最具代表性的特征。
2. 自编码器(Autoencoder)自编码器是一种特殊的神经网络模型,可以用于无监督学习的特征提取。
自编码器通过将输入数据压缩为低维的编码表示,然后再将编码解压缩为与输入数据尽可能接近的重构。
在这个过程中,自编码器能够学习到数据的更抽象和有用的特征表示。
三、基于深度学习的自动特征提取方法随着深度学习的兴起,越来越多的自动特征提取方法采用深度神经网络模型。
这些方法主要利用卷积神经网络(CNN)和循环神经网络(RNN)等深度学习模型,通过多层次的非线性变换,从而实现自动特征提取。
基于SPSS的PCA-RBF神经网络模型的仿真试验
Ke r : y wo ds
ne r l u a ne wo k; p i i a c mpo n a a y i ( t r rncp l o ne t n l s s PCA ); p i i l o p ne a a yss RBF rncpa c m o nt n l i—
H U A NG u H a
( l g fMa h ma is& P y is Xij n rc lu a ie st , u i 3 0 2, i a Co l eo t e tc e h sc , ni gAg iut r lUnv r iy Ur mq 0 5 Chn ) a 8
新 疆 农 业 大 学 学 报
2 1 ,3 6 :3 ~ 5 8 0 0 3 ( ) 5 5 3
J un l f X n in r utr lU iest o r a ija gAg i l a n vri o c u y
文 章 编 号 :1 0 — 6 4( 0 0 0 — 5 5 0 0 78 1 2 1 ) 6 0 3 — 4
基于 S S P S的 P A— F神 经 网 络 模 型 的 仿 真 试 验 C RB
黄 华
( 疆农 业大学 数理学院 , 鲁木 齐 新 乌 80 5 ) 3 0 2
摘 要 : 以 S S P S软 件 为试 验 平 台 , 据 P A— B 根 C R F神 经 网 络 理 论 , 合 S S 结 P S软 件 的 主 成 分 分 析 模 块 和 神 经 网 络 模 块 , 用 人 工 近 红 外 谱 模 拟 数 据 估 计 葡 萄 糖 浓 度 , 现 P A R F神 经 网 络 模 型 的 仿 真 试 验 。 相 比 与 Mal 、 运 实 C —B t b a
十大数据分析模型详解
十大数据分析模型详解数据分析模型是指用于处理和分析数据的一种工具或方法。
下面将详细介绍十大数据分析模型:1.线性回归模型:线性回归模型是一种用于预测数值型数据的常见模型。
它基于变量之间的线性关系建立模型,然后通过拟合这个模型来进行预测。
2.逻辑回归模型:逻辑回归模型与线性回归模型类似,但应用于分类问题。
它通过将线性模型映射到一个S形曲线来进行分类预测。
3.决策树模型:决策树模型是一种基于树结构的分类与回归方法。
它将数据集划分为一系列的决策节点,每个节点代表一个特征变量,根据特征变量的取值选择下一个节点。
4.随机森林模型:随机森林模型是一种集成学习的方法,通过建立多个决策树模型来进行分类与回归分析。
它通过特征的随机选择和取样来增加模型的多样性和准确性。
5.支持向量机模型:支持向量机模型是一种用于分类和回归分析的模型。
其核心思想是通过找到一个最优的分割超平面,使不同类别的数据点之间的间隔最大化。
6.主成分分析:主成分分析是一种常用的数据降维方法,用于减少特征维度和提取最重要的信息。
它通过找到一组新的变量,称为主成分,这些主成分是原始数据中变量的线性组合。
7.聚类分析:聚类分析是一种无监督学习方法,用于对数据进行分类和分组。
它通过度量样本之间的相似性,将相似的样本归到同一类别或簇中。
8.关联规则挖掘:关联规则挖掘是一种挖掘数据集中的频繁项集和关联规则的方法。
它用于发现数据集中的频繁项集,并根据频繁项集生成关联规则。
9.神经网络模型:神经网络模型是一种模拟人脑神经网络结构和功能的机器学习模型。
它通过建立多层的神经元网络来进行预测和分类。
10.贝叶斯网络模型:贝叶斯网络模型是一种基于概率模型的图论模型,用于表示变量之间的条件依赖关系。
它通过计算变量之间的概率关系来进行推理和预测。
以上是十大数据分析模型的详细介绍。
这些模型在实际应用中具有不同的优势和适用范围,可以根据具体的问题和数据情况选择合适的模型进行分析和预测。
基于主成分分析的神经网络入侵检测仿真研究
要信 息的 , 而得 到更好 的预测效 果 , 从 并降 低检 测错 误 率。
主成 分 分 析 方 法 步 骤 如 下 :
全局最优解 , B 为 P网络 参数 的优 化训练提供 了一种新 的途
径 。网络入 侵原始 数据维数 多 、 据量 大, 数 传统 的选择性 删 除法进行 降维 处 理 , 造 成 信 息 的 丢 失。主 成 分 分 析 法 会
3 基 于 P A—GA—B C P神经 网络模 型
3 1 主 成 分 分析 .
由于采集 的网络入 侵原 始数据 其有共 4 1个 特征属 性 , 如果直接用 4 1维特 征作为神经 网络 的输 入 , 网络结构就会
相当的复杂 , 同时 4 1个维数 据 中有一些 对检测结 果没有什 么影 响 , 特征之间呈 高度 的非 线性 。因此 , 在进 行神经 网络 学习之间 , 有必要对 4 维数 据进 行降维处理 , 1 尽量 消除不需
入侵检测被提 出至今已有 2 0多 年 的 历 史 , 侵 检 测 方 入
法分为滥用检测和异常检 测两大 类 。传 统 的检测 主要采 用行为统计 、 专家系统 、 模式匹配和状态转换 等技 术 , 分析事 件 的审计记录 、 识别特定的模式 、 生成报告 和最终分析结果 ,
取得不错的效果 。但 是 , 随着 网络 入侵技 术的不 断发展 , 入侵行为表现出不确定性 、 复杂性和 多样性 等特点 , 使得在 提取行为特征时 , 很难 提供 确定 的统 计模式 , 即便 是专家 知 识也带有随机性 、 确定性 等因素 。近年来 , 于机器学 不 基
K Y OR S e r e ok( N) P nia cm oet n yi( C ;n ui eet n G nt grh E W D :N ua nt rs N ;r cp o p nn aa s P A) It s ndtco ; eei a o tms l w i l l s r o i cl i
基于主成分分析的综合评价模型
基于主成分分析的综合评价模型在数据分析领域中,主成分分析(Principal Component Analysis,简称PCA)是一种常用的降维技术,它能够将高维的数据转化为较低维的数据,并保留数据的主要信息。
基于主成分分析的综合评价模型则是在PCA的基础上,对多个评价指标进行综合评价的模型。
本文将介绍基于主成分分析的综合评价模型的原理和应用。
一、主成分分析(PCA)简介主成分分析是一种通过线性变换将原始数据转化为低维空间的技术。
它通过找到数据中的主要方向,将数据投影到新的坐标系中,使得投影后的数据具有更好的可解释性和区分性。
主成分分析的基本步骤包括特征值分解、选择主成分和投影计算。
二、综合评价模型的构建方法基于主成分分析的综合评价模型的构建方法包括数据准备、特征值分解、主成分选择和综合评价计算。
首先,需要收集和整理待评价的指标数据,并进行归一化处理,以消除不同指标之间的量纲差异。
然后,对归一化后的指标数据进行特征值分解,得到特征值和特征向量。
接下来,选择主成分,可以根据特征值的大小顺序,选择前几个特征值对应的特征向量作为主成分。
最后,利用选定的主成分对原始指标数据进行投影,得到综合评价结果。
三、基于主成分分析的综合评价模型的应用举例以某酒店为例,我们希望对其服务质量进行综合评价。
我们收集了以下几个指标作为评价依据:员工态度、服务速度、设施条件和价格水平。
首先,对这些指标进行归一化处理,然后进行特征值分解。
假设得到的特征值分别为λ1、λ2、λ3、λ4,对应的特征向量分别为v1、v2、v3、v4。
根据特征值的大小顺序,我们选择前两个特征值对应的特征向量作为主成分。
然后,我们利用选定的主成分对原始指标数据进行投影计算,得到综合评价结果。
假设原始指标数据为X1、X2、X3、X4,对应的投影结果为Y1、Y2。
最后,通过采用某种评分方法,将投影结果转化为能够描述酒店服务质量的综合评价得分。
四、基于主成分分析的综合评价模型的优势与不足基于主成分分析的综合评价模型具有以下优势:首先,可以将多个指标融合为一个综合指标,简化评价过程;其次,可以消除不同指标之间的量纲差异,减小指标权重确定的困难。
基于主成分分析与神经网络的供应商选择问题研究
共担风险 、 共同获利 的伙伴关系。从长期发展来 看 , 核心企业
应选择能保持较高的竞争力 、 有影响力 的供 应商 , 结成 战略同 盟, 以增强 自身 的竞争力 , 实现 “ 双赢” 。核心企业如何选择 适
X= : … f
Hale Waihona Puke lH … l f … X 1
HJ p
2 主 成 分 分 析
在本文中 ,通过主成分分析把 供应商选择 的指标体 系分 成几个 主成分 ,简化神经网络的输入单 元 。其主要数学模 型
多项 式 表 示 :
目前 , 对于供应商的选择评价 方法 , 常见的有线性权重计
分法 、 统计法 、 成本估 算法 、 层次分析 法 、 模糊综合评 价法 等。 这些方法对评 价过程 中的不确定 和不完备 信息考 虑不周 , 对
指标 体系中包 含冗余 的指标 , 及一 些评 价指标之 间的相关 性 、 相互矛盾 的现象无法处理 , 而且涉及 到指标 权重系数 的确定 , 具有较大的主观随意性 。为解决上述 问题 , 文把主成分分析 本 和神经网络结 合起来 , 提出一种新的供应商选择方法。
pl. e Ke wo d : s p l h i ;s p l r s lc i n p i cp o o e t n y i;n u a e—wo k y r s u p y c an u p i e e t ; rn i a c mp n n a ss e r n t e o l al l r
Ab t a t T e p p r a a y e h aa o u p i re au t n b rn i a o o e ta a l ss r so ms mu t- n e n o s v r l s r c : h a e n l z st e d t fs p l v a i y p i cp c mp n n n - y i,t e l o l n a fr li i d x i t e ea
基于主成分分析评价模型的研究与应用
指标 的全 部信 息 。 由此 ,用标准 化后 的矩 阵 的P 向量 作线 性组 个
合:
I1aY+ 2 2… C Y F 1 1口Y+ +l p 1 1 p 1
F 2 1Y ̄ 2 Y +"" p Yp =a 2 +a 2 2 +a 2
,
I, Yl 】
其中
【 f
F a 】+ 2Y+’ a Y p l, ap 2 .+ 卯 p ,I _
1 F j f , J:1 , p ) ) i ( ≠J f eF , , …, 不相关; 2
2)F 是X1 2,… ,X 的 一 切 线 性组 合 中 方差 中 最 大 1 ,X p 的 ,F 是 与 F 不 相 关 的X ,× ,… ,X 的一 切线 性组 合 中 方 2 1 1 2 p 差 中最 大 的 , …… ,F 是 F ,F ,… ,F 一1 不相 关 的X , p 1 2 p 都 1 × ,… ,X 的一 切线 性组合 中 方差 中最 大 的。 2 p 可 以证 明 ,满 足上 述 条件 的主成 分 F ,F ,… ,F 线性组 1 2 p
具。 22 价 模 型 .评
合中的系数向量 (¨ af… ,p ,=1 , P恰好是Y ,2 , aif , …, ) 2 的
协 方差 矩 阵 ∑ 的特征 值 对应 的特征 向量 。 当协 方差 矩 阵 ∑未知 时 ,可用其 估计值 S ( 本协 方差矩 阵 ) 样 来代 替。
1 ”
1 、引言
产 业 竞 争 力 ,指 某 国或 某 一地 区 的 某 个 特 定 产 业 相 对 于 他 国或地 区 其他 产 业在 生 产效 率 、 满足 市场 需 求 、持 续 获利 等 方面所 体 现 的竞 争 能力 。 竞争 力 实质 上 是一 个 比较 的概 念 , 因 此 ,产 业 竞争 力 内涵 涉 及 两个 基 本 方面 的 问题 :一个 是 比较 的 内容 ,一 个是 比较 的范 围 。具 体来 说 :产业 竞 争 力 比较 的 内容 就 是产 业 竞争 优 势 ,而 产业 竞 争优 势 最 终体 现 于产 品 、 企业 及 产 业 的市 场 实现 能 力。 因 此 ,产 业竞 争 力 的实质 是 产 业 的 比较 生 产 力。 所谓 比较 生产 力 ,是 指企 业 或 产业 能够 以 比其他 竞 争 对 手更 有 效 的方式 持 续 生产 出消 费者 愿 意接 受 的产 品 ,并 由此 获 得满 意 的经 济 收益 的 综合 能 力 。为 解决 产 业竞 争 力 的评 估 , 重 点要 确定 被 评估 产 业 的要 素 ,在 确定 要素 的情 况 下 需要 建 立 个合 理 的分 析评 价模 型 ,最 后是 收 集 各个 受 比较 地 区产 业 要 素 的数 据 。其 中 以数据 模 型 的 建立 最 为 关键 ,本 文 着重 研 究 基 于主成 分 分析 评价模 型 的设计 与 实现。
基于BP神经网络的主成分分析法在效能评估中的应用
Vol. 28 No. 9 81
基 于 BP 神 经 网 络 的 主 成 分 分 析 法 在效能评估中的应用
龙海燕 1) 张永志 2) 宋朝河3)
(东莞理工学院城市学院计算机 与信 息科 学系1) 东莞 523000) (蚌埠坦克学院2) 蚌埠 233000) (解 放军 炮兵学院3) 合肥 230031)
1 引言
在侦察效能评估中 , 由于影响因素过多 , 而且 这些因素对效能的影响程度也不一样 。要依据这 些因素评估侦察效能不仅复杂 , 而且可能因为多重 共线性指标而无法得出准确的结论 。主 成分分析
法是一种降低指标维数 , 简化评估步骤 , 克服主观 因素影响而产生误差可行的方法 。B P 网络能够逼 近任何非线性映射关系 , 适合解决无规则 、 多约束 条件或残缺数据的分类和模式识别问题 , 可以看作 是一个从输入到输出的非线性映射 。在输入和输 出层之间每一层节点的输出只影响下一层节点的
V = U F = (U
( 1) (2)
,U
m)
( 2)
)
Hale Waihona Puke (F( 1), F
(1)
( 2)
1 ) = [ U p1×m F m ×n
( )
( )
2 主成分分析法
主成分分析法是从 P 个原始效能指标中提取 m 个相互独立主成分 , 每个主成分都是原来多个指标 的线性组合 。提取的主成分根据特征值大小排序 , 特征值最大的主成分对原始效能指标的解释力度最 大 ; 特征值小于 1 , 表示该主成分的解释力度还不如 直接引入一个原变量的解释力度大。如果 m ( m Φ p) 个主成分可以解释大部分原始效能指标的方差或者 提取主成分的累计贡献率达到 85 %以上 , 那么 m 维 主成分空间就能够最大限度地保留原始 P 维效能指 标空间的信息 。 其具体步骤如下
基于主成分和BP神经网络的创业板企业财务绩效评价
=
1 一 ( × i - X ) / ( X i m a x - X )
( 2)
司的财务绩效进行 了综合评价 。徐 胜男等
( 2 0 1 1】 基于L MB P 神经 网络对 创业板企 业
其中 , F是第 i ห้องสมุดไป่ตู้指标经过 归一化处理
后的标准值 , X . 是第 i 个指标的值 , X … 和
F i = ( X i - X ) / ( X i m a x - X ) ( 1】
引 言
创 业板 企业财务绩效评价是对上市 公 司的获利情况 、可持续发展能 力和成长 能 力的评 估 ,对减少投资风险 、保证资金安
全 、获 得预 期收益起着重要 的作用 ( 徐胜
当 目标越小 ,评价 目标越好时 :
因此 , 本文从盈利能力、 资产质量 、 债 务风
险和经营成长能力 四个方面 ,选取 了销售
基 于 主 成 分 和B P 神 经 网 络 的 创 业 板 企 业 财 务 绩 效 评 价
■ 李广春 副教授 ( 郑州航 空工业 管理 学院工商管理 学院 郑 州 4 5 0 0 1 5)
业 财 务 绩 效 进 行 了 实证 分 析 , 验 证 了
模型 的有效性 。 关键 词 :创 业板 企业 分 分析 财务 绩 效 主成 B P神 经 网络
能存 在的关联 性 ,本文运用主成分分析法
于 财务 绩 效评 价 指标 体 系 的研 究 ,夏 秋 ( 2 0 0 7) 从盈利能力 、 管理能 力和风 险控制 能力三个 方面衡 量商业银行的财务绩效水 平。李庆东 ( 2 0 0 6) 选取投 资者获利能力 、 盈利能力 、企业 发展 能力 、经营效率 、偿
浅谈主成分分析与神经网络在物流中心选址中的应用
作者简介 : 杨杰 (94 )男 , 1 一 , 湖北仙桃人 , 8 武汉科技大学管理科学与工, 开灵 : 潘 浅谈 主成 分分 析 与神经 网络 在 物流 中心 选址 中的应 用 学 习算 法 之 一 。 B P算 法 的 学 习 过程 由 两个 阶段 组成 : 信息的前 向传播和误差的反向传播。在前 向传播过程 中, 输入信息从输入层经隐层单元逐 层处理 , 并传 向输 出层。每一层神经元的状态只 影 响 下一层 神 经元 的 状态 。如 果在输 出层 不 能得
第 2 卷第 2 1 期
武汉冶金管理干部学院学报
V 1 1 o2 o2 N. .
Jn .0 1 u e2 1
2 1 年 6月 J U N LO H N ME A L R IA A A E ’ I S IU E 01 O R A FWU A T L U GC LM N G RS N TT T
结点数 , 隐层数和隐结点的函数特性) 和训练样本 的特性。提高神经网络泛化能力的方法主要是采 取一定的训练策略和合适的神经网络结构。 物流中心选址问题 多是指标多、 历史数据不 足 的情况 , 神经 网络 处 理 这 样 的 问题 是 典 型 的 用 大规模小样本系统 , 这会大大削弱神经 网络的泛 化 能力 。对这 种情 况 通常 可 以把这些 指标按 相互 关 系分 成若 干子 系统 . 解 网络规模 过大 的问题 , 缓 但子 系统 的划 分 非 常 复 杂 , 能 从 根本 上 解 决多 不 指标小样本的复杂系统的难题。同时这些指标也 往往是相关 的, 因此有必要在尽量减少信息丢失 的前提下减少指标 的个数( 降维 ) 。这种从减少神 经网络的输入结点个数出发的方法可以从根本上 降低神经网络规模 , 解决小样本多指标 的系统处 理 问题 。从 仿 真 结 果 可 以看 出 . 文 所用 的主成 本 分分析法可以从根本上减少神经网络规模 , 提高 多指标小样本 问题 中神经 网络的泛化能力 , 提高 物 流 中心选址 决 策 的精度 和效 率 。 主成 分分 析 方法 介绍 假设 我们 所讨 论 的实际 问题 中, P个指 有 标, 我们把这 P个指标看作P个随机变量, 记为
网络安全评估的仿真与应用研究
收稿 日期 :0 0—1 2 修 回日期 :0 1— 1—1 21 1— 0 21 0 4
统, 影响因素很 多 , 包括数据安全 、 入侵安全 、 软件安全 、 硬件
一
l7 — 7
安全等各个指标 , 各个指标 间信 息有重 复 , 即冗 余相 当的严
重, 如果 全 部 输 入 到 B P中 学 习 , 网络 结 构 复 杂 , 习 速 度 极 学 慢, 同时 若 采 用 人 为选 择 很 有 可 能 选 择 与评 价输 出无 关 的 指
计算机网络安全包 括实体 安全 、 运行安全 、 息安全 和软件 信
安全 。计算机 网络安 全评估 原理是根 据 国定相 关 网络安全 评测标准 , 采用一定 的方法对 网络系 统及 其处理 、 输和存 传 储信息的完整性 、 保密性 和可用 性等安 全属性进 行科学 、 公 正评估 的过程 , 并根据 网络安 全评估 结果 , 提出有效 的防范 措施 , 网络风险降低到最低 程度 。计算 机网络安全评估模 将
地描述 因素之 间的非线性 映射关 系 , 中 B 其 P神经 网络具有
实现 简单 、 鲁棒性强 等优点 , 十分适用 于预测 、 评估等领 域 , 成 网络安全评估的主流算法 。但 B P神经网络在 网络安全 评估实 际应用 中, 没有 评价指 标选择 功能 , 其 是将全 部指标 输入进去学 习。而 网络 安全是 一个 多指示 的动态非 线性 系
第2卷 第6 8 期
文 章编 号 :0 6—94 ( 0 1 0 0 7 10 38 2 1 ) 6— 17—0 4
计
算
机
仿
真
21年6 01 月
网 络 安 全 评 估 的 仿 真 与 应 用 研 究
基于主成分分析和递归神经网络的短期股票指数预测
基于主成分分析和递归神经网络的短期股票指数预测孙德山;任靓【摘要】运用递归神经网络,并结合主成分分析方法建立基于主成分分析的递归神经网络(PCA-RNN)预测模型.实验采用玉米股票价格指数,首先,利用主成分法对玉米指数的多个指标进行特征提取,然后利用提取的主成分建立3种神经网络模型,并对开盘价进行预测,最后与ARIMA模型进行比较分析.结果表明PCA-RNN模型取得了较好的效果,更加适用于股票价格的短期预测,可以为决策者提供一定的参考.【期刊名称】《辽宁师范大学学报(自然科学版)》【年(卷),期】2019(042)003【总页数】6页(P301-306)【关键词】递归神经网络;主成分分析;时间序列;ARIMA模型【作者】孙德山;任靓【作者单位】辽宁师范大学数学学院,辽宁大连 116029;辽宁师范大学数学学院,辽宁大连 116029【正文语种】中文【中图分类】O212.4股票的价格波动是金融领域研究的核心内容之一,运用适合的模型对股票价格进行有效的估计和预测能够为决策者提供行之有效的建议.然而,金融市场具有不稳定性,如何根据获取的信息对金融数据进行预测是非常具有挑战性的工作.近年来,人工神经网络(Artificial Neural Network,即ANN )以其强大的自学习功能和高速寻找优化解的能力迅速成为金融数据预测的热点,在金融领域有着极其广泛的应用.越来越多的学者利用神经网络算法对股票数据进行预测分析,都取得了很好的效果.谢合亮等[1]将深度学习中循环神经网络(RNN)引入期权定价模型,构建了一种基于长短记忆神经网络的新的期权定价模型,研究发现该模型具有更高的定价精确性;王钧等[2]将递归神经网络(RNN)、长短时间记忆网络(LSTM)和Seq2Seq及其优化模型4种神经网络结构进行验证比较,发现在股票预测中改进的Seq2SeqRNN模型具有更优的预测效果;黎镭等[3]建立GRU递归神经网络模型来预测股票日收盘价,并与其他模型比较,结果表明GRU递归神经网络算法极大地减小了误差,具有强大的学习能力和泛化能力;刘佳祺等[4]将BP神经网络模型与主成分分析法和遗传算法相结合,弥补了传统股票预测方法的不足;于卓熙等[5]采用广义回归神经网络模型对股票价格进行预测研究,并与多种统计方法对比,发现广义回归神经网络具有更好的预测性能,在价格预测方面更加准确.本文将主成分分析方法与递归神经网络算法相结合,建立PCA-RNN模型,选取2016—2019年间玉米指数开盘价数据作为实证分析,并与ARIMA模型进行对比,得到了较好的结果.1 主成分分析和递归神经网络1.1 主成分分析主成分分析(Principal Component Analysis,简称PCA)是最常用的一种降维方法,它通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量.主成分分析的目标是用一组较少的不相关变量代替大量相关变量,同时尽可能保留初始变量的信息,这些转换后的变量称为主成分,它们是观测变量的线性组合.从实际角度出发,希望能用较少的主成分来近似全变量集,确定主成分的方法有两种,一是基于特征值的方法,通过选取特征值大于1的指标来选取主成分,二是通过计算累计方差贡献率,当方差的累计贡献率大于或等于85%时,可提取这些成分来反映原始数据集.本文选取第二种方法计算主成分,主要步骤如下:(1)将原始数据标准化,以消除变量间在数量级和量纲上的不同,常用的标准化方法有“max-min标准化”,“z-score标准化”和“按最小数定标标准化”三种,选用第一种标准化方法,即:(1)其中,xi代表原始数据,x′i代表标准化后的数据.(2)求标准化数据的相关矩阵及相关矩阵的特征值与特征向量;(3)计算方差贡献率与累积方差贡献率:每个主成分的贡献率代表了原数据信息量的百分比;(4)确定主成分:设C1,C2,…Cp为p个主成分,其中,前m个主成分的累积方差贡献率不低于85%时,可取前m个主成分来反映原评价对象.设观测值变量为X1,X2,…,Xn,则经过主成分变换后的第一主成分可表示为PC1=a1X1+a2X2+…+akXk.(2)它是由k个观测变量的加权组合,对初始变量的方差解释性最大,以此得到后面的每一个主成分,且后面的每一个主成分都最大化它对方差的解释程度,同时与之前所有的主成分都正交.(5)计算主成分得分:通过计算出的各主成分得分值作为递归神经网络的输入值. 1.2 递归神经网络1.2.1 递归神经网络原理递归神经网络,简称RNN,是深度学习的算法之一,提出于1990年,被视为循环神经网络的推广.递归神经网络具有灵活的拓扑结构且权重共享,适用于包含结构关系的机器学习任务,在许多领域都有重要应用.RNN神经元与神经元之间相互连接,信息在这些神经元之间构成一个多向传播的循环,具有时间特性,可以记忆先前神经网络的状态,因而具有按照时间的推移不断学习,预测未来发展状态的功能.RNN的一种简单形式如图1所示,在FNN的隐藏层与输出层之间加了一个有存储感知能力的延迟神经元,因此可以记忆前一阶段的活跃值而在下一阶段将这些数值回馈给网络.图1 简单RNN结构Fig.1 Simple RNN structure1.2.2 Elman网络RNN进行传播作用时,常用Elman网络和Jordan网络,二者结构类似,唯一不同的是Elman网络承接神经元的输入来自隐藏层的输出,而Jordan网络则来自输出层的输出,本文重点介绍Elman网络.Elman网络是由Khatib提出,如图2所示.假设有一个由两个神经元组成的神经网络,在网络的每一层只有一个神经元,每个神经元都有一个偏置,两个神经元的偏置分别记为b1和b2,神经元之间的连接权重分别为w1和w2,激活函数分别为f1和f2.此时输出Y和输入X的函数关系式如下:Y=f2(w2f1(w1X+b1)+b2).(3)图2 两个神经元的Elman网络Fig.2 Elman network of two neuronsElman神经网络在实际应用中十分有效,主要用来预测给定序列的输出,在训练的过程中通过对连接权重和偏差进行调整,从而减少网络的错误,具有动态特性和短时间的记忆功能.2 实证分析2.1 数据选取选取玉米指数(CL9)自2016年1月18日到2019年3月27日共776个交易日的数据,数据来源于通信达.根据股票相关信息,选取开盘价、最高价、最低价、收盘价、成交量、MA.MA1、MACD.DIF和OBV.OBV等8个指标,其中开盘价作为股票价格预测指标,其他指标作为影响因素进行分析.股票开盘价格随时间变化情况如图3所示.图3 玉米指数开盘价Fig.3 Opening price of corn index2.2 PCA-RNN神经网络模型2.2.1 PCA结果分析根据上述算法过程首先将数据进行标准化处理,采用“max-min标准化”方法,进而计算原数据的相关系数,结果表明原数据之间具有高度的相关性,说明数据存在冗余,因而有必要采用主成分分析进行适当的降维处理.通过计算累计方差贡献率进行主成分选择,结果发现前两个主成分的累计贡献率已达到85%,因此提取两个主成分,实验结果如表1所示.表1 累计方差贡献率Table 1 Cumulation variance contribution rateImportance of components成分1234567标准差2.27951.06630.76100.28330.07490.03410.0305方差比例0.74230.16240.08270.01150.00080.00020.0001累积贡献率0.74230.90470.98740.99890.99970.99991.0000下面提取主成分,提取的主成分如下:C1=0.434X1+0.436X2+0.435X3-0.213X4+0.434X5+0.135X6+0.423X7, (4)C2=-0.048X1-0.021X2-0.034X3-0.625X4-0.012X5-0.777X6+0.053X7. (5)其中,C1和C2分别代表两个主成分,X1、X2、X3、X4、X5、X6和X7分别代表相应的股票指标开盘价、最高价、最低价、收盘价、成交量、MA.MA1、MACD.DIF和OBV.OBV.2.2.2 RNN神经网络建模将提取的主成分C1和C2作为神经网络的输入进行训练,为选取最优的训练模型,将RNN神经网络与DNN神经网络和BP神经网络算法进行比较分析.选取前740个数据作为训练样本,后36个数据作为测试样本.图4 Elman函数误差图像Fig.4 Error image of Elman functionDNN神经网络的原理是通过逐层构建单层神经元,之后利用Wake-Sleep算法进行微调达到最优的预测效果.选取C1和C2作为网络的输入,开盘价作为输出,经过多次训练发现当隐含层个数为10,每层节点数为20时,预测效果最好.BP神经网络的学习过程由信号的正向传播与误差的反向传播两个过程组成,正向传播时,输入样本从输入层传入,经隐层逐层处理后,传向输出层.利用该原理进行建模,选取最优的迭代次数为10 000时,各层输出结果达到最优.RNN神经网络训练过程中采取Elman网络进行学习,设置学习速率、隐含层节点个数和迭代次数,并通过交叉验证方法不断调节,以选取最优的参数值,该实验中计算出最优学习率为0.1,隐含层节点个数为1,大约迭代500次后趋于稳定.结果如图4所示.在比较以上3种模型的预测能力强弱时,一般可以计算平方相关系数、均方误差和均方根误差等评价回归模型系数拟合优度,本文选取平方相关系数比较两种模型的预测能力,平方相关系数计算式为(6)其中,SSR代表回归平方和,SSE代表残差平方和,一般当平方相关系数达到0.9则认为模型预测效果较为理想.计算结果如表2.表2 3种模型下的平方相关系数Table 2 Square correlation coefficient under three modelsPCA-DNNPCA-BPPCA-RNNR2 0.83770.91330.9749由表2发现,PCA-FNN预测效果显然更好,DNN网络容易出现训练时间过长、过拟合的问题,这对参数的选取要求很高,而传统的BP神经网络迭代次数比较多从而导致收敛速度慢,结构上的选择多样性,同时要注意忽略部分隐藏神经元.PCA-RNN神经网络模型在Elman网络的学习下,对权值进行适当修正有效地避免了可能出现的过拟合等问题,提升了算法的迭代速率.2.3 ARIMA模型由图3发现玉米指数的股票数据随时间推移不断发生变化,而且具有一定趋势性,原始数据并不平稳,因此在运用ARIMA模型进行建模时要对数据首先进行平稳化处理.通常处理非平稳序列的方法是进行差分,通过平稳性检验得到经过一次差分数据基本趋于平稳,可根据此序列进行建模分析,差分后的序列如图5所示.根据ACF图发现随着阶数的增长逐渐减小到0,PACF图发现该序列在1阶之后逐步减小到0,因此确立模型为ARIMA(1,1,0).图5 1阶差分序列图Fig.5 First order differential sequence diagram为了判断该模型的预测效果,经常通过观测模型的残差是否满足正态分布来进行评价,通过检验p值得到该模型的残差参数p=0.160 3,通过了正态性检验,同时计算出R2=0.932 7,说明该模型的拟合优度相对较高.2.4 预测比较分析将PCA-RNN神经网络模型与ARIMA(1,1,0)模型进行比较,对以下5个交易日开盘价进行预测,且实验中均选取前一天的对应指标进行开盘价预测,并将预测结果与真实值进行比较,将预测结果返回原值进行比较,采用均方误差MSE作为评价标准,结果如表3所示.表3 预测结果比较Table 3 Comparison of prediction results日期真实值/(元·t-1)PCA-RNN预测值/(元·t-1) ARIMA预测值/(元·t-1)收盘价2019-03-2818311829.4201828.3862019-03-2918281831.4541832.3852019-04-0118361834.4221839.3842019-04-021*******.4421837.3842019-04-0318471845.4771849.383误差MSE4.3328.714由表3对比结果发现PCA-RNN模型下的误差值为4.332,ARIMA模型下的误差值为8.714,说明PCA-RNN模型对短期股票价格预测更有效.3 总结首先建立了PCA-DNN,PCA-BP和PCA-RNN三种神经网络模型,然后与ARIMA模型进行对比试验,发现PCA-RNN模型具有更好的预测精度,对于短期预测具有可行性.ARIMA模型是一种广义模型,更加适用于平稳的时间序列数据,而且随着预测时间的增长,预测精度会下降,所以对于股票数据的预测存在一定程度的缺陷.神经网络模型有隐层单元,多层神经网络包含许多非线性变换,可以使其更加灵活简洁地表达复杂的非线性函数,建立复杂的统计模型,对于股票市场的预测要更加高效准确,但是训练隐层的深度神经网络仍存在一定的局限性,这也是在未来要继续探索和改进的问题.参考文献:【相关文献】[1] 谢合亮,游涛.基于深度学习算法的欧式股指期权定价研究——来自50ETF期权市场的证据[J].统计与信息论坛,2018,33(6):99-106.[2] 王钧,张鹏,袁帅.基于股票预测的Seq2Seq RNN和LSTM模型比较[J].时代金融,2018(35):381-382,392.[3] 黎镭,陈蔼祥,李伟书,等.GRU递归神经网络对股票收盘价的预测研究[J].计算机与现代化,2018(11):103-108.[4] 刘佳祺,刘德红,林甜甜.基于BP神经网络模型的股票价格研究[J].中国商论,2018(8):29-30.[5] 于卓熙,秦璐,赵志文,等.基于主成分分析与广义回归神经网络的股票价格预测[J].统计与决策,2018,34(18):168-171.。
企业财务绩效评价模型构建——基于主成分分析法
、
财 务指 标 关联 性 分析
企业 的财 务数据 主要 反映其 财务结 构 、 营运 能力 、 盈利 能 力 、 债能力 和成 长能力 五个 方面的 水平 。企业 的财 务结构指 偿 企业 的负债权益 结构 、 资产结 构等 , 务结 构是否合 理是企 业 财 整体竞争 力强 与弱的最直 接反应 ; 企业 的营运能 力反 映企业 经 营管理的效率 和利用资金 的能力 , 其主要包 括企业 的资金 周转 能力 、 存货周 转能力 和市场 运作 能力 等 ; 企业 的盈利 能力主 要 指 企业在现存技 术和规模 上资金 的扩 张能力 , 盈利能力可分 为 收 入 盈 利 能 力 、资 产 盈 利 能 力 和 净 资 产 盈 利 能 力 三个 方 面 ; 企 业 的偿 债能力包 括长期偿债 能力和短期偿 债能 力, 偿债能 力越 强 的企业 经营 风险就越小 ; 企业 能否持续稳 定发展是各利益相 关者普遍 关心 的问题 , 业的成 长能 力反映 了企业 经营状况变 企 化 的趋势 , 成长 能力主要 体现在经 营成 果( 利能 力 ) 盈 的成长 和 财 务 状 况 ( 本 扩 张 能 力 ) 成长 。 资 的
【 键 词 法 【 中图分类号 】 25 F7 【 文献标识码 】 【 A 文章编号 】 04 26(000— 29 0 10—782 1 ) 04—2 6
如果把一个企业 比作一辆行进 中的汽车的话 , 么财 务部 那 门就好 比是“ 仪表盘 ” “ , 仪表盘 ” 上的数据 , 就是企 业 的财 务 也 绩效水平能充分体现企业 的运行情况 及状 态 , 能够为汽 车的驾 驶人员 ( 即经 营管理 者 ) 和乘客 ( 即投 资人 、 股东 、 权人等 ) 债 提 供重要的决策和参考依据 。 此 , 如何得 出企业 的确切财 务绩 效水平 , 一直 是学 者们关注的 问题 。 企业 财务绩效评价 的重点 和难点 主要 在以下 j方 面 : 是 一 如何 选取 准 确 评 价 绩 效 的指 标 ;二 是 如 何 确 定 指 标 的权 重 ; 三 是如 何构 建科 学合理的绩效评 价模型 。对 于指标的选取 , 目前 主要有 以下几种方法 : 沃尔评价指标体 系…、 国有 资本 金绩效评 价体 系 、 V E A评价法I、 3清华 大学与《 1 中国证 券报》 联合 推 出的 财务绩效排序 体系 以及证券之星与复 旦大学金融期 货研究所 共 同开发 的财 务测 评系统 诸 E方法存在一定 的不足 , 。 如指标 选择 上缺乏客 观性 , 主观性 较强 , 取的指标 数量 过多或 过于 选 集 中, 或忽略 了单个指标本 身的财 务意 义。对于指标权 重 的确 定 上 , 要 有 主 观 赋 权 法 和 客 观 赋 权 法 两种 。 常 用 的 主 管 赋 权 主 法 有 : 家 打 分 法 、 次 分 析 法 f H 模 糊 隶 属 度 法 等 , 专 层 A P和 常 用 的 客 观 赋 权 法 主 要 有 : 成 分 赋权 法 、 子 分 析 法 和 熵 权 法 1 主 因 7 】 等。客观赋权法遵从数据 的数理统 计特性 , 而主观赋权法 则是 对客观赋权法 的必要补 充和修正 对 于评价模 型的构建上 , 主 要 分 为 静 态 模 型 、 态 模 型 分 析 法 和 多 元 形 分 析 法 种 。 动 1 三 常 用 的静态模型有 : 多元判定模 型 、r i模 型 、 Po t b 突变级 数评 价模 型例 人工神经 网络 ( N 模 型 、 、 A N) 主成分模 型和非线 性主成分 ㈣ 模型等 ; 常用 的动态分析法 主要 有时间序列模 型和动态管 理模 型等 。 考虑到财务绩效评 价应 该注重科学性 、 客观性和较强 的可 操 作 性 。 本 文 拟 运 用 多 元 统 计 分 析 法 , 面 系统 地 选 取 财 务 评 全 价指标 , 并运 用因子分 析法进 行筛选 , 后运用 主成 分分析 法 然 来构建绩 效评 价模 型 ;指标权重 的确 定上 采用综 合集成 赋权 法, 以客观赋权为基础 , 并结合 主观赋权进 行修正。
基于主成分分析的综合评价研究
基于主成分分析的综合评价研究一、本文概述主成分分析(Principal Component Analysis, PCA)作为一种多元统计分析方法,通过线性变换将原始数据集中的多个相互关联的变量转换为少数几个互不相关的主成分,从而实现对数据集的降维处理。
这一方法既简化了数据结构,又保留了原始数据中的主要信息,因此在多个领域得到了广泛应用。
本文旨在探讨基于主成分分析的综合评价研究,通过深入分析和研究主成分分析的理论基础、应用方法及其在综合评价中的实际应用,以期为相关领域的研究和实践提供有益的参考和启示。
本文将对主成分分析的基本理论进行梳理和阐述,包括主成分分析的基本原理、数学模型、计算方法以及优缺点等。
在此基础上,进一步探讨主成分分析在综合评价中的应用方法和步骤,包括评价指标体系的构建、数据的预处理、主成分的计算和解释以及最终评价结果的生成等。
本文将以实际案例为基础,分析主成分分析在综合评价中的具体应用和效果。
通过对案例的深入剖析,展示主成分分析在解决实际问题中的有效性和实用性,同时也探讨其在应用中可能存在的局限性和挑战。
本文将对主成分分析在综合评价中的未来发展进行展望,探讨其在新技术、新方法不断涌现的背景下如何与其他方法相结合,进一步提高综合评价的准确性和有效性。
也期望通过本文的研究,能够激发更多学者和实践者对主成分分析在综合评价中的研究和应用兴趣,共同推动该领域的发展和进步。
二、主成分分析基本理论主成分分析(Principal Component Analysis,PCA)是一种广泛使用的统计方法,它通过线性变换将原始数据集中的多个相关变量转化为少数几个独立的综合变量,这些新的综合变量称为主成分。
主成分分析旨在减少数据集的维度,同时保留数据中的主要变化特征。
方差最大化:主成分分析通过寻找数据集中方差最大的方向来提取主成分。
方差越大,说明该主成分包含的信息量越多,对数据集的代表性也越强。
协方差为零:主成分之间是相互独立的,即它们的协方差为零。
数据降维的十种方法
数据降维的十种方法在数据分析和机器学习领域,数据降维是一个非常重要的技术。
数据降维是指将高维数据转换为低维数据的过程,这个过程可以减少数据的存储空间和计算复杂度,同时也可以帮助我们更好地理解数据。
在本文中,我们将介绍数据降维的十种方法,包括主成分分析、线性判别分析、t-SNE、UMAP、自编码器、因子分析、独立成分分析、非负矩阵分解、核主成分分析和随机投影。
1. 主成分分析(PCA)主成分分析是一种常用的数据降维方法。
它通过线性变换将高维数据转换为低维数据,保留数据的主要信息。
主成分分析的核心思想是将数据变换到一个新的坐标系中,使得数据在新的坐标系中的方差最大。
这个新的坐标系的坐标轴被称为主成分,这些主成分是按照方差从大到小排列的。
我们可以选择前k个主成分来表示数据,从而实现数据降维。
2. 线性判别分析(LDA)线性判别分析是一种有监督的数据降维方法。
与主成分分析不同,线性判别分析考虑了类别信息。
它通过线性变换将高维数据投影到一个低维空间中,使得不同类别之间的距离最大化,同一类别内部的距离最小化。
线性判别分析可以用于分类和可视化任务。
3. t-SNEt-SNE是一种非线性数据降维方法。
它通过将高维数据映射到一个低维空间中,使得数据点在低维空间中的距离尽可能地反映在高维空间中的相似性。
t-SNE采用了一种特殊的概率分布来衡量数据点之间的相似度,并使用梯度下降算法来最小化低维空间中的KL散度。
4. UMAPUMAP是一种新兴的非线性数据降维方法。
它通过将高维数据映射到一个低维空间中,使得数据点在低维空间中的距离尽可能地反映在高维空间中的相似性。
UMAP使用了一种基于图形的方法来表示数据点之间的相似度,同时也考虑了数据点之间的局部结构和全局结构。
5. 自编码器(AE)自编码器是一种神经网络模型,用于将高维数据编码为低维表示。
自编码器由编码器和解码器两部分组成。
编码器将高维数据映射到一个低维潜在空间中,解码器将潜在空间中的表示映射回高维空间。
数据建模常用的方法和模型
数据建模常用的方法和模型数据建模是指根据不同的数据特征和业务需求,利用数学和统计方法对数据进行处理和分析的过程。
数据建模的结果可以用于预测、分类、聚类等任务。
以下是常用的数据建模方法和模型:1.线性回归模型:线性回归模型是一种通过拟合线性函数来建模目标变量与自变量之间关系的方法。
它假设目标变量与自变量之间存在线性关系,并且通过最小二乘法来估计模型参数。
2.逻辑回归模型:逻辑回归模型是一种广义线性模型,适用于二分类问题。
它通过拟合S形曲线来建模预测变量与目标变量之间的关系,并且使用最大似然估计来估计模型参数。
3.决策树模型:决策树模型是一种基于树形结构的分类模型。
它通过一系列的分裂条件来将数据分成不同的类别或者子集,最终得到一个预测模型。
决策树模型易于理解和解释,同时能够处理离散和连续特征。
4.随机森林模型:随机森林模型是一种集成学习方法,通过构建多个决策树模型并结合它们的预测结果来进行分类或回归。
它能够处理高维数据和具有不同尺度特征的数据,同时具有较高的预测准确性和稳定性。
5.支持向量机模型:支持向量机模型是一种非线性分类和回归方法。
它通过映射样本到高维特征空间,并在特征空间中找到一个最优超平面来进行分类或回归。
支持向量机模型具有较好的泛化能力和较强的鲁棒性。
6.贝叶斯网络模型:贝叶斯网络模型是一种基于贝叶斯定理的概率图模型,用于表示变量之间的依赖关系。
它通过学习样本数据中的条件概率分布来进行预测和推理。
贝叶斯网络模型可以解决不确定性问题,并且能够处理各种类型的变量。
7.神经网络模型:神经网络模型是一种模拟生物神经系统工作原理的计算模型。
它由多个节点和连接组成,通过调整节点之间的连接权重来学习和预测。
神经网络模型具有较强的非线性建模能力,适用于处理大规模和复杂的数据。
8. 聚类模型:聚类模型是一种无监督学习方法,用于将数据划分成不同的组别或簇。
聚类模型通过度量数据点之间的相似性来进行分组,并且可以帮助发现数据中的隐藏模式和规律。
因子得分的各种估计方法
因子得分的各种估计方法1. 最小二乘法(OLS):最小二乘法是一种常用的因子得分估计方法,它通过最小化观测值与因子得分之间的残差平方和来确定因子得分。
这种方法适用于大多数线性模型和多元统计分析中。
2. 主成分分析(PCA):主成分分析是一种基于线性变换的因子得分估计方法,它试图找到数据中的主要结构,并将这些结构转化为新的变量或主成分。
这些主成分可被用作因子得分。
3. 极大似然估计(MLE):极大似然估计是一种用于估计模型参数的方法,它试图找到使样本数据出现的概率最大的参数,然后将这些参数作为因子得分的估计。
4. 因子回归法:因子回归法通过对因子载荷矩阵和观测变量之间的线性回归来估计因子得分,从而得到因子得分的估计值。
5. 最大方差旋转(VARIMAX):最大方差旋转是一种对主成分分析结果进行变换的方法,它试图通过旋转变量向量,使得每个因子的方差最大化,从而得到因子得分的估计。
6. 因子得分插补法:当某一观测变量缺失时,因子得分插补法采用其他相关变量的信息和样本的因子载荷矩阵来估计缺失观测变量的因子得分。
7. 贝叶斯方法:贝叶斯方法通过考虑先验概率和样本数据,来估计因子得分的后验概率分布,得出因子得分的估计值。
8. 最小二乘模型法(LSM):最小二乘模型法是一种基于最小二乘原理来估计因子得分的方法,它适用于多因子模型,通过最小化模型的残差平方和来得到因子得分的估计。
9. 加权最小二乘法(WLS):加权最小二乘法在最小二乘法的基础上加入权重,以更好地处理观测变量之间的相关性和方差不齐的情况,从而得到更准确的因子得分估计。
10. 广义最小二乘法(GLS):广义最小二乘法是一种对最小二乘法的推广,它在处理观测变量之间相关性和异方差性时更具灵活性,可以得到更准确的因子得分估计。
11. 非线性最小二乘法(NLS):非线性最小二乘法适用于包含非线性关系的因子得分估计问题,通过拟合非线性模型来估计因子得分。
12. 约束最小二乘法(CLS):约束最小二乘法是一种考虑因子得分间约束条件的估计方法,通过加入约束条件来获得更符合理论和实际的因子得分估计。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第29卷 第8期2007年8月武 汉 理 工 大 学 学 报JOURNA L OF WUHAN UNIVERSIT Y OF TECHN OLOG YVol.29 No.8 Aug.2007基于主成分分析与神经网络的非线性评价模型何方国,齐 欢(华中科技大学系统工程研究所,武汉430074)摘 要: 针对评价过程的非线性特征,运用神经网络高度非线性映射能力,建立了一种非线性综合评价模型。
采用主成分分析法对评价指标进行处理,形成了新的指标体系,有效的消除了原指标间的相关性,降低了神经网络的输入维数。
利用Matlab 软件对地区经济发展水平的综合评价进行实例分析和仿真,得到了较满意的结果,说明了该模型的有效性。
关键词: 非线性评价; 神经网络; 主成分分析; 地区经济中图分类号: F 830文献标志码: A文章编号:167124431(2007)0820183204Nonlinear Evaluation Model B ased on Principal ComponentAnalysis and N eural N et workH E Fang 2guo ,Q I Huan(Institute of Systems Engineering ,Huazhong University of Science &Technology ,Wuhan 430074,China )Abstract : Aiming at the nonlinear characteristic of evaluation ,a nonlinear evaluation model was presented based on neuralnetwork ,which had high ability of nonlinear map.The method of principal component analysis was adopted to eliminate corre 2lation of evaluation index of sample and reduce the input dimension of neural network ,and a new system of evaluation index was formed on the basis of the initial one.By using Matlab software ,the model was applied to the research on the comprehensive e 2valuation for the level of region economic development.The result of simulation test proved the validity of this model.K ey w ords : nonlinear evaluation ; neural network ; principal component analysis ; regional economy 收稿日期:2007203220.基金项目:国家自然科学基金(60574088).作者简介:何方国(19682),男,讲师,博士生.E 2mail :hfg0118@评价是科学管理和决策过程中不可缺少的重要工作,在评价时要把所涉及的问题看作一个系统,评价过程就是研究系统的输入和输出过程。
其输入是评价指标变量,输出是评价结论。
若令n 维向量X =(X 1,X 2,…,X n )为评价指标变量,y 为评价结论,则有y =F (X 1,X 2,…,X n ),即评价可以看作是评价指标到评价结论的函数映射。
传统的评价方法有模糊综合评价法、层次分析评价法及利用运筹学、多元统计分析等方法[1],其评价模型基本上是线性模型,其结果一般采用加权平均求综合分的方法。
评价的实践说明,评价工作的不确定性[2]导致了评价的非线性,评价本质上不是线性的,它所表现的应是非线性特征[3]。
从一般意义上讲,所有的评价问题都应该是非线性评价,线性评价只是非线性评价在一定范围内的近似[4]。
为弥补线性加权方法的不足,现提出一种基于神经网络的非线性评价模型。
为提高神经网络的收敛速度和防止网络陷入局部极小值,同时降低输入维数,采用主成分分析方法对输入数据进行预处理,使输入变量互不相关。
实例说明,该模型与实际评价结果相符合。
1 综合评价的神经网络模型及算法神经网络是对人类智能的模拟,它是一个大规模的非线性自适应系统。
在已有的神经网络中,基于误差反向传播的BP 神经网络是目前应用最广泛、最成功的网络模型[5]。
理论上已经证明,包含一个隐含层的3层前馈神经网络可以以任意精度逼近任意非线性函数。
因而,神经网络具有强大的非线性映射能力。
对于预先给定的样本集{(x (t ),y (t ))—x (t )∈R n ,y (t )∈R m ,t =1,2,…,k},神经网络可以实现从输入到输出的高度非线性映射,即存在一个映射F :R n →R m 使得F (x (t ))=y (t )。
由于评价可以看作是评价指标到评价结论的函数映射,把评价指标作为输入,评价结论作为输出,则由此可以建立反映非线性映射关系的评价模型。
评价的BP 神经网络算法过程如下:1)网络初始化:赋给初始权w ji ,v lj 一个较小的值,设置学习率η,给定最大迭代次数和误差精度。
2)输入网络学习样本,即输入评价对象的指标向量x (t )=(x 1(t ),x 2(t ),…,x m (t ))和评价结果{y (t )}。
3)计算网络的实际输出(正向过程)。
下式中f 1为S 型函数f 1(x )=1/(1+e -x ),f 2为线性函数。
隐含层h j (t )=f 1(∑iw ji x i (t )) 输出层 ^y (t )=f 2(∑jv lj h j (t ))(1) 4)按下式计算网络的误差函数EE =12∑t(y (t )-^y (t ))2(2) 5)修正各连接边权值(反向过程)。
连接权值的修正采用梯度下降法,每一次连接值的修正量与误差函数的梯度成正比,并从输出层反向传播到隐含层和输入层。
各层连接权值修正量分别为Δw ji =-η5E 5w ji =η(y (t )-^y (t ))f ′2v lj f ′1x i (t ) Δv lj =-η5E 5v lj =η(y (t )-^y (t ))f ′2h j (t )式中,η为学习速率,f ′1,f ′2为激活函数f 1,f 2的导数。
将当前权值与对应的调整量相加,计算出新权值,即w ji (n +1)=w ji (n )+Δw ji v lj (n +1)=v lj (n )+Δv lj(3) 6)判断是否达到误差精度或迭代次数要求,是则输出结果,否则回到3)。
经典BP 神经网络主要问题表现为收敛速度慢、稳定性差、易陷入局部极小值。
同时评价指标维数一般较大,这些缺陷限制了神经网络在评价体系中的应用和推广。
现将主成分分析法和BP 网络有机结合,改善BP 网络的性能。
这既可以消除样本的相关性,又可以降低输入维数。
2 主成分分析法主成分分析法(Principal Component Analysis )是一种数据压缩和特征提取的统计分析技术,它是将分散在一组相关变量(指标)上的信息集中到少数几个不相关的综合变量(即主成分)上,所得的综合变量是原来变量的线性组合,而且这些不相关的综合变量完全可以反映原变量的大部分信息。
其在评价中的主要步骤如下:设有p 个评价指标X 1,X 2,…,X p ,n 个评价对象的p 项指标构成了原始数据矩阵X 3。
1)将原始数据矩阵X 3进行标准化处理,消除量纲的影响及在数量级上差别。
得到标准化的数据矩阵X 。
2)建立标准化数据矩阵X 的相关系数矩阵R =(r ij )np,其中r ij 是指标X i 与指标X j 的相关系数。
3)计算相关矩阵R 的特征值λ1≥λ2≥…≥λp >0,及其相应的特征向量u 1,u 2,…,u p 。
其中u i =(u i 1,u i 2,…,u ip )(i =1,2,…,p ),从而得到p 个主成分Y 1,Y 2,…,Y p ,且Y i 是变量X 1,X 2,…,X p 的线性组合,即Y i =u i 1X 1+u i 2X 2+…+u ip X p i =1,2,…,p(4) 可以证明[6]主成分Y 1,Y 2,…,Y p 互不相关并且其方差就是特征值λ1,λ2,…,λp 。
方差λi 反映了第i个主成分Y i 在描述被评价对象所起的作用大小,λi 越大,对总变差贡献也越大,其贡献率为a i =λi /∑k λk 。
4)根据研究精度选取主成分,通常选取使得主成分的累计贡献率∑i a i 超过85%的最小整数m ,最终确定前m 个主成分Y 1,Y 2,…,Y m ,并用这m 个主成分作为综合指标替代原来p 个评价指标X 1,X 2,…,X p ,得到新的指标体系。
481 武 汉 理 工 大 学 学 报 2007年8月3 仿真实例根据上述分析,该文采用基于主成分分析的BP 神经网络来评价地区经济发展水平。
地区经济发展水平的评价问题是一个复杂的非线性问题,影响地区经济发展的因素很多,根据文献[7]提出的地区经济发展水平的评价指标体系,选取有代表性的14个指标构成评价体系,分别为:人均G DP (X 1)、人均财政收入(X 2)、城镇居民收入水平指数(X 3)、城镇居民可支配收入(X 4)、农民人均纯收入(X 5)、在岗职工年平均工资(X 6)、人均教育经费投入(X 7)、人均技术市场成交额(X 8)、人均固定资产投资额(X 9)、路网密度(X 10)、出口商品占G DP 比重(X 11)、城市绿化覆盖率(X 12)、万人病床数(X 13)、万人大学生数(X 14)。
选取2004年31个省市的经济发展水平指标数据[7]进行实例仿真。
3.1 地区经济发展水平的主成分提取在地区经济发展水平的评价指标体系中,指标间相关性大,信息重叠较多,不易直接用BP 网络进行评价。
先采用主成分分析法对指标数据进行特征提取,消除指标间的耦合关系,获得主要综合指标。
将2004年31个省市的原始指标数据进行标准化处理得到表1,鉴于篇幅的限制,仅列出2004年部分省市的相关数据[7]。
表1 2004年地区经济发展的数据矩阵地区X 1X 2X 3X 4X 5X 6X 7X 8X 9X 10X 11X 12X 13X 14北京1.972.962.392.522.242.484.394.883.041.931.431.692.873.49天津1.831.040.820.891.391.021.030.791.640.580.730.361.452.57河北-0.09-0.40-0.51-0.490.01-0.61-0.47-0.38-0.371.22-0.550.68-0.51-0.14山西-0.52-0.34-0.58-0.51-0.43-0.60-0.37-0.39-0.48-0.47-0.53-0.590.55-0.13内蒙-0.29-0.32-0.61-0.42-0.41-0.53-0.36-0.280.01-0.71-0.45-0.640.01-0.44辽宁0.440.13-0.44-0.470.11-0.24-0.120.010.01-0.010.170.761.620.39吉林-0.25-0.33-0.65-0.53-0.12-0.70-0.14-0.32-0.40-0.51-0.110.220.460.32……………………………………浙江1.250.552.112.102.071.340.48-0.081.59-0.070.120.370.110.14安徽-0.690.540.68-0.66-0.49-0.61-0.60-0.37-0.810.46-0.480.22-1.00-0.53湖北-0.30-0.46-0.48-0.46-0.20-0.80-0.30-0.21-0.57-0.75-0.520.72-0.550.54陕西-0.65-0.420.65-0.67-0.970.59-0.19-0.28-0.50-0.29-0.490.220.020.69甘肃-0.86-0.55-0.72-0.72-0.98-0.48-0.45-0.33-0.76-0.98-0.59-0.93-0.47-0.54 根据标准化处理后的数据,借助Matlab 统计软件得到了变量的相关系数矩阵R 的特征根λi 和相应的特征向量u i 及贡献率,并根据累计贡献率接近85%的原则从14个成分中提取了3个主成分,如表2、表3所示。