神经网络方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

文献综述

人工神经网络的算法及其在化工

中的应用

姓名:某某某

学号: 00000000

班级:某班

摘要

摘要

数据挖掘技术是当今一项新兴技术,它综合运用人工智能、计算智能、模式识别、数理统计等先进技术从大量数据信息中挖掘和发现有价值和隐含的知识。人工神经网络是由大量同时也是很简单的处理单元广泛连接构成的复杂网络系统。它具有自学习、高容错和高度非线性描述能力等优点,使其在化工领域得到了广泛的应用。这些应用主要包括:故障诊断、过程控制、物性估算、专家系统和建筑节能等。但人工神经网络在化工领域的进一步应用还有赖于对化工领域问题的抽提(即符合神经网络的输入输出表达)及网络本身性能优化的进一步研究。

关键词:数据挖掘技术;人工神经网络;化工应用

1 数据挖掘技术

1.1数据挖掘技术概述

化工生产在生产产品的同时,也产生大量关于生产过程的信息。这些信息的有效利用极大地促进了化工生产的科学管理和生产优化,与此同时,日益积累的信息也带来了许多新的挑战和问题,如信息过量、信息真假难辨、信息安全隐患、信息矛盾等。面对这一挑战,数据挖掘技术应运而生,并显示了强大的生命力。[1]

数据挖掘是一门交叉学科,涉及到机器学习、模式识别、统计学、智能数据库、知识获取、数据可视化、高性能计算机和专家系统等多个领域。数据挖掘的两个高层次目标是预测和描述。预测的基本任务包括分类、回归、时间序列分析和预测。描述的基本任务包括聚类、总结、关联规则和序列发现。

数据库技术只是将数据有效地组织和存储在数据库中,并对这些数据作一些简单分析,大量隐藏在数据内部的有用信息无法得到。而机器学习、模式识别、统计学等领域却有大量提取知识的方法,但没有和实际应用中的海量数据结合起来,很大程度上只是对实验数据或学术研究发挥作用。数据挖掘从一个新的角度将数据库技术、机器学习、模式识别和统计学等领域结合起来,从更深层次中发掘存在于数据内部有效的、新颖的、具有潜在效用的乃至最终可理解的模式。

1.2 数据挖掘技术分类

数据挖掘技术通常可以分为一下几种方法:[2]

(1) 数学统计方法

数学统计方法主要用于完成总结知识和关联知识挖掘。它利用统计学、

1

概率论的原理对关系中各属性进行统计分析,建立一个数学模型或统计模型,以找出他们之间的关系和规律。常用的统计方法包括判别分析、因子分析、相关分析、回归分析、偏最小二乘回归(PLS)和聚类法等。

(2) 决策树

决策树技术主要用于分类、聚类和预测的预测建模技术。它利用信息论中的互信息(信息增益)寻找数据库中具有最大信息量的字段,建立决策树的一个结点,再根据字段的不同取值建立树的分枝,在每个分枝子集中重复建立下层结点和分枝,这样便生成一颗决策树。接着对决策树进行剪枝处理,再把决策树转化为规则,利用这些规则可对新事例进行分类。典型决策树方法有分类回归树(CART)、ID3和C4.5等。

(3) 模式识别方法

模式识别是数据挖掘的主要方法之一。它是一种借助于计算机对信息进行处理、判决分类的数学统计方法。模式识别方法大致可以分为统计模式识别和句法模式识别两大类。统计模式识别将每个样本用特征参数表示为多维空间中的一个点,根据“物以类聚”的原理,同类或相似的样本间的距离应较近,不同类的样本间的距离应较远。这样,就可以根据各样本点间的距离或距离的函数来判别、分类,并利用分类结果预报未知。统计模式识别是工业优化中的常用方法。

(4) 人工神经网络方法

人工神经网络方法用于分类、聚类、特征挖掘、预测和模式识别。神经网络方法模仿动物的脑神经元结构,以M-P模型(由Mceulloch和Pitts提出)和Hebb学习规则为基础。在本质上是一个分布式矩阵结构,通过对训练数据的挖掘,逐步计算(包括反复迭代或累加计算)神经网络连接的权值。

(5) 遗传算法

2

遗传算法主要用于解决全局优化问题,适用于分类和关联规则挖掘等。遗传算法是一种基于达尔文进化论中基因重组、突变和自然选择等概念的算法,具有随机性和自适应性等特点。从一个初始规则集团(如知识基因)开始,逐代地通过交换对象成员(杂交、基因突变)产生群体(繁殖),评价并择优复制(适者生存,不适者淘汰),逐代积累计算,最终得到最优的或是近似最优的知识集。

(6) 粗糙集方法

粗糙集方法用于数据简化(例如,删除与任务无关的记录或字段)、数据意义评估、对象相似或差异性分析、因果关系及范式挖掘等。Rough Set 理论是Pawlak在20世纪80年代提出来的,用于研究非精确性和不确定性知识的表达、学习、归纳等方法的。主要思想如下:在数据库中将行元素看成对象,列元素是属性,把对象的属性分为条件属性和决策属性,按各属性值是否相同划分等价类。等价关系R定义为不同对象在某个(或几个)属性上取值相同,这些满足等价关系的对象组成的集合称为该等价关系R的等价类。

(7) 支持向量机方法

支持向量机方法主要用于有限数据的分类、回归和预报建模。早在20世纪60年代,以数学家Vapnik为代表的学派就开始努力建立一套能保证从有限样本得出预报能力最强数学模型的“统计学习理论”(statistical learning theory,简称SLT)并于1992年和1995年先后提出分类和回归的支持向量机算法(support vector machine ,简称SVM)。支持向量机的基本思想可以概括为:首先通过非线性变换将输入空间变换到一个高维空间,然后在这个新空间中求取最优线性分类面,而这种非线性变换是通过定义适当的内积函数实现的。SLT和SVM算法在很大程度上解决了模型选择与过拟合问题,小

3

样本、非线性和维数灾难问题,局部最小点问题等。

(8) 可视化技术

可视化是计算机应用技术的发展趋势,也是数据挖掘的研究方向之一。可视化数据分析技术拓宽了传统的图表功能,用直观图形式将信息模式、数据关联或趋势呈现给决策者,使之能交互分析数据关系,如把数据库中多维数据变成多种图形对揭示数据总体状况、内在本质及规律至关重要。可视化技术将人的观察力和智能融入数据挖掘系统,极大提升了系统挖掘的速度、层次和内容。

2. 神经网络方法概述

2.1 神经网络方法的发展

从1943年心理学家W.S.McCu lloch和数学家W.Pitts研究并提出M-P 神经元到今天,人类对神经网络的研究已过了半个多世纪的历程。进入80年代后期,在美国、日本等一些工业发达国家里,掀起了一股竞相研究神经网络的热潮,神经网络的研究进入复苏阶段,特别是1986年Rumelhart和McCelland为首的科学小组提出的误差逆传播学习网络及其学习算法,已成为至今影响最大的一种网络学习法。到了21世纪,神经网络技术逐渐趋于成熟和理智。[3]

人工神经元网络(Artificial Neural Network,简称ANN)是模仿人类脑神经活动的一种人工智能技术,是由大量的同时也是很简单的处理单元广泛连接构成的复杂网络系统。人工神经网络是建立在现代神经科学研究基础上的一种抽象数学模型,它反映了大脑功能的基本特征,但并非逼真地描写,只是某种简化、抽象和模拟。给ANN 一些样本,ANN通过自学习可以掌握样本规律,在输入新的数据和状态信息时,可用ANN进行自动推理和控

4

相关文档
最新文档