人工神经网络在数据挖掘中的潜在应用

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

人工神经网络在数据挖掘中的潜在应用

摘要：随着存储在文件，数据库，和其他的库中的数据量巨大，数据正在变得越来越重要，开发用于分析或解释这些数据和用于提取有趣的知识的强有力的手段可以帮助决策。数据挖掘，也普遍被称为数据库中的知识发现（KDD），是指从数据库中的数据中提取隐含的，先前未知的，潜在地有用的信息。因此，数据挖掘的过程就是从大型数据库中自动提取隐藏的，预测的信息。数据挖掘，包括：提取，转换和加载到数据仓库系统的数据。神经网络已经成功地广泛的应用在监督和无监督的学习应用当中。神经网络方法不常用于数据挖掘任务当中，因为它们可能会结构复杂，训练时间长，结果的表示不易理解并且经常产生不可理解的模型。然而，神经网络对嘈杂的高精度的数据具有高度的接受能力在数据挖掘中的应用是可取的。在本论文中，调查探索人工神经网络在数据挖掘技术的应用，关键技术和实现基于神经网络的数据挖掘研究方法。鉴于目前的行业状态，神经网络作为一个工具盒在数据挖掘领域是非常有价值的一点。

关键词：数据挖掘；KDD；SOM；数据挖掘的过程

一、引言

数据挖掘，从大型数据库中提取隐藏的预测性信息，是一个功能强大的具有巨大潜力的新技术在帮助公司集中重要的信息在他们的数据仓库中。数据挖掘工具预测未来的趋势和行为，允许企业作出主动的，知识驱动的决策。所提供的数据挖掘超越过去的事件进行回顾性工具的典型的决策支持系统提供了自动、前瞻性的分析。数据挖掘工具可以回答那些，传统上耗费太多的时间来解决的业务问题。他们寻找隐藏的模式数据库，寻找专家们可能由于超出在他们期望之外而错过的预测信息。不同类型的数据挖掘工具，在市场上是可用的，每个都有自己的长处和弱点。内部审计人员需要了解数据挖掘工具的不同种类和推荐的工具，满足组织电流检测的需要。这应该在项目的生命周期中尽早考虑，甚至可行性研究。

数据挖掘通常包括四类任务。

分类：把这些数据整理到组。例如一个电子邮件程序会试图将一封电子邮件分类为合法的或垃圾邮件。常见的算法包括决策树学习，最近邻，朴素贝叶斯分类和神经网络算法。

聚类：就像分类但这些组却没有被预定义，因此该算法会尝试将类似的物品放在一起进行分组。

回归：试图找到一个以最小的误差的数据函数模型。

关联规则的学习：变量之间的关系搜索。例如，超市会对将消费者的购买习惯的数据集合起来。利用关联规则的学习，超市可以决定哪些产品经常一起购买和利用此信息实现营销的目的。有时将这种方法称为“市场分析”。

人工神经网络是一个基于人类大脑的松散的系统建模。现场有许多名字，如联结，并行分布处理，神经计算，自然智能系统，机器学习算法，人工神经网络。它必须考虑任何功能的依赖性。网络发现（学习，模型）无需提示的依赖性。最初的数据挖掘应用中神经网络不被使用是由于其结构复杂，训练时间长，且操作性较差。而神经网络是解决许多现实世界的问题的一个有力的技术。他们从经验中学习，以提高其性能和适应变化的能力环境。此外，他们能够处理不完备信息或嘈杂的数据，特别是在无法定义的规则或步骤导致一个问题的解决方案的情况下是非常有效的。

二、数据挖掘技术

数据挖掘技术可以在现有的软件和硬件平台迅速实施来提高现有信息资源的价值，并可以提供新的产品和系统集成，为他们带来在线服务。当实现了高性能的客户机/服务器或计算机的并行处理，数据挖掘工具可以分析海量数据库来提供问题的答案，比如，“哪些客户最有可能回复我的下一个邮件促销，为什么？”

如图1所示，数据挖掘的过程包括三个主要阶段：

1．数据预处理

2．应用数据挖掘技术

3．结果的解释

图1：数据挖掘的一般过程

本节介绍数据挖掘的基本技术。在数据挖掘中最常用的技术是：

•人工神经网络：非线性预测模型，通过培训和学习，类似于生物神经网络的结构。

•决策树：树型结构，表示一组决定。这些决定产生数据集的分类规则。具体的决策树方法包括分类与回归树（CART）和卡方自动交互检测（CHAID）。

•遗传算法：使用优化技术如遗传组合，突变，和一个基于自然选择进化的概念设计。

•最近邻法：一种将数据中每个记录集合的技术结合K记录类（S）最类似于它在历史数据集基础上。有时被称为K-最近邻技术。

•规则归纳：从基于统计意义的数据中提取有用的if-then规则。

三、人工神经网络在数据挖掘中的应用

如在上一节讨论的，我们可以在数据挖掘中使用各种技术。本节将重点放在人工神经网络是如何适合解决数据挖掘问题的。

有两种主要神经网络模型：监督神经网络，如多层感知器或径向基函数，和无监督神经网络如Kohonen特征图等。有监督的神经网络使用培训和测试数据建立一个模型。数据包括历史数据集，它包含输入变量，或数据域，对应输出。训练数据的神经网络采用“学习”如何对已知量进行预测，并对测试数据用于验证。目的是对给定的输入变量利用神经网络对任何记录输出预测。

图2：一个简单的前馈神经网络示例

一个最简单的前馈神经网络（FFNN），如图2，包括三层：输入层，隐藏层和输出层。在每一层有一个或多个处理单元（PES）。PES是模拟大脑中的神经元，这就是为什么它们经常被称为神经元或节点。PE从外面的世界或者上一层接收输入。在每一层的PE之间有一个与之相关的重量（参数）联系着他们。这一重量因子。信息只有在向前的方向通过网络——没有反馈回路。

为什么应用神经网络

高精度：神经网络能够逼近复杂的非线性映射。

噪声容限：神经网络针对不完备，丢失了的和嘈杂的数据是非常灵活的。

从之前的假设独立：神经网络可以用新鲜的数据更新，使它们可用于动态环境。隐藏节点，在有监督的神经网络可以被视为潜在变量。神经网络可以在平行的硬件中实现。

四、传统方法的信息处理与神经网络

在这一部分中比较传统的方法和神经网络的信息处理。

A）基础：逻辑与大脑

传统方法：模拟和形式化人类推理和逻辑的过程。TA把大脑看作一个黑盒子。TA专注于元素是之间是如何彼此相关的，以及如何给机器一样的功能。

神经网络：模拟大脑的智力功能。神经网络专注于大脑的结构建模。神经网络试图建立一个系统，功能就像大脑，因为它有一个类似于大脑的结构。

B）处理技术：顺序和并行

传统方法：TA的处理方法本质上是连续的。

神经网络：神经网络处理方法本质上是平行的。在神经网络系统中每个神经元与其他神经元功能平行。

C）学习：静态和动态以及外部与内部的

传统方法：学习是发生在系统外。在系统外部获得知识，然后编码到系统。