基于神经网络的数据挖掘方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
21
4 结论
神经网络的不足: ⑦特征函数的选取:特征函数的选取的是
否合适,将关系到结果是否有价值和真实。 ⑧实际意义的解释:由于其复杂的函数形
式,有时神经网络模型的实际意义难以解 释。
22
谢谢聆听!
23
3
0 引言
20世纪90年代出现的数据挖掘技术受到不 同领域研究学者的极大关注,尽管对数据 挖掘的研究与应用还只处于初级阶段,但 是它的应用前景早已被各方面专家学者看 好。
Garter Group在1997年的一份报告中指出: 数据挖掘技术将在未来的三到五年内成为 对全球影响最的一个关键技术领域。
4
是模拟人脑的一种技术系统。
11
ห้องสมุดไป่ตู้
3 基于神经网络的数据挖掘
基于神经网络的数据挖掘由以下二个阶段 组成:
网络构造、训练和剪枝 规则提取与评估
12
3 基于神经网络的数据挖掘
网络构造、训练和剪枝: 这个阶段需要选择拟采用的网络模型,选
择或设计一种网络训练算法。 训练后的网络可能有些臃肿,剪枝就是在
不影响网络准确性的前提下,将网络中冗 余的连接和结点去掉。没有冗余结点和连 接的网络产生的模式更精练和更易于理解。
神经网络的不足: ①非数值型数据的处理:量化此类数据往
往凭人们主观经验而定,如果不能按实际 情况进行量化,将影响挖掘结果。 ②数据质量:由于某些数据具有冗余或不 完整性,致使产生的规则存在不真实和异 常等问题。
19
4 结论
神经网络的不足: ③权值和阈值初值的确定:权值和阈值的
初值影响算法的迭代次数和学习结果。 ④学习样本的大小:对于数据量较小的数
1 数据挖掘技术
数据挖掘的含义:
数据挖掘,又称数据库中的知识发现,就 是从大量数据中获取有效、新颖、潜在有 用、最终可理解的模式的非平凡过程。
简单地说,数据挖掘就是从海量的数据中 挖掘出可能有潜在价值的信息的技术。
这些知识是是隐含的,事先未知的潜在的 有用的信息。
5
1 数据挖掘技术
数据挖掘的主要功能: ①分类:按照对象的属性、特征,建立不
时序预测是依据当前已知的数据来预测将 来未知数据的状态。
神经网络固有的输人输出映射特性,特别 适合用来建立预测模型。
不管是线性问题还是非线性问题,只要输 入输出间存在连续映射关系,就可以用一 个多层神经网络以任意精度来逼近之。
16
3 基于神经网络的数据挖掘
适合神经网络的数据挖掘问题: 聚类是无监督学习过程,它依据数据间的
分类是数据挖掘的一个主要问题。
单层感知器的线性可分能力早已证明,但 是对于非线性可分问题单层网络是无能为 力的。
可通过加入中间层,引入转换函数,将非 分线性可分的问题映射后变为线性可分。
一个多层的神经网络具有非常强的分类能
力,并且分类误差率较低。
15
3 基于神经网络的数据挖掘
适合神经网络的数据挖掘问题:
相似度将数据集划分为不同的簇。目的是 概观数据的全貌,了解数据点的分布情况 以及可能存在的问题。
17
4 结论
神经网络的优点: ①非用户驱动,用户参与少,挖掘层次深。 ②处理变量较多,能处理定性变量,复杂、
动态数据,发现的事实或规则是以描述和 可视性为主要目的。 ③分布记忆性和快速的计算能力。
18
4 结论
据库,可能出现错误的结果,这时就可以 把这些数据作为新样本补充到学习样本中 去。
20
4 结论
神经网络的不足:
⑤激励函数的选取:激励函数是对多个输 入进行处理产生输出的功能模块,它将关 系到结果是有价值和真实。对于数据库中 模糊知识的发现,往先对输出状态进行编 码,采用符号函数作为激励数。
⑥神经网络的训练速度问题:构造神经网 络时要求对其训练许多遍,这意味着获得 精确的神经网络需要花费许多时间。
基于神经网络的 数据挖掘方法
0 引言 1 数据挖掘技术 2 神经网络原理 3 基于神经网络的数据挖掘 4 结论
2
0 引言
现代信息技术的高速发展,数据库应用的 规模、范围不断扩大,可获得的数据量越 来越大,数据的种类也日益繁多。
面对如此大规模的、并且存在着“噪声” 的数据,如何从中提取出隐含其中的有意 义的、对决策有用的信息或知识,进一步 提高信息利用率,成为“信息时代”亟待 解决的一个问题。
13
3 基于神经网络的数据挖掘
规则提取和评估:
这一阶段从进化后产生的相对简单的网络 中提取分类规则。
规则提取目的就是从网络中提取规则,并 转换为某种易理解的形式表达出来,如决 策树、模糊逻辑等方法。
再利用测试样本对规则的可靠性进行测试 与评估,最后输出有用知识。
14
3 基于神经网络的数据挖掘
适合神经网络的数据挖掘问题:
这些方法帮助分析包含在数据仓库中的数 据,它们的共同特点是问题驱动的。
用户必须提出许多问题,才能得到包含在 复杂关系中的结果,当提不出问题或提出 的问题不正确时,将得不到正确的数据。 10
2 神经网络原理
神经网络是由大量并行分布式处理单元组 成的简单处理单元。
它有通过调整连接强度而从经验知识进行 学习的能力并可将这些知识进行运算。
同的组类来描述事物。 ②聚类:识别出分析对象内在的规则,按
照这些规则把对象分成若干类。
6
1 数据挖掘技术
数据挖掘的主要功能: ③关联规则和序列模式:关联是某种事物
发生时其他事物会发生的这样一种联系。 ④预测:把握分析对象发展的规律,对未
来的趋势做出预见。 ⑤偏差的检测:对分析对象的少数的、极
端的特例的描述,揭示内在的原因。
7
1 数据挖掘技术
数据挖掘的处理过程: 数据挖掘的过程主要分为5个部分: ①问题的定义 ②数据准备 ③数据整理 ④建立模型 ⑤评价和解释
8
1 数据挖掘技术
数据挖掘的处理过程:
9
1 数据挖掘技术
现行的数据挖掘方法:
统计方法、关联发现、聚类分析、分类与 回归和决策树、联机分析处理(OLAP)、查 询工具、主管信息系统(EIS)等。
4 结论
神经网络的不足: ⑦特征函数的选取:特征函数的选取的是
否合适,将关系到结果是否有价值和真实。 ⑧实际意义的解释:由于其复杂的函数形
式,有时神经网络模型的实际意义难以解 释。
22
谢谢聆听!
23
3
0 引言
20世纪90年代出现的数据挖掘技术受到不 同领域研究学者的极大关注,尽管对数据 挖掘的研究与应用还只处于初级阶段,但 是它的应用前景早已被各方面专家学者看 好。
Garter Group在1997年的一份报告中指出: 数据挖掘技术将在未来的三到五年内成为 对全球影响最的一个关键技术领域。
4
是模拟人脑的一种技术系统。
11
ห้องสมุดไป่ตู้
3 基于神经网络的数据挖掘
基于神经网络的数据挖掘由以下二个阶段 组成:
网络构造、训练和剪枝 规则提取与评估
12
3 基于神经网络的数据挖掘
网络构造、训练和剪枝: 这个阶段需要选择拟采用的网络模型,选
择或设计一种网络训练算法。 训练后的网络可能有些臃肿,剪枝就是在
不影响网络准确性的前提下,将网络中冗 余的连接和结点去掉。没有冗余结点和连 接的网络产生的模式更精练和更易于理解。
神经网络的不足: ①非数值型数据的处理:量化此类数据往
往凭人们主观经验而定,如果不能按实际 情况进行量化,将影响挖掘结果。 ②数据质量:由于某些数据具有冗余或不 完整性,致使产生的规则存在不真实和异 常等问题。
19
4 结论
神经网络的不足: ③权值和阈值初值的确定:权值和阈值的
初值影响算法的迭代次数和学习结果。 ④学习样本的大小:对于数据量较小的数
1 数据挖掘技术
数据挖掘的含义:
数据挖掘,又称数据库中的知识发现,就 是从大量数据中获取有效、新颖、潜在有 用、最终可理解的模式的非平凡过程。
简单地说,数据挖掘就是从海量的数据中 挖掘出可能有潜在价值的信息的技术。
这些知识是是隐含的,事先未知的潜在的 有用的信息。
5
1 数据挖掘技术
数据挖掘的主要功能: ①分类:按照对象的属性、特征,建立不
时序预测是依据当前已知的数据来预测将 来未知数据的状态。
神经网络固有的输人输出映射特性,特别 适合用来建立预测模型。
不管是线性问题还是非线性问题,只要输 入输出间存在连续映射关系,就可以用一 个多层神经网络以任意精度来逼近之。
16
3 基于神经网络的数据挖掘
适合神经网络的数据挖掘问题: 聚类是无监督学习过程,它依据数据间的
分类是数据挖掘的一个主要问题。
单层感知器的线性可分能力早已证明,但 是对于非线性可分问题单层网络是无能为 力的。
可通过加入中间层,引入转换函数,将非 分线性可分的问题映射后变为线性可分。
一个多层的神经网络具有非常强的分类能
力,并且分类误差率较低。
15
3 基于神经网络的数据挖掘
适合神经网络的数据挖掘问题:
相似度将数据集划分为不同的簇。目的是 概观数据的全貌,了解数据点的分布情况 以及可能存在的问题。
17
4 结论
神经网络的优点: ①非用户驱动,用户参与少,挖掘层次深。 ②处理变量较多,能处理定性变量,复杂、
动态数据,发现的事实或规则是以描述和 可视性为主要目的。 ③分布记忆性和快速的计算能力。
18
4 结论
据库,可能出现错误的结果,这时就可以 把这些数据作为新样本补充到学习样本中 去。
20
4 结论
神经网络的不足:
⑤激励函数的选取:激励函数是对多个输 入进行处理产生输出的功能模块,它将关 系到结果是有价值和真实。对于数据库中 模糊知识的发现,往先对输出状态进行编 码,采用符号函数作为激励数。
⑥神经网络的训练速度问题:构造神经网 络时要求对其训练许多遍,这意味着获得 精确的神经网络需要花费许多时间。
基于神经网络的 数据挖掘方法
0 引言 1 数据挖掘技术 2 神经网络原理 3 基于神经网络的数据挖掘 4 结论
2
0 引言
现代信息技术的高速发展,数据库应用的 规模、范围不断扩大,可获得的数据量越 来越大,数据的种类也日益繁多。
面对如此大规模的、并且存在着“噪声” 的数据,如何从中提取出隐含其中的有意 义的、对决策有用的信息或知识,进一步 提高信息利用率,成为“信息时代”亟待 解决的一个问题。
13
3 基于神经网络的数据挖掘
规则提取和评估:
这一阶段从进化后产生的相对简单的网络 中提取分类规则。
规则提取目的就是从网络中提取规则,并 转换为某种易理解的形式表达出来,如决 策树、模糊逻辑等方法。
再利用测试样本对规则的可靠性进行测试 与评估,最后输出有用知识。
14
3 基于神经网络的数据挖掘
适合神经网络的数据挖掘问题:
这些方法帮助分析包含在数据仓库中的数 据,它们的共同特点是问题驱动的。
用户必须提出许多问题,才能得到包含在 复杂关系中的结果,当提不出问题或提出 的问题不正确时,将得不到正确的数据。 10
2 神经网络原理
神经网络是由大量并行分布式处理单元组 成的简单处理单元。
它有通过调整连接强度而从经验知识进行 学习的能力并可将这些知识进行运算。
同的组类来描述事物。 ②聚类:识别出分析对象内在的规则,按
照这些规则把对象分成若干类。
6
1 数据挖掘技术
数据挖掘的主要功能: ③关联规则和序列模式:关联是某种事物
发生时其他事物会发生的这样一种联系。 ④预测:把握分析对象发展的规律,对未
来的趋势做出预见。 ⑤偏差的检测:对分析对象的少数的、极
端的特例的描述,揭示内在的原因。
7
1 数据挖掘技术
数据挖掘的处理过程: 数据挖掘的过程主要分为5个部分: ①问题的定义 ②数据准备 ③数据整理 ④建立模型 ⑤评价和解释
8
1 数据挖掘技术
数据挖掘的处理过程:
9
1 数据挖掘技术
现行的数据挖掘方法:
统计方法、关联发现、聚类分析、分类与 回归和决策树、联机分析处理(OLAP)、查 询工具、主管信息系统(EIS)等。