数据挖掘算法的分析与研究
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
用专家之间密切地协作,在开始数据处理过程之前
明确实际工作对数据挖掘结果的要求, 根据此要求, 确定数据收集过程的具体方法和数据挖掘采用的具
加需要的并且在决策支持的过程 中更有价值。
体算法。
( 数据准备和预处理: 2 ) 数据准备和预处理又可 分为三个步骤: 数据选取、 数据预处理 、 数据变换。
i g i s mma i e n e b sc meh d o a a mii g i g n r l e . a t a g n r ltc i fd t i i g i n s u rz d a d t a i t o f t h d n n s e e ai d Atls, e e a a t o aa m n n s z c g v n ie 。
数据选取 的目的是确定数据挖掘的处理对象 , 即目标数据,它是根据由问题陈述中得到的用户需
数据挖掘是信息技术 自 然演化的结果,正是从
存放在数据库、数据仓库或其他信息库中挖掘有用
知 识的 过程 。
1 数据挖 掘的主 要步骤
数据挖掘工作作为一个完整的挖掘过程,可分
求, 从原始数据库 中抽取一定的数据用于数据挖掘,
从数据中发现模式。此阶段首先根据问题的定义明
同, 适合不同的数据和条件 。 下面将对数据挖掘 的各 种分析方法及其算法作一总体概述。 () 1聚类分析方法: 聚类分析方法是数据挖掘 中 依据数据集 ( 实施数据挖掘的所有数据构成的数据 集合, 以下同此含义) 间关联的量度标准将其 自动分
Ke wo d : t iig Ge ea ci y r s DaaM nn ; n rl Ta t c
0引言
为以下几个主要步骤:
随着数据库技术的飞速发展,人们在各种应用 领域所拥有的数据量急剧增加,这些数据对人们的 进行高级处理的工具比较少,使它们的重要性没有 能够充分的发挥 。当前多数的数据库系统只是可以 对数据库 中已有的数据进行存取、查询和统计等简 单操作,通过这些操作人们可以获得数据的一些简
据个体, 以下同此含义) 之间尽可能相似 , 不同簇 的
究
( 算法选择与挖掘数据: 3 ) 数据挖掘的任务就是 成几个簇, 使同一个簇内的数据点 ( 数据集 中一个数
确挖掘的任务或 目的, 例如需要产生聚类 、 分类 、 关 联规则还是时间序列等模式, 确定了任务后, 就需要 决定使用什么样的算法 。选择算法需要考虑两个因
一
A a y i n e e r h o a a M n l o i h s n 1 s a d R s a c f D t i ig A 9 r t m S n
喻云峰
YuYu fn ne g
( 江西省商务学校, 江西 南昌 30 0) 3 10
(agi o m ri col i gi acag 3 0 J n xC m e a Sh o J nxN nhn 0 ) i cl ,a 3 1 0 摘 要: 文对数据挖掘的基本理论进行 了分析研究, 本 总结 了数据挖掘的基本步骤, 归纳 了数据挖掘 的
单信息 。 但这 些信息是 从数据 表面直观表 现 出来 , 对
() 1 陈述问题和阐明假设: 多数基于数据的模型 研究都是在一个特定的应用领域里完成的。因此在 的问题陈述。模型建立者通常会为未知的相关性指
定一些变量,如果可能还会指定相关性的一个大体 形式作为初始假设。对 当前问题可能会有几个阐明
工作和研究有着重要的作用,但是由于对这些数据 设计数据挖掘算法之前,需要事先确定一个有意义
的假设,这要求将应用领域的专门技术和数据挖掘
模型相结合。 实际上, 这往往意味数据挖掘人员与应
于隐藏于数据背后的如数据之间的关系、数据整体
特征的描述以及寻找未来数据发展趋势的预测等信
息并不 能通过这 些手段得 到,而 这些往往 是人们 更
据 数 挖 掘 法 算 分 的 析 研 与
所缺的数值, 消除重复记录 , 完成数据类型转换 ( 如 把连续值数据转换为离散型的数据 , 以便于符号归 纳, 或是把离散型的转换为连续值型的, 以便于神经 网络) 等。当数据挖掘的对象是数据仓库 中的数据 时, 一般来说, 数据预处理工作 已经在生成数据仓库
这些数据可能是整个数据库 中与 问题相关的数据,
也 可能是 这些数 据 中的某 些部分 。 数据预处理一般包括消除噪声, 推导缺值数据
在整个数据挖掘过程 中,第三阶段是数据挖掘
的实施 阶段 ,即根 据 目标 任务 的数 据 类型 等选 取相 应的数据挖掘算法并进行挖掘。经过前人多年的研
基本方法, 并在此基础上, 出了用数据挖掘进行数据分析的通用策略。 提 关键词: 数据挖掘; 通用策略
中图分类号 : P 1 T 31 文献 标识码 : A 文章 编号 :6 1 7 2(00905 .3 17- 9. 1).040 4 2
Ab ta tnti ei, eb scte r f aamiigi rs ac e . sdo பைடு நூலகம், eb s tp f aam i- s rc : s h ss h ai oyo t nn ee rh d Ba e nt s h a i se so t n I h t t h d s h t c d
究, 已经产生了许多的数据挖掘算法 。 通常可以根据 数据挖掘的任务把这些算法分成若干类,不同的数 据挖掘分析方法用于解决不同的现实问题 ,产生不 同的知识。同一种分析方法 中还可能具有多个不 同 的实现算法, 它们的 目的相同, 但处理数据的方法不
时完成了。 数据变换的主要 目的是消减数据维数或降维, 即从初始属性 中找出对知识产生真正有用的属性 以 减少数据挖掘时要考虑的属性或变量个数, 可以有 效地减少数据挖掘的工作量, 提高整个系统的效率。