数据挖掘方法简介

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2019/2/21
6
分类
Classification就是研究已分类资 料的特征,分析对象属性,据此建立一 个分类函数或分类模型,然后运用该模 型计算总结出的数据特征,将其他未经 分类或新的数据分派到不同的组中。计 算结果通常简化为几个离散值,常用来 对资料作筛选工作。
2019/2/21
7
聚类
Clustering 是指当要分析的数据缺乏 描述信息,或是无法组成任何分类模式时 就采用聚类的方法,将异构母体区隔为较 具同构性的群 (Cluster) ,即将组之间的 差异识别出来,并对个别组内的相似样本 进行挑选,实现同组数据相近,不同组数 据相异。
2019/2/21 13
神经网络
一种模仿人脑思考结构的数据分析模式,由输入变量 或数值中自我学习并根据学习经验所得的知识不断调整参 数,以期得到资料的模式。是建立在自学习的数学模型基 础之上,它可以对大量复杂的数据进行分析,并能完成对 人脑或计算机来说极为复杂的模式抽取及趋势分析。神经 网络的处理过程主要是通过网络的学习功能找到一个恰当 的连接加权值来得到最佳结果。比较典型的学习方法是回 溯法。通过将输出结果同一些已知值进行一系列比较,加 权值不断调整,得到一个新的输出值,再经过不断的学习 过程,最后该神经网络得到一个稳定的结果。
2019/2/21
12
决策树
一种用树枝状展现数据受各变量的影响情况的 分析预测模型,根据对目标变量产生效应的不同 而制定分类规则,它是建立在信息论基础之上, 对数据进行分类的一种方法。它首先通过一批已 知的训练数据建立一棵决策树,然后采用建好的 决策树对数据进行预测。决策树的建立过程是数 据规则的生成过程,因此这种方法实现了数据规 则的可视化,其输出结果容易理解,精确度较好, 效率较高,因而较常用。常用的方法有分类及回 归树法、卡方自动交互探测法等。
数据挖掘方法简介
报告人:陈雅嘉 导师:赵政 时间:2004年2月20日
2019/2/21
1
数据挖掘方法简介

了解数据挖掘 数据挖掘的主要功能和步骤 数据挖掘的方法和工具
2019/2/21
2
了解数据挖掘
数据挖掘(DM:Data Mining.)也称为数据库中 的知识发现KDD(Knowledge Discovery in Database), 是近几年随着数据库和人工智能发展起来的一门新 兴的数据库技术。它汇聚了数据库、人工智能、机 器学习、统计学、可视化技术、并行计算等不同学 科和领域的知识;
2019中, 对数据进行一定的处理,从大量的、不完全 的、有噪声的、模糊的、随机的数据中提取 隐含的、事先未知的、但又是潜在有用的信 息和知识的过程。其处理对象是大量的日常 业务数据,目的是为了从这些数据中抽取一 些有价值的知识或信息,提高信息利用率, 原始数据是形成知识的源泉。
简称OLAP ,是基于大型数据库或数据仓库的信息分 析过程,是大型数据库或数据仓库的用户接口部分,其目 的是满足决策支持或多维环境特定的查询和报表要求。具 有快速性、可分析性、多维性、信息性和共享性等特点, 它是跨部门、面向主题的。OLAP不同于传统的连机事物 处理(OLTP)的应用。OLTP主要是用来完成客户的事务处 理,如民航、车船的订票系统等,通常要进行大量的更新 操作,对响应时间要求也比较高。而OLAP主要是对用户 当前及历史数据进行分析,辅助决策。其典型的应用有对 银行信用卡风险的分析与预测等,主要是进行大量的查询 操作,对时间的要求不太严格。
2019/2/21
14
相关规则
是一种简单而实用的关联分析规则,它描述 一个事物中某些属性同时出现的规律和模式,由 一连串的“如果——则”的逻辑规则对资料进行 细分的技术。关联规则一般应用在事物数据库中, 其中每个事物都由一个记录集合组成。这种事物 数据库通常都包括极为庞大的数据,因此当前的 关联规则发现技巧正努力根据基于一定考虑的记 录支持度来削减搜索空间。其中的支持度是一种 基于用户事物在事物日志中出现的数目的度量。
2019/2/21 17
近邻算法
依据“Do as your neighbors do”的原则,相邻 数据必然有相同的属性或行为。K—nearest邻居方 法的含义为:K表示某个特定数据的K个邻居,可 以通过 K 个邻居的平均数据来预测该特定数据的 某个属性或行为。
2019/2/21
18
连机分析处理
2019/2/21 19
粗糙集
它将知识理解为对数据的划分, 每一被划分的集合称为概念,主要 思想是利用已知的知识库,将不精 确或不确定的知识用已知的知识库 中的知识来近似刻划处理。
2019/2/21
20
遗传算法的原始模型(例)
The execution steps of genetic programming : (1)Randomly create an initial population (generation 0) of individual computer programs composed of the available functions and terminals. (2) Iteratively perform the following sub-steps (called a generation) on the population until the termination criterion is satisfied: (a) Execute each program in the population and ascertain its fitness (explicitly or implicitly) using the problem’s fitness measure. (b) Select one or two individual program(s) from the population with a probability based on fitness (with reselection allowed) to participate in the genetic operations in (c).
11
分析方法
数据挖掘中大量采用统计分析方法,如描述 统计、概率论、回归分析、时间序列分析、多元 分析等。回归分析是用于了解自变量和因变量之 间的关系,并用这些关系来进行分析和预测。时 间序列分析,即利用时间序列模型进行分析。多 元分析是对多维随机变量进行分析的技术,其主 要有主成分分析、因子分析、判别分析、聚类分 析及典型相关分析等。
2019/2/21
10
数据挖掘的方法和工具



2019/2/21
分析方法(Analytic Method) 决策树(Decision Tree) 神经网络(Neural Network) 相关规则(Correlation Rule) 数据可视化(Data Visualization) 遗传算法(Genetic Algorithms) 近邻算法(K—nearest) 连机分析处理(On Line Analysis Processing) 粗糙集(Rough Sets)
2019/2/21
16
遗传算法
一种新的最佳化空间搜索方法,它应用算法 的适应函数来决定搜索的方向,运用一些拟生物 化的人工运算过程进行一代一代的周而复始的演 化,求得一个最佳结果。特点是具有强固形与求 值空间的独立性。强固形使问题的限制条件降到 最低,并大幅度提高系统的容错能力;而求值空 间的独立性则使遗传算法的设计单一化,且适用 于多种不同性质、领域的问题。将遗传算法运用 于数据挖掘,可以开采出与众不同的信息,是别 的算法所不能替代的。
2019/2/21 21
遗传算法的原始模型(例)
(c) Create new individual program(s) for the population by applying the following genetic operations with specified probabilities: (i) Reproduction: Copy the selected individual program to the new population. (ii) Crossover: Create new offspring program(s) for the new population by recombining randomly chosen parts from two selected programs. (iii) Mutation: Create one new offspring program for the new population by randomly mutating a randomly chosen part of one selected program.
2019/2/21
22
遗传算法的原始模型(例)
(3) After the termination criterion is satisfied, the single best program in the population produced during the run (the best-so-far individual) is harvested and designated as the result of the run. If the run is successful, the result may be a solution (or approximate solution) to the problem.
2019/2/21
4
数据挖掘的主要功能和步骤

数据总结 分类 聚类 估计与预测 关联和序列发现
2019/2/21
5
数据总结
也可称为描述(Description) ,目的是对数 据进行浓缩,给出它的总体的综合描述,实现对 原始数据的总体把握。常用的数据描述的方法是 统计学的传统方法,如计算数据项的总和、均值、 方差等基本描述统计量;或绘制直方图、折线图 等统计图形。
2019/2/21
9
关联和序列发现
Correlation and Sequence Discovery 数据库中的数据一般都存在关联关系,即变 量之间存在某种规律,关联就是要找出某一 件事或某一资料中会同时出现的东西。由于 我们并不知道数据库中数据的关联是否存在 精确的关联函数,即使知道也是不确定的, 因此关联分析生成的规则带有置信度,置信 度级别度量了关联规则的强度
2019/2/21 15
数据可视化
对大批数据进行展现也是数据挖掘的重要方 面。就数据可视化系统本身而言,由于数据量 很大,很容易使分析人员面对数据不知所措, 可视化工具可以通过适当的图形来表示数据, 并支持多维数据的可视化,为数据分析人员提 供很好的帮助。有些工具甚至提供动画功能, 使用户可以“跨越”数据,观看到数据的不同 层次。
2019/2/21
23
谢谢大家!
2019/2/21
24
2019/2/21
8
估计与预测
Estimation and Prediction 估计是根 据已有的资料,对某一参数或数值进行 估计。来获取数据其他未知属性之值。 预测是根据对象属性、过去的观察值和 有关资料对该属性的未来值进行预测, 估计预测使用的技巧主要是回归分析、 时间数列分析及人工智能、神经网络方 法。
相关文档
最新文档