数据挖掘基本概念解说

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。
知识发现就是从数据源中抽取感兴趣的数据,并把这些数据组织成符合挖掘
的组织形式,然后利用相应的算法、模型生成想要的知识模式,最后对生成
的知识模式进行评估,并把有价值的知识集成到应用系统当中。
常用KDD过程模型 (KDD process model)
式为直接电邮,考虑到多数用户可能不会对理财产品感兴趣,所以 销售目标为用户群中对产品兴趣度最高的前20%
数据表
有效字段
客户表
姓名、职业、性别、生日、收入
日期对照表
日期的各种转化形式
账号信息表
账号类型,月费、透支额度等
交易信息表
交易类型、交易日期、交易金额
1
19
三、数据挖掘案例
流程
数据评

数据预处

1995年底美国计算机年会。 开始把数据挖掘认为是KDD过
程中对数据真正应用算法抽取 知识的一个基本步骤。
1995年第一届知识发现和 数据挖掘国际学术会议。首次 提出数据挖掘的概念。
如今各种各样的 数据挖掘软件和算法。
1
6
一、数据挖掘的基本概念
4.数据挖掘基本流程
Data
跨 行 业
Business Understanding
度为C=3/5=0.6,假如设计支持度最小为0.5,置信度为0.6,那么网球
拍和网球的关联关系就是有意义的一对关联关系。
1
16
二、数据挖掘方法分类
5.关联规则(Affinity grouping or association rules)
1
17
三、数据挖掘案例
1
18
三、数据挖掘案例
背景 银行金融衍生品部门最新新上线了一款金融理财产品,而销售方
数据挖 评

+++ 估
+++

数据 源
标 数

预处
理数 据
转换后 数据
知识模 式
知 识
1
4
一、数据挖掘的基本概念
2.数据挖掘的概念
数据挖掘,英文称为 Data mining,又称为资料探勘、数据采矿 等等。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。
5.关联规则(Affinity grouping or association rules) 关联规则最初提出的动机是针对购物篮分析(Market
Basket Analysis)问题提出的。 关联规则是形如X→Y的蕴涵式,其中, X和Y分别称为关
联规则的先导(antecedent或left-hand-side, LHS)和后继 (consequent或right-hand-side, RHS) 。其中,关联规则XY, 存在支持度和信任度。

预 测
特征提 取
缺失值 计算




1
8
二、数据挖掘的方法分类
1
9
二、数据挖掘方法分类
1.几种简单的数据挖掘方法 分类 (Classification) 聚类(Clustering) 回归分析(Regression analysis) 关联规则(Affinity grouping or association rules) 复杂数据类型挖掘(Text, Web ,图形图像,视频,音频等)
1
10
二、数据挖掘方法分类
2.分类(Classification)
数据
• C4.5 (基于决策树改进的算法)
• CART(分类回归树)
• SVM(支持向量机)
• AdaBoost(集成学习算法) • kNN(K近邻算法,k-NearestNeighbor)
• Naive Bayesian(朴素贝叶斯)
19数据挖掘技术概论三数据挖掘案例背景银行金融衍生品部门最新新上线了一款金融理财产品而销售方式为直接电邮考虑到多数用户可能不会对理财产品感兴趣所以销售目标为用户群中对产品兴趣度最高的前20数据表有效字段客户表姓名职业性别生日收入日期对照表日期的各种转化形式账号信息表账号类型月费透支额度等交易信息表交易类型交易日期交易金额ppt模板下载
经典算法:K-means(K均值)
1
13
二、数据挖掘方法分类
4. 回归分析(Regression analysis)
回归分析是一个统计预测模型,用以描述和评估因变量与一个或多个自变 量之间的关系,反映的是变量或属性间的依赖关系。 • 线性回归 • 多项式回归 • 逻辑回归
X
1
14
二、数据挖掘方法分类
关联规则中最经典的算法:Apriori算法
1
15
二、数据挖掘方法分类
5.关联规则(Affinity grouping or association rules)
网球拍 网球 运动鞋 羽毛球
1
1
1
1
0
2
1
1
0
0
3
1
0
0
0
4
1
0
1
0
5
0
1
1
1
若考虑6 网球拍->1网球的关联1 关系,则0其支持度0为S=3/6=0.5,置信
数据挖掘基本概念解说
目录
CONTENTS
1 数据挖掘的基本概念 2 数据挖掘方法分类 3 数据挖掘案例
1
2
一、数据挖掘的基本概念
1
3
一、数据挖掘的基本概念
1.知识发现(Knowledge-Discovery in Databases,简称:KDD)
知识发现(KDD:Knowledge Discovery in Database)是从数据集中识别出有
Fayyad,Piatetsky-Shapiro 和 Smyth 在 1996年合作发布的论文
<From Data Mining to knowledge discovery>中总结出了KDD包含
的5个最基本步骤

预处



换 ---------------
---------------
--------
已训练 好的模

类别A
类别B
1
11
二、数据挖掘方法分类
2.分类(Classification)
• kNN(K近邻算法,k-NearestNeighbor)
1
12
二、数据挖掘方法分类
3.聚类(Clustering)
(1)划分方法 (2)层次的方法 (3)基于密度的方法 (4)基于网格的方法 (5)基于模型的方法
Understan ding

Data

Preparation
Deployment

Data


Modeling



Evaluation
1
7
一、数据挖掘的基本概念
4.数据挖掘基本流程
开始
数据采
数据分
数据清





特征选 择降 维无源自纲 化模型选 择 训 练定性特 征编码 定量特 征二值
化 数据变
数据挖掘是指从大量的数据中自动搜索隐藏于其中的有着特殊 关系性的信息的过程。
数据挖掘是从大量的、不完全的、模糊的、随机的实际应用数 据中,提取隐含在其中的、人们事先不知道的、但又是潜在有 用的信息和知识的过程。
1
5
一、数据挖掘的基本概念
3.数据挖掘的发展历史
1989年第11届国际人 工智能联合会议。第一次 提出KDD的概念。
初级挖
掘数据
模型选

模型训

模型评

最终模

数据标 签准备 特征 值选

新用 户识 别
1
20
谢谢!
1
21
谢谢观赏
相关文档
最新文档