数据挖掘算法及软件介绍精品PPT课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
5.7 7.06 8.58 8.36
8
7.6 9.28 6.75 8.03 8.68 8.22
9
7.6 8.26
7.5 7.63 8.79 7.63
10
7.16 8.62 5.72 7.11 8.19 8.18
11
6.04 8.17 3.95 8.08 8.24 8.65
– 作为一个独立的分析工具,用于了解数据的分布; – 聚类之后分析异常数据; – 作为其它算法的一个数据预处理步骤;
Page12
二-2:聚类分析及案例
聚类方法也常用于进行异常数据鉴别。
Page13
二-2:聚类分析及案例
案例背景 随着现代人力资源管理理论的迅速发展,绩效考评技术
水平也在不断提高。绩效的多因性、多维性,要求对绩效 实施多标准大样本科学有效的评价。对企业来说,对上千 人进行多达50~60个标准的考核是很常见的现象。但是, 目前多标准大样本大型企业绩效考评问题仍然困扰着许多 人力资源管理从业人员。
广泛的应用
Page11
二-2:聚类分析及案例
• 簇(Cluster):一个数据对象的集合 • 聚类分析
– 把一个给定的数据对象集合分成不同的簇; – 在同一个簇(或类)中,对象之间具有相似性; – 不同簇(或类)的对象之间是相异的。
• 聚类是一种无监督分类法: 没有预先指定的类别; • 典型的应用
结论规则: 第一类: 年龄在18-35岁之间,学历是高中,还没有住房的人群,可能
发生信用卡欺诈的概率是97%. 第二类: 年龄在23-45岁之间,学历是本科,有住房的人群,可能发生
信用卡欺诈的概率是1%. 第三类: 年龄在30-55岁之间,学历是小学,无住房的人群,可能发生
信用卡欺诈的概率是80%.
– 预测种类字段 – 基于训练集形成一个模型,训练集中的类标签是已知的
。使用该模型对新的数据进行分类
预测:
– 对连续性字段进行建模和预测。
典型应用
– 信用评分 – Direct Marketing – 医疗诊断 – 性用卡欺诈判断
Page 7
二-1:分类算法及案例分析
需要的历史数据表
客户ID 年龄
▪ 分类:对没有分类的数据进行分类; ▪ 预测:用历史来预测未来; ▪ 关联分析:关联规则; ▪ 聚类:物以类聚; ▪ 序列模式:在多个数据序列中发现共同的行为模式; ▪ 异常分析:从数据分析中发现异常情况。 ▪ 文本数据挖掘:从大量文字中寻找共性进行分析。
Page 6
二-1:分类算法及案例分析
分类:
根据规则去执行相应的措施和政策方针: 一: 第一类和第三类人群,不通过信用卡审批或者降低信用卡额度,增加 调查力度。 二: 信用卡用户的营销策略,按使用情况和年限增加额度.业务主要针对 此类人群宣传或者增加第二类信用卡用户的比率。
Page10
二-1:分类算法及案例分析
行业应用:
• 1)城市综合环境质量评价 • 2)保险、医疗、信用卡等等反欺诈模型 • 3) 客户、企业信用评级模型 • 4)公安犯罪预警预测 • 5)气候分类、农业区划、土地类型划分中有着
Page 2
一、数据挖掘概念及流程
数据挖掘(Data Mining)就是对观 测到的数据集(经常是庞大的、不完全的 、有噪声的、模糊的、随机的)进行分析 ,提取隐含在其中的、人们事先不知道的 、但又是潜在有用的信息和知识,目的是 发现未知的关系和以数据拥有者可以理解 并对其有价值的新颖方式来总结数据。
有
0
?
断的新 数据
8
48
高中
无
1
?
9
34
大学
有
1
?
结论:可以得出ID为7的客户卡属于欺诈的可能性为90%,ID为8 和9的客户不是欺诈的可能性为95%。
Page 8
二-1:分类算法及案例分析
年龄
18<=22 ov2e3r-3c0ast
学历?
0
30-35 是否结婚?
0
1
1
0
1
0
0
1
决策树
Page9
Hale Waihona Puke Baidu
二-1:分类算法及案例分析
Page 3
一、数据挖掘概念及流程
Knowledge
解释/评估
数据挖掘
预处理 及变换
变换后的数据
数据清理筛选 目标数据
数据
Page 4
二:数据挖掘方法分类介绍
数据挖掘
序列模式挖掘
时间序列 非时间序列
聚类分析 K-means K-中心点算法
Apriori算法
相关性分析
回归分析 关联规则 统计分析
异常点分析 方差、极差、偏度等统计特征值
本案例将列举某企业的具体情况确定适当的考核标准 ,采用主成分分析以及聚类分析方法,比较出各员工绩效 水平,从而为企业绩效管理提供一定的科学依据。
Page14
二-2:聚类分析及案例
表 ——某企业28位职工绩效考评结果
职工
工作
工作
工作
工砟
工作
工作
代号
产量
质量
出勤
损耗
态度
能力
1
9.68 9.62 8.37 8.63 9.86 9.74
数据挖掘功能简介
Page 1
主要内容
一、数据挖掘概念及流程 二、数据挖掘方法分类介绍
二-1、分类算法及案例 二-2、聚类分析及案例 二-3、关联规则及案例 二-4、时间序列分析及案例 二-5、回归分析及案例 二-6、异常分析及案例 二-7、文本挖掘 二-8、推荐系统
三、常用数据挖掘软件介绍 四:数据挖掘和分析应避免的误区误 区
训练
1
19
数据
2
30
学历
中专 大学
是否有 房
无
有
3
28
高中
有
测试
4
数据
5
40
大学
有
18
中专
无
6
33
大学
无
需要判断的新业务数据表
是否结 婚 1 0 0 1
1
1
变量5
变量6
变量7
…… 是否欺诈
1 0 1 0 1 1
客户ID 年龄
学历
是否有 是否结 变量5 变量6 变量7 …… 是否欺诈
房
婚
需要判
7
27
高中
分类分析
预测
异常分析
KNN算法 时间序列
统计回归
Bayes算法 决策树算法
分类算法
决策树 神经网络
线性回归 逻辑回归 概率回归
SLIQ
C4.5
CART
CHAID
Page 5
二:数据挖掘方法分类介绍
• 挖掘模式
– 预测型(Predictive) – 描述型(Descriptive)
• 实际功能分为以下几种模式:
2
8.09 8.83 9.38 9.79 9.98 9.73
3
7.46 8.73 6.74 5.59 8.83 8.46
4
6.08 8.25 5.04 5.92 8.33 8.29
5
6.61 8.36 6.67 7.46 8.38 8.14
6
7.69 8.85 6.44 7.45 8.19
8.1
7
7.46 8.93