商务智能分类算法分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Principles and Applications of Business Intelligence
Chap 4 : 分类
Introduction to
商务智能方法与应用
第4章 分类 Chapter 4: Classification
©Liu Hongyan
Principles and Applications of Business Intelligence
主要内容
▪ 4.1 概念 ▪ 4.2 决策树分类方法 ▪ 4.3 朴素贝叶斯分类方法 ▪ 4.4 k近邻分类方法 ▪ 4.5 分类性能的度量
Chap 4 : 分类
3
Principles and Applications of Business Intelligence
Chap 4 : 分类
4.1 基本概念
分类及其相关的基本概念
Chap 4 : 分类
训练数据集
客户编号 年龄 性别 年收入(万) 婚姻 豪华车
1
<30
女
2
<30
男
3
<30
男
4
<30
女
5
30-50 女
86
已婚 否
65
单身 否
90
离异 否
75
已婚 否
82
已婚 是
6
30-50 男
91
已婚 是
7
30-50 女
200
离异 是
8
30-50 女
40
单身 否
NAME RANK
1
Principles and Applications of Business Intelligence
数据挖掘十大算法
Chap 4 : 分类
❖ C4.5 ❖ CART
决策树分类算法
❖ Naive Bayes
❖ k-nearest neighbor classification
❖ Support vector machines
▪ 分类器(classifier) ▪ 训练数据集(training dataset)
分类属性(class label attribute),每个取值称为一个类别 (class label)
属性,用于描述一个对象的某个特性或性质
▪ 测试数据集(testing dataset)
6
Principles and Applications of Business Intelligence
yes
NAME RANK
YEARS TENURED
Bill Professor
2
yes
Tom Assistant Prof 2
no
Jim Associate Prof 7
yes
Merlisa Associate Prof 7
no
Dave Assistant Prof 6
no
George Professor
✓ 训练数据集由一组数据库元组(称为训练样本、实例或 对象)构成
✓ 样本形式为(v1,v2,…,vn;c),
其中vi表示属性值,c表示类标号。
信息管理学院
5
Principles and Applications of Business Intelligence
分类及其相关的基本概念
Chap 4 : 分类
YEARS TENURED
Mike Assistant Prof 3
no
▪ Eager
Mary Assistant Prof 7
yes
Bill Professor
2
yes
构建模型
Jim Associate Prof 7
yes
Dave Assistant Prof 6
no
测试、使用模型
Anne Associate Prof 3
分类算法
❖ The k-means algorithm
❖ The Apriori algorithm
❖ Expectation–Maximization
❖ PageRank
❖ AdaBoost
信息管理学院
2
Principles and Applications of Business Intelligence
9
30-50 男
20
离异 否
10
>50
女
96
离异 否
11
>50
女
80
单身 否
12
>50
男
50
单身 是
13
>50
女
80
离异 否
14
>50
男
92
离异 是
9
Principles and Applications of Business Intelligence
分类方法
Chap 4 : 分类
▪ Lazy
NAME RANK
no
Tom Assistant Prof 2
no
MerlisaAssociate Prof 7
no
NAME RANK
YEARS TENURED GeorgeProfessor
5
yes
Mike Assistant Prof 3
no
JosephAssistant Prof 7
yes
Mary Assistant Prof 7
5
yes
Anne Associate Prof 3
no
Joseph Assistant Prof 7
yes
10
Principles and Applications of Business Intelligence
分类:构建模型
Training Data
Chap 4 : 分类
Classification Algorithms
4
Principles and Applications of Business Intelligence
分类及其相关的基本概念
Chap 4 : 分类
分类(classification):总结已有类别的对象的特点 并进而进行未知类别对象的类别预测的过程
用给定的训练集用来建立一个分类模型(或称分类 器),所建立的分类模型用来预测数据库中类标号未 知的数据元组的类别。
❖分类算法的应用领域
Chap 4 : 分类
营销策略
市场预测Байду номын сангаас
人口、收入、信用 ——购买力
地点、产品、折扣
信用评分 ——促销效果
性别、年龄、
CRM
婚姻状况、收入
性别、收入、兴趣 ——信用等级
——偏好产品类型
信息管理学院
8
Principles and Applications of Business Intelligence
Chap 4 : 分类
✓ 分类属于有监督学习还是无监督学习?
有监督学习 (classification)
训练集是带有类标签的; 新的数据是基于训练集进行 分类的
无监督学习 (clustering)
训练集是没有类标签的;提供一组属性,然后寻找出 训练集中存在的类别或者聚集
信息管理学院
7
Principles and Applications of Business Intelligence
Chap 4 : 分类
Introduction to
商务智能方法与应用
第4章 分类 Chapter 4: Classification
©Liu Hongyan
Principles and Applications of Business Intelligence
主要内容
▪ 4.1 概念 ▪ 4.2 决策树分类方法 ▪ 4.3 朴素贝叶斯分类方法 ▪ 4.4 k近邻分类方法 ▪ 4.5 分类性能的度量
Chap 4 : 分类
3
Principles and Applications of Business Intelligence
Chap 4 : 分类
4.1 基本概念
分类及其相关的基本概念
Chap 4 : 分类
训练数据集
客户编号 年龄 性别 年收入(万) 婚姻 豪华车
1
<30
女
2
<30
男
3
<30
男
4
<30
女
5
30-50 女
86
已婚 否
65
单身 否
90
离异 否
75
已婚 否
82
已婚 是
6
30-50 男
91
已婚 是
7
30-50 女
200
离异 是
8
30-50 女
40
单身 否
NAME RANK
1
Principles and Applications of Business Intelligence
数据挖掘十大算法
Chap 4 : 分类
❖ C4.5 ❖ CART
决策树分类算法
❖ Naive Bayes
❖ k-nearest neighbor classification
❖ Support vector machines
▪ 分类器(classifier) ▪ 训练数据集(training dataset)
分类属性(class label attribute),每个取值称为一个类别 (class label)
属性,用于描述一个对象的某个特性或性质
▪ 测试数据集(testing dataset)
6
Principles and Applications of Business Intelligence
yes
NAME RANK
YEARS TENURED
Bill Professor
2
yes
Tom Assistant Prof 2
no
Jim Associate Prof 7
yes
Merlisa Associate Prof 7
no
Dave Assistant Prof 6
no
George Professor
✓ 训练数据集由一组数据库元组(称为训练样本、实例或 对象)构成
✓ 样本形式为(v1,v2,…,vn;c),
其中vi表示属性值,c表示类标号。
信息管理学院
5
Principles and Applications of Business Intelligence
分类及其相关的基本概念
Chap 4 : 分类
YEARS TENURED
Mike Assistant Prof 3
no
▪ Eager
Mary Assistant Prof 7
yes
Bill Professor
2
yes
构建模型
Jim Associate Prof 7
yes
Dave Assistant Prof 6
no
测试、使用模型
Anne Associate Prof 3
分类算法
❖ The k-means algorithm
❖ The Apriori algorithm
❖ Expectation–Maximization
❖ PageRank
❖ AdaBoost
信息管理学院
2
Principles and Applications of Business Intelligence
9
30-50 男
20
离异 否
10
>50
女
96
离异 否
11
>50
女
80
单身 否
12
>50
男
50
单身 是
13
>50
女
80
离异 否
14
>50
男
92
离异 是
9
Principles and Applications of Business Intelligence
分类方法
Chap 4 : 分类
▪ Lazy
NAME RANK
no
Tom Assistant Prof 2
no
MerlisaAssociate Prof 7
no
NAME RANK
YEARS TENURED GeorgeProfessor
5
yes
Mike Assistant Prof 3
no
JosephAssistant Prof 7
yes
Mary Assistant Prof 7
5
yes
Anne Associate Prof 3
no
Joseph Assistant Prof 7
yes
10
Principles and Applications of Business Intelligence
分类:构建模型
Training Data
Chap 4 : 分类
Classification Algorithms
4
Principles and Applications of Business Intelligence
分类及其相关的基本概念
Chap 4 : 分类
分类(classification):总结已有类别的对象的特点 并进而进行未知类别对象的类别预测的过程
用给定的训练集用来建立一个分类模型(或称分类 器),所建立的分类模型用来预测数据库中类标号未 知的数据元组的类别。
❖分类算法的应用领域
Chap 4 : 分类
营销策略
市场预测Байду номын сангаас
人口、收入、信用 ——购买力
地点、产品、折扣
信用评分 ——促销效果
性别、年龄、
CRM
婚姻状况、收入
性别、收入、兴趣 ——信用等级
——偏好产品类型
信息管理学院
8
Principles and Applications of Business Intelligence
Chap 4 : 分类
✓ 分类属于有监督学习还是无监督学习?
有监督学习 (classification)
训练集是带有类标签的; 新的数据是基于训练集进行 分类的
无监督学习 (clustering)
训练集是没有类标签的;提供一组属性,然后寻找出 训练集中存在的类别或者聚集
信息管理学院
7
Principles and Applications of Business Intelligence