数学建模的数据挖掘方法学习资料
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
对超平面方程两边乘以相同系数仍表示该平面,因 此可以做如下假设:
这样最优分类超平面应该满足如下条件:
可以统一写为
到平面 的距离为 其中
为平面 上任意一点。 因此, 到平面 的最小距离为
要找到最优分类超平面,可以转换为如下的一 个二次规划问题:
引入Lagrange函数:
令相应的偏导数为即: 代入原式,得到
因此可以把上述二次规划转为它的对偶问题:
解此二次规划可得到
其中
对应的 称为支持向量,
支持向量机由此而名。
由Kuhn-Tucker条件,最优超平面的系数b
可由
对应的方程
得到,这样便得到了最优分类超平面方程,进 而可以用该方程进行分类:
若
,则
若
,则
2. 若数据在输入空间线性不可分,则出超平面 的约束条件需引入松弛变量 ,相应的得到如 下的二次规划:
I(ai)=log(1/pi)=-logpi
n
为ai的信息量;称 H ( X ) pi log pi i 1
为X的信息熵。
nLeabharlann Baidu
( pi 1) i 1
决策树分类方法利用信息量增加(信息增益)作为 特征选择的一种指标。信息增益衡量每个属性对分 裂后的数据子集的信息量的贡献。
假设训练集T包含n个样本,这些样本分别属于m 个类,其中第i个类在T中出现的比例为pi,称
Sunny(T1) 1
3
4
Overcast(T2 5
0
5
)
Rain(T3) 3
2
5
I (T1)
1 4
log 2
1 4
3 4
log 2
3 4
0.8713
14
I
(T2
)
5 5
log 2
5 5
多项式核函数: 高斯核函数: 这样便可在高维空间中的解决点积运算:
这样只要把前面的点积运算用核函数代替,便 可得到高维空间中相应的最优分类超平面。即
例
3、基于决策树的分类方法
例1.下表是用于构造分类模型的数据集,包括14个 样本和5个属性:Outlook、Temperature、Humidity、 Windy和Play,其中前4个属性是天气,最后一个 属性是根据前4个属性的情况说明这样的天气状况 是否适合比赛。各属性取值如下: Outlook:sunny(s),overcast(o),rain(r); Temperature:hot(h),mild(m),cool(c); Humidity:high(h),normal(n); Windy:false,true Play:Yes(y),no(n)
可以是满足如下定理的任意对称函数
(Courant and Hilbert,1953)定理(Mercer)
要保证L2下的对称函数 能以正的系数
展开成
(即描述了在
某特征空间中的一个内积)充分必要条件
是:对满足
的所有
条件
成立。
在SVM中,满足上面定理的
通常
称为核函数 ,引入核函数的概念可以解决高维
空间中的点积运算。常用的核函数有:
m
I (T ) pi log 2 pi i 1
为集合T的信息熵。
如果m=1,即T的样本都属于一个类,则I(T) =0,达到最小值,何时I(T)达到最大?
假设属性A把集合T划分为v个子集{T1,T2,..,Tv},其 中Ti所包含的样本数为ni,那么划分后的熵就是:
E ( A)
m i 1
按如上方法同理可得到其对偶问题:
同样可以得到判别函数
若
,则
若
,则
3 .支持向量机 支持向量机(Support vector machines,
SVM)实现的是如下思想:通过某个非线 性的映射 将输入向量映射到一个更高维 的空间中,使得这些样本在高维空间中线 性可分,然后在该空间构造最优分类超平 面。如图所示:
数学建模中的分类算法 1.神经网络(大样本容量) 2.支持向量机
3决策树 4.贝叶斯判别 5.其它方法如K邻近算法
2、支持向量机(support vector machines SVM)
吴雄华
1 最优分类超平面
定义:设训练数据集为:
可以被一个超平面
分开,
如果这个向量集(即训练数据集)被超平面没有错 误的分开,且离超平面最近的向量与超平面之间的 , 距离之和最大,则称此超平面为此向量集的最优 (分类)超平面。如图1所示:
同时注意到,在原空间中构造最优分类超平 面主要解决两个问题:
1、点积运算 2、求解二次规划
可以证明,在高维空间中构造最优分类超平 面,也只需知道其点积运算 即可,而不需要知道映射 的具体形式。
考虑Hilbert空间中内积的一个一般表达式:
其中 是输入空间向量 在特征 空间 中的映像,根据Hilbert-Schmidt理论,
ni n
I (Ti )
分裂后的信息增益定义为
Gain(A) I (T ) E(A)
基于信息理论的特征选择方法就是逐一计算每种 分裂的信息增益,选择信息增益最大的属性作为 分裂属性。
下面以前面给出的数据集为例,利用信息增益方 法构造决策树。
第一步:计算训练样本集T的信息量。分类属性 Play有两个类,其样本数统计如下:
训练样本集如下
Outlook
S S O R R R O S S R O O O R
Temp
H H H M C C C M C M M M H M
Humi
H H H H N N N H N N N H N H
Windy Play
F
N
T
N
F
Y
F
Y
F
Y
T
N
T
Y
F
N
F
Y
F
Y
T
Y
T
Y
F
Y
T
N
决策树是类似如下的一棵树
给定一个新的天气
Outlook
象:“rain,hot,high,tru
e”,则判别其类别
sunny
overcast rain
Play=no
Play=yes
windy
false Play=yes
True Play=no
决策树的构造:分裂属性的选择 四、基于信息增益的特征选择策略 1.相关概念
设信息源X的取值为A=(a1,a2,…,an),ai出现的概率 为pi,称
样本集T Play=yes Play=no
样本数
9
5
因此T的信息量为:
I
(T
)
9 14
log
2
9 14
5 14
log
2
5 14
0.9403
第二步:计算每个属性的信息增益,对于 Outlook属性,它有3个属性值,把样本集T分成3 个子集,每个子集的类别统计如下:
Outlook Play=yes Play=no total