数学建模的数据挖掘方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Play=yes 1 0
Play=no 2 1
total 3 1
E (Windy ) 0 .9183
Gain (Windy ) 0 .6887
因此Sunny分支下的分裂属性可选Temperature或 Humidity,若取Humidity,则其属性H和N下的 记录都为相同的类,该分支算法结束。
样本集T 样本数 Play=yes 9 Play=no 5
因此T的信息量为:
I (T ) 9 14 log 2 9 14 5 14 log 2 5 14 0 . 9403
第二步:计算每个属性的信息增益,对于 Outlook属性,它有3个属性值,把样本集T分成3 个子集,每个子集的类别统计如下:
对于Humidity属性和Windy属性,统计如下:
Humidity
high(T2)
Play=yes
6
Play=no
4 1
total
7 7 14
Normal(T1) 3
Windy True(T1) False(T2)
Play=yes 3 6
Play=no 3 2
total 6 8
14
计算其信息增益值分别为0.1653和0.0481.
Outlook Temp Humi Windy Play
S S S S
H H M C
H H H N
F T F F
N N N Y
作为新样本集
计算T的信息量为:I (T ) 3 log 2
4
3 4

1 4
log 2
1 4
0 . 8113
对于Temperature属性,简单统计如下:
Temperatur Play=yes e hot(T1) 0
I (T ) p i log 2 p i
i 1 m
为集合T的信息熵。 如果m=1,即T的样本都属于一个类,则I(T) =0,达到最小值,何时I(T)达到最大?
假设属性A把集合T划分为v个子集{T1,T2,..,Tv},其 中Ti所包含的样本数为ni,那么划分后的熵就是:
E ( A)

i 1
m
ni n
I (T i )
分裂后的信息增益定义为
Gain ( A ) I (T ) E ( A )
基于信息理论的特征选择方法就是逐一计算每种 分裂的信息增益,选择信息增益最大的属性作为 分裂属性。 下面以前面给出的数据集为例,利用信息增益方 法构造决策树。
第一步:计算训练样本集T的信息量。分类属性 Play有两个类,其样本数统计如下:
Outlook Temp Humi Windy Play
S S S S
H H M C
H H H N
F T F F
N N N Y
High Play=No
Sunn y Humidity Normal Play=Yes
其分支结构如下:
若取Temperature,则重新确定记录集如下:
Outlook Temp Humi Windy Play
对超平面方程两边乘以相同系数仍表示该平面,因 此可以做如下假设:
这样最优分类超平面应该满足如下条件:
可以统一写为
到平面
的距离为
其中
为平面 上任意一点。 因此, 到平面 的最小距离为
要找到最优分类超平面,可以转换为如下的一 个二次规划问题:
引入Lagrange函数:
令相应的偏导数为即:
代入原式,得到
某特征空间中的一个内积)充分必要条件 是:对满足 的所有 条件 成立。
在SVM中,满足上面定理的 通常 称为核函数 ,引入核函数的概念可以解决高维
空间中的点积运算。 常用的核函数有:
多项式核函数: 高斯核函数: 这样便可在高维空间中的解决点积运算:
这样只要把前面的点积运算用核函数代替,便 可得到高维空间中相应的最优分类超平面。即
Humidity Play=yes Play=no 0 total 1
Normal(T1) 1
high(T2)
0
3
E ( Humidity ) 0
3
显然
I (T1 ) I (T2 ) 0
Gain ( Humidity ) I (T ) 0 .8113
Windy F(T1) T(T2)
训练样本集如下
Outlook Temp
S S O R R R O S S R O H H H M C C C M C M M
Humi
H H H H N N N H N N N
Windy Play
F T F F F T T F F F T N N Y Y Y N Y N Y Y Y
O
O R
M
H M
H
数学建模中的分类算法 1.神经网络(大样本容量) 2.支持向量机 3决策树 4.贝叶斯判别 5.其它方法如K邻近算法
2、支持向量机(support vector machines SVM)
吴雄华
1 最优分类超平面 定义:设训练数据集为:
可以被一个超平面
分开,

如果这个向量集(即训练数据集)被超平面没有错 误的分开,且离超平面最近的向量与超平面之间的 距离之和最大,则称此超平面为此向量集的最优 (分类)超平面。如图1所示:
mild(T2) 0 1
Play=no
2 1 0
total
2 1 1
显然
cool(T3)
I (T1 ) I (T2 ) I (T3 ) 0
E (Temperatur e ) 0
Gain (Temperatur e ) I (T ) 0 .8113
对于Humidity属性,简单统计如下:
因此可以把上述二次规划转为它的对偶问题:
解此二次规划可得到 其中 对应的 称为支持向量,
支持向量机由此而名。
由Kuhn-Tucker条件,最优超平面的系数b 可由
对应的方程
得到,这样便得到了最优分类超平面方程,进 而可以用该方程进行分类:
若 若
,则
,则
2. 若数据在输入空间线性不可分,则出超平面 的约束条件需引入松弛变量 ,相应的得到如 下的二次规划:
该分支下所有记录均为同一类, 因此该分支算法结束,其结构 如下右。
Overcast
Play=Yes
综合以上结果,最后得到决策树如下:
Outlook
Play=yes
Play=no
total
Sunny(T1)
1
3
0
4
5
Overcast(T2 5 ) Rain(T3) 3
I (T1 ) I (T 2 ) I (T 3 ) 3 5 1 4 5 5 log 2 log 2 3 5 1 4 5 5 3 4 log 2 3 4 0 5
Temperature的信息熵为:
E (Temperatur e ) 4 14 I (T1 ) 6 14 I (T 2 ) 4 14 I (T3 ) 0 . 9111
Temperature的信息增益为:
Gain (Temperatur e ) I (T ) E (Temperatur e ) 0 . 9403 0 . 9111 0 . 0292
第三步:比较四个属性的信息增益,按大小顺序 排列为
Gain(Outlook)>Gain(Humidity)>Gain(Windy) >Gain(Temperature) 因此应该选Outlook作为首分裂结点,即决策树 的形状为:
Outlook Sunny Rain Overcast
第二层结点的选择与首结点类似,具体选择过程 如下: 1)对于“Sunny”的分支,从原数据集T中统计出 Outlook属性值为sunny的样本作为新的数据集T。
Gain (Temp ) 0 .02 Gain ( Humi ) Gain (Windy ) I (T ) 0 .9710
Rain
Windy
False Play=Yes True Play=No
因此选Windy其分支结 构如右:
3)同理,对于Overcast分支,统计数据如下:
Outlook=Overcast Temp H C M M H Humi H N N H N Windy F T T T F Play Y Y Y Y Y
2
0 . 8713 0
5 14
0 * log 2 2 5 log 2 5 14 2 5
log 2
0 . 97 5 14
Outlook的信息熵为:
I (T3 ) 0 . 5786
E ( Outlook )
4 14
I (T1 )
I (T 2 )
Outlook的信息增益为:
按如上方法同理可得到其对偶问题:
同样可以得到判别函数 若 若
,则 ,则
3 .支持向量机 支持向量机(Support vector machines, SVM)实现的是如下思想:通过某个非线 性的映射 将输入向量映射到一个更高维 的空间中,使得这些样本在高维空间中线 性可分,然后在该空间构造最优分类超平 面。如图所示:
Gain ( Outlook ) I (T ) E ( outlook ) 0 . 9403 0 . 5786 0 . 3617
同理对于Temperature属性,它也有3个属性值, 把样本集T分成3个子集,每个子集的类别统计如 下:
Temperatur Play=yes e hot(T1) 2 mild(T2) cool(T3) 4 3 Play=no total

3、基于决策树的分类方法
例1.下表是用于构造分类模型的数据集,包括14个 样本和5个属性:Outlook、Temperature、Humidity、 Windy和Play,其中前4个属性是天气,最后一个 属性是根据前4个属性的情况说明这样的天气状况 是否适合比赛。各属性取值如下: Outlook:sunny(s),overcast(o),rain(r); Temperature:hot(h),mild(m),cool(c); Humidity:high(h),normal(n); Windy:false,true Play:Yes(y),no(n)
同时注意到,在原空间中构造最优分类超平 面主要解决两个问题: 1、点积运算 2、求解二次规划 可以证明,在高维空间中构造最优分类超平 面,也只需知道其点积运算 即可,而不需要知道映射 的具体形式。
考虑Hilbert空间中内积的一个一般表达式: 其中 是输入空间向量 在特征 空间 中的映像,根据Hilbert-Schmidt理论, 可以是满足如下定理的任意对称函数 (Courant and Hilbert,1953) 定理(Mercer) 要保证L2下的对称函数 展开成 能以正的系数 (即描述了在
H ( X ) p i log p i
i 1 n
( p i 1)
i 1
n
决策树分类方法利用信息量增加(信息增益)作为 特征选择的一种指标。信息增益衡量每个属性对分 裂后的数据子集的信息量的贡献。 假设训练集T包含n个样本,这些样本分别属于m 个类,其中第i个类在T中出现的比例为pi,称
2
2 1
4
6 4 14
I (T1 ) I (T 2 ) I (T 3 )
2 4 4 6 3 4
log 2 log 2 log 2
2 4 4 6 3 4

2 4 2 6 1 4
log 2 log 2 log 2
2 4 2 6 1 4
1 0 . 9183 0 . 8113
S S S S
H H M C
H H H N
F T F F
N N N Y
High
C
可以看出其三个分支H, C和M下的所有记录也 属于相同的类,此分支 算法结束。其分支结构 如右:
Sunn y Temp M
Play=No Play=No Play=Yes
2)同理,对于Rain分支,统计数据如下:
Outlook= R Temp M C C M M Humi H N N N H Windy Play F F T F T Y Y N Y N
N H
T
F T
Y
Y N
决策树是类似如下的一棵树
Outlook
给定一个新的天气 象:“rain,hot,high,tru e”,则判别其类别
rain
sunny
overcast
Play=no
Play=yes
windy
false Play=yes
True Play=no
决策树的构造:分裂属性的选择 四、基于信息增益的特征选择策略 1.相关概念 设信息源X的取值为A=(a1,a2,…,an),ai出现的概率 为pi,称 I(ai)=log(1/pi)=-logpi 为ai的信息量;称 为X的信息熵。
相关文档
最新文档