数据挖掘作业
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1•下表由雇员数据库的训练数据组成,数据已泛化。例如,年龄“ 31…3表示31到35的之
间。对于给定的行,count表示department, status, age和salary在该行上具有给定值的元组数。status是类标号属性。
1)如何修改基本决策树算法,以便考虑每个广义数据元组(即每个行)的count。
Status分为2个部分:Department分为4个部分:
Senior 共计52 Sales 共计110
Junior 共计113 Systems 共计31
Marketi ng 共计14
Secretary 共计10
Age分为6个部分:Salary分为6各部分:
21-25 共计20 26K …30K 共计46
26-30 共计49 31K …35K 共计40
31-35 共计79 36K-40K 共计 4
36-40 共计10 41K-45K 共计 4
41-45 共计3 46K-50K 共计63
46-50 共计4 66K-70K 共计8
—位
位
位
位
由以上的计算知按信息增益从大到小对属性排列依次为:salary、age、department,所以定
salary作为第一层,之后剩下的数据如下:
由这个表可知department和age的信息增益将都为0。所以第二层可以为age也可以为
department。
2)构造给定数据的决策树。
由上一小问的计算所构造的决策树如下:
3)给定一个数据元组,
它在属性department, age 和salary 上的值分别为 “ systems "“ 26 (30)
和“46...50K 。"该元组status 的朴素贝叶斯分类结果是什么?
P(status=se nior)=52/165=0.3152 P(status=ju nior)=113/65=0.6848
P(departme nt=systems|status=se ni or)=8/52=0.1538 P(departme nt=systems|status=ju nior)=23/113=0.2035 P(age=26 •-30|status=se nior)=1/52=0.0192 P(age=26…30|status=ju nior)=49/113=0.4336 P(salary=46K- 50K|status=se nior)=40/52=0.7692 P(salary=46K- 50K|status=ju nior)=23/113=0.2035
使用上面的概率,得到:
P(X|status=se ni or)=P(departme nt=systems|status=se ni or)*P(age= 26 •-30|status=se ni or)* P(salary=46K- 50K|status=se nior)=0.0023
P(X|status=j uni or)=P(departme nt=systems|status=j uni or)*P(age= 26 •-30|status=j unior)*
P(salary=46K- 50K|status= ju ni or)=0.0180
26:30
:35
Senior
Salary
26K:30K
Junior
41K:45K
Jun ior
Senior
Jun ior
Jun ior
66K:70K
31K:35K
46K:50K
21:25
36:40
Jun ior
Sen ior
36K:40
Sen ior
P(X|status=se nior)* P(status=se nior)= 7.2496e-004
P(X|status=junior)* P(status=junior)=0.0123
因此,对于元组X,朴素贝叶斯分类预测元组X的类为status=junior 2.运用决策树或者贝叶斯算法,对鸢尾花数据集进行分类,显示分类结果。
(可以采用Weka工具或者其他方法)
在weka上运用决策树算法对鸢尾花数据集进行分类,分类结果如下图所示:
Iris-virginica (46.DM .0)
lris-versicolor (3
.
0/1.0)
在weka上运用贝叶斯算法对鸢尾花数据进行分类,结果的具体情况如下:
■<= □
S'
'=0.6'
'> r?1
■Iri-s-virginica (3.0)'
Iris-versicolor (46.OH 0)
'--1,5'
Btfiyusi Clni f lex*
Attr xB-ute
CXass
Ixxs —setasa I ras—versi-co^lox Jirxs—vi
<0.33>
<0*33)<0 ・ 33)
ae>pa 1 1 en^t:K
mean4»99I35•9379 6.5795
O. 3550 ・ 50420 ・€353 x ghl: sum90SO SO pr-ecisxon□•L0590•loss0 .J.OS9
sepalwidrh
xnaan3»40152•7€«7 2 ・X29•td・•0.39250 ・ 303e o.3oee vreight sum SO so so pr-eclaJ.on0»10910 ・109X0 ・J.O91
pcca 1 lenom
mean JL.4694 4 ・ 24S2 5.3516■rd. dwv.0^X702O ・ 471.^O ・ 5529 vreignT sum50SO50 pr-ecl^Xon0*14050 ・ 14050.1405
pc 匸a lwidxti
mean0.27431・ 30972.0343 Mtd. dev.0.10960 ・19150 ・2646 vreignr oum50SO50 precl^^on O»11430 ・11430.1143
Corr色ctly Classified Instances
Incorrectly Classified. In3tance3 Kappa
stariscic
Mean dbsolute error
Root mean sijuared error Relative
absolute error
Roou relative squared error
Total Number of Instaaces
==Confusion Matrix ==
a b c <■- classified, as
50 0 0 I a = Iris-set&sa
0 48 2I b = Iris-versicolor
0 4 46 I Iris-virginica
144
£
0.94
0.0342
0.155
7.6997 ¥
32.8794 *
150