数据挖掘作业

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1•下表由雇员数据库的训练数据组成,数据已泛化。例如,年龄“ 31…3表示31到35的之

间。对于给定的行,count表示department, status, age和salary在该行上具有给定值的元组数。status是类标号属性。

1)如何修改基本决策树算法,以便考虑每个广义数据元组(即每个行)的count。

Status分为2个部分:Department分为4个部分:

Senior 共计52 Sales 共计110

Junior 共计113 Systems 共计31

Marketi ng 共计14

Secretary 共计10

Age分为6个部分:Salary分为6各部分:

21-25 共计20 26K …30K 共计46

26-30 共计49 31K …35K 共计40

31-35 共计79 36K-40K 共计 4

36-40 共计10 41K-45K 共计 4

41-45 共计3 46K-50K 共计63

46-50 共计4 66K-70K 共计8

—位

由以上的计算知按信息增益从大到小对属性排列依次为:salary、age、department,所以定

salary作为第一层,之后剩下的数据如下:

由这个表可知department和age的信息增益将都为0。所以第二层可以为age也可以为

department。

2)构造给定数据的决策树。

由上一小问的计算所构造的决策树如下:

3)给定一个数据元组,

它在属性department, age 和salary 上的值分别为 “ systems "“ 26 (30)

和“46...50K 。"该元组status 的朴素贝叶斯分类结果是什么?

P(status=se nior)=52/165=0.3152 P(status=ju nior)=113/65=0.6848

P(departme nt=systems|status=se ni or)=8/52=0.1538 P(departme nt=systems|status=ju nior)=23/113=0.2035 P(age=26 •-30|status=se nior)=1/52=0.0192 P(age=26…30|status=ju nior)=49/113=0.4336 P(salary=46K- 50K|status=se nior)=40/52=0.7692 P(salary=46K- 50K|status=ju nior)=23/113=0.2035

使用上面的概率,得到:

P(X|status=se ni or)=P(departme nt=systems|status=se ni or)*P(age= 26 •-30|status=se ni or)* P(salary=46K- 50K|status=se nior)=0.0023

P(X|status=j uni or)=P(departme nt=systems|status=j uni or)*P(age= 26 •-30|status=j unior)*

P(salary=46K- 50K|status= ju ni or)=0.0180

26:30

:35

Senior

Salary

26K:30K

Junior

41K:45K

Jun ior

Senior

Jun ior

Jun ior

66K:70K

31K:35K

46K:50K

21:25

36:40

Jun ior

Sen ior

36K:40

Sen ior

P(X|status=se nior)* P(status=se nior)= 7.2496e-004

P(X|status=junior)* P(status=junior)=0.0123

因此,对于元组X,朴素贝叶斯分类预测元组X的类为status=junior 2.运用决策树或者贝叶斯算法,对鸢尾花数据集进行分类,显示分类结果。

(可以采用Weka工具或者其他方法)

在weka上运用决策树算法对鸢尾花数据集进行分类,分类结果如下图所示:

Iris-virginica (46.DM .0)

lris-versicolor (3

.

0/1.0)

在weka上运用贝叶斯算法对鸢尾花数据进行分类,结果的具体情况如下:

■<= □

S'

'=0.6'

'> r?1

■Iri-s-virginica (3.0)'

Iris-versicolor (46.OH 0)

'--1,5'

Btfiyusi Clni f lex*

Attr xB-ute

CXass

Ixxs —setasa I ras—versi-co^lox Jirxs—vi

<0.33>

<0*33)<0 ・ 33)

ae>pa 1 1 en^t:K

mean4»99I35•9379 6.5795

O. 3550 ・ 50420 ・€353 x ghl: sum90SO SO pr-ecisxon□•L0590•loss0 .J.OS9

sepalwidrh

xnaan3»40152•7€«7 2 ・X29•td・•0.39250 ・ 303e o.3oee vreight sum SO so so pr-eclaJ.on0»10910 ・109X0 ・J.O91

pcca 1 lenom

mean JL.4694 4 ・ 24S2 5.3516■rd. dwv.0^X702O ・ 471.^O ・ 5529 vreignT sum50SO50 pr-ecl^Xon0*14050 ・ 14050.1405

pc 匸a lwidxti

mean0.27431・ 30972.0343 Mtd. dev.0.10960 ・19150 ・2646 vreignr oum50SO50 precl^^on O»11430 ・11430.1143

Corr色ctly Classified Instances

Incorrectly Classified. In3tance3 Kappa

stariscic

Mean dbsolute error

Root mean sijuared error Relative

absolute error

Roou relative squared error

Total Number of Instaaces

==Confusion Matrix ==

a b c <■- classified, as

50 0 0 I a = Iris-set&sa

0 48 2I b = Iris-versicolor

0 4 46 I Iris-virginica

144

£

0.94

0.0342

0.155

7.6997 ¥

32.8794 *

150

相关文档
最新文档