大数据挖掘作业

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

实用标准文案

数据挖掘的第二次作业

1.下表由雇员数据库的训练数据组成,数据已泛化。例如,年龄“31…35”表示31到35的之间。

对于给定的行,count表示department, status, age和salary在该行上具有给定值的元组数。

status是类标号属性。

1)如何修改基本决策树算法,以便考虑每个广义数据元组(即每个行)的count。

Status 分为2个部分: Department分为4个部分:

Senior 共计52 Sales 共计110

Junior 共计113 Systems 共计 31

Marketing 共计14

Secretary 共计10

Age分为6个部分: Salary分为6各部分:

21…25 共计20 26K…30K 共计46

26…30 共计49 31K…35K 共计40 31…35 共计79 36K…40K 共计4 36…40 共计10 41K…45K 共计4 41…45 共计3 46K…50K 共计63

46…50 共计4 66K…70K 共计8 位

精彩文档.

实用标准文案

,所以departmentagesalary由以上的计算知按信息增益从大到小对属性排列依次为:、、作为

第一层,之后剩下的数据如下:定salary

由这个表可知department和age的信息增益将都为0。所以第二层可以为age也可以为

department。

2)构造给定数据的决策树。

由上一小问的计算所构造的决策树如下:

精彩文档.

实用标准文案

Salary

26K:30K 66K:70K

31K:35K Junior

Senior

36K:40K 41K:45K

46K:50K

Junior Junior

Senior

Age

21:25

26:30

36:40

31:35

Junior

Senior

Junior Senior

,systems”salary3)给定一个数据元组,它在属性department, age和上的值分别为“的朴素贝叶斯分类结果是什么?46...50K”和“”。该元组status“26 (30)

P(status=senior)=52/165=0.3152

P(status=junior)=113/65=0.6848

P(department=systems|status=senior)=8/52=0.1538

P(department=systems|status=junior)=23/113=0.2035

30|status=senior)=1/52=0.0192 P(age=26…30|status=junior)=49/113=0.4336 P(age=26…50K|status=senior)=40/52=0.7692 …P(salary=46K50K|status=junior)=23/113=0.2035 …

P(salary=46K 使用上面的概率,得到:…

P(X|status=senior)=P(department=systems|status=senior)*P(age=2650K|status=senior)=0 .0023

30|status=senior)* P(salary=46K…精彩文档.

实用标准文案

P(X|status=junior)=P(department=systems|status=junior)*P(age=26…50K|status= junior)=0.0180 30|status=junior)* P(salary=46K…P(X|status=senior)*

P(status=senior)= 7.2496e-004

P(X|status=junior)* P(status=junior)=0.0123

status=junior

的类为X因此,对于元组X,朴素贝叶斯分类预测元组运用决策树或者贝叶斯算法,对鸢尾花数据集进行分类,显示分类结果。2.

工具或者其他方法)(可以采用Weka

上运用决策树算法对鸢尾花数据集进行分类,分类结果如下图所示:在weka

上运用贝叶斯算法对鸢尾花数据进行分类,结果的具体情况如下:在weka精彩文档.实用标准文案

精彩文档.

相关文档
最新文档