大数据挖掘作业

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

实用标准文案

数据挖掘的第二次作业

1.下表由雇员数据库的训练数据组成，数据已泛化。例如，年龄“31…35”表示31到35的之间。

对于给定的行，count表示department, status, age和salary在该行上具有给定值的元组数。

status是类标号属性。

1)如何修改基本决策树算法，以便考虑每个广义数据元组（即每个行）的count。

Status 分为2个部分： Department分为4个部分：

Senior 共计52 Sales 共计110

Junior 共计113 Systems 共计 31

Marketing 共计14

Secretary 共计10

Age分为6个部分： Salary分为6各部分：

21…25 共计20 26K…30K 共计46

26…30 共计49 31K…35K 共计40 31…35 共计79 36K…40K 共计4 36…40 共计10 41K…45K 共计4 41…45 共计3 46K…50K 共计63

46…50 共计4 66K…70K 共计8 位

精彩文档．

实用标准文案

位

，所以departmentagesalary由以上的计算知按信息增益从大到小对属性排列依次为：、、作为

第一层，之后剩下的数据如下：定salary

由这个表可知department和age的信息增益将都为0。所以第二层可以为age也可以为

department。

2)构造给定数据的决策树。

由上一小问的计算所构造的决策树如下：

精彩文档．

实用标准文案

Salary

26K:30K 66K:70K

31K:35K Junior

Senior

36K:40K 41K:45K

46K:50K

Junior Junior

Senior

Age

21:25

26:30

36:40

31:35

Junior

Senior

Junior Senior

，systems”salary3)给定一个数据元组，它在属性department, age和上的值分别为“的朴素贝叶斯分类结果是什么？46...50K”和“”。该元组status“26 (30)

P(status=senior)=52/165=0.3152

P(status=junior)=113/65=0.6848

P(department=systems|status=senior)=8/52=0.1538

P(department=systems|status=junior)=23/113=0.2035

30|status=senior)=1/52=0.0192 P(age=26…30|status=junior)=49/113=0.4336 P(age=26…50K|status=senior)=40/52=0.7692 …P(salary=46K50K|status=junior)=23/113=0.2035 …

P(salary=46K 使用上面的概率，得到：…

P(X|status=senior)=P(department=systems|status=senior)*P(age=2650K|status=senior)=0 .0023

30|status=senior)* P(salary=46K…精彩文档．

实用标准文案

P(status=senior)= 7.2496e-004

P(X|status=junior)* P(status=junior)=0.0123

status=junior

的类为X因此，对于元组X，朴素贝叶斯分类预测元组运用决策树或者贝叶斯算法，对鸢尾花数据集进行分类，显示分类结果。2.

工具或者其他方法）（可以采用Weka

上运用决策树算法对鸢尾花数据集进行分类，分类结果如下图所示：在weka

上运用贝叶斯算法对鸢尾花数据进行分类，结果的具体情况如下：在weka精彩文档．实用标准文案

精彩文档．