大数据挖掘作业
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
实用标准文案
数据挖掘的第二次作业
1.下表由雇员数据库的训练数据组成,数据已泛化。例如,年龄“31…35”表示31到35的之间。
对于给定的行,count表示department, status, age和salary在该行上具有给定值的元组数。
status是类标号属性。
1)如何修改基本决策树算法,以便考虑每个广义数据元组(即每个行)的count。
Status 分为2个部分: Department分为4个部分:
Senior 共计52 Sales 共计110
Junior 共计113 Systems 共计 31
Marketing 共计14
Secretary 共计10
Age分为6个部分: Salary分为6各部分:
21…25 共计20 26K…30K 共计46
26…30 共计49 31K…35K 共计40 31…35 共计79 36K…40K 共计4 36…40 共计10 41K…45K 共计4 41…45 共计3 46K…50K 共计63
46…50 共计4 66K…70K 共计8 位
精彩文档.
实用标准文案
位
位
位
位
位
位
,所以departmentagesalary由以上的计算知按信息增益从大到小对属性排列依次为:、、作为
第一层,之后剩下的数据如下:定salary
由这个表可知department和age的信息增益将都为0。所以第二层可以为age也可以为
department。
2)构造给定数据的决策树。
由上一小问的计算所构造的决策树如下:
精彩文档.
实用标准文案
Salary
26K:30K 66K:70K
31K:35K Junior
Senior
36K:40K 41K:45K
46K:50K
Junior Junior
Senior
Age
21:25
26:30
36:40
31:35
Junior
Senior
Junior Senior
,systems”salary3)给定一个数据元组,它在属性department, age和上的值分别为“的朴素贝叶斯分类结果是什么?46...50K”和“”。该元组status“26 (30)
P(status=senior)=52/165=0.3152
P(status=junior)=113/65=0.6848
P(department=systems|status=senior)=8/52=0.1538
P(department=systems|status=junior)=23/113=0.2035
30|status=senior)=1/52=0.0192 P(age=26…30|status=junior)=49/113=0.4336 P(age=26…50K|status=senior)=40/52=0.7692 …P(salary=46K50K|status=junior)=23/113=0.2035 …
P(salary=46K 使用上面的概率,得到:…
P(X|status=senior)=P(department=systems|status=senior)*P(age=2650K|status=senior)=0 .0023
30|status=senior)* P(salary=46K…精彩文档.
实用标准文案
P(X|status=junior)=P(department=systems|status=junior)*P(age=26…50K|status= junior)=0.0180 30|status=junior)* P(salary=46K…P(X|status=senior)*
P(status=senior)= 7.2496e-004
P(X|status=junior)* P(status=junior)=0.0123
status=junior
的类为X因此,对于元组X,朴素贝叶斯分类预测元组运用决策树或者贝叶斯算法,对鸢尾花数据集进行分类,显示分类结果。2.
工具或者其他方法)(可以采用Weka
上运用决策树算法对鸢尾花数据集进行分类,分类结果如下图所示:在weka
上运用贝叶斯算法对鸢尾花数据进行分类,结果的具体情况如下:在weka精彩文档.实用标准文案
精彩文档.