关联规则分析--实验报告
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据挖掘——关联规则
一、数据处理
1.来源:百度文库《麻坪中学体质测试》
2.源数据描述
1)源数据量:572个
2)数据属性:
年级编号、班号、班级、学号、民族代码、姓名、性别、
出生日期、学生来源、家庭住址、身高、身高体重分数、
身高体重等级、肺活量、肺活量体重指数、肺活量体重分
数、肺活量等级、耐力类项目成绩、耐力类项目分数、耐
力项目等级、柔韧力量类项目编号、柔韧力量类项目成
绩、柔韧力量类项目分数、柔韧力量类项目等级、速度灵
巧类项目编号、速度灵巧类项目成绩、速度灵巧类项目分
数、速度灵巧类项目等级、奖惩项目编号、奖惩成绩、测
试总分、总分等级。
(部分数据展示)
3.数据处理
1)数据规约
选择属性:选择“姓名、性别、肺活量体重等级、耐力类项目等级、柔韧、力量类项目等级、速度、灵巧类项目等级”五个属性。
其余属性为不重要属性,故舍去。
2)数据转换
a)等级属性值转化:等级均为“不及格、及格、良好、优
秀”。
将“不及格”和“及格”转化为“F”;将“及格”和“不及
格”转化为“T”
b)性别属性值转化:女性T,男性F
c)属性名转化:将属性名和各个学生姓名转化为英文字
母+数字
NA:姓名
A1:性别
A2:肺活量体重等级
A3:耐力类项目等级
A4:柔韧、力量类项目等级
A5:速度、灵巧类项目等级
二、实验内容
1.代码来源:网上算法结合自己的想法
2.代码运行过程:
第一次扫描后的1级备选集CandidateItemset
A1
A2
A3
A4
A5
第一次扫描后的1级频繁集FrequentItemset
A1
A2
A3
A4
A5
扫描后备选集
A1 A2
A1 A3
A1 A4
A1 A5
A2 A3
A2 A4
A5 A2
A3 A4
A5 A3
A5 A4
扫描后频繁集A1 A2
A1 A3
A1 A4
A1 A5
A2 A3
A2 A4
A5 A2
A3 A4
A5 A3
A5 A4
扫描后备选集A1 A2 A3
A1 A2 A4
A1 A5 A2
A1 A3 A4
A1 A5 A3
A1 A5 A4
A2 A3 A4
A5 A2 A3
A5 A2 A4
A5 A3 A4
扫描后频繁集A1 A2 A3
A1 A2 A4
A1 A3 A4
A1 A5 A3
A1 A5 A4
A2 A3 A4
A5 A2 A3
A5 A2 A4
A5 A3 A4
扫描后备选集A1 A2 A3 A4 A1 A2 A3 A5 A1 A2 A4 A5 A1 A3 A4 A5
A2 A3 A4 A5
扫描后频繁集
A1 A3 A4 A5
A2 A3 A4 A5
扫描后备选集
A1 A2 A3 A4 A5
无满足支持度项集,结束连接
扫描后频繁集
Apriori算法--->频繁集
A1 A3 A4 A5
A2 A3 A4 A5
3.代码结果:
支持度:0.05
关联关系:A1、A3、A4、A5
A2、A3、A4、A5
三、结论
1.由{ A1、A3、A4、A5}得出男生的耐力类项目等级、柔韧、力
量类项目等级、速度、灵巧类项目等级普遍比较优秀
2.由{ A2、A3、A4、A5}得出一般肺活量体重等级、耐力类项目
等级、柔韧、力量类项目等级、速度、灵巧类项目等级普遍
都是同一等级,即肺活量体重等级优秀的人,则其他的都是
优秀。