关联规则在学生成绩分析中的应用
关联规则挖掘在学生成绩分析中的应用研究

关联规则挖掘在学生成绩分析中的应用研究翁锦琳【摘要】研究数据挖掘领域中的关联规则及其在学生成绩分析中的应用.设计并实现学生成绩关联规则分析系统,利用该系统对学生成绩进行分析,得出学生不同课程之间的联系及不同课程对总成绩的影响,从而为教学工作提供指导作用.%The topic of this paper is about the research in association rules in data mining and its application in the analysis of students' marks.In this paper we design and realize a students' score association rules analysis system,with which we analyze the students' marks and obtain the link between different courses and the effects of different courses on total score so as to provide guidance to the teaching.【期刊名称】《宁德师范学院学报(自然科学版)》【年(卷),期】2012(024)002【总页数】5页(P201-205)【关键词】数据挖掘;关联规则;支持度;置信度;Apriori算法【作者】翁锦琳【作者单位】福州大学数学与计算机学院,福建福州350108 古田县第一中学,福建古田355200【正文语种】中文【中图分类】TP311.13目前,数据挖掘已经广泛地应用于商业、金融业、电信业等各个行业,但在教育上的应用还不是特别广泛.本文将数据挖掘中的关联规则应用到学生成绩分析中,从而对教学及管理工作起到指导作用.学生成绩,作为评价学生学习成果的一项重要指标,能够客观、真实地反映学生的学习效果和教师的教学质量.但是目前对学生成绩的分析,主要还停留在基本统计分析上,比如平均分、标准差、名次、分段人数统计等,而且主要还停留在某一门课程成绩以及总分的评估上,而对各个学科成绩之间的关联、各个学科成绩与总分名次的关联以及同一门课程各模块内容之间的得分关联等却没有做详细的分析.而分析这些关联有助于发现许多隐藏在其中的规律,对学生以后的学习方法、教师的教学手段和学校的教学计划起到良好的指导作用.数据挖掘方法主要包括关联规则发现、分类、聚类分析、泛化和预测、决策树、神经网络、粗糙集等.关联规则挖掘是数据挖掘中的一种重要方法,它主要用于发现存在于大量数据之间的关联性,从而描述一个事物某些属性同时出现的规律和模式[1].在1993年,Agrawal等人[2]首次提出了关联规则的概念.其一般定义如下:J={I1,I2,…,Im}是一项目集,D是一事务数据库,其中每个事务T哿J.每个事务都有一个标识符,称之为TID.若A是项目集,当且仅当A哿T时,就说事务T 包含A.一条关联规则就是形如A=>B的蕴涵式,其中AJ,BJ且A∩B=.如果D中包含A∪B的比例是s,就称关联规则A=>B在D中的支持度为s,也可以表示为概率P(A∪B);如果D中包含A的情况下同时包含B的比例是c,则说关联规则A=>B的置信度为c,表示为条件概率P(B|A).即Support(A=>B)=P (A∪B),Confidence(A=>B)=P(B|A).支持度(support)和置信度(confidence)两个阈值是描述关联规则的两个重要概念.关联规则的支持度反映了该规则在数据库中的重要性和代表性,而它的置信度则表明了整个规则的正确度,即可信程度.在挖掘关联规则时,必须要指定一个最小支持度(min-support)和最小置信度(min-confidence),如果某条规则同时满足最小支持度和最小置信度,则称它为强关联规则.一般来说,只有强关联规则才可能是有意义的关联规则,也就是笔者要挖掘的规则.关联规则挖掘主要分为两步[1]:(1)找出所有的频繁项集;(2)产生强关联规则.1.2.1 找出所有的频繁项集求出数据库中所有的频繁项集及相应的支持度计数.项的集合称为项集,满足最小支持度的项集为频繁项集,支持度计数是指项集出现的频率,而支持度是指项集出现的概率,即支持度=支持度计数/总的事务数.关联规则挖掘最有名的算法是Agrawal和Strikant提出的经典的Apriori算法[3].另一个重要的算法是Han提出的FP-growth算法[4].后面还有许多学者提出了不同的改进算法.Apriori算法的基本思想是通过多次扫描数据库来产生频繁项集.FP-growth算法通过扫描两次数据库建立一棵称为FP-tree的频繁模式树,通过对FP-tree的挖掘来获得频繁项集.Apriori算法需多次扫描数据库并产生大量的候选项集,而FP-growth算法只需扫描两次数据库,但是当事务数据库较大时,将整棵FP-tree放入内存比较困难.下面简要介绍一下Apriori算法的基本思想:(1)先寻找所有的频繁1-项集的集合L1(2)由频繁(k-1)-项集的集合L(k-1)生成候选k-项集的集合C(k).它包括连接步和剪枝步.① 连接步:对于任意两个 L(k-1)的不同项集l1和l2,若满足条件(l1[1]=l2[1])∩(l1[2]=l2[2])∩…∩(l1[k-2]=l2[k-2])∩(l1[k-1]<2[k-1]),则进行连接操作,c=l1[1]l1[2]…l1[k-2]l1[k-1]l2[k-1].(假定l1、l2中的项已按字典序排好,条件l1[k-1]<2[k-1]仅仅是为了保证不产生重复)② 剪枝步:随着k的增大由连接步产生的C(k)可能会越来越大,为了提高算法的效率,可以压缩C(k),即剪枝.具体来说,可以对连接步产生的c作一个判断:如果c的某一(k-1)-子项集不在L(k-1)中,则它不可能是频繁项,不必加入C(k)中,否则才将c加入C(k)中.这里的依据是Apriori性质:“频繁项集的所有非空子集必定是频繁的”.(3)扫描事务数据库,计算出C(k)中的每个候选项集c的支持度计数c.count. (4)频繁k-项集的集合L(k)={c|c.count/事务数≥minsupport,c∈C (k)}.//C(k)中支持度大于等于最小支持度minisupport的项集加入L(k)中. (5)返回第(2)步,直到L(k-1)为空.(6)L(K)(K=1,2,3,…)即为所求的频繁项集的集合.Apriori有许多改进算法,如使用散列技术压缩要考察的候选k-项集Ck(k>1)、事务压缩(压缩未来迭代扫描的事务数)、抽样(对给定数据的子集挖掘)、动态项集计数(在扫描的不同点添加候选项集).1.2.2 产生强关联规则由频繁项集产生关联规则,这些关联规则必满足最小支持度,如果同时满足最小置信度,则为强关联规则,也就是所要挖掘的关联规则.该步骤比较简单,将一个频繁项集A划分成两个非空的子集B和A-B,所有满足最小置信度的B=>(A-B))即是所要生成的规则.算法如下:利用VisualC++开发工具编写一个简单的学生成绩关联规则分析系统,数据库采用ACESS.图1为该系统的数据流图,反映了该系统的功能及数据流向.以笔者所在中学高三理科学生今年省质检考试数据为样本作实验分析.该原始成绩见表1(共502条数据,这里只列出部分,为了保护隐私,将学号、姓名、班级等内容清除).在做成绩关联规则分析前,要先进行一些必要的参数设置.本例中,设置参数如图2所示.1999年Pyle提出在数据挖掘过程中增加数据预处理过程,同时强调了数据预处理重要性:数据预处理占数据挖掘时间的60%.数据预处理包含了数据清理、数据集成、数据选择、数据变换等过程.(1)数据清理.主要是清除一些不用的信息,比如缺考的学生数据将影响数据挖掘结果的准确性,要将这些记录清理掉.(2)数据集成.主要是将不同的数据源组合在一起(本例较简单,只有一个数据源).另外为了研究学生单科成绩对总分的贡献,必须加一列“总分”,并计算这一列的值.(3)数据选择.从数据库中提取与分析任务相关的数据.本例中与分析任务相关的数据为所有考生的所有课程成绩及总分成绩数据,而姓名、班级、学号、性别等字段信息与本次分析任务无关,无需选择.当然,如果你只想分析部分课程,就只要选择相应的课程就行了.(4)数据变换.数据变换的主要任务,是将数据规格化,转换为特定的格式,以便于算法的实现.本例中笔者将总分编号为0,语、数、英、理、化、生课程编号分别为1、2、3、4、5、6.还要将成绩离散化,按名次分为A、B、C三等(即好,中,差,因为每次考试难度不一样,各科的难度也不一样,各科的满分也不一样,如果用分数线划分等级则不太准确,所以可以按名次来划分等级),如1A表示语文成绩为A,1B表示数学成绩为B,0C表示总分为C.这样分析的项目将会有21个,即0A、0B、0C、1A、1B、1C、……、6A、6B、6C.预处理后的布尔型事务表如图3(只列出部分):例如图中编号为2的学生总分成绩为A,语文成绩为A,数学成绩为A,英语成绩为B,物理成绩为A,化学成绩为A,生物成绩为A.对于本例而言,由于是按名次来划分等级,则任一个科目A、B、C各约1/3,所以本例中最大的支持度也不会超过33%,在设置最小支持度时不宜设置过大.关联规则挖掘包含找出频繁项集、产生关联规则两步,前面已简要介绍了关联规则挖掘相关算法与步骤,这里不再累述.在产生频繁项集时,本系统使用Apriori的一种改进算法,使用了散列技术来压缩要考察的候选项目集,从而提高了算法效率.本次试验最小支持度设为20%,最小置信度设为60%.程序运行结果如图4.最终产生了39条强关联规则.对产生的关联规则作分析,从而得出其中的一些规律.(1)5A=>0A,2A=>0A,4A=>0A,3A=>0A、6A=>0A这几条规则的置信度分别为 0.760、0.758、0.725、0.696、0.633,可见数、理、化三科成绩为 A的同学总分也为A的概率在70%以上,英语也在70%左右,生物63%,在60%最小置信度下语文没有形成强关联规则.可见数、理、化、英这四科对总分的贡献最大,其实从教学实践中也看到了,因为这几个科目拉分相对都比较大,特别是数、理、化三科,因而造成了它们对总分排名的影响很大.(2)0A=>5A、0A=>2A、0A=>4A、0A=>3A、0A=>6A 这几条规则的置信度分别为 0.778、0.731、0.725、0.701、0.659,可见总分成绩好的学生大部分是各科都非常好.(3)而2C=>0C、3C=>0C、4C=>0C、5C=>0C、6C=>0C这几条规则的置信度也都很高.这说明如果有某科目考得特别低(等级为C),则整体成绩为低(等级为C)的概率很高,所以教学中要特别注意学生的弱势科目,一旦学生有弱势科目,则在平常的学习过程中就必须多花时间弥补.另外(2C,4C)=>0C,(0C,2C)=>4C,(0C,4C)=>2C 的置信度分别为 0.910、0.828、0.783,可见数学、物理成绩低与总分低的关系是特别大的.这点与实际也是相符的,因为数学与物理相对较难,而且每道题的分值也比较大,如果学不好,就容易造成较低的分数,从而影响总分名次.所以如果数学、物理成绩较低的同学一定要特别注意弥补这两科的不足.(4)前面三点所列的规则中,语文科目(编号为1)并没有形成强关联规则,可见语文科目在本次考试中对总分的影响稍弱一些,这个也是与语文科目本身的特点有关.(5)2A=>5A、2A=>4A这两条规则的置信度也都在0.65左右,可见学好数学对物理、化学是很有帮助的.所以学校要特别重视数学课程的教学.(6)另外,在学生成绩关联规则分析系统中,置信度稍低的规则不一定完全没有用.在本例中,如果将置信度适当降低(比如降低到0.4),如果有发现类似(2A,4A)=>3C的情况,就能够说明偏科现象较严重,教学上在这方面就要引起注重. 另外,在实际应用中,可以将学生平时的表现行为等特征与成绩作关联分析,或者分析同一个科目各个模块的关联,从而产生更多有用的规则.当然,本例只是笔者所在学校其中一次考试的分析结果,也许某些规则不具有普遍意义,因此可以通过对多个学校的多次考试的分析来验证某些规则的正确性.本例是关联规则挖掘在基础教育中的应用.而关联规则在高校学生成绩分析中的应用价值也是非常大的,比如高校中同专业的不同课程往往有很大的相关性,那么通过分析关联规则,可以合理地安排这些课程的顺序,对学校制定教学计划提供依据.又如可以分析基础课与专业课之间的相关性,这样就能知道哪些基础课起的作用较大,因而在教学安排上应该对这些基础课程多安排学时.另外在分析时,要特别注意最小支持度与最小置信度的选择,以免产生无用的信息或错失有用的信息.【相关文献】[1](加)韩家炜,堪博.数据挖掘:概念与技术 [M].范明,孟小峰,译.北京:机械工业出版社,2007.[2]R.Agrawal,T.Imielinski,A.N.Swami.Mining Association Rules between Sets of Items in Large Databases [J].In Proc.Of the ACM SIGMOD Intl.Conf.on Management of Data (SIGMOD'93),1993:207-216[3]R.Agrawal,R.Strikant.Fast Algorithms for Mining Association Rules[J].In Proc.Of the20th Intl.Conf.on Very Large Data Bases(VLDB'94),1994:487-499[4]J.Han,J.Pei,Y.Yin.Mining Frequent Patterns without Candidate Generation[J].InProc.of the ACM SIGMOD Int.Conf.on Management of Data(SIGMOD'00),2000:1-12. [5]文拯.关联规则算法的研究 [D].武汉:中南大学,2009.[6]Pyle D.Data Preparation for Data Mining[M].San Francisco,CA:Morgan Kaufmann Publishers Inc,1999:540.。
关联规则在高校成绩分析中的应用

福
建 电
脑
21 0 0年第 6期
关联规 则在 高校成 绩分析 中的应用
罗 浩 .罗 许 练
( 州学院, 东 】 为 了有效利用教务 管理 系统学生成绩数据库 中的隐藏信息 ,分析公 共必修课 与专业 必修课 之间的关 系. : 本
文 首 先 将 学生 成 绩 表 通 过 数 据 清 理 、 据 集 成 和 数 据 规 约 等 手段 转 换 成 布 尔 型 数 据 , 着 运 用 关 联 规 则 对 数 据 进 行 分 析 。 数 接 并 通 过 一 个 实例 说 明其 有 效 性 。 由 于 每 名 学 生 都 有 数 十 门公 共 必 修 课 和 专 业 必 修 课 成 绩 . 成 绩 是 衡 量 学 生 是 否 掌 握 所 学 知 识 的 主 要 标 志 .也 是评 估 直 接 利 用这 些数 据 分 析公 共 必 修 课 对 专 业 必 修 课 的影 响变 得 不 教 学 质 量 的 重 要 依 据 。 有 的 高校 教 务 管 理 系统 中 , 般 仅有 成 太 现 实 。 因 此 , 文 将 必 修 课 成绩 分为 以下 六 类 : 现 一 本 绩 的输入 输 出 及 简单 的查 询 . 很 少 涉 及 对 成 绩 的分 析 . 往 是 而 往 1 数 学类 : 等 数 学 、 形 代 数 、 率 论 与 数 理 统 计 : ) 高 线 概 海 量 成绩 数据 以 多种 形 式 存 储 于 计 算 机 上 。 结果 . 集 在 数据 库 收
2 英语 类 : 学 英 语 1 大学 英 语 2 大 学 英 语3 大 学英 语 4 ) 大 、 、 、 : 中的 成绩 数据 变成 了” 据 坟 墓 ”一 得 再 访 问 的数 据 档 案 教 数 一难 3 思 政 类 : 想 道 德 与 法 律 基 础 、 国 近现 代 史 纲 要 、 克 1 思 中 马 学 管 理 部 门 的 决 策 常 常 不 是 基 于 这 些 成 绩 数 据 中 所 隐 含 的 信 思 主义 基 本 原 理 : 息 。 是基于管理者的直觉。 而 4 体 育 类 : 共 体 育 1 公共 体 育 2 公 共 体 育3 公 共体 育4 1 公 、 、 、 : 随 着 数 据 挖 掘 技 术 的 成 熟及 应用 领域 的不 断扩 展 .不 少 高 5计 算 机 类 : 算 机 基 础 、 B A c s : 1 计 V 、 c es 校 研 究 人 员 已 开 始 研 究 将 数 据 挖 掘 技 术 应 用 于 高 校 教 学 管 理 6专 业 类 : 专业 的所 有 专 业 必 修 课 ) 该 中 , 将 对 提 高 教学 管 理 水 平 起 到 了很 好 的促 进 作 用 。 用 数 据 这 利 在 数 据 挖 掘 之 前 求 得 每 名 学 生各 类 别 的 总 分 .使 得需 要 进
关联规则挖掘在学生素质测评中的应用

据库等领域专家与学者的广泛关注。 关联规则是当 前数据挖掘研究的主要模式之一, 侧重于确定数据 中不同领域之间的联系, 找出满足给定支持度和可 信度阈值的多个域之间的依赖关系[ 1 J 。
程度。用户可以定义二个阈值 , 要求数据挖掘系统 所生成的规则 的支持度和可信度都不小于给定 的
数据挖掘是指从大型数据库或数据仓库 中提 支持度 S 1010 = . . = 8 /0 0 01 8 取隐含 的、 先前未知的、 对决策者有潜在价值 的知
从语义的角度来分析 , 规则的可信度表示这条
识和规则。 数据挖掘是人工智能和数据库发展相结 规则的正确程度 ; 支持度表示用这条规则可 以推出 合的产物 , 目前国际上数据库和信息决策系统最 百分之几的 目 , 是 标 即这一规则对于整体数据的重要
P 八P 八… 八p q 八q ^… ^q l 2 l 2
2 数 据 库数 据 结 构
某 市开发 的素质测 评系统 由六个 数据库 组成 学 生基本 档案数据 库 , 内含 姓名 、 别 、 性 出生年
月、 民族 、 籍贯、 政治面 目、 类别 、 本人简历 、 家庭住 址、 父母情况 、 毕业后去向等项 目, 此库在三年中基
运动与健康数据库 , 内含身高 、 体重 、 胸围、 肺 与健康成绩为 B 则规则学习能力成绩为好就有运 活量、 , 视力 、 血色素 、 上臂围、 营养状况等各项生理 动与健康成绩为相对较差可信度 C 1030 0 , 指标以及体育课诸项达标测试成绩。 = 8/ = . 0 6 此库每学年更
阈值 。
这样 , 我们就用蕴含式 , 支持度和可信度唯一 标识了每一个挖掘出来的关联规则。例如 , 我们可 以这样 表示上 面提到 的例子 :
关联规则在成绩分析中的应用

关联 规 则的挖 掘 过程 主要 被分 解 为 下面 两
步:
层搜索的迭代算法 , k 项集用于探索(+)项 一 k1 一 集 。其基 本 思想 是( 骤) 步 :
首 先 ,通过 扫 描数 据 集 ,产生 一个 大的候
选数 据 项集 ,并 计 算每 个候 选 数据项 发 生的 次
数 ,然 后基 于预 先 给定 的最 小支 持度 生 成频繁 卜项 集的 集合 ,该 集合 记作 ;
摘
要 :文章简要介绍了数据挖掘技 术的概念 、挖掘过程及关联规则 ,并 对在 校大学生各科期 末
成 绩进 行 关 联 规 则 挖 掘 分 析 ,找 出它 们 之 间 的 内在 联 系 为教 学 管 理 和 改革 提 供 依据 。 关键 字 :数 据 挖 掘 ;关联 规 则 ;成 绩 分 析
随着计 算机 工 具应 用普 及和 网络技 术 的发
④ 数据 挖掘 (aaMiig,它是 知识 挖掘 Dt nn)
的 一个基 本步 骤 ,其作 用就 是利 用 智能方 法挖 掘数 据模式 或规律 知识 ; ⑤模 式评 估 (atr v lain ,其 作用 P ten E au t ) o 就 是 根据 一定评 估标 准( t et g Mesrs I e si aue) nr n 从
第2 第2 O卷 期 21 年 7月 00
临沧师范高等专科学校学报
J un lo icn a h r' l g o r a f Ln a g Te c esCol e e
V 0 .20 1 No.2
Jl 21 uy.0 0
关联规 则在成绩分析 中的应用
李佐军 ( 临沧师范高等专科学校信 息科学与技术系 ,云南 临沧 670) 700
Apriori算法研究及其在学生成绩分析中的应用

一
。
该 算 法 利 用 了一 个 层 次 顺 序 搜 索 的循 环 方 法 来 完 成频 繁 项 与 本 校 实 际 教 学 计 划 是 一 致 的 。 同 理 我 们 还 可 以 用 这 种 关 联 分
集 的挖 掘 工 作 。这 一 循 环 方 法 就 是 利 用 k 项 集 来 产 生r + 1 项 析 方 法 挖 掘 出更 多 科 目问 的 联 系 .从 而 合 理 的 安 排 学 校 教 学 计 一 k1 一
f1 算 最 大 强 项 集 L中 的 各 个 关 联 关 系 的 置 信 度 , 取 出 7 计 提 置 信 度 大 于 最 置 信持 度 ,兴趣 度 大 于 1的 规 则 . 即有 效 关 联 规
学 得 好 的 同 学 , 机 接 口技 术 、 片 机 也 会 取 得 好 的成 绩 , 就 微 单 也 是 计 算 机 组 成 与结 构 是 其 他 两 门 课 的 前 导 课 程 。同样 S L成 绩 Q R A rw l 在 1 9 . ga a 等 9 4年 提 出 了 关 联 规 则 挖 掘 A f r 算 法 好 的 同学 . 据 库 系 统 概论 、 机 接 1 术 也 能 取 得 好 成 绩 。即 p oi i 数 微 3技 是 发 现 事 务 数 据 库 中 频 繁 项 集 的 最 有 影 响 的 数 据 挖 掘 算 法 之 计 算 机 组 成 与 结 构 、Q S L应 该 先 于 其 他 三 门 课 学 习 。 样 的 结 论 这
统 成 绩 数 据 库 中 学 生 各 门学 科 的考 试 成绩 进 行 挖 掘 .就 能 从 这 4、 果解 释 结 些 海 量 数 据 中挖 掘 出 隐藏 在 数 据 背 后 的有 用 规 则 或 关 系 .帮 助 学 计 划
Apriori算法在学生成绩分析中的应用

关 联规则挖掘的步骤为 : 1 ) 找 出所 有频 繁项 集 ; 2 ) 由频繁项集产生强关联规则 , 这些规则必须满足最小支持度和最小 置信 度。
s t u de n t s .
Ke y wo r d s : As s o c i a t i o n r u l e s ; T h e Ap r i o r i a l g o r i t h m; g r a d e a n a l y s i s
随着信 息技术 与计 算机 网络 的迅 速发展 , 网络考试 系统逐渐取 代了传统 的考试模 式 , 在考试系统 中 , 存储 了大量 的学生成绩 数据 , 如何有效利用这些宝 贵数 据 , 提取其 中隐藏 的有 价值 的信息对指导高校学生培养有着重要意 义。该文使用关联规则 的A p r i — o r i 算法对我校 计算机专业考 试成绩分析 , 挖掘 出某些 课程对其他课 程的影响程度 , 找 出知识 之间的联系 , 指 导学科教学计划与课
Ab s t r a c t : T h e Ap r i o r i a l g o r i t h m o f t h e a s s o c i a t i o n r u l e s a r e a p p l i e d t o t h e e x a mi n a t i o n s y s t e m. By a n a l y z i n g t h e c a n d i d a t e s r e — s u h s o f e a c h c o u r s e , t h e p a p e r i f n d o u t t h e r e l a t i o n b e t we e n t h e c o u r s e s , a n d p r o v i d e d g u i d a n c e a n d s u g g e s t i o n s f o r t e a c h e r s a n d
关联规则分析在学生成绩管理中的应用

子集 支持度计数 的递增顺序排 列 ,这样即使 1 项 一 集很大 的情况下 , 将只产生较少 的候选 2 项集 , 也 一
常购买的商品摆放在一起 ) 。
关 联 规则 问 题 可 以 分 解 为 以下 两 个 子 问题 :
2 项 集再产 生更少 的候选 3 项集 等等 ,从而提高 一 一
摘 要 :介 绍 了数 据 挖 掘 中的 关联 规 则 分 析 的 概 念 、 点 和 常 用算 法 , 利 用 改 进 的 A f f算法 对 高职 高 专 特 并 po ii
院校 信 息技 术公 共课 考试 成 绩 进 行 了分 析 指导 。
关 键 词 :关 联 规 则分 析 ;数 据挖 掘 ;A f f算法 po ii
用符 号 F表示第 六章 部分 的分 数 ,分 段概括
为 : (一 0分 ) ( 于 6 ) 6l , 小 分 。 根 据 上 述 方 法 对 表 1中 的 数 据 进 行 预 处 理 后 , 果 如表 2所 示 。 结
表 2 预 处 理 后 的 成 绩
它们连接 , 同时合 并相 同事 务 TD, 成 2 项 集 的 I 生 一
另 一 个 指 向 后 1 项 集 的 头 结 点 。每 个 项 结 点 +一
h m oe e n d 也有 两 个 指 针 ,一 个 指 向事 务 集 的第 一 个 事务 , 一个 指 向下 一个 项 结点 。 务结 点 TD有 一 另 事 I 个指针 , 它指 向下一 个 事务 结点 , 体 如 图 1 示 。 具 所
21 年 00
4 月
宁 波 职 业 技 术 学 院 学 报
J u a fNig o P ltc nc o r lo n b oye h i n
关联规则挖掘在学生成绩分析中的应用

⑤ 规 则 M N 在事 务集 D 中的 置信度 ( c o n i f d e n c e )是指 同时包含 M 和 N 的 交易数 与包 含 M 的交
易数之 比,它 是 条件概 率 P ( NI M) ,记 为 c o n i f d e n c e ( M= = > N) .
⑥ 为 了使 挖掘 出的关联 规则更有意 义 ,需要设 定两个 阈值 :最小 支持度 和最 小置 信度 .最小支 持度表
学 校每 学期 都要对 学生 的学 习情 况进行 考核 ,考 核的 试卷成 绩积 累了大量 数据 ,但 对这 些数据 的处理
往往只 是保 留存档 或进 行简单 的统计运 算 . 而 这些数 据背后 隐含 的信息 恰恰 正是 教学管 理所不 可或缺 的.
2 关 联 规 则 的基 本 概念
2 . 1 基本概 念
④ 关 联规 则 是形如 M = = > N 的蕴 涵式 ,其 中 M I ,N I ,并且 MA N= .规则 M = = > N 在 D 中 的支
持 度( s u p p o r t ) 是指 同时包 含 M 和 N 的事务 数与所有 事 务数之 比, 它 是概率 P ( M UN) , 记作 s u p p o r t ( M= = > N ) .
①设 I = { i i ,i 2 ,…,i } 是项 的集 合. D是 数据库 事务 T的集 合 ,T是项 的集合 ,并 且 T I . 每 个事 务
都有 唯一 的标识 ,记作 T I D. 设 M是I 中一 个项集 ,如果 M T ,那 么称事 务 T包 含 M.
②项 的集合 称 为项集.包含 k个项 的项集 称 为 k . 项集 .如 f 英语 ,高数 ) 为2 一 项 集. ⑨ 项 集 出现 的频 率是指 包含 该项集 的事务 数 ,简 称为 项集 的频率或 支持 计数.
关联规则算法思政案例

关联规则算法思政案例关联规则算法是一种常用的数据挖掘方法,它用于发现数据集中项与项之间的相关关系。
在思政教育案例中,我们可以利用关联规则算法来分析学生的学习行为、思想倾向等方面的关系,从而提供科学的教育指导和决策支持。
下面是一些关联规则算法在思政案例中的应用示例:1. 学习成绩与课外活动参与度的关系:通过分析学生的学习成绩与其参与课外活动的关系,可以发现是否存在学生在参与课外活动过多或过少时学习成绩下降的趋势,进而为学校和家长提供指导。
2. 思想倾向与社交媒体使用的关系:通过分析学生的思想倾向与其在社交媒体上的言论和行为的关系,可以发现是否存在思想倾向与社交媒体使用之间的相关性,进而为学校和教师提供针对性的思想教育和引导。
3. 思政教育课程内容与学生兴趣的关系:通过分析学生对思政教育课程内容的兴趣与其学习成绩的关系,可以发现是否存在学生对某些思政教育课程内容的偏好,进而为学校和教师提供优化课程设置的建议。
4. 思政教育活动参与度与团队合作能力的关系:通过分析学生在思政教育活动中的参与度与其在团队合作中的表现的关系,可以发现是否存在活动参与度与团队合作能力之间的关联,进而为学校和教师提供加强团队合作培养的方法和策略。
5. 思政教育培训与学生综合素质的关系:通过分析学生参加思政教育培训的情况与其综合素质的提升情况的关系,可以发现是否存在参加思政教育培训对学生综合素质提升的影响,进而为学校和教师提供培训内容和方式的优化建议。
6. 思政教育资源利用与学生学习动力的关系:通过分析学生对思政教育资源的利用程度与其学习动力的关系,可以发现是否存在资源利用与学习动力之间的相关性,进而为学校和教师提供合理配置资源的建议。
7. 思政教育中的道德修养与学生品德形成的关系:通过分析学生在思政教育中的道德修养与其品德形成的关系,可以发现是否存在道德修养与品德形成之间的关联,进而为学校和教师提供更好的思政教育方法和策略。
8. 思政教育对学生创新能力的影响:通过分析学生接受思政教育后的创新能力的提升情况,可以发现是否存在思政教育对学生创新能力的积极影响,进而为学校和教师提供创新教育的指导和支持。
关联规则在毕业设计成绩分析中的应用

现在很多学校都在使用各 种信息管理软件管理学校事务及学生信 息, 但如果只把数据存人到系统中 , 行简单 的查询 、 进 统计 工作 , 不是对 其有效 的利用 , 这些数据就成 为一个待开发的“ 宝藏 ” 我们要对学生数 。 据库 中的大量数据进行 抽取 、 换 、 转 分析和其 它模 型化处理 , 中提取 从 出辅助教育决策的关键性数据 , 利用这些数据 理性地 分析学校各方 面 工作成效以及学生培养过 程中的得失 ,获得有利 于学 生管理 的决策 和 促进管理发展的有 价值 的信息 , 是现 阶段学校信息管 理中十分重要 的 工作。 1关联 规 则 的 概 述 . 11关联 规 则 的定 义 . 关联规则是 指从 信息数据库 中找出项 目集和对象集 的频 繁模式 , 得 出项 目集中项 目的相关性 。描述相关性 的关联规则 可以反 映数据项 之间的密切 程度或关系 。 设 I{ , , m} =i i …i 是数 据项集合 ( l2 项集 )其 中的元素称 为项(tm) , i , e 任务相关数据 D是数据库事务 T r sco ) (a at n t n i 的集合 , 每个事务 T 则是项 的集合 , 并且 T∈I 。每个事务 由事务符 TD标识。A I ,B为两个项集 , 事 务 T包含 A当且仅 当 A T; 其关联 规则 的蕴含式如下: A ̄Bsc其 中 [ 1 , ACIB 3 = , 则 A B在事 务集 D 中成 立 , 且具 有 支持 度 s , cIAfB l规 并 和 置 信度 c 。 支持度 s 表示事务在规则中出现的频率 。
A1 Dl A2 D2 j A3 D3
支持度
03 -3 O2 .2 【2 )O6 .7
利用关联数据挖掘算法处理数据得 出教师学历与学生毕业设计成 绩优 秀率 的支持度及置信度 ,满足最小支持度和最小置信度要求的关
关联规则在学生成绩分析中的应用

、
关联 规则 的概念
若两个 或 多个 变 量取 值 之 间 存 在某 种 规 律 性 , 就 称为关 联[ 。最 常见 的关 联规 则是应 用在超 市 购 1 ]
持 度阈值 和最小 置 信度 阈值 ,只有 支持 度和 置信 度 都分别 大 于 最 小 支 持 度 阂值 和最 小 置 信 度 阂值 的
Vo . 。 . 1 9 No 1
M a . 2 08 r 0
20 0 8年 3 月
关联 规 则在 学生 成 绩 分析 中 的应 用
严 华 陈文 菁 ,
(. 1 福建 医科 大学 数理 计算机 教 学部 , 福建 福州 3 0 0  ̄ . 5 1 8 2 福建 医科大 学 教 务处 , 福建 福 州 3 0 0 ) 5 18
还没有一 种量 化 的分 析 。此 外 , 学 期 安 排课 程 的 每
多少 , 也会影 响 学生 的学 习 效 果 。本 文 使用 关 联 规
则算 法 , 医科 大 学 临 床 本 科 的 学 生 成 绩 进 行 分 对
件 概 率 P Bi ( A)
s p o tA = B 一 P A U B u p r( > ) ( ) c nie c ( = B = P Bl o f neA > ) ( d A)
事 务包含 A U B的百 分 比 , 是 概 率 P A U B 。 它 ( ) 规则 A B在 事务 集 中具 有置 信度 C, 如果 D 中包
含 A 的事 务 同 时也 包 含 B的百 分 比是 C。这 是条
学好 , 肯定会 影 响到后 续 专业 课 程 的学 习 。但 哪些 课 程会影 响 到后 续 课 程 , 以及 哪 些 课 程 联 系 密 切 ,
一
关联规则在学生成绩分析处理中的应用

( 中学院 计算机科学与技 术学院, 晋 山西 晋中 0 00 ) 3 60
摘
要 : 生 成 绩 对 学 生 评 价 非 常 重 要 , 找 出影 响 学 生 成 绩 的 一 些 因 素 间 的 关 联 关 系 , 学 为
依 据 数 据 挖 掘 关 联 规 则 中 的 F -go h算 法 ,运 用 s ev r2 0 P r wt QL S r e 0 5中 An ls evcs工 具 a i S r ie ys 对收 集到 的 学 生成绩数 据 集进行 挖 掘 分析 , 望发现 影 响 学生 成绩 的 因素 间的联 系 , 其 进 期 将
行 改 善 并 应 用 于教 学 实践 中 , 利 于 提 升教 学 质 量 , 高 学 生 成 绩 . 有 提 关 键 词 : 联 规 则 ; 据 导 入 ; P rwt 关 数 F —go h算 法 ; a s evc  ̄ 目 An l iS rie 项 ys
中图分 类号 : 3 1 TP 1 文 献 标 志码 : A 文章 编 号 : 6 3 8 8 2 1 ) 3 0 6 3 1 7 -1 o ( 0 1 0 一O 7 —0
吴
・
华 (98 )女 , 18 一 , 山西临汾人 , 中学院计算机科学与技术 学院. 晋
7 ・ 6
武丽芬
吴
华
关联规 则在 学生成绩 分析处理 中的应 用
输 入 :P t e输 出 : F —r . e 所有 频繁集 .
F - rwh t e a P go t( e , ) r
r wh算法描 述 如下 : go t
( ) 一 根据输入交易记录集建立 F — e, P t e步骤为 : r 输 入 : 易记 录集 D, 交 最小支 持度 sp u 输 出 :P t e F —r . e ① 将数据库 D扫描 一遍 , 得到频 繁项 的集合 F和每个 频繁项 的支持 度 , 再将 F按支 持度 递 降排序 记为
关联规则在学生成绩分析中的应用

以我校某 班学 生 6 期所 有课 程 的成绩 为数 据对 象 。为 方便挖 掘 ,只考 虑软 件课程 的成绩 ,其余 的 学
属 性都 清理掉 ,这样 可减 少数 据处理 的数 量 ,从 而提 高工作效 率 。处理 之后 的软件课 程 成绩数 据集 中数 据 的属 性主要 有 C语 言 、计 算机基 础 、C++ 、离 散数 学 、数 据结 构 、操 作 系统 、数 据 库原 理 、软件 工
・3 7 ・ 5
关 联 规 则在 学 生成 绩分 析 中的应 用
刘 红 梅 ( 江大学 长 计算机科学学院, 湖北 荆州 4 03 3 2 4 )
[ 摘要]对 学生成 绩数据库进行综合整理 ,应用 动态划分 的数据 离散化方法 ,生成 了高质量 的数据集。采
用 关 联 规 则 对 学 生 成 绩进 行挖 掘 ,获 取 了 有 实 际 参 考 价 值 的规 则 集 合 ,得 到 了 对 教 学 工作 有 指 导 意 义 的
长江大学学报 ( 自然 科 学 版 ) 20 年 1 月 第 5 第 4 :理工 08 2 卷 期 J un l f a gz nvri ( a c E i ora o n t U i s y N t i dt Y e e t S ) D c2 0 。V 15N . :S i E g e. 0 8 o. o 4 c & n
・
38・ 5
长 江 大 学 学 报 ( 然 科 学版 ) 自
2集和关 联规则 .
当支持度设 置 为不 同的大小 ,产生 的频 繁 项 的数 目也 不 同 。因此 ,如 何 设 定支 持 度 ,必 须慎 重 考 虑 。在确定 了频繁 项集 挖掘算 法和支 持度之后 ,就 可 以对 已经 离散化 处理后 的数据 集进行 挖掘 了。 3 采用动态划 分 方法 离散化后 的数据 ,用 Ap r r 法进行 挖 掘 。当最 小 支持 度域 值 设 置 为 0 1 ] oi 算 o . 时 ,最小置信 度域 值设 置为 0 9 . ,挖掘 的 l 集 为 3 一 项 O个 ,2项 集 1 4个 ,3项 集 6 一 9 一 O个 ,4项集 2个 ,产 一 生 6 7条关 联规 则[ 如 图 2所示 。 3
数据挖掘技术在成绩分析中的应用

计 算机 科学 C o n s u me r E l e c t r o n i c s Ma g a z i n e 2 0 1 3 年 1 O月下
数据挖掘技术在成绩分析中的应用
吴 梨 梨
( 福州英华职业学院计算机 系,福 州 3 5 0 0 1 8 ) 摘 要 :在 学生成绩 管理 系统 中,学生成绩是一个重要的组成部分 , 体现 了教师 的教 学水平 以及 学生的学习情 况。 如何合理 利用这些成绩数据 ,从 中找 出能 够影 响成绩 高低 的因素,对提 高教 学质量有 着非常重要的作用 。利 用数据 挖 掘的关联规则算 法可以科 学的分析 出影 响成 绩变化 的主要 因素。 关键词 :成绩 分析 ;数据挖掘 ;关联 规则 中图分类号 :T P 3 1 1 . 1 3 文献标识码 :A 文章 编号 :1 6 7 4 — 7 7 1 2 ( 2 0 1 3 ) 2 0 — 0 1 1 2 — 0 1 随着高职 院校 的不断扩 招,生源质量 在下 降,生源 的数 量也在逐 步 出现 萎缩。在这种情 况下 ,如何有 效 的利用 现有 的教学 资源 ,改善教 学质量 ,使人才 的培养质 量得到进 一步 的提高,在 逆境中成长,是每一所高职院校面临 的重大挑战 。 目 前各个高职院校 的教务管理基 本上都是采用基于数据库 的教务管理系统软件。 教务软件在这么多年的应用中积累了大量 的数据, 学生的成绩信息在教务软件 的数据库中就大量的存在。 般情况下, 成绩数据仅仅只是作为一种备份数据存放于数据库 中, 大部分只是进行简单的查询修改操作等, 对于数据之间潜在 的联系, 影 响成绩 的因素等这些信息, 我们却无从得知, 并没有 做到充分的利用这些数据。 利用数据挖掘技术 , 我们可以从这些 成绩数据中挖 掘出可以指导我们教学的、 有意义 的信息, 主要表 现在:( 1 ) 可 以全面地认识学生 的学习状况。 对学生学习成绩的 全面分析, 不仅能够获得 学生学习的整体情况 , 还可 以了解学生 对具体课程 内容的掌握情况。( 2 ) 可以分析课程之间的相关性。 分析各个专业的核心课程, 可以了解学生对这些课程 的理解情况 , 以及学生在这 些课程 中的得分情况, 找出课程之间的联系, 还可 以对排课情况进行指导。( 3 ) 可 以分析入学成绩对在校学习情况 的影响。 跟踪学生在本专业的学习情况 , 结合入学的成绩 , 找出入 学成绩对专业相关课程 的影口 I 句 J 隋况 , 从而指导学生的专业学习。 数据挖掘的概念 与技术 ( 一 )什么 是数据挖 掘。数据挖掘 是一门涉及面很 广的 交叉学科 ,受到 了各种 不同领域 的专家学者 的关注,关于数据 挖掘的定义也有非常多种,但归纳起来数据挖掘主要就是从大 量的没有经过处理的数据 中发现未知的有价值的规律的过程 。 ( 二) 数 据挖掘的过程 。 数据挖 掘的过程一般 由五个 阶段 组成 : ( 1 ) 定义问题 , 明确数据挖掘的 目的是什么。 ( 2 ) 数据准备, 包括要选择什么样的数据以及对选择到的数据如何进行预处理 等。( 3 ) 数据挖掘 , 根据数据 的特点, 选择合适的数据挖掘算法, 在 已经处理过的数据上进行数据挖掘。( 4 ) 结果分析, 对数据挖 掘 的结果进行合理的解释, 给出能够被用户所接受的知识 。( 5 ) 知识运用, 将数 据挖掘出来 的结果应用到相应的领域中。 数据挖掘的过程并不是一个简单的按流程完成任务的过程 , 在数据挖掘的过程 中往往会出现循环往复, 精益求精的过程。 例 如, 在任务过程 中发现之前选择 的数据 不是很好或者对数据 的 预处理没有达到我们 的效果 , 那么这个 时候我们就需要重新对 数据进行选择或者重新对数据进行处理直 到达到我们 的效果。 ( 三 )常用 的数据挖掘方 法。数据挖掘 技术是一 门交叉 学科 ,充分结合 了人工智 能与机器学习的特 点,因此如聚类分 析,决策树 ,统计分析等在机器学习,模式识别,人工智能等 这些领域 中的一些常规技术经过改进,大部分都可以作为数据 挖掘 的方法进行使用 。模糊集方法 , 关联规则方法 ,遗传算法 , 神经 网络方法,覆盖正例排斥反例方法 ,决策树方法 ,统计分 析方法和粗集理 论方法等都是数据挖掘技术中常用 的方法 。 二、成绩分析 中的数据挖掘方法 成 绩分析 中主要是采 用关联规则算 法作为数据 挖掘 的方 法。关联是指两个或两个 以上 的事务 间存在着某种 的规 律性, 数据关联 是数据库 中普遍存 在的可被发现 且重要 的知识 。关
关联规则在学生成绩管理系统中的应用

关联规则在学生成绩管理系统中的应用作者:王利军,胡敏来源:《电脑知识与技术》2011年第04期摘要:关联规则是数据挖掘的重要的组成部分之一。
利用关联规则的Apriori算法,以学生成绩数据库为研究对象,挖掘课程之间的良好关系,为教学管理部门设置安排课程提供理论指导。
关键词:数据挖掘;关联规则;Apriori算法中图分类号:TP311文献标识码:A文章编号:1009-3044(2011)04-0730-02Application of Association Rules in Student Achievement Management SystemWANG Li-jun, HU Min(Computer and Information School, Hefei University of Technology, Hefei 230009, China)Abstract: Association rules is an important area of data mining.Adopts Apriori algorithm of association rules and makes use of the database of students' achievement as research object,to mine the correlationship of courses,it gives teaching administration department a theoretical advise to arrange course.Key words: data mining; association rules; Apriori algorithm高校学生成绩管理系统中存储了大量的学生成绩信息,但目前对学生成绩的处理仅停留在的数据保存、查询及简单的统计阶段,并没有对成绩数据进行深入地挖掘分析,发挥其应有的作用。
关联规则算法在学生成绩分析中的应用

【] i i n M i eie a e 数 据 挖 掘 概 念 与 技 术 【 . 明, 3 Ja Ha , c l K mbr we h n M】 范
孟小峰 , . 机械工业 出版社, 0 . 等译 北京: 2 7 0
信息系统工程 I2 1 0 0 05 2
集L
1引言
随 着计 算机技 术和 Itre技术 的迅 速发 展 ,数据 资源 日益 nen t 丰 富。 在学 校 的教 学成 绩 管理 系统 中 , 己经积 累 了大 量 的学 生 成 绩 数据 。 这 些数 据只 是 堆积 在 系统 中 ,没有 得 到有 效利 用 , 教 师和 学生 都只 能 通过 简 单 的统 计 或排 序 等 方法 获得 数据 表 面 的信息 。
=
关联 规则 挖 掘 时研 究 “ 么 与什 么 相伴 ” ,这 些 方法 又称 什 为购物篮 分析 。 设I 为一 个 由m个 项 目组成 的集合 I ,i ,i) _ , … ,称 I 为项
目集(e e) i ms t,则 交易T t 为由I 的项 组成 的I 集 ,即T I 中 的子 C 。与 _ 集合 的定 义一样 ,交 易中 同样 不存 在重 复的 元素。 记D 为交 易(a scin 的集合 ,其 中每个 交易 以一个 交 易 t n at ) r oT 标识 号表 示在 其数 据库 中的唯 一性 ,记 为TD。设× I 是一 个I 中项 的集合 ,如 果× ,那么称 交 易T 含X g 包 。
所 有 非空 子集 均 是频 繁 的。 ② 一个 非 频繁 项 集 的任~ 超 集 必定 是非频 繁项 集。 2 . 3关联规 则 算法在 学生成 绩分析 中的应 用 ( 第 一 次迭 代 ,求 1 项 集 ,每 项都 是候 选 1 项 集# C 1) 一 一 9 的成员 。算法 比较简单 ,只要 对每项 出现 的次数进行计 数 即可 。 ( 设最 小支 持数 为2mi s p 29 2) . n u = / ,可 以确 定频 繁 1 项 — 一
关联规则在高校学生成绩分析中的应用

r e l a t i o n s b e t we e n t h e c o u r s e s wi l l b e f o u n d o u t ,wh i c h c a n b e u s e d t o g u i d e t h e t e a c h i n g p l a n n i n g a n d
计算机专业 的考试成绩进行分析 , 挖 掘出某些课 程对其 他课程 的影 响程 度 , 找 出课 程之 间的联 系, 指导 学科教 学计 划 与课 时安 排 , 促进教学质量 的提高 。 关键词 : 关联规则 ; Ap r i o r i 算法; 成绩分析
中 图分 类号 : T P 3 0 1 . 6 文 献标 志 码 : A 文章编号 : 1 6 7 1 — 4 6 7 9 ( 2 0 1 3 ) 0 3 — 0 0 6 7 — 0 4
a l g o r i t h m t o t h e e x a mi n a t i o n s y s t e m.Th r o u g h a n a l y s i s o n t h e e x a mi n a t i o n r e s u l t s o f c o mp u t e r ma j o r i n
学 习是一 个循 序 渐 进 的过 程 , 前 一 阶段 知 识 的
积 累会对 后一 阶段 的学 习效 果 产 生 一定 影 响 , 比 如
“ 数 据丰 富 , 信 息匮乏” 的局 面 , 人 们 对 从 这 些 数 据
中挖 掘相 应 的关联 知 识 越来 越 感 兴 趣 , 数 据 挖 掘 技
Ap pl i c a t i o n o f a s s o c i a t i o n r u l e s t o t h e c o l l e g e
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
度阈值[3 ] 。
二 、关联规则算法
Ap riori 算法是一种最有影响的挖掘布尔关联 规则频繁项集的算法 ,算法使用频繁项集性质的先 验知识 :即频繁项集的所有非空子集都必须也是频 繁的 ,算法由两个步骤组成 :频繁 K 项集记做 L K 。 (一) 连接步 为找 L K ,通过 L K- 1 与自己连接产生候选 K 项 集的集合 ,该候选项集的集合记作 CK 。设 l 1 和 l2 是 l K- 1 中的项集 。记号 li [ j ]表示 li 的第 j 项 。执行 连接 l K- 1 l K- 1 ,其中 l K- 1 的元素是可连接的 ,如果 它们前 ( k - 2) 个项相同 。连接 l1 和 l2 产生的结果项 集是 l1 [ 1 ]l1 [ 2 ] …l1 [ k - 1 ]l2 [ k - 1 ] 。 (二) 剪枝步 CK 是 L K 的超集 : 它的成员可以是也可以不是 频繁的 ,但所有的频繁 K 项集都包含在 CK 中 。扫 描数据库 , 确定 CK 中每个候选的计数 , 从而确定
计算 :
co nfidence ( A ] B ) = P ( A | B )
=
s
u
p sLeabharlann port_count ( A u pport_count
(
∪
A)
B)
其中 ,support_co unt (A ∪B) 是包含项集 A ∪
B 的事务数 ,suppo rt_co unt ( A) 是包含项集 A 的事
— 47 —
© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved.
第 9 卷 第 1 期
福建医科大学学报 (社会科学版)
2007 年 3 月
分以上记为 1 ;80~90 分记为 2 ;80 分以下记为 3 。 将每门课程编号 :如 :细胞生物学记为 A ;有机 化学记为 B ;医用物理学记为 C ……。则 A1 表示 : 细胞生物学在 90 分以上 ;B2 表示 :有机化学在 80 ~90 分 ; C3 表示 : 医用物理学在 80 分以下 ……。 这样 ,学生成绩库被转换成包含多个项的表 。由于 姓名和学分与分析目标无关 ,也予以剔除 。使用一 个转换程序 ,将原始表转换成如下形式 (表 2) :
严 华等 :关联规则在学生成绩分析中的应用
关联规则才是有实际意义的 。关联规则挖掘即是
在已知数据库 D 中产生支持度与置信度分别大于 给定的阈值的所有关联规则 。
(二) 关联规则的挖掘步骤
关联规则的挖掘是一个两步的过程[2] : (1) 找出 所有频繁项集 。项的集合称为项集 ,包含 K 个项的 项集称为 K 项集 。项集的出现频率是包含项集的 事务数 ,又称为支持度计数 。满足最小支持计数的 项集称为频繁项集 ; (2) 由频繁项集产生强关联规 则 ,这些规则必须满足最小支持度和最小置信度 。 一旦由数据库 D 中的事务找出频繁项集 ,由它 们产生强 关 联 规 则 是 很 容 易 的 。置 信 度 用 下 式
务数 。根据该式 ,关联规则可以产生 : (1) 对于每个
频繁项集 l ,产生 l 的所有非空子集 ; (2) 对于 l 的每
个非空 子 集
s
,如果
s u p port_count ( l) s u pport_count ( s)
≥min _ co nf ,
则输出规则 s ] (l - s) 。其中 min_co nf 是最小置信
随着计算机存储技术的飞速发展 ,各行各业都 收集了大量的数据 。但如果缺乏有效的分析工具 , 这些数据往往难得再被人们访问和利用 。如何从 这些数据中发现潜在的知识 ,日渐成为人们感兴趣 的话题 。数据挖掘是指从大量的数据中提取有用 的知识 ,在许多应用领域显示出巨大的潜力 。目前 常用的数据挖掘方法有 : 关联规则分析 、序列模式 分析 、分类分析 、聚类等 。 学习是一个循序渐进的过程 ,其与课程之间有 一定的关联和前后顺序关系 。如果基础课程没有 学好 ,肯定会影响到后续专业课程的学习 。但哪些 课程会影响到后续课程 ,以及哪些课程联系密切 , 还没有一种量化的分析 。此外 ,每学期安排课程的 多少 ,也会影响学生的学习效果 。本文使用关联规 则算法 ,对医科大学临床本科的学生成绩进行分 析 。通过对考试成绩进行挖掘分析 ,发现有几门课 程与将来专业课的成绩密切相关 ,教师可以应用这 些知识指导学生 ,如重要的基础课应安排较多的时 间 ,从而为将来专业课的学习打好基础 ; 针对关联 度较小的课程安排适当的时间 ,以便学生有效地安 排好自己的大学生活 。
(1. 福建医科大学 数理计算机教学部 ,福建 福州 350108 ;2. 福建医科大学 教务处 ,福建 福州 350108)
摘要 :采用关联规则的 ap riori 算法 ,对医科大学学生四年中各门课程的成绩进行分析 ,从而发现课程之间 的联系和基础课程对专业课程的影响 ,为教务部门安排课程提供参考 。 关键词 :数据挖掘 ;关联规则 ;成绩分析 中图分类号 :O29 文献标识码 :A 文章编号 :100924784 (2008) 0120046204
support (A ] B) = P (A ∪B) co nfidence (A ] B) = P (B| A) 支持度是对关联规则重要性的描述 ,而置信度 是对关联规则准确性的描述 。支持度高说明该关 联规则在所有事务中的代表性高 , 置信度高说明该 关联规则的可信度高 。有些关联规则置信度虽然 高 ,但是支持度低 ,说明该关联规则不具有代表性 。 为了挖掘出具有代表性的关联规则 , 规定了最小支 持度阈值和最小置信度阈值 , 只有支持度和置信度 都分别大于最小支持度阈值和最小置信度阈值的
第 9 卷 第 1 期 2008 年 3 月
福建医科大学学报 (社会科学版) Journal of Fujian Medical university (Social Science Editio n)
Vol. 9 ,No . 1 Mar. 2008
关联规则在学生成绩分析中的应用
严 华1 ,陈文菁2
表 1 学生成绩表
姓名
学号
陈 路 1100302001
王小玲 1100302002
…
…
细 胞 生物学
80 75 …
有机 化学
85 70 …
医 用 …
物理学
73
…
78 …
(一) 数据的整理 Ap rio ri 算法只能处理布尔变量 ,因此在应用算 法挖掘关联规则之前 , 需要先对原始数据进行处 理 ,把数值型数据转换为由项集组成的事务数据库 。 首先需要把关系数据库中的数值属性离散化 , 以便能应用到算法中 。离散的过程如下 :成绩在 90
收稿日期 :2008202228 作者简介 :严 华 (1967 - ) ,女 ,讲师 。
— 46 —
© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved.
三 、利用关联规则算法分析成绩表
本文采用福建医科大学 2002 级临床本科学生 的成绩库 ,共 408 条数据 。原始表中包含了 4 年中 所有基础课和专业课 ,以及实习的成绩 。我们的目 的是要找出哪些基础课与专业课的成绩之间存在 较强的关联 ,有些无关的项可能会影响挖掘结果 。 因此 ,除去凭常识已知的与专业课程关联度不大的 课程 ,如政治经济学 、毛泽东思想等 。实习分用一 个总平均分表示 。经过筛选后 ,共选择 28 个课程作 为分析字段 ,部分数据显示如下 (表 1) 。
L K 。然而 CK可能很大 ,这样所涉及的计算量就很 大 。为了压缩 CK ,可以用散列技术 。 Ap rio ri 算法描述如下 : 输入 :交易数据库 D ,最小支持阈值 min_sup 输出 :D 中的频繁项集 L L1 = find_f requent_12itemset s (D) ; fo r ( k = 2 ; L K- 1 ≠ ; k + + ) { Ck = ap rio ri _ gen ( L K- 1 , min _ sup ) ;/ / 新 的 候 选集 for each t ransactio ns t ∈D {/ / 扫描 D 计数 Ct = subset (Ck ,t) ;/ / 事务 t 中包含的候选集 fo r each candidates c ∈Ct c. co unt + + ; } L k = {c ∈Ck | c. co unt Ε min_sup} } ret ur n L = ∪kL k
一 、关联规则的概念
若两个或多个变量取值之间存在某种规律性 , 就称为关联[1] 。最常见的关联规则是应用在超市购
物篮的分析 。通过数据分析可以了解顾客的购买 习惯 ,了解哪些商品频繁地被顾客同时购买 ,从而 帮助零售商有选择地安排货物 , 制定合理的销售 策略 。 (一) 基本概念 设 I = {i1 ,i2 , …im }是项的集合 ,设任务相关的 数据 D 是数据库事务的集合 ,其中每个事务 T 是项 的集合 ,使 T Α I。设 A 是一个项集 ,事务 T 包含 A 当且仅当 A Α T 。关联规则是形如 A ] B 的蕴涵 式 ,其中 A < I ,B < I ,并且 A ⌒B = 。规则 A ] B 在事务集 D 中成立 ,具有支持度 S ,其中 S 是 D 中 事务包含 A ∪B 的百分比 ,它是概率 P ( A ∪B) 。 规则 A ] B 在事务集中具有置信度 C ,如果 D 中包 含 A 的事务同时也包含 B 的百分比是 C。这是条 件概率 P (B| A)
表 2 离散化的数据
编号 细胞生物学 有机化学 医用物理学 …