09数据挖掘课程论文选题

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2009信息与计算科学专业《数据挖掘》课程论文选题

参考下列方向进行选题,不同的同学不能相同。

方向1:收集数据,利用C5.0建立决策树,进行分类预测。

方向2: 收集数据,利用CART建立决策树,进行分类预测。

方向3:收集数据,利用BP算法建立神经网络,进行分类预测。

方向4:收集数据,用Logistic回归分析给出回归方程,进行分类预测。方向5:收集数据,用岭回归分析给出回归方程,进行分类预测。

方向6:收集数据,用Apriori算法进行购物篮分析或关联规则分析。

方向7:收集数据,用序列关联分析进行分析。

方向8:岭回归的数值模拟。

方向9:关联规则中支持度置信度及提升度的实际意义。

方向10:多重共线性的处理方法。

方向11:高维数据分析的研究综述。

方向12:lasso方法及其应用。

方向13:ridge、lasso及bridge方法的介绍

下面有课程论文的模板,请参照模板写你的课程论文

《数据挖掘》

课程论文

基于关联规则的成绩预警模型研究

王欢

任课教师姓名曹慧荣

所在学院数信学院专业名称信息与计算科学专业论文提交日期2010.6 .28 所在高等院校廊坊师范学院

2010年5月27日

1、引言

随着高校招生规模的扩人和信息化程度的提高,高校教学教务系统数据库中积累了人量的数据,这些数据中蕴涵有人量有价值的规律,挖掘这些规律并应于高校教学教务的决策工作和辅助应用工作,可促进教育决策和教育辅助应用的科学化、合理化、系统化,将数据挖掘技术用在教学过程中,可以客观评价教学效果,合理设置课程,提高教学管理的预知性,增加教法选择的参考性,加强教学过程的指导性,对高校的素质教育和创新人才的培养等方面具有重要的作用和意义。

国内已有部分研究者以关联规则为数据处理模型面向高校教学教务信息开展了数据挖掘工作,应用于课堂教学评价、高校管理决策、教学管理决策、毕业生就业指导、个性化人才培养等领域,向决策者、教职工和同学提供信息支持,有利于推动学校教学改革和建设的全面发展。本文尝试将关联规则挖掘技术应用于学生成绩数据,发现课程成绩之间的相关性规律。以发现的规律为依据,分析学生成绩,提出有针对性的课程成绩预警信息,以提高教学管理的预知性,为同学合理地调整课程学习计划、分配学习时间提供了参考依据。

因成绩预警信息具有很强的针对性,简单地应用关联规则挖掘技术难以解决成绩预警问题。为此,本文开展了以工作:提出了一种基于关联规则的成绩预警模型,以系统地进行成绩预警分析:通过兴趣度约束、预警项集、项顺序关系约束实现定向挖掘,使挖掘结果具有针对性;以现实数据为数据源,开展实验研究。验证所提出的模型和方法的有效性。

2、基于关联规则的成绩预警模型

预警工作分为两个阶段:训练阶段和预警阶段。在训练阶段,预警系统接受学生成绩训练数据,从中自动获取系统所需的成绩预警规则。在预警阶段,系统根据用户输入的学生成绩、待预警课程和训练阶段获取的预警规则,按照所设计的预警策略发布预警信息。

如上图所示,基于关联规则的成绩预警模型由输入,输出接口、预处理模块、成绩预警规则库、预警规则挖掘模块和预警模块组成。其中,预警规则挖掘模块负责从训练数据中挖掘山预警规则。挖掘算法根据兴趣度约束、预警项集约束、项顺序关系约束挖掘出成绩预警规则,保存到成绩预警规则库中。通过挖掘系统原始的训练数据和不断更新的数据可以白动更新成绩预警规则库。预警规则挖掘模块是成绩预警系统的核心部分。预警模块根据输入的待预警课程信息和学生成绩。从成绩预警规则库中提取相应的预警规则集,根据所设计的预警策略决定是否生成预警信息。该模块和预警信息输出接口一起可以提供实时控制接口,集成了多种事件响应接口。可以产生协作进程所需的消息,联动预警等功能。

3、基于关联规则的成绩预警求解

以下将介绍预警规则的描述、训练数据预处理、基于约束的预警规则挖掘以及预警信息的生成,研究基于预警关联规则挖掘的成绩预警方法。

3.1预警规则

设{}n i i i I ,,,21 =是布尔文字的集合,其中的元素称为项(item),项j i 表示某

项出现与否,n j ≤≤1。{}m w w w W ,,21=表示预警项集,其中m i I w i ≤≤∈1,

。记x 先于项y 出现为y x ,P 为I 上的项顺序关系集,

{}I y x y x y x P ∈=,, |),(。

预警规则:一条预警规则是形如Y X →的蕴涵式。其中W Y I X ⊆⊂,。对,

,W y I x ∈∀∈∀有P y x ∈)(,。

预警规则反映了预警事件和其他事件之间依赖或关联的关系,预警事件中的项值可以依据与其存在关联的项值进行预测预警。

上述预警规则可以看作一种受预警项集和项顺序关系约束的关联规则。给定一个交易集D 、预警项集W 和项顺序关系集P ,挖掘预警规则的问题就是产生支持度大于给定的最小支持度(minsupp)、可信度大于给定的最小可信度(minconf)的关联规则Y X →,其中W Y I X ⊆⊂,。对,,W y I x ∈∀∈∀有P y x ∈)(,。

3.2训练数据预处理

训练数据在进行预警关联规则挖掘前要转换为挖掘算法所需的形式。目前关联规则的研究人都以交易数据库为对象,其属性取值局限于布尔型。而成绩数据库中的属性土要是数值属性(百分制成绩)和类别属性(五分制成绩等)。为此,需要将关系数据库中的属性进行转换。本文采用划分区间法,将类别属性转换为数值属性,将数值属性的值域划分成若干区间,将划分成若干类。按照下述方法对关系数据库的数值属性进行转换:设关系数据库中某属性j A 有k 个区间取值,令

k

个符号jk j j A A A ,,21分别依次与这k 个取值对应,即可将关系数据库中的类别

属性和数值属性统一转换成布尔属性。一般而言,这种转换需要经历缺失成绩与多次考试成绩的处理、分制的转换、数据离散化以及数据集成与变换等步骤。

3.3基于约束的预警规则挖掘

预警规则挖掘以Agrawal 等人在1993年提出的Apriori 算法为框架。算法伪代码描述见GenEarlyWarningRules 。算法的第1-9行根据最小支持度约束计算出所有频繁项集.算法的第10-17行根据置信度约束、预警项集约束和项顺序关系约束生成预警规则集尺。

经典的关联规则挖掘出米的是大批量的规则,而基于约束条件的挖掘可以挖掘出用户感兴趣的规则,实现定向挖掘。最小支持度约束从约束性质上属于一种反单调约束,可推进到频繁项集的挖掘过程中,而置信度约束、预警项集约束和项顺序关系约束难以推进到频繁项集的挖掘过程中,算法GenEarlyWamingRules 采用“事后约束”的方式来实现。

相关文档
最新文档