数据挖掘在教学系统中的应用毕业论文

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据挖掘在教学系统中的应用毕业论文

第1章数据挖掘基本理论

1.1 数据挖掘技术

早期文献中,数据挖掘,也称为数据库中的知识发现,是从数据库中的数据抽取隐含的、未知的和潜在有用的信息(如知识规则、约束和规律等)的非平凡的过程。确切地讲,数据挖掘(简记为DM)是一种决策支持过程,它主要基于AI、机器学习、统计学等技术,高度自动化地分析各组织原有的数据,做出归纳的推理,从中挖掘出潜在的模式,为管理人员决策提供支持。

从功能上可以将DM的分析方法划分为以下四种(根据IBM的划分方法):关联分析;序列模式分析;分类分析;聚类分析。关联规则挖掘算法是一种重要的数据挖掘方法。

DM系统不是多项技术的简单组合,而是一个完整的整体,它还需要其他辅助技术的支持,才能完成数据准备、数据挖掘、结果表述、算法评价这一系列任务。根据功能,整个DM系统可以大致划分为三级结构(如图1.1所示)

图1.1 DM系统结构图

DM的数据分析过程可以分成数据准备、数据挖掘、结果表述及评价四个步骤。数据准备阶段主要是准备适合分析的数据;数据挖掘阶段是最关键的阶段,主要是选定合适的挖

掘算法,对数据进行分析,以得出真正合理有用的知识;结果表述阶段是把挖掘阶段得出的知识以便于用户理解的方式进行描述;评价阶段是用户根据已有的知识对挖掘的结果进行合理性分析,若有不合理的方面,再重复上述三个步骤,以保证挖掘结果的合理性。

DM与其他数据库工具既存在区别又存在联系。查询工具、验证型工具、发掘型工具各自的侧重点不同,因此适用围和针对的用户也各不相同。发掘型的应用主要负责从大量数据中发现数据模式,预测趋势和行为,与验证型工具一个很大的不同在于,用户在整个信息的挖掘过程中无需或只需很少的指导。数据挖掘就是一种发掘型工具,与验证型工具不同,数据挖掘是一种展望和预测的工具,它能挖掘数据间潜在的模式,发现经营者可能忽略的信息,并为企业作出前摄的、基于知识的决策。查询工具、验证型工具和发掘型工具是相互补充的,只有很好的结合起来,才能达到最好的效果。

数据挖掘被信息产业界视为数据库技术的前沿,数据库技术的新应用领域。它在数据仓库、决策支持、市场策略和金融预测等领域具有广泛的应用前景。全世界排名前列的大型和超大型公司95%以上都建立了数据仓库和应用了数据挖掘技术。

1.2 关联规则挖掘算法

1.2.1频繁集的发现

寻找频繁子集的方法是根据所有频繁发生的集合的子集也是频繁发生的。为了生成频繁项目集,首先遍历数据库,收集每个项目集的支持度,取其支持度不低于最低支持度的项目集构成频繁项目集的集合L1;然后两两连接L1中的项目集,形成二维项目集的集合,再次遍历数据库,收集每个侯选二维项目的支持数,取其支持数不低于最低支持项目集构成频繁二项集的集合I2;如此迭代,直到新的侯选集n维集合为空时为止。

1.2.2 关联规则的发现

假设每个频繁集的支持度都得到,记作P( ),∈频繁集,那么可信度Confidence(Ll /L2)=P( 1nL2)/p( 1)。如果Confidence(L1/L2)满足最低信任度,那么这条规则存在,是有意义的。在已经提出的许多算法中,R.Agrawal等人在文献中提出的Apriori算法是最有影响的。除了最初提出的性能较Apriori差的AIS算法及其面向SQL的变体SETM,目前已知的大多数算法都是以Apriori为核心,或是其变体,或是其扩展。Apriori是一种宽度优先算法,通过对数据库D的多趟扫描来发现所有的频繁项目集,在每一趟k中只考

虑具有同一长度k(即项目集中所含项目的个数)的所有项目集。在第1趟扫描中,Apriori 算法计算I中所有单个项目的支持度,生成所有长度为I的频繁项目集。在后续的每一趟k中,首先以前一趟中所发现的所有频繁项目集为基础,生成所有新的候选项目集,即潜在的频繁项目集,然后扫描数据库D,计算这些候选项目集的支持度,最后确定侯选项目集中哪一些真正成为频繁项目集。重复上述过程直到再也发现不了新的频繁项目集。算法高效的关键在于生成较小的候选项目集,也就是尽可能不生成和计算那些不可能成为频繁项目集的侯选项目集。

1.3 聚类分析算法

聚类分析是数据挖掘中的一个很活跃的研究领域,并提出了许多聚类算法。这些算法可以被分为划分方法、层次方法、基于密度方法、基于网格方法和基于模型方法。

1.3.1 划分方法(PAM:PArtitioning method)

首先创建k个划分,k为要创建的划分个数;然后利用一个循环定位技术通过将对象从一个划分移到另一个划分来帮助改善划分质量。典型的划分方法包括:k-means,k-medoids,CLARA,CLARANS FCM。

1.3.2 层次方法(hierarchical method)

创建一个层次以分解给定的数据集。该方法可以分为自上而下(分解)和自下而上(合并)两种操作方式。为弥补分解与合并的不足,层次合并经常要与其它聚类方法相结合,如循环定位。典型的这类方法包括:第一个是:BIRCH方法,它首先利用树的结构对对象集进行划分;然后再利用其它聚类方法对这些聚类进行优化。第二个是:CURE方法,它利用固定数目代表对象来表示相应聚类;然后对各聚类按照指定量(向聚类中心)进行收缩。第三个是ROCK方法,它利用聚类间的连接进行聚类合并。最后一个CHEMALOEN,它则是在层次聚类时构造动态模型。

1.3.3 基于密度方法

根据密度完成对象的聚类。它根据对象周围的密度(如DBSCAN)不断增长聚类。典型的基于密度方法包括:DBSCAN:该算法通过不断生长足够高密度区域来进行聚类;它能从含

有噪声的空间数据库中发现任意形状的聚类。此方法将一个聚类定义为一组“密度连接”的点集。个聚类,而是为自动交互的聚类分析计算出一个增强聚类顺序。

1.3.4 基于网格方法

首先将对象空间划分为有限个单元以构成网格结构;然后利用网格结构完成聚类。STING 就是一个利用网格单元保存的统计信息进行基于网格聚类的方法。CLIQUE和

Wave-Cluster 则是一个将基于网格与基于密度相结合的方法。

1.3.5 于模型方法包括:

统计方法COBWEB:是一个常用的且简单的增量式概念聚类方法。它的输入对象是采用符号量(属性-值)对来加以描述的。采用分类树的形式来创建一个层次聚类。

1.4 分类分析

若预测的变量是离散的(如批准或否决一项贷款),这类问题就称为分类;如果预测的变量是连续的(如预测涨跌情况),这类问题称为回归。分类一直为人们所关注。常用的方法有决策树、神经网络、贝叶斯、粗糙集等方法。

分类分析要分析数据库中的一组对象,找出其共同属性,构造分类模型,然后利用分类模型对其它的数据对象进行分类。分类目标是分析训练集中的数据,利用数据中能得到的特征,为每一类建立一个恰当的描述或模型,然后根据这些分类描述对测试数据进行分类或产生更恰当的描述。

相关文档
最新文档