基于matlab的数据挖掘技术研究【开题报告】

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

毕业论文开题报告

信息与计算科学

基于matlab的数据挖掘技术研究

一、选题的意义

如今,高速发展的信息技术使人们积累的数据量急剧增长,动辄以tb计算,如何从数量巨大的数据中提取有用的知识成为当务之急。数据挖掘就是为顺应这种需要应运而生发展起来的数据处理技术。是知识发现(knowledge discovery in database)的关键步骤。

数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。与数据挖掘相近的同义词有数据融合、数据分析和决策支持等。这个定义包括好几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。

何为知识?从广义上理解,数据、信息也是知识的表现形式,但是人们更把概念、规则、模式、规律和约束等看作知识。人们把数据看作是形成知识的源泉,好像从矿石中采矿或淘金一样。原始数据可以是结构化的,如关系数据库中的数据;也可以是半结构化的,如文本、图形和图像数据;甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现的知识可以被用于信息管理,查询优化,决策支持和过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。在这种需求牵引下,汇聚了不同领域的研究者,尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员,投身到数据挖掘这一新兴的研究领域,形成新的技术热点。

这里所说的知识发现,不是要求发现放之四海而皆准的真理,也不是要去发现崭新的自然科学定理和纯数学公式,更不是什么机器定理证明。实际上,所有发现的知识都是相对的,是有特定前提和约束条件,面向特定领域的,同时还要能够易于被用户理解。最好能用自然语言表达所发现的结果。

当前数据挖掘应用主要集中在电信、零售、农业、网络日志、银行、电力、生物、

天体、化工、医药等方面。看似广泛,实际应用还远没有普及。而据Gartner的报告也指出,数据挖掘会成为未来10年内重要的技术之一。而数据挖掘,也已经开始成为一门独立的专业学科。具体发展趋势和应用方向主要有:对知识发现方法的研究进一步发展,如对Bayes和Boosting方法的研究和提高;商业工具软件不断产生和完善,注重建立解决问题的整体系统,例如Weka等软件。数据挖掘的发展应是挖掘工具在先进理论指导下的改进,而就国内情况而言,还有至少20年的发展空间。

本论文对各种研究及其应用作综合的介绍。

二、研究的主要内容,拟解决的主要问题(阐述的主要观点)

介绍基于matlab的数据挖掘技术的研究与应用

三、研究(工作)步骤、方法及措施(思路)

1.1---1.20 明确论文的研究方向查阅相关资料准备任务书

1.20---

2.10 完成论文的任务书准备开题报告和文献综述

2.11---

3.1 完成开题报告和文献综述并交指导教师审阅

3.2---3.28 根据指导教师意见准备英文文献两篇并翻译,准备论文初稿

3.29---

4.15 完成两篇英文文献和论文初稿并交指导教师审阅

4.15---

5.20 根据指导教师意见修改并完成毕业论文全部内容定稿作答辩PPT

四、毕业论文(设计)提纲

1 引文

2 数据挖掘技术的产生与兴起

3 数据挖掘的定义与特点

4 MATLAB概述

5 基于matlab的数据挖掘

5.1 层次聚类 hierarchical clustering

5.2 遗传算法在非线性规划中的应用

6 总结及参考文献

五、主要参考文献

[1]黄子诚,基于决策树的数据挖掘技术[J],电脑知识与技术Vo.l6,No.8,2010(3):P1949-1950

[2] 袁溪,数据挖掘技术及其应用[J].科技资讯.NO.10 2010:p22,p24

[3]赵芳,马玉磊,浅析数据挖掘技术的发展及应用[J],科技信息:P64

[4]王平,王升花,邬连学,基于遗传算法的变压器故障诊断方法的研究[J],技术应用

2011(2):P69

[5]卢华,刘福胜,王少杰,张鹏,基于遗传算法的平原水库坝高优化[J],人民黄河Vol33,No.1,2011(1):P125-128

[6]刘兴波,凝聚型层次聚类算法的研究[J],科技信息 NO.11,2008:P202

[7]吴燕,科技文档的层次聚类分析[J],商业文化. 社会经纬,2008(1):P353-354

[8]孟姗姗,全国地区小康和现代化指数的层次聚类分析[J]

[9]张利华,彭海燕,余淑媛,量子克隆遗传算法的多用户检测技术研究[J],大众科技,No.1,2011:P28-31

[10]张德丰,matlab概述[J],Matlab数值分析与应用:P1-9

[11]牛晓东,刑棉,孟明,基于基于联合数据挖掘技术的神经网络负荷预测模型研究[J],电工科技学报,Vol.19,No.9,2004(4):P62-68

相关文档
最新文档