浅谈数据挖掘技术

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

浅谈数据挖掘技术

李 瑛 包头轻工职业技术学院

【摘 要】数据挖掘技术为应对信息爆炸、海量信息的处理提供了科学和有效的手段。本文介绍了数据挖掘的概念、对象、任务、过程、方法和应用领域。

【关键词】数据挖掘 信息分析 提取 知识

【中图分类号】TP311.1 【文献标识码】A 【文章编号】1674-4810(2011)01-0068-02

社会的发展进入了网络信息时代,各种形式的数据海量产生,在这些数据的背后隐藏着许多重要的信息,如何从这些数据中找出某种规律,发现有用信息,越来越受到关注。为了适应信息处理新需求和社会发展各方面的迫切需要而发展起来一种新的信息分析技术,这种技术称为数据挖掘。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

一 数据挖掘的对象

数据挖掘可以在任何类型的数据上进行,既可以来自社会科学,又可以来自自然科学产生的数据,还可以是卫星观测得到的数据。数据形式和结构也各不相同,可以是传统的关系数据库、面向对象的高级数据库系统,也可以是面向特殊应用的数据库,如空间数据库、时序数据库、文本数据库和多媒体数据库等,还可以是Web数据信息。

二 数据挖掘的任务

数据挖掘的目标是从海量数据中发现隐含的、有意义的知识。它的任务主要是分类、预测、时间序列模式、聚类分析、关联分析预测和偏差分析等。

1.分类

分类就是按照一定的标准把数据对象划归成不同类别的过程。

2.预测

预测就是通过对历史数据的分析找出规律,并建立模型,通过模型对未来数据的种类和特征进行分析。

3.时间序列模式

时间序列模式就是根据数据对象随时间变化的规律或趋势来预测将来的值。

4.聚类分析

聚类分析是在没有给定划分类的情况下,根据数据信息的相似度进行数据聚集的一种方法。

5.关联分析预测

关联分析就是对大量的数据进行分析,从中发现满足一定支持度和可信度的数据项之间的联系规则。

6.偏差分析

偏差分析就是通过对数据库中的孤立点数据进行分析,寻找有价值和意义的信息。

三 数据挖掘的过程

数据挖掘使用一定的算法从实际应用数据中挖掘出未知、有价值的模式或规律等知识,整个过程由数据准备、数据挖掘、模式评估、巩固知识和运用知识等步骤组成。

1.数据准备

数据挖掘的处理对象是数据,这些数据一般存储在数据库系统中,是长期积累的结果。但往往不适合直接在这些数据上进行知识挖掘,首先要清除数据噪声和与挖掘主题明显无关的数据;其次将来自多数据源中的相关数据组合并;然后将数据转换为易于进行数据挖掘的数据存储形式,这就是数据准备。

2.数据挖掘

数据挖掘就是根据数据挖掘的目标,选取相应算法及参数,分析准备好的数据,产生一个特定的模式或数据集,从而得到可能形成知识的模式模型。

3.模式评估

由挖掘算法产生的模式规律,存在无实际意义或无实用价值的情况,也存在不能准确反映数据的真实意义的情况,甚至在某些情况下与事实相反,因此需要对其进行评估,从挖掘结果中筛选出有意义的模式规律。在此过程中,为了取得更为有效的知识,可能会返回前面的某一处理步骤中以反复提取,从而提取出更有效的知识。

四 数据挖掘的常用方法

1.决策树方法

决策树是一种常用于预测模型的算法,它通过一系列规则将大量数据有目的分类,从中找到一些有价值的、潜在的信息。它的主要优点是描述简单、分类速度快、易于理解、精度较高,特别适合大规模的数据处理,在知识发现系统中应用较广。它的主要缺点是很难基于多个变量组合发现规则。在数据挖掘中,决策树方法主要用于分类。

2.神经网络方法

神经网络是模拟人类的形象直觉思维,在生物神经网络研究的基础上,根据生物神经元和神经网络的特点,通过简化、归纳、提炼总结出来的一类并行处理网络,利用其非线性映射的思想和并行处理的方法,用神经网络本身结构来表达输入和输出的关联知识。

3.粗糙集方法

粗糙集理论是一种研究不精确、不确定知识的数学工具。粗糙集处理的对象是类似二维关系表的信息表。目前成熟的关系数据库管理系统和新发展起来的数据仓库管理系统,为粗糙集的数据挖掘奠定了坚实的基础。粗糙集理论能够在缺少先验知识的情况下,对数据进行分类处理。在该方法中知识是以信息系统的形式表示的,先对信息系统进行归约,再从经过归约后的知识库抽取得到更有价值、更准确的一系列规则。

因此,基于粗糙集的数据挖掘算法实际上就是对大量数据构成的信息系统进行约简,得到一种属性归约集的过程,最后抽取规则。

(下转第70页)

4.改善育人环境,抓好引导工作

(1)管好教职工队伍,齐心协力做好学生的道德建设工作。教职工要为人师表,在自身道德建设方面应给学生树立榜样。对于这一点,教职工必须要有清醒的认识。学生的道德建设,教职工人人有责,不能只让辅导员(班主任)负责。每位教职工在管好自己的同时,要把学生的道德建设作为自己工作的一部分,结合到本职工作中去。应当经常组织由师生共同参与的各项公益活动,如捡拾白色垃圾,使师生相互促进,共同提高。

(2)不断提高各项工作的质量和水平,特别是加大对后勤服务的管理,树立教书育人、管理育人、服务育人的意识。

(3)治理校园环境,让校园绿起来、美起来,引导学生爱护环境、陶冶情操,在愉悦自己身心的过程中,提高道德修养的层次。

5.重视心理健康教育工作

要由专业人员担任此项工作,讲解心理健康知识,做好心理健康辅导;要结合未成年学生的生理发育和心理特征,有针对性地开展心理咨询;增加电话咨询、网上咨询、问卷调查等方法,改进工作,以求收到实效。

6.改进思想教育观念,坚持以人为本

关心学生疾苦,以真诚、平等、鼓励、信任的心态,耐心地、深入细致地做好未成年学生的思想工作,促进未成年学生在学校里健康快乐地成长起来,成为建设国家、服务社会的有用人才。

总之,大学生是十分宝贵的人才资源,是民族的希望,是祖国的未来。新时期,高校领导和教师应全面、准确地理解社会主义核心价值体系的深刻内涵,以社会主义核心价值体系为指导,加强大学生思想政治教育,着力提高大学生的思想道德水平,对全面建设小康社会,发展中国特色社会主义培养更多德才兼备的人才。

参考文献

[1]中央人民广播电台理论部编.中共中央关于加强社会主义精神文明建设若干重要问题的决议[M].北京:中共中

央党校出版社,1996

[2]中共中央宣传部.社会主义核心价值体系学习读本[M].

北京:学习出版社,2009

〔责任编辑:冯琰〕

(上接第67页)

五 学业规划状况及对行业关注度

有41.94%的毕业生表示对研究生生涯做过规划,更多的人(47.31%)则表示未做过规划,另有11.83%的人持无所谓态度。在就读研究生时期,34.41%的人经常关注药品行业的动态,54.84%的人偶尔关注,10.75%则从未关注。医药行业的兴衰成败客观上影响着药学类毕业生的就业机会、事业发展的空间。因此,药学类毕业生首先应对自己今后所从事的行业及其所处的环境做好充分而深入的了解,并对自己的研究生生涯做相应规划。而问卷调查中的统计数字不容乐观,药学类学生对医药行业事业的淡漠值得我们深思。

综合调查问卷的结果,可以看出药学类研究生近年来的就业率滑坡现象,不能简单的归咎于客观原因,更大程度上是其自身存在问题所导致的。作为高校教育者,我们应该积

极开展硕士研究生的就业指导工作,帮助硕士研究生树立正确的择业标准。在追求实现自我价值的同时,也必须将个人发展与国家的发展联系起来,时刻牢记只有胸怀国家,民族才有希望。学校主管部门应加强就业政策的宣传和讲解,树立服务意识,在研究生入学初始就应该帮助其设定人生目标,认真规划自己的学习生涯。在学期间的研究生们应尽可能广泛地涉猎相关学科,时刻关注医药行业的动态,提高社会责任感,只有这样,国家的医药行业才能健康、良性地发展,进而才能为毕业生们提供更多更好的就业机会。

参考文献

[1]杨世民、问媛媛.新中国成立60年我国高等药学教育事业的发展[J].中国药学杂志,2009(19):1459~1462

〔责任编辑:冯琰〕

(上接第68页)

4.遗传算法

遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法。数据挖掘是从大量数据中提取人们感兴趣的知识,这些知识是隐含的、事先未知的、潜在有用的信息。因此,许多数据挖掘问题可以看成是搜索问题,数据库或者数据仓库为搜索空间,挖掘算法是搜索策略。应用遗传算法在数据库中进行搜索,对随机产生的一组规则进行进化,直到数据库能被该组规则覆盖,就可以挖掘出隐含在数据库中的规则。

五 数据挖掘的应用

数据挖掘技术在各个需要进行信息分析的领域得到十分广泛的应用。它可以带来显著的经济效益,不仅可以控制成本,也可以给企业带来更多效益。在金融业,可以通过信用卡历史数据的分析,判断哪些人有风险,哪些人没有;在超市,可以通过对超市交易信息的分析,安排货价及货物摆设,以提高销售收入;在保险业,可以通过对保险公司客户记录的分析,来判定哪些客户是花费昂贵的对象;在学校,可以通过分析学校学生课程及成绩等信息,来判断课程之间的关系。此外,在医学中,可以利用数据挖掘技术对疾病发作前后症状的分析,来对病症进行诊断;在体育运动中,利用数据挖掘技术对对抗性强的积极运动进行分析,发现对方弱点,制定有效的战术。

六 结束语

数据挖掘技术作为一个多学科交叉的新兴学科,在研究领域和商业领域得到了越来越多的应用,尤其是在市场营销中取得了成功。企业每天都有海量数据产生,利用数据挖掘技术可以从这些数据信息中发现对企业有益的知识,给企业带来经济效益,这也将促使数据挖掘技术不停地发展进步。

〔责任编辑:冯琰〕

相关文档
最新文档