关于数据挖掘研究现状及发展趋势的探究_任新社
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
171
关于数据挖掘研究现状及发展趋势的探究
任新社1,陈静远2
(1.河南大学商学院,河南开封475004;2.郑州铁路职业技术学院网络信息技术中心,
河南郑州463000)摘要:随着计算机信息技术的快速发展,网络信息数据呈现爆发式增长,尤其是商业、企业等积累的海量数据,这
些信息包含了多种类型,传统的数据检索技术已经难以满足用户的使用需求。
数据挖掘技术可以帮助人们迅速查找自己所需的资料,数据挖掘技术是人工智能、统计学、数据库技术、信息检索技术等多门学科的完美融合。
目前,我国关于数据挖掘技术的研究较少,很多研究成果难以直接应用,文章将深入地研究我国数据挖掘技术的现状与趋势。
关键词:数据挖掘;程序算法;研究现状;发展方向中图分类号:TP311.13文献标识码:A 文章编号:1673-1131(2016)02-0171-02
0引言
21世纪是计算机信息技术的新纪元,网络上的资源呈现指数增长趋势,这些信息覆盖了很多具有价值得信息数据,包括商业信息、科研信息、技术信息等,当相对于海量的网络信息数据,对客户有价值的数据仍然十分有限。
传统的信息检索技术具有一定局限性,对用户有一定专业要求,数据挖掘技术可以对信息数据进行快速、高效、准确的分析,提取网络信息数据的有用知识,数据挖掘技术是多学科的交叉,建立在低级的数据检索技术之上。
1数据挖掘技术简介
数据挖掘技术(Data Mining ,DM )又称为数据采矿、资料
勘查,数据挖掘技术属于数据库知识发现(Knowledge-Dis-covery in Databases ,KDD )的重要环节之一,数据挖掘技术的主要目的是从海量网络数据中发掘潜在的高价值数据。
数据挖掘技术是伴随计算机技术发展而来的,需要通过统计学、人工智能、识别模式等多种方式来实现。
数据挖掘技术主要应用了如下理论:
建模技术、人工智能、模式识别与机器学习的搜索算
法。
数据库知识发现的过程由多个步骤组成,具体的流程如图1
所示。
图1数据库知识发现的具体流程
数据库知识发现的具体流程如下:①领域学习,选择某个特定领域,学习该领域应用的预先知识以及目标;②目标数据,通过选择一个或者多个数据集合进行聚焦,从而建立一个目标数据集;③清理与预处理,对目标数据集进行除噪处理,去除数据集中的无关数据,同时将时间顺序与数据变化纳入模型中;④数据转换,对数据特征与规律进行研究,并根据数据的规律特征进行编码,编码时尽量减少模型中的变量;⑤建立数据挖掘模型,明确数据挖掘的目的,根据数据挖掘的目的建立模型,常见的数据挖掘模型包括数据汇总、数据分类、数据聚合等;⑥数据挖掘,利用已经建立的数据挖掘模型对特定的数据进行挖掘;⑦解释,解释数据挖掘的过程以及发现的数据类型,去掉无价值的数据,将数据进行综合,汇总转化成所需的知识;⑧评估数据,将挖掘的数据用于实际应用之中,检验评估数据的有效性。
2数据挖掘技术的发展史
数据挖掘技术主要经历了四个阶段:
上世纪90年
代,Web 技术的创新,导致网络信息呈现爆炸式增长,很多企业处于粗放式营销模式,该阶段的数据挖掘技术已经成为可以集成数据库,系统支持多种挖掘模型同时运行;
第四个阶段是全程电子商务阶段,SaaS 软件服务模式的出现延长了电子商务产业链,原始数据挖掘技术成为一门独立的学科,该阶段的数据挖掘技术将移动数据以及各种计算设备的数据进行了有机融合。
数据挖掘技术的历程介绍如表1所示。
表1
各个阶段的数据挖掘技术介绍
3数据挖掘技术的成果
目前,我国数据挖掘技术研究已经取得了巨大的成果,常用的数据挖掘模型包括神经网络模型、决策树模型、遗传算法模型、粗糙集模型、模糊集模型、关联规则模型等。
(1)神经网络模型是建立在仿生学理论之上,通过模拟生物神经系统等运作模式,训练人工智能学习非线性预测,神经网络模型可以实现数据聚合、数据分类等多种功能,神经网络模型的关键是权值的修改,该模型具有较强的抗干扰性与非线性学习能力,可以对复杂目标进行精确挖掘,但难以承担高危变量的处理任务;
(2)决策树模型,该模型可以通过一系列的规则对数据进行分类,其模型结构与程序树状结构相似,该模型结构简单,
2016年第2期(总第158期)
2016
(Sum.No 158)
信息通信
INFORMATION &COMMUNICATIONS
172
浅析软件工程标准化现状与分析
苑永健
(曲阜师范大学信息科学与工程学院山东日照276800)
摘要:信息化是当下社会发展的主要趋势,我国信息化产业发展主要依靠软件工程,因此,它成为了推动我国经济社会发展的动力之一。
但是在软件工程建设及开发方面遇到了各种各样的困难。
本文就软件工程标准化现状相关问题进行详细阐述和分析,希望能够进一步的推进软件工程标准体系的构建。
关键词:软件工程;标准化现状;分析;信息图分类号:TP311.52文献标识码:A 文章编号:1673-1131(2016)03-0172-02信息技术发展到今天,已经影响到了我们生活的各个领域,对于人类社会的进步带来了深刻的变革,同时也是我国加快实现现代化建设的必然选择。
软件工程标准化的建设和维护软件是一项巨大的工程,涉及到多方面的知识领域,其中包括了设计语言,软件开发,系统平台维护等方面;随着社会经济的不断发展,软件工程应用的范围变得越来越多,软件工程标准化因此建立起来,对软件工程标准化现状的各种问题进行了研究和分析。
1软件工程标准化的作用与意义
软件工程的开发需要借助于标准化管理的基础之上,主要是采取了标准化软件构建组装来加以实现了软件工程的规模化和标准化开发。
它是完全符合了科学管理的先进理念。
同时为了更好地在市场方面获取良好的效益,就必须要加强对于软件整体质量的监管和生产效率的保证。
因此就要建立一个软件标准化管理体系,是对于软件整体质量的最好手段。
软件工程标准化管理有利于软件工程人员整体素质的提高,树立起正确的管理观念。
且更加有利于软件开发得到企业的科学化管理,企业从资源开发和开发流程方面进行有效的整合,优化,从根本上杜绝了当下软件设计过程中存在的弊端,实现了软件开发的标准化;只有这样,我国的软件设计公司才会提高软件产品的整体规模和效益,使得软件在竞争激烈的市场中占据着领先地位。
2计算机软件工程化标准化的现状分析
2.1软件工程化标准在世界上发展历史
上个世纪,计算机的功能并没有得到良好的完善,其处理数据挖掘效率较高,但不适合多维变量数据的挖掘;
(3)遗传算法模型,遗传算法模型通过遗传结合、遗传变异、遗传交叉以及自然选择等手段来实现机器学习过程,该模型可以处理多种数据类型,但需要设置的参数十分庞大,建立模型的困难度较大;
(4)粗糙集模型,粗糙集模型可以处理模糊、不精确的数学问题,但难以处理延续的属性,数据处理前必须进行属性离散化;
(5)粗糙集模型,粗糙集模型可以对数据问题进行模糊识别、模糊分析、模糊分类以及模糊评估,该模型的复杂程度越高,其数据处理模糊性越强;
(6)关联规则模型,关联规则模型依赖数据与数据之间的关联性,其中最典型的关联规则模型是Apriori 模型,该模型可以挖掘源数据库中满足最小支持度与最小可信度的关联规则,从而通过关联规则挖掘数据。
4数据挖掘技术的发展方向
数据挖掘技术是多个学科的高度融合,因此数据挖掘技术的分支较多,可以从不同的角度研究数据挖掘技术,本文根据数据挖掘的对象进行分类,可以将数据挖掘技术分为空间数据库挖掘技术、时态数据挖掘技术、文本数据源挖掘技术、多媒体数据库挖掘技术、Web 数据挖掘技术以及文本挖掘技术等。
(1)多媒体数据挖掘技术。
多媒体数据挖掘技术的对象包括音频、视频、文本、文档、图片、图像等,网络上的数据类型十分丰富,常见的数据类型包括非结构化数据、结构化数据、半结构化数据。
多媒体数据挖掘技术基于多媒体数据建模、存储、挖掘,是多媒体数据库技术与数据挖掘技术的完美
融合。
(2)时态数据挖掘技术。
该技术通过分析数据的时间特性,总结数据变化律。
时态数据挖掘技术的关键是建立合适的时序表示模型,时态数据挖掘技术可以用于宏观经济预测,除此之外,还可以用于专利数据挖掘。
(3)Web 数据挖掘技术。
Web 数据挖掘技术是未来网络数据的主要发展趋势,随着网络信息资源的不断膨胀,网络数据呈现多样化、多元化、多态化,Web 数据挖掘技术可以为用户提供高质量的数据,其核心是在全球化的大数据集合中发现有高价值数据。
(4)文本数据源挖掘技术。
文本数据源挖掘技术实际上属于数据挖掘技术的重要分支,常见的文本数据源挖掘技术功能包括文本分类、文本分析、文本总结以及趋势分析,该技术也是数据挖掘技术的主要发展趋势之一。
参考文献:[1]毛国君.数据挖掘技术与关联规则挖掘算法研究[D ].北京工业大学,2003
[2]柴文光,周宁.网络信息安全防范与Web 数据挖掘技术的整合研究[J ].情报理论与实践,2009(3):97-101
[3]王新华,米飞,冯英春,赵玮.空间数据挖掘技术的研究现状与发展趋势[J ].计算机应用研究,2009,(7):2401-2403
[4]曹军.数据挖掘技术在银行客户关系管理中的应用研究[D ].湖南大学,2013
[5]
陈卓民.数据挖掘技术在国内外的研究和发展现状[J ].青年文学家,2009(16):122-123。