数据统计分析中应用数据挖掘技术及效益分析

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

数据统计分析中应用数据挖掘技术及效益分析

传统的数据统计分析方法是利用数据库系统已有的数据进行简单的统计归类分析，可以方便快捷对数据进行录入、查询、修改、更新、统计等功能。但是传统数据统计分析方法无法及时准确地发现数据中存在的关系和规则，无法快速提取企业决策者需要的精准分析数据，致使企业决策者很难根据现有的统计数据预测未来的发展趋势。很容易丢失商机，造成企业的被动，为企业发展壮大带来巨大的阻力。因此急需一种新的技术来实现企业的这些需求。本文重点分析的数据挖掘技术可以替代对海量数据无法胜任的传统数据统计分析方法，它将传统的数据分析方法与处理大量数据的复杂算法相结合。数据挖掘为探查和分析新的数据类型以及用新方法分析旧有数据类型提供了强大准确的处理能力，在海量数据处理方面得到广泛应用并取得非常好的经济及社会效益。

0 引言

新世纪以来，随着互联网及信息技术的飞速发展和应用，使我国的信息化得到前所未有的爆炸式增长，各个行业相继完成信息化改造，极大地提升了人们的生活水平与生产效率。同时，也使各行业进入到信息化发展的轨道上，进一步提升了企业生产效益。正是由于经济的飞速发展，各行业发展都已积累了海量的数据信息。但是传统的数据分析方法和工具仅仅能实现简单的录入、查询、更改、统计、输出等

非常低等的功能，无法及时快速地发现数据跟数据之间存在的关系与规则，无法根据已有的海量数据有效预测未来的发展趋势，不能及时为企业决策提供有力的数据支持。

数据挖掘技术的出现技术填补了大量企业的这一需求，数据挖掘技术可以高效地挖掘数据背后隐藏的关系跟规则，非常方便地把这些海量信息予以统计、分析及利用成为当前各行业需要解决的首个问题。为企业决策提供及时准确的统计学数据支持，为企业发展壮大提供很好的数据分析工具。而海量数据挖掘技术的出现，保证了海量数据信息的合理利用，同时加快了我国信息化技术的发展。

1 数据挖掘技术定义

数据挖掘技术起源于情报分析，其过程是一个从大量的、不完整的、有噪声的、模糊的随机数据被从隐含在大量数据中提取的过程，数据挖掘的情报资料是人们事先不知道的，但可能是有用的信息和知识。在大多数情况下，人们利用计算机等信息工具的时候只知道，存储数据，数据被存储的越来越多，但不知道这些海量数据中隐藏着很多重要的规律、规则等信息，数据挖掘技术就是一种可以从大量的数据中挖掘出有用重要信息的一种数据分析工具。如图1所示。

2 数据挖掘常用的方法

数据统计分析中的数据挖掘技术主要有以下方法：分类法、回归分析法、聚类法、关联规则法、特征法、变化和偏差分析法、Web 页挖掘等相关方法，这些方法从不同的角度对数据进行挖掘分析，得出需要的信息数据。

3 统计分析和数据挖掘的主要区别

从实践应用的角度来看，这个问题并没有很大的意义，正如“不管白猫还是黑猫，抓住老鼠才是好猫”一样，在实际的应用中，数据分析师分析问题时，首先要考虑的是思路，其次才会对与思路匹配的分析挖掘技术惊醒筛选，而不是优先考虑到底是用统计分析方法还是利用数据挖掘技术来解决这个问题。

统计分析和数据挖掘的主要的区别在以下几个方面：

统计分析在预测中应用常表现为一个或一组函数关系式，而数据挖掘在预测应用中的重点在于预测结果，很多时候并不会从结果中产生明确的函数关系式，有时候甚至不知道到底哪些变量在起作用，又是如何起作用的。最经典的例子就是“神经网络”挖掘技术，它里面的隐藏层就是一个黑箱，没有人能在所有的情况下读懂里面的非线性函数是如何对自变量进行组合的，在实践应用中，这种情况常会让习惯

统计分析公式的分析师感到困惑，这也确实影响了模型在实践应用中的课理解性和可接受度。

统计分析的基础之一就是概率论，在对数据进行统计时，分析人员常常需要对数据分布和变量之间的关系进行假设，确定用什么概率函数来描述变量之间的关系，以及如何检验参数的统计显著性;但是数据挖掘的应用中，分析人员不需要对数据分布做任何假设，数据挖掘中的算法会自动寻找变量间的关系，因此，相对于海量、杂乱的数据，数据挖掘技术有明显的应用优势。

在实践应用中，统计分析常常需要分析人员先做假设或判断，然后利用数据分析技术来验证该假设的正误。但是，在数据挖掘中，分析人员并不需要对数据的内在关系做任何假设，而是会让挖掘工具中的算法自动去寻找数据中隐藏的关系或规律。

两者的思维方式并不相同，这给数据挖掘带来了更灵活、更宽广的思路和舞台。

4 数据挖掘的一般流程

海量数据挖掘技术指的是把海量数据信息有针对性地进行提炼、分类和整理，从而将隐含在最深层次的信息挖掘出，为各行业发展提

供可靠的数据信息支持。换言之，海量数据挖掘技术利用当前最先进的数据分析工具从海量数据信息内部挖掘数据信息以及模型间的关系的一种技术统称，更加深入的认识与了解数据模型，并对各自模型件关系的对应关系予以深入分析，从而更好地指导各行业的生产与发展，同时为其提供更多决策性的技术支持。

事实上，数据挖掘过程不能够自动生成，必须通过人工建模来实现，因此，人需要完成大部分的工作。其中，主要包含数据采集、数据预处理、数据选择、建立挖掘模型及评估模型等。

首先，通常海量数据挖掘技术应用在各行业的生产和发展决策方面，也就是说数据挖掘工作将面临着巨大的数据信息，并且此类数据信息多数为模糊的、无规律的;其次，建立高效、易理解的数据模型有助于实现海量数据挖掘;再次，数据挖掘模型的构建主要目的是帮助用户解决实际存在的问题，在经过对海量数据信息进行挖掘之后，从中找出利用价值高的信息，再对此类信息予以统计、整理和分析，最终用于指导各行业的生产与发展;最后，开展数据挖掘工作主要是为从海量数据信息里找出有价值的数据信息，这并不是单纯的数学性研究，其根本目的是从各行业的海量数据信息中找出有价值的数据信息，它具有相应的约束条件，且面向的是针对性较强的数据挖掘模型。

数据挖掘的一般流程如图2所示。

5 数据挖掘技术实现

现如今，尽管海量数据挖掘属于一种新技术，但由于该技术发展速度较快，因此，已被广泛应用到计算机发展领域当中。近年来，由于数据挖掘理论的逐步趋于完善化，并且在实践中取得了较好成效。其中，最常用的海量数据挖掘技术主要包含以下几种：决策树、神经网络以及统计学模糊。

①决策树算法通常应用到分析分类问题当中，同时它也是分类与预测的一主要技术。其中，类别属于因变量，而决策树可从众多预测变量当中，再相关理论的指导下，预测变量的发展趋势及变化关系，同时可对其进行双向分析，即包含正向分析和反推分析，根据最终的结果去寻找问题的原因。

②神经网络的建立。事实上，人工神经网络法指的是模拟人脑神经元结构的一种算法。其中，改善神经网络算法的关键在于知识的表达与获取。神经网络可实现并行处理，这是因为神经网络应用的是自适应函数估计器，因此，它的学习能力是极强的，在短时间内能学会新知识，同时它的纠错能力与适应性也是非常可观的。

③统计学模糊学习。该方法属于一种预测法，常被应用到谈及