数据挖掘报告

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

数据挖掘报告

一、数据挖掘综述

随着信息时代的来临，网络技术的发展和普及，各个行业都有爆炸性的数据增长，这些海量的数据中隐藏着我们需要的信息和财富。国际数据公司（IDC）报告称，2011年全球被复制和创建的数据总量就已经大得惊人，在短短几年时间内增长了近9倍，而且预计这些数据每两年就将至少增加一倍。并且，政府机构也对外宣称了要加快数据研究进度这一重大计划，各行业也在积极讨论数据挖掘研究带来的吸引力。面对如此庞大的数据，以及这些数据背后的价值和新的机遇，挖掘和研究这些数据就会给我们带来挑战和切实的利益。

早在1989 年8 月美国底特律召开的第11 届国际功能会议上就出现了KDD 这个术语，1995年学术界和工业界共同成立了ACM 数据挖掘与知识发现专委，后者发展成为数据挖掘领域的顶级国际会议。数据挖掘是一门交叉学科，涉及到各个行业和各个领域，同时，随着各行业对大量数据的处理深度和分析上的需求的增加，数据挖掘研究已经成为了学术界研究的热门学科，同时也受到各领域的重视。

经过多年的发展，数据挖掘研究领域成果颇丰，已经有了一套自己的基础理论。从大体趋势来说，国内和国外的研究方法和方向有差异，尤其是在某些方面还是存在着一定的差距。总的来说，国外的研究更偏重交叉学科和理论基础的研究，而国内则偏重于实际的应用上，用数据来解决实际的问题。同时，国内的学者在研究上也处于世界前沿水平，在国际舞台上也有十分突出的成绩，近年来也频频有国内团队登上国际领奖台。

在20世纪90年代中后期，用关联规则来进行挖掘、分类、预测等被逐渐用于时间序列数据挖掘和空间数据挖掘，以发现与时间和空间相关的有价值的模式，这些手段使得数据挖掘研究领域已经有了一些比较成熟的技术。如今的定位系统、手持移动设备等设备的普及和应用积累了大量的移动对象数据，对这些数据领域的研究使我们受益匪浅。近年来，数据挖掘研究已经渗透到生物信息、医疗卫生、智能交通、金融证券、社交网络、多媒体数据挖掘、轨迹数据、文本数据等各大领域。这些领域与数据挖掘研究接轨后又会出现一些新的机遇和挑战。

数据挖掘是从大量数据中抽取隐含的事先未知的具有潜在有用信息或知识的非平凡过程。一般来说可以把数据挖掘过程分为6 个阶段，如图所示。

数据挖掘过程

(1)问题的定义：进行用户调查熟悉应用领域的数据背景知识确定研究目标和需求明确所要完成的数据库挖

掘任务的性质。

(2)数据收集：根据数据挖掘任务的要求确定与任务相关的数据集合。

(3)数据预处理：对上一阶段得到的数据进行加工以生成用于数据挖掘的数据集。这一阶段的工作包括两个内容：一方面需要将数据组织成一种标准形式，使其能被数据挖掘工具和其他基于计算机的工具处理；另一方面需要准备数据集，使其能得到最佳的数据挖掘效果。涉及到数据标准化、数据平整、丢失数据的处理、时间相关数据的处理以及异常数据的分析和处理。

(4)构造模型针对任务的所属类别设计或选择有效的数据挖掘算法并进行数据挖掘从中得到应用感兴趣的

模式。

(5)评估与优化对发现的模式进行解释评估与优化必要时需要返回到前面处理中的某些步骤以反复提取。

(6)结果应用将所发现的知识进行整理并使之应用到实际的系统中。从中可见数据挖掘过程是一个多阶段的、反复的、复杂的处理过程。过程的各个阶段都需要包括领域专家数据分析员及数据挖掘专业人员等共同参与。各步骤之间包含了多次循环与反复在某个步骤的检验与应用中如果发现不合适则应对前面的步骤进行修改直到取得较满意的结果。

需要指出的是，数据挖掘的两个基本目标往往是预测和描述：预测涉及到使用数据集中的一些变量用来预测其它我们所关心变量的未知或未来的值；描述关注的则是找出描述可由人类解释的数据模式。由此对应：(1)预测性数据挖掘生成已知数据集所描述的系统模型；(2)描述性数据挖掘在可用数据集的基础上生成新的非同寻常的信息。

通常情况下我们把数据挖掘方法分为两大方面，一是人工智能领域中的机器学习型，这种类型通过训练和学习大量的样品获得需要的模式或者参数；二是统计类型，有判别分析、相关性分析和概率分析等技术。

1. 可视化技术

可视化技术指采用计算机图形学和图像处理技术，把抽象的东西转换成图像并且在屏幕上显示出来的一种让人一目了然的方法，从而进行交互处理的技术。它将几何数据绘制成目标图像，将图像按照要求进行输出显示在屏幕上。

2. 模糊技术

通过利用原有的数据挖掘技术的同时，结合模糊理论，从大数据中发现更为广泛的内容，并将其挖掘出来以方便用户理解。因为模糊性的客观存在，而且复杂性较高，因此，数据采集之间的关系表现出十分的模糊。将模糊理论与数据挖掘技术结合从大量、不完全的数据中提取潜在的、模糊决策、模糊模式识别和模糊聚类分析。

3. 粗糙集方法

粗糙集理论为一种描述不确定性和不完整性的数学工具，可以有效地处理和分析不完整、不一致、不精确等信息，并从中发现知识，揭示规律。粗集理论是处理模糊数据的有力工具，且粗集理论的创建和研究的出发点是直接对数据进行分析和推理，发现隐含的知识并揭示规律。

4. 神经网络

指能够模仿人脑神经元的人工神经网络，并能进行信息的处理。需要通过一定时间的训练才能增强挖掘结果的可理解性。其工作原理是根据人脑神经元的原理，通过不断修正其内部的节点间相互连接的关系达到处理信息的目的。

5. 遗传算法

遗传算法是在生物进化过程中，在组合优化的基础上的提出的，这是生物学与计算机结合的产物。就像生物的进化一样，会选择适宜度更强的个体进行交换和变异，通过时间和空间上的类比，能够使大量数据系统化和简单化，以方便找到他们的内在联系获得概念和模式。

6. 决策树

决策树的构造不需要任何领域的知识，很适合知识的挖掘并且可以处理高维度的数据。决策树可以被大多数人所掌握，并且不需要太多的专业知识。

7. 关联规则

关联规则挖掘技术就是从大量数据中发现其相关性，这也是最常见的数据挖掘的方法。通过层层的筛选以减少候选的子集数，从而加快了关联规则挖掘的进度。

数据的应用实质上是利用数据的分析结果，为用户提供辅助决策，发掘潜在价值的过程。数据挖掘技术是面向应用的，是为了获取信息来服务各行业。随着数据挖掘研究的深入与成熟，发展和推广，数据应用技术也会越来越广泛。现阶段，数据挖掘应用主要集中在以下方面。在金融业上：用于银行行业各种趋势预测，优化存贷策越等。客户关系管理：用于分析客户的行为，对客户进行分类，改善客户关系等。生物信息：用于各种染色体、基因序列的识别以及制药生物信息和科学研究等。电子商务：用于在线交互式营销系统的经营模式、市场策略等方面来优化网站结构，改善网易推荐和商品推荐内容等。零售业：数据挖掘技术被用来进行分析购物篮来协助货架设置，安排促销商品的时间等商业活动。

二、数据挖掘在智能交通中的应用

交通是关系到人们日常生活的一件大事随着城市规模不断扩大城市的交通问题也越来越突出目前利用多种先进科学技术的智能交通系统ITS 是解决交通问题的一个方向ITS 中的一个重要研究领域就是交通流的控制与诱导然而城市交通控制系统是一种对象不确定的对控制的实时性要求高结构十分复杂的巨系统由此决定了系统建模和模型求解的难度而控制的实时性要求在交通流状态迅速变化条件下尽快求出最优或次优的控制变量传统的控制方法已无法解决这些难题。

事实上交通流数据采集系统长时间通过人工采集和自动采集积累了大量交通流数据利用数据挖掘技术可以对交通流量的原始数据进行重新组织使这些数据不但能够为智能交通系统中的控制系统服务也能为决策系统和诱导系统等提供数据本文首先进行数据挖掘综述然后给出智能交通系统信息特性及其不确定性指出传统方法的局限性对应用数据挖掘处理某些具体交通问题进行了分析。

智能交通系统是信息全球化和社会化的产物。它通过运用先进的信息技术、数据通信技术、自动控制技术以及计算机技术，建立起立体化、全方位的公路交通运输体系，并被视为