商业智能和数据挖掘概述

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1. 商业智能和数据挖掘概述

2. 对SQL Server 2005 Data Mining 的应用分析详细说明

3. 对原数据挖掘程序的分析,包括优点和不足以及需要改进的地方

4. 我的整体设计思路,包括对原设计思路的借鉴和创新

5. 现阶段已完成的工作,和原程序相比所做的改进详细说明

1. 商业智能和数据挖掘概述

1.1 商业智能和数据挖掘的定义

商业智能通常被理解为将企业中现有的数据转化为知识,帮助企业做出明智的业务经营决策的工具。

从技术层面上讲,商业智能是数据仓库、OLAP 和数据挖掘等技术的综合运用。从技术上定义,数据挖掘( Data Mining )就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

从商业角度的定义,数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。

1.2 数据挖掘与传统分析方法的区别

数据挖掘与传统的数据分析(如查询、报表、联机应用分析) 的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先未知、有效和可实用三个特征。

先前未知的信息是指该信息是预先未曾预料到的,即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。在商业应用中最典型的例子就是一家连锁店通过数据挖掘发现了小孩尿布和啤酒之间有着惊人的联系。

1.3 数据挖掘的过程

数据挖掘过程中各步骤的大体内容如下:

1. 确定业务对象

清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步。挖掘的最后结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲目性,是不会成功的。

2. 数据准备

1) 数据的选择搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据。

2) 数据的预处理研究数据的质量,为进一步的分析作准备。并确定将要进行的挖掘操作的类型。

3) 数据的转换将数据转换成一个分析模型,这个分析模型是针对挖掘算法建立的,建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。

3. 数据挖掘对所得到的经过转换的数据进行挖掘。除了完善从选择合适的挖掘算法外,其余一切工作都能自动地完成。

4. 结果分析解释并评估结果。其使用的分析方法一般应作数据挖掘操作而定,通常会用到可视化技术。

5. 知识的同化将分析所得到的知识集成到业务信息系统的组织结构中去。

1.4 数据挖掘的应用和实例数据挖掘技术从一开始就是面向应用的。目前,在很多领域,数据挖掘(data mining) 都是一个很时髦的词,尤其是在如银行、电信、保险、交通、零售(如超级市场)等商业领域。数据挖掘所能解决的典型商业问题包括:数据库营销( Database Marketing )、客户群体划分( Customer Segmentation &Classification )、背景分析(Pro)、交叉销售(Cross-selling)等市场分析行为,以及客户流失性分析(Churn Analysis)、客户

信用记分(Credit Scoring) 、欺诈发现(Fraud Detection) 等等。

举一个简单的例子,当银行通过对业务数据进行挖掘后,发现一个银行帐户持有者突然要求申请双人联合帐户时,并且确认该消费者是第一次申请联合帐户,银行会推断该用户可能要结婚了,它就会向该用户定向推销用于购买房屋、支付子女学费等长期投资业务,银行甚至可能将该信息卖给专营婚庆商品和服务的公司。数据挖掘构筑了竞争优势。

美国运通公司(American Express)有一个用于记录信用卡业务的数据库,数据量达到54亿字符,并仍

在随着业务进展不断更新。运通公司通过对这些数据进行挖掘,制定了“关联结算(Relation ship Billing) 优惠”的促销策略,即如果一个顾客在一个商店用运通卡购买一套时装,那么在同一个商店再买一双鞋,就可以得到比较大的折扣,这样既可以增加商店的销售量,也可以增加运通卡在该商店的使用率。

美国的超市有这样的系统,当你采购了一车商品结账时,售货员小姐扫描完了你的产品后,计算机上会显示出一些信息,然后售货员会友好地问你:我们有一种一次性纸杯正在促销,位于F6 货架上,您要

购买吗?这句话决不是一般的促销。因为计算机系统早就算好了,如果你的购物车中有餐巾纸、大瓶可乐和沙拉,则86%的可能性你要买一次性纸杯。结果是,你说,啊,谢谢你,我刚才一直没找到纸杯。这不是什么神奇的科学算命,而是利用数据挖掘中的关联规则算法实现的系统。

每天,新的销售数据会进入挖掘模型,与过去N 天的历史数据一起,被挖掘模型处理,得到当前最有价值的关联规则。同样的算法,分析网上书店的销售业绩,计算机可以发现产品之间的关联以及关联的强弱。

数据报表、数据分析、数据挖掘是BI 的三个层面。我们相信未来几年的趋势是:越来越多的企业在数据报表的基础上,会进入数据分析与数据挖掘的领域。商业智能所带来的决策支持功能,会给我们带来越来越明显的效益。

1.5 实施数据挖掘要考虑的问题谈到数据挖掘应从以下三方面加以考虑:一.用数据挖掘解决什么样的商业问题。二.为进行数据挖掘所做的数据准备:数据挖掘最后成功与失败,是否有经济效益,数据准备起到了至关重要的作用。数据准备包含很多方面:一是从多种数据源去综合数据挖掘所需要的数据,保证数据的综合性、易用性、数据的质量和数据的时效性,这有可能要用到数据仓库的思想和技术;另一方面就是如何从现有数据中衍生出所需要的指标,这主要取决于数据挖掘者的分析经验和工具的方便性。

三.数据挖掘的各种分析算法:对于数据挖掘,没有一种算法是万能的。不同的商业问题,需要用不同的方法去解决。即使对于同一个商业问题,可能有多种算法,这个时候,也需要评估对于这一特定问题和特定数据哪一种算法表现好。

还需要强调的一点是,要想真正做好数据挖掘,数据挖掘工具只是其中的一个方面,同时还需要对企业业务的深入了解和数据分析经验。不管是需求分析还是挖掘模型的评估及应用,和业务人员和决策者们的充分沟通交流是完全必要的。

2. 对SQL Server 2005 Data Mining 的应用分析

数据挖掘的任务:

( 1)聚类(无监督学习)——聚类模型

2) 分类(有监督学习)——决策树模型、贝叶斯模型和神经网络模型简单地说:聚类-- 是“无监督学习”,事先不知道将要分成哪些类。分类-- 是“监督学习”,事先知道有哪些类别可以分。

(3)关联——关联模型,找出频繁的项集和关联规则

(4)时序预测——时间序列模型

(5)序列分析——序列分析和聚类分析模型

(6)回归——线性回归模型(利用决策数算法)和逻辑回归模型(利用神经网络算法)

在创建模挖掘模型时数据集取比较简单的College Plans数据库和Sql Server2005的自带的事例数据库AdventureWorks 。

2.1 聚类模型

1. 聚类简介聚类分析模型标识数据集中可能无法通过随意观察在逻辑上得出的关系。例如,在逻辑上可以得知,

骑自行车上下班的人的居住地点通常离其工作地点不远。但该算法可以找出有关骑自行车上下班人员的其他并不明显的特征。在下面的关系图中,分类A 表示有关通常开车上班人员的数据,而分类B 表示通常骑自行车上班人员的数据。

相关文档
最新文档