商务智能技术发展和应用研究综述
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
商务智能技术发展和应用研究综述
x斌1
1.北京航空航天大学 www.wenshan.me
摘要:首先介绍了商务智能技术的发展历史,数据仓库、联机分析处理、数据挖掘概念。其次介绍了商务智能在当前大数据中遇到的挑战。最后介绍了商务智能如何和ERP整合的应用,在景区决策支持系统的应用,在企业绩效管理的应用。
关键词:商务智能大数据商务智能应用
1 引言
企业无论其以前是通过信件、电话还是传真与客户联系,现在都已经进行了数据化、信息化,这样可以对客户更快的响应,提高客户的服务水平并降低成本。企业资源规划(ERP)、销售终端(POS)、市场调查、供应商、客户、网络、政府部门都在不断给企业增加数据,平均每18个月企业的数据量就翻一番。
但是能被分析和利用的数据究竟有多少呢?有些专家估计目前被利用的数据只有5%-10%。大量数据是冗余、不相关、不完整和质量很差的。怎样才能把大量的数据迅速转换成可靠的信息、发现数据背后隐藏的信息和知识?
信息化时代的来临,管理者任何的决策都是依靠有力数据支撑提出,管理者借助商务智能系统,通过先进的数据库存储、数据集成、数据分析技术,把海量的业务数据转化为有价值的信息和知识,辅助管理者进行决策[1]。在过去的几十年里,软件技术的不断改良和硬件设备成本大幅减低,数据存储变得稀疏平常,积压的数据变成一种珍贵的资源,寻求问题的发生原因,寻找问题的解决方案,答案往往藏在不断积累的庞大数据中。正如前通用电气首席执行官指出:“一个组织机构获取知识以及将知识快速转化为行为的能力是其最终的竞争优势”。在这中背景下,商务智能(Business Intelligence, BI)受到学术界和企业界的重视,成为继ERP系统之后企业信息化的一个浪潮。
2 商务智能技术发展现状
商务智能(Business Intelligence)这一概念的诞生有两位重要人物。一位是IBM研究员Hans Peter Luhn,在1958年,他曾经在IBM系统杂志上撰写了一篇开创性的论文《A Business Intelligence System》[2]。在这篇文章中提到,“智能”一词被定义为“辅佐所呈现的事实直接相互关系,以引导向期望的目标的行动的能力”,其中文档中自动抽取,自动编码是我们现在理解的元数据,即是现在大家所熟知的文本挖掘,语义分析。另外一位商务智能之父,来做Gartner Group的工程师Howard Dresdner,他提出了商务智能定义为大多数开发者所熟知,这个定义是商务智能为辅助企业决策的解决方案,即应用基于数据的分析系统辅助商业决策的制定[3]。这两位商务智能之父,以不同的目标提出的商务智能的概念,一个从技术,文本挖掘进行定义,另一个是为企业管理提供决策服务。
商务智能通常被理解为将企业中现有的数据转化为知识,帮助企业做出明智的业务经营决策的工具。这些数据包括来自业务系统的订单、库存、交易账目、客户和供应商等来自企业所处行业和竞争对手的数据以及来自企业所处的其他外部环境中的各种数据。商务智能是指从这些有用的数据并进行清理,以保证数据的正确性,然后经过抽取(Extraction)、转换(Transformation)和装载(Load),即ETL过程,合并到一个企业级的数据仓库里,从而得到企业数据的一个全局视图,在此基础上利用合适的查询和分析工具、数据挖掘工具、OLAP工具等对其进行分析和处理(这是信息变为辅助决策的知识),最后将知识呈现给管理者,为管理者的决策过程提供支持。商务智能能够辅助的业务经营决策,既可以是操作层的,也可以是战术层和战略
层的决策。
1990-1995年,对商务智能的研究主要是基于数据库、数据建模、Edward R. Tufte在1990-1991年间发表的关于信息,特别是信息定量可视化的著作为商务智能研究奠定了基础。1994年,数据仓库首次被Inmon论述。1996年论文《Managing the Data Warehouse》深刻论述了数据仓库,意义重大。1998年以后BI的研究开始多起来,LarryKahaner 提出竞争智能,还有一些学者对数据仓库和数据挖掘技术,数据质量,机器学习等不同方向进行研究。1999年众多IT厂商纷纷给出相应的OLAP产品,如:Microsoft,Oracle,Sysbase,IBM/DB2的OLAP、多维数据集市研究。2000年随着知识发现和智能决策以及在不同行业的数据挖掘的深入,对BI的研究开始转向战略性的数据库营销。随后,商务智能领域的科研热情不断高涨,研究方向不断增多,并且不断深化。
2.1 数据仓库
数据仓库之父比尔·恩门(Bill Inmon)在1991年出版的“Building the Data Warehouse”(《建立数据仓库》)一书中所提出的定义被广泛接受——数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。一个主题对应一个分析领域即主题域。其二、数据仓库的数据是集成的,它是从原有分散的数据库中的数据集成得到。其三、数据仓库的数据是稳定的、不可更新的。它反映的是较长一段时间的历史数据内容,而非联机处理的数据。最后,数据仓库数据是随时间不断变化的。数据仓库具有丰富的数据采集、管理、分析和信息描述功能。[4] 2.2 联机分析处理技术
联机分析处理技术是独立于数据仓库的一种技术,他通过快速、一致、交互地访问各种可能的信息视图,帮助数据分析人员、管理人员决策人员掌握数据之间的规律。OLAP把数据仓库的海量数据转化为有用的信息,从而实现对数据的归纳、分析和处理、提供决策支持[5]。
2.3 数据挖掘
数据挖掘,英文是Data Mining,一种比较公认的定义是W.J. Frawley, G. Piatetsky-Shapiro等人提出的:数据挖掘,就是从大型数据库的数据中挖掘提取人们感兴趣的知识。这些知识是隐含的、事先未知的潜在有用信息,提取的知识表示为概念、规则、规律、模式等形式。这种定义把数据挖掘的对象定义为数据库。而更广泛的说法是:数据挖掘意味着在一些事实或观察数据的集合中寻找模式的决策支持过程,数据挖掘的对象不仅是数据库,也可以是文件系统,或其他任何组织在一起的数据集合,例如:wwww信息资源[4]。数据挖掘常用算法包括:神经网络、遗传算法、决策树、粗集方法、统计分析方法、回归分析、机器学习、聚类分析等。
3 大数据和BI
近些年大数据(big data)一词被提及的频率越来越高。大数据具有4个特征:
一是数据体量巨大(Volume)。截至目前,人类生产的所有印刷材料的数据量是200PB(1PB=210TB),而历史上全人类说过的所有的话的数据量大约是5EB(1EB=210PB)。当前,典型个人计算机硬盘的容量为TB量级,而一些大企业的数据量已经接近EB量级。
二是数据类型繁多(Variety)。这种类型的多样性也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。
三是价值密度低(Value)。价值密度的高低与数据总量的大小成反比。以视频为例,一部1小时的视频,在连续不间断的监控中,有用数据可能仅有一二秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。
四是处理速度快(Velocity)。这是大数据区分于传统数据挖掘的最显著特征。根据IDC的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB。在如此海量的数据面前,处理数据的效率就是企业的生命。
传统BI采集的数据主要来自于ERP、CRM等,具有格式化的数据,而大数据采集的数据种类则多种多样,既有结构化的数据,更多的是非结构化数据。这就要求数据处理技术在分析、算法上相对传统BI来说有极大的改变,已经无法依赖传统的BI 工具。传统BI不能支持如此海量数据分析及计算,这就是大数据带给传统BI的挑战。