BI基础课程
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
BI基础课程
- BI的定义:
1、
加特纳集团(Gartner Group)
商业智能这一术语1996年由Gartner Group的Howard Dresner首次提出,它描述了一系列的概念和方法,通过应用基于事实的支持系统来辅助商业决策的制定。
商业智能技术提供使企业迅速分析数据的技术和方法,包括收集、管理和分析数据,将这些数据转化为有用的信息,然后分发到企业各处。
Ted Friedman 和Kevin H. Strange 认为:商业智能应该注重数据整合、数据质量、元数据管理、可测量性和互用性以及企业活动的监测。
2、
国际数据公司(Internet Data Corporation, IDC)
将商业智能定义为下列软件工具的集合:
² 终端用户查询和报告工具。
专门用来支持初级用户的原始数据访问,不包括适用于专业人士的成品报告生成工具;
² 联机分析处理(On-Line Analytical Processing, OLAP)工具。
提供多维数据管理环境,其典型的应用是对商业问题的建模与商业数据分析。
OLAP 也被称为多维分析;
² 数据挖掘(Data Mining, DM)软件。
使用诸如神经网络、规则归纳等技术,用来发现数据之间的关系,做出基于数据的推断;
² 数据集市(Data Mart)和数据仓库(Data Warehouse, DW)产品。
包括数据转换、管理和存取等方面的预配置软件,通常还包括一些业务模型,如财务分析模型;
² 主管信息系统(Executive Information System, EIS)。
企业机构利用上述软件工具在统一的BI平台上建立所需的企业范围内的商业分析。
从系统的观点来看,商业智能的过程是从不同的数据源收集的数据中提取有用的数据,对数据进行清理以保证数据的正确性,将数据经转换、重构后存入数据仓库或数据集市(这时数据变为信息),然后寻找合适的查询和分析工具、数据挖掘工具、在线分析工具(OLAP)对信息进行处理(这时信息变为辅助决策的知识),最后将知识呈现于用户面前,转变为决策。
3、
国际商用机器(International Business Machine, IBM)
认为:因为每个BI专家对商业智能理解的不同,商业智能的定义也是多种多样的。
实际上,商业智能是一系列由系统和技术支持的以简化信息收集、分析的策略的集合,它应该包括企业需要收集什么信息、谁需要去访问这些数据、如何把原始数据转化为最终导致战略性决策的智能、客户服务和供应链管理。
IBM公司在传统、实时反馈(Real-time Feed)、嵌入式(Embedded)三种商业智能模型的基础上提出了闭环BI(Closed-loop BI)的概念,认为:事务数据是动态捕获并整合到数据仓库中的,之后数据仓库再将数据提供给一些商业智能工具,例如OLAP 或挖掘工具。
接着,商业智能的输出以推荐对策(例如动态价格变化)的形式直接反馈给前线的决策制定者。
这样就形成了一个闭环,从而创造出一种零延时环境。
零延时环境允许公司将分析结果整合到每天的企业运转中,并缩短业务决策与业务行动之间的时间间隔。
为了实现这个系统,首先应该将这个闭环流程自动化。
这可以通过实时构建一个数据仓库、集成实时分析引擎并利用实时规则引擎来实现。
其次,这个自动化的闭环流程应该实时出现。
这种闭环环境根据由决策引擎生成的消息动态地调整企业运作。
这两个标准为更快地制定决策、更快地将产品推向市场以及获得更大的市场机遇打下了基础。
IBM为零售行业提供了专门的商业智能解决方案RBIS。
RBIS提供全面的包含零售企业客户
分析、商品定价、营销效果分析、商店运作等多方面的报表库。
4、
微软(Microsoft)
认为:用最简单的术语来说,商业智能是任何尝试获取、分析企业数据以更清楚地了解市场和客户、改进企业流程、更有效地参与竞争的努力。
在正确的时间向正确的决策者提供正确的信息,商业智能使企业用更好的时间做出比以前更好的决策。
衡量商业智能解决方案的标准是从数据获取知识的能力,这种能力应该可以处理那些远远超出人类简单分析的大量信息并识别其模式、趋势、规则和关系。
为此,需要使用强大的、灵活的、易用的、可用的分析工具来做出有用的比较和智能的决策。
5、
SAP
认为:商业智能是一大类收集、存储、分析和访问数据以帮助企业用户更好进行决策的应用程序与技术。
商业智能应用程序包含如下活动:决策支持、查询和报表、联机分析处理(OLAP)、统计分析、预测和数据挖掘。
SAP的商业智能工具有:SAP Business Information Warehouse (SAP BW)和SAP NetWeaver。
6、
甲骨文(Oracle)
7、
Cognos
认为:商务智能是能使终端用户对企业性能进行监测、分析和形成报表的软件。
商业智能可
以使企业不总依赖IT部门为组织的数据资产和企业流程带来可见度、清晰度和洞察力
商业智能可以从不同的数据源中聚合和巩固完全不同的内外部数据到一个中心框架中,创建一个公共的、共享的上下文以在一个部门或整个组织中实现有效的、协作的决策制定。
商业智能可以在部门级别展开以支持一个特定的6Σ项目,也可以在企业范围内展开以衡量和管理整个公司的绩效。
组织可以利用商业智能安排策略,也可以利用商业智能检验策略的效果。
8、
Business Objects
商业智能技术允许组织跟踪、理解和管理至关重要的企业信息。
随着越来越多的组织在寻求接近存储在它们事务系统中的有用的信息的方式,商业智能将扮演一个日益重要的战略角色。
一个典型的商业智能项目的平均投资回报率(Return Of Investment, ROI)超过了430%,但是分段实施的商业智能项目导致组织不能全面从全球化的、交叉功能信息分析中获益。
BusinessObjects 率先提出电子商务智能(e-Business Intelligence)的概念,将电子商务和商务智能紧密地结合起来。
电子商务使得商务关系超越了单个企业范围,延伸到供应商、客户以及投资商。
这意味着需要有易用的、安全的、可伸缩的、可扩展的商务智能解决方案来满足企业内部和外部用户的各种需求。
信息民主将在具有前瞻性思维的企业中浮现。
BusinessObjects提出的概念还包括人力资源智能(Human Resource Intelligence)、产品和服务智能(Product & Service Intelligence)、6Σ智能(Six-Sigma Intelligence)、供应链智能(Supply Chain Intelligence)等概念。
9、
SAS
商业智能是:关于在组织内部和组织周围正在发生的智能或知识。
当今世界,组织的信息存在分野:一方面,ERP、会计系统,订单录入为组织报告常规的数据;另一方面,商业智能为组织提供知识和洞察力。
商业智能允许组织从内部数据提取可以驱动组织前进的信息精华。
10、
Teradata
商业智能的目的是帮助决策者制定消息灵通的选择。
因此,现代商业智能系统必须能处理海量的、详细的、全异的数据并快速将其转化为有意义的、准确、决策者可以放心执行的信息。
11、
all-BI
认为:商业智能是一个没有显著特点的术语,主要应用在一大类用于收集、存储、分析和提供数据访问以帮助企业用户作出更好决策的应用软件和技术上。
商业智能应用软件包含的活动有:决策支持、查询和报表、联机分析处理、统计学分析、预测和数据挖掘。
一种变通的描述商业智能的方法是:在公司内部和企业流程过程中进行决策支持所需要的用来将原始数据转化为信息的技术。
在市场竞争中保持兴旺的关键是在竞争中领先。
依据准确、及时的信息制定稳定的决策显然要比仅仅靠直觉有效。
数据分析、报表和查询工具可以帮助企业用户穿越数据海洋,并从中综合出有用的信息。
这些工具在今天被共同归入一个类别:商业智能。
12、
MicroStrategy
商业智能是一系列能够使公司分析数据库中的数据并根据收集的信息获得的洞察力来做决策的软件系统。
这种洞察力可以帮助公司:提高效率和生产力、构造强的客户关系、优化生成收入的战略、增加收入并使收益最大化。
- BI的价值
丰富的行业业务应用经验的价值+ BI产品的价值=行业应用BI解决方案平台的价值
BI原意解为商业智能,但此名词晦涩,很难在现实中找出真正的含义。
我们不妨回顾在BI 这项技术出现之前,数据分析所面临的问题。
在BI出现之前,数据分析领域几乎被传统的报表软件所笼罩,例如润乾、久其等等,随着时间及客户需求的增长,这些报表软件逐渐显现出以下不足:
1.报表速度慢、显示形式单一,同时不支持流行的分析手段,如KPI、平衡计分卡等等
记得当时有件很有意思的事,就是每天上班之后,先把报表打开,这样下午就可以看了。
虽然未免有点夸张,但传统报表速度慢却是不争的事实。
传统报表大都利用SQL对关系数据库进行查询,但随着数据库数据量的急剧膨胀,并且每个SQL查询都从最低粒度数据进行汇总,难免速度变慢。
同时传统的报表展现形式很单一,主要是表格和常规的图表。
随着分析需求的增长,人们希望从更多的角度及更多的形式来分析数据,包括将数值分析转换为状态和趋势分析的KPI,分析各指示之间关系的平衡计分卡,以及GIS分析和更丰富的图表、仪表盘分析等等。
2.展现的数据量有限
传统的报表展现形式能够展现的数据量非常有限,只能展现报表定义时所定义的数据项。
当有新的分析需求时,则不得不开发新的报表,导致报表量增加,统计局每年发布的年鉴已达500多页。
传统的报表展现的数据固定,无法根据分析者的思想发生变化,从而很大程度上限制了数据
分析者的思想。
3.不支持数据挖掘,无法通过数学算法找到规律
传统数据分析只能完成数据的展现,而数据背后的规律只能依赖于分析者的创造,而普通的分析者却不具备这样的能力。
这样,传统的数据分析只能流浮于数字表面。
在这种背景下,BI为分析者带来了希望。
我认为BI的含义是提供更加快速、灵活和丰富的数据支撑。
这正好对应于传统数据分析的三个问题:
1.报表---更加快速及更多的展现形式
1)数据源为多维数据集,并提供缓存机制
多维数据集采取预运算机制,汇总数据在多维数据集中已经有了实际的存储,而不需要在每次查询时从最低粒度进行汇总,再加上新的报表软件提供的缓存机制,从而使报表的展现速度变得非常快。
2)一定的钻取、跳转以及多报表之间的联动
新的报表展现与传统报表相比变得更加灵活,包括更丰富的筛选器、一定层次的钻取、跳转以及多报表之间的联动。
但报表仍不如多维数据分析更加灵活。
3)更多的展现形式
新的报表展现目前已经可以实现KPI展现、仪表盘、树形大纲视图、更丰富的图表以及更多的自定义展现形式。
2.多维数据分析---灵活
1)报表及图表各元素的灵活定制
多维数据分析最大的特点就是报表及图表的各元素可以随意定制,我们可以很轻松的设定放置在行或列上的维度或量度,从而实现随心所欲的报表。
2)新成员、新指标的快速创建
多维数据分析工具一般都提供了新的维度成员或新指标的快速创建的方法,从而实现在分析者不了解后台数据结构的情况下,也可以随意创建出自己想要的计算成员或集合等,这一点更清晰的体现出其灵活的特点。
3)随意的钻取及钻透
随意的钻取,尤其是跨维度的钻取是多维数据分析非常重要的一项功能,正因为具有这样的功能,所以多维数据分析所展现的数据可以随着分析者的思想而发生变化,例如从产品分析到销售分析的跳跃性思维,多维数据分析都可以实现相应的数据支撑。
4)数据访问范围的扩大
多维数据分析可以访问的数据范围几乎可以实现全部数据,尤其是一些新技术出现之后(例如SQL Server 2005的UDM)。
3.数据挖掘---丰富
将分析者的思想与数据算法相结合,利用数据算法,分析者更容易从海量数据中找到规律,同时分析者的思维也赋予数据算法更多的活力,使其更贴近于行业规则。
数据挖掘为分析者带来了从数字表面无法发现的规律,提供更加丰富的分析,将数据分析延伸到了新的领域。
数据挖掘更为重要的是提供了预测的功能,这意味着我们在未来到来之前,已经获得了未来的数据,可以说报表和多维数据分析让我们更清晰的了解过去,而数据挖掘则让我们感受到了未来的气息。
BI附加价值:
1.改善数据质量
2.业务流程规范
3.触发更多分析需求
BI项目的实施是对企业数据质量及业务流程的最好的检验,可以暴露很多以往很难发现的问题。
同时,它也可以触发更多的分析需求,分析师可以通过BI系统获取更多的灵感,提供更多更、更好的数据分析结果。
综述,数据分析=分析的思想+BI技术。
其中,分析的思想占70%,BI技术占30%,足见分析思想在数据分析过程中的重要性,而技术则是提供更好的支撑。
我认为BI的真正含义是“利用各种不同的应用程序和技术,收集、存储、分析、共享数据并提供数据访问,从而帮助企业用户更容易的、更快速的获取更丰富的数据,以做出更好的业务决策。
”
- BI的架构体系
(1) 老板,你要这么多数据做什么?
假如你是一个商品零售公司的老板。
你的公司很先进,已经实现了业务信息化,每一笔销售单据都保存在数据库中,日积月累,已经保存了十余年的销售数据,上亿条销售记录。
这时如果我问你:“反正三年前的数据留着也白白占地方,耗费存储成本,索性把它们全删掉吧,这样不用买硬盘就能容纳新数据,如何?”你会从容的接受我这个建议吗?那么老板,你要这么多数据做什么?是的,和我一样,你也已经隐约认识到数据的价值,这就是我们割舍不下历史数据的原因,就像任何一个现代化企业,甚至就像任何一个传统的票号,如百年老店般虔诚地保存着古老的数据,因为我们有直觉,我们的直觉告诉我们:这些数据有用!但这仅仅是一种直觉,到底该怎样把这些占据大量存储空间的数据的价值挖掘出来,让这些数据从成本的消耗者变成利润的促进者?这中间似乎缺少了某些环节。
(2) Business Intelligence - 连接数据与决策者
BI(Business Intelligence) 是一种运用了数据仓库、在线分析和数据挖掘等技术来处理和分
析数据的崭新技术,目的是为企业决策者提供决策支持。
BI 是一个工厂:
>> BI 的原材料是海量的数据;
>> BI 的产品是由数据加工而来的信息和知识;
>> BI 将这些产品推送给企业决策者;
>> 企业决策者利用BI 工厂的产品做出正确的决策,促进企业的发展;
这就是Business Intelligence,即商业智能——连接数据与决策者,变数据为价值。
BI 应用的两大类别是信息类应用和知识类应用,其特征如下表所示:
信息类BI 应用
指由原始数据加工而来的数据查询、报表图表、多维分析、数据可视化等应用,这些应用的共同特点是:将数据转换为决策者可接受的信息,展现给决策者。
例如将银行交易数据加工为银行财务报表。
仅负责提供信息,而不会主动去分析数据。
例如,银行财务报表工具没有深入分析客户流失和银行利率之间关系的能力,而只能靠决策者结合信息,通过人的思考,得出知识。
知识类BI 应用
指通过数据挖掘技术和工具,将数据中隐含的关系发掘出来,利用计算机直接将数据加工为知识,展现给决策者。
会主动去数据中探查数据关联关系,发掘那些决策者人脑无法迅速发掘的隐含知识,并将其以可理解的形式呈现在决策者面前。
(3) BI 初级应用模式概览——数据查询(Querying)
数据查询是最简单的BI 应用,属于MIS 系统遗产,虽然出身比较老土,但是目前仍然是决策者获取信息的最直接的方法。
如今,数据查询界面已经彻底摆脱了传统SQL 命令行,大量的下拉菜单、输入框、列表框等元素甚至是鼠标拖拽界面将后台干苦力的SQL 语句包
装成一个妖艳无比的数据获取系统,而本质仍然没有离开数据查询的几大要素:>> 查什么
>> 从哪儿查
>> 过滤条件
>> 展示方法
(4) BI 初级应用模式概览——报表(Reporting)
报表是国内最热衷的BI 应用之一,这与报表在我国企事业单位中的历史地位是分不开的。
我国的报表以其格式诡异、数据集中、规则古怪等特征著称于世,曾经让无数国外报表工具和BI 工具捶胸顿足。
报表的两大要素是数据和格式,如果没有格式,则报表应用几乎等同于数据查询应用。
可以说,报表就是将查询出来的数据按照指定的格式展现。
报表应用包含了报表展现和报表制作两大模块。
报表展现就是让决策者看到报表,并允许决策者通过条件定义来选择报表数据,例如选择报表年度、部门、机构等等;报表制作面向报表的开发人员,其格式定义灵活性、数据映射灵活性、计算方法的丰富程度等均影响了BI 报表应用的质量。
需要澄清一下的是,Microsoft Excel 不算是一个BI 报表工具,因为Excel 没有连接数据源的能力,充其量是一个Spread Sheet。
但是Excel 强大的格式功能让报表制作人员竟折腰,乃至到后来,几乎所有BI 厂商都提供了面向Microsoft Excel 的插件,通过插件,Excel 可以连接到BI 的数据源上,摇身一变为BI 报表工具,丑小鸭变天鹅。
(5) BI 高级应用模式概览——在线分析(OnLine Analytical Processing,OLAP)
OLAP ,即联机分析处理,是BI 带来的一种全新的数据观察方式,是BI 的核心技术之一。
我们知道,数据在数据库中是以数据表来存储的,如下所示的一张数据表中:
销售时间销售地点产品销售数量销售金额
2004-11-1 北京肥皂10 342.00
2004-11-6 广州桔子30 123.00
2004-12-3 北京香蕉20 12.00
2004-12-13 上海桔子50 189.00
2005-1-8 北京肥皂10 342.00
2005-1-23 上海牙刷30 150.00
2005-2-4 广州牙刷20 100.00
决策者希望知道的往往是分布、占比、趋势之类的宏观信息,比如下列问题:>> 北京地区的销售数量虽时间的变化趋势?
>> 哪种产品在2005 年销售比2004 年销售增幅最大?
>> 2004 年各产品销售额的比例分布?……
面对这种需求,必须用SQL 语句进行大量的SUM 操作,每得出一个问题的结果,就需要SQL SUM。
面对上面的7 条记录,我们可以很容易的得出结果,但是当我们面对百万级甚至亿级的记录条数时,例如移动公司通话数据,每次SQL SUM 都需要消耗大量的时间来计算,决策者经常是在第一天提出分析需求,等到第二天才能拿到计算结果,这种分析方式是“脱机分析”,效率很低。
为了提高数据分析效率,OLAP 技术彻底打破以记录为单位的数据浏览方式,而将数据分离为“维度(Dimension)”和“度量(Measure)”:>> 维度是观察数据的角度,例如上面示例中的“销售时间”、“销售地点”、
“产品”;
>> 度量是具体考察的数量值,例如上例中的“销售数量”和“销售金额”;
这样一来,我们就可以将上面这张平版的数据列表转换为一个拥有三个维度的数据立方体( Cube ):而探查数据的过程,就是在这个立方体中确定一个点,然后观察这个点的度量值:当然,数据立方体并不局限于三个维度,这里采用三个维度来说明问题,只是因为通过图形
可以表现出来的极限就是三个维度。
维度可以划分层次,例如时间上可以从日向上汇总为月和年,产品可以向上汇总为食品和日用品,地点可以向上汇总为华北和华南,用户可以沿着维度的层次任意向下钻取(Drill Down)和向上汇总(Roll Up):通过这种方式,我们就可以摆脱SQL SUM 对速度的制约,快速定位符合不同条件的细节数据,更可以迅速得到某一层次的汇总数据。
OLAP 技术为决策者提供了多角度、多层次、高效率的数据探查方式,决策者的思维不再被固定的下拉菜单、查询条件所束缚,而是由决策者的思维带领数据的获取,任意组合分析角度和分析目标,这种打破传统的互动性分析和高效率使OLAP 成为BI 系统的核心应用。
(6) BI 应用模式概览——数据可视化(Visualization)
数据可视化应用致力于将信息以尽可能多的形式展现出来,目的是使决策者通过图形这种直观的表现方式迅速获得信息中蕴藏的知识,如趋势、分布、密度等要素。
值得一提的是,以MapInfo 公司为代表的GIS 软件商,目前也正在努力结合BI 应用。
MapInfo 率先提出了Location Intelligence 概念,依托于地理信息系统,展现各地区的属性值,例如人口密度,工业产值,人均医院数量等等,这种可视化应用部分与BI 数据可视化应用重合,并形成有力补充,有时可以在一个项目中互相搭配。
(7) BI 应用模式概览——数据挖掘(Data Mining)
数据挖掘是最高级的BI 应用,因为它能代替部分人脑功能。
数据挖掘隶属于知识发现(Knowledge Discovery)在结构化数据中的特例。
数据挖掘的目的是通过计算机对大量数据进行分析,找出数据之间潜藏的规律和知识,并以可理解的方式展现给用户。
数据挖掘的三大要素是:
>> 技术和算法:目前常用的数据挖掘技术包括——自动类别侦测(Auto Cluster Detection)、决策树(Decision Trees)、神经网络(Neural Networks)。
>> 数据:由于数据挖掘是一个在已知中挖掘未知的过程,因此需要大量数据的积累作为数据源,数据积累量越大,数据挖掘工具就会有更多的参考点。
>> 预测模型:也就是将需要进行数据挖掘的业务逻辑由计算机模拟出来,这也是数据挖掘的主要任务。
与信息类BI 应用相比,以数据挖掘为代表的知识类BI 应用目前还不成熟,但是从另一个角度来看,数据挖掘可发展的空间还很大,是今后BI 发展的重点方向,SAS,SPSS 等知识类BI 应用厂商形象逐渐高大,悄悄占据了新的利润增长点。
(8) BI 底座——数据仓库技术(Data Warehouse)
让我们先看看数据仓库的官方定义:
数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。
以上是数据仓库的官方定义。
“操作型数据库”如银行里记账系统数据库,每一次业务操作(比如你存了5元钱),都会立刻记录到这个数据库中,长此以往,满肚子积累的都是零碎的数据,这种干脏活累活还不得闲的数据库就叫“操作型数据库”,面向的是业务操作。
“数据仓库”用于决策支持,面向分析型数据处理,不同于操作型数据库;另外,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。
操作型数据库、数据仓库与数据库之间的关系,就像C:、D:与硬盘之间的关系一样,数据库是硬盘,操作型数据库是C:,数据仓库是D:,操作型数据库与数据仓库都存储在数据库里,只不过表结构的设计模式和用途不同。
那么为什么要在操作型数据库和BI 之间加这么一层“数据仓库”呢?一是因为操作型数据库日夜奔忙,以快速响应业务为主要目标,根本。