数据挖掘技术及应用(我见过的最全面的理论+最佳案例组合)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据库技术 统计学wk.baidu.com
机器学习
数据挖掘
可视化
人工智能
高性能计算
KDD已经成为人工智能研究热点
目前,关于KDD的研究工作已经被众多领 域所关注,如过程控制、信息管理、商业、 医疗、金融等领域。 作为大规模数据库中先进的数据分析工具, KDD的研究已经成为数据库及人工智能领 域研究的一个热点。
B. 数据挖掘的应用
KDD的出现
随后,在1991年、1993年和1994年都举行 KDD专题讨论会,汇集来自各个领域的研究 人员和应用开发者,集中讨论数据统计、 海量数据分析算法、知识表示、知识运用 等问题。最初,数据挖掘是作为KDD中利用 算法处理数据的一个步骤,其后逐渐演变 成KDD的同义词。
数据挖掘是多学科的产物
数据挖掘技术及应用
最全面理论+最佳实践
目录
理论:南航李静教授 实践:广东移动案例
(仅供学习交流,如需引用,请注明以上来源单位,谢谢!)
内容提纲
1. 概述 2. 数据仓库与OLAP技术
3. 数据挖掘技术
4. 数据挖掘在电信领域的应用
5.
数据挖掘工具
6. 数据挖掘实例
内容提纲
数据挖掘介绍 数据挖掘系统 数据挖掘算法 国际会议和期刊 课后研读的论文 主要参考资料
从数据库中发现知识(Knowledge Discovery from/in Database, KDD) 知识提取(Knowledge extract) 数据 /模式分析(Data / Model analysis )。 数据考古 数据捕捞
技术上的定义 商业角度的定义
技术上的定义
数据挖掘(Data
Mining)就是从大量 的、不完全的、有噪声的、模糊的、 随机的实际应用数据中,提取隐含在 其中的、人们事先不知道的、但又是 潜在有用的信息和知识的过程。
商业角度的定义
数据挖掘是一种新的商业信息处理
技术,其主要特点是对商业数据库 中的大量业务数据进行抽取、转换、 分析和其他模型化处理,从中提取 辅助商业决策的关键性数据。
数据挖掘的定义(续)
人们给数据挖掘下过很多定义,内涵也各 不相同,目前公认的定义是由Fayyad等人提 出的。 所谓基于数据库的知识发现(KDD)是指 从大量数据中提取有效的、新颖的、潜在 有用的、最终可被理解的模式的非平凡过 程。
数据挖掘与统计学
数据挖掘分析海量数据 许多数据库都不适合统计学分析需要
D. 数据挖掘基本内容
数据挖掘的定义 数据挖掘的数据来源 数据挖掘的过程 数据挖掘的功能 数据挖掘的过程模型 数据挖掘的分类 数据挖掘的主要问题
1. 数据挖掘的定义
数据挖掘是从大量数据中提取或“挖掘”知识。 与数据挖掘类似但稍有不同含义的术语有:
数据库中存储的数据量急剧膨胀 二十世纪末以来,全球信息量以惊人的速度急剧增长—据估计, 每二十个月将增加一倍。许多组织机构的IT系统中都收集了大量的数 据(信息)。 目前的数据库系统虽然可以高效地实现数据的录入、查询、统计等功 能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测 未来的发展趋势。为了充分利用现有信息资源,从海量数据中找出隐 藏的知识,数据挖掘技术应运而生并显示出强大的生命力。 产生了一个新的研究方向:基于数据库的知识发现(Knowledge Discovery in Database),以及相应的数据挖掘(Data Mining)理论和 技术的研究
在各种层次上提供 回溯的、动态的数 据信息
数据挖掘 (正在流行)
“下个月波士顿的 销售会怎么样?为 什么?”
高级算法 多处理器计算机 海量数据库
提供预测性的信息
KDD的出现
数据挖掘是八十年代投资AI研究项目失败后,AI 转入实际应用时提出的。它是一个新兴的,面向 商业应用的AI研究。 基于数据库的知识发现(KDD)一词首次出现在 1989年举行的第十一届AAAI学术会议上。 1995年在加拿大蒙特利尔召开了第一届KDD国际 学术会议(KDD‘95)。 由Kluwers Publishers出版,1997年创刊的 《Knowledge Discovery and Data Mining》是该领 域中的第一本学术刊物。
5. 数据挖掘与人工智能、统计学
数据挖掘利用了人工智能和统计分析的进步所带来的好处。 这两门学科都致力于模式发现和预测。 数据挖掘不是为了替代传统的统计分析技术。相反,它是 统计分析方法学的延伸和扩展。大多数的统计分析技术都 基于完善的数学理论和高超的技巧,预测的准确度还是令 人满意的,但对使用者的要求很高。而随着计算机计算能 力的不断增强,我们有可能利用计算机强大的计算能力只 通过相对简单和固定的方法完成同样的功能。一些新兴的 技术同样在知识发现领域取得了很好的效果,如神经元网 络和决策树,在足够多的数据和计算能力下,它们几乎不 需人工干预就能自动完成许多有价值的功能。 数据挖掘就是充分利用了统计学和人工智能技术的应用程 序,并把这些高深复杂的技术封装起来,使人们不用自己 掌握这些技术也能完成同样的功能,并且更专注于自己所 要解决的问题。
数据挖掘在银行领域的应用
美国银行家协会(ABA)预测数据仓库和数据挖 掘技术在美国商业银行的应用增长率是14.9%。 分析客户使用分销渠道的情况和分销渠道的容 量 ;建立利润评测模型;客户关系优化;风险 控制等
Mellon银行使用数据挖掘软件提高销售和定 价金融产品的精确度,如家庭普通贷款。 美国Firstar银行使用数据挖掘工具,根据客 户的消费模式预测何时为客户提供何种产 品。
数据访问 (80年代)
“在新英格兰的分 部去年三月的销售 额是多少?”
关系数据库(RDBMS) 结构化查询语言(SQL) ODBC
在记录级提供历史 性的、动态数据信 息
数据仓库 决策支持 (90年代)
“在新英格兰的分 部去年三月的销售 额是多少?波士顿 据此可得出什么结 论?”
联机分析处理(OLAP) 多维数据库 数据仓库
随着大数据库的建立和海量数据的不断涌现,必 然提出对强有力的数据分析工具的迫切需求。但 现实情况往往是“数据十分丰富,而信息相当贫 乏。” 快速增长的海量数据收集、存放在大型数据库中, 没有强有力的工具,理解它们已经远远超出人的 能力。因此,有人称之为:“数据坟墓”。 由于专家系统工具过分依赖用户或专家人工地将 知识输入知识库中,而且分析结果往往带有偏差 和错误,再加上耗时、费用高,故不可行。
2. 数据挖掘和数据仓库
大部分情况下,数据挖掘都要先把数据从数据仓 库中拿到数据挖掘库或数据集市中。从数据仓库 中直接得到进行数据挖掘的数据有许多好处。数 据仓库的数据清理和数据挖掘的数据清理差不多, 如果数据在导入数据仓库时已经清理过,那很可 能在做数据挖掘时就没必要再清理一次了,而且 所有的数据不一致的问题都已经解决了。
数据挖掘工具
数据矿山
信息金块
2. 网络之后的下一个技术热点
大量信息在给人们带来方便的同时也带来 了一大堆问题:
信息过量,难以消化 信息真假难以辨识 信息安全难以保证
信息形式不一致,难以统一处理
3. 数据爆炸但知识贫乏
随着数据库技术的迅速发展以及数据库管 理系统的广泛应用,人们积累的数据越来 越多。目前的数据库系统可以高效地实现 数据的录入、查询、统计等功能,但无法 发现数据中存在的关系和规则,无法根据 现有的数据预测未来的发展趋势。缺乏挖 掘数据背后隐藏的知识的手段,导致了 “数据爆炸但知识贫乏”的现象。
银行
汇丰银行需要对不断增长的 客户群进行分类,对每种产 品找出最有价值的客户。。 。。。。
营销费用减少了30%
C. 基本概念区分
数据挖掘与知识发现 数据挖掘和数据仓库 数据挖掘与信息处理 数据挖掘与联机分析 数据挖掘与人工智能、统计学
1. 数据挖掘和知识发现
数据挖掘(Data Mining)从大量的、不完全的、 有噪声的、模糊的、随机的实际应用数据中,提 取隐含在其中的、人们事先不知道的、但又是潜 在有用的信息和知识的过程。与之相似的概念称 为知识发现。 知识发现(Knowledge Discovery in Databases) 是用数据库管理系统来存储数据,用机器学习的 方法来分析数据,挖掘大量数据背后隐藏的知识, 称为数据库中的知识发现。
使直邮的回应率提高了100%
零售商店
GUS日用品零售商店需要准确 的预测未来的商品销售量,降 低库存成本。。。。。。
通过数据挖掘的方法使库存成本比原 来减少了3.8%
税务局
美国国内税务局需要提高对 纳税人的服务水平。。。。 。。
合理安排税务官的工作,为纳税人提供 更迅捷、更准确的服务
银行
金融事务需要搜集和处理大量的数据,由 于银行在金融领域的地位、工作性质、业 务特点以及激烈的市场竞争决定了它对信 息化、电子化比其它领域有更迫切的要求。 利用数据挖掘技术可以帮助银行产品开发 部门描述客户以往的需求趋势,并预测未 来。美国商业银行是发达国家商业银行的 典范,许多地方值得我国学习和借鉴。
数据源
数据仓库
各分公司 数据集市
分 析 数据集市
数据挖掘 数据集市
数据挖掘库可能是数据仓库的一个逻辑上的子集,而 不一定非得是物理上单独的数据库。但如果数据仓库的计 算资源已经很紧张,那么最好还是建立一个单独的数据挖 掘库。 当然为了数据挖掘也不必非得建立一个数据仓库,数 据仓库不是必需的。建立一个巨大的数据仓库,把各个不 同源的数据统一在一起,解决所有的数据冲突问题,然后 把所有的数据导到一个数据仓库内,是一项巨大的工程, 可能要用几年的时间花上百万的钱才能完成。只是为了数 据挖掘,你可以把一个或几个事务数据库导到一个只读的 数据库中,就把它当作数据集市,然后在它上面进行数据 挖掘。
I.
A. B.
数据挖掘介绍
数据挖掘的由来 数据挖掘的应用 基本概念区分 数据挖掘基本内容 数据挖掘基本特征 数据挖掘的其他主题
C.
D. E. F.
A. 数据挖掘的由来
背景 网络之后的下一个技术热点
数据爆炸但知识贫乏
从商业数据到商业信息的进化
1. 背景
人类已进入一个崭新的信息时代
电信 :流失 银行:聚类(细分), 交叉销售 百货公司/超市:购物篮分析 (关联规则) 保险:细分,交叉销售,流失(原因分析) 信用卡: 欺诈探测,细分 电子商务: 网站日志分析 税务部门:偷漏税行为探测 警察机关:犯罪行为分析 医学: 医疗保健
电信
英国电信需要发布一种新的产品 ,需要通过直邮的方式向客户推 荐这种产品。。。。。。
数据源 数据挖掘库
3. 数据挖掘与信息处理
信息处理 信息处理基于查询,可以发现有用的信息。 但是这种查询的回答反映的是直接存放在 数据库中的信息。它们不反映复杂的模式, 或隐藏在数据库中的规律。
4. 数据挖掘与联机分析
OLAP分析过程在本质上是一个演绎推理的过程,是决策 支持领域的一部分。传统的查询和报表工具是告诉你数据 库中都有什么(what happened),OLAP则更进一步告诉 你下一步会怎么样(What next)和如果采取这样的措施又 会怎么样(What if)。用户首先建立一个假设,然后用 OLAP检索数据库来验证这个假设是否正确。 数据挖掘在本质上是一个归纳推理的过程,与OLAP不同 的地方是,数据挖掘不是用于验证某个假定的模式(模型) 的正确性,而是在数据库中自己寻找模型。 数据挖掘和OLAP具有一定的互补性。在利用数据挖掘出 来的结论采取行动之前,OLAP工具能起辅助决策作用。 而且在知识发现的早期阶段,OLAP工具用来探索数据, 找到哪些是对一个问题比较重要的变量,发现异常数据和 互相影响的变量。这都有助于更好地理解数据,加快知识 发现的过程。
4. 从商业数据到商业信息的进化
进化阶段 数据搜集 (60年代) 商业问题 “过去五年中我的 总收入是多少?” 支持技术 产品厂家 IBM CDC Oracle Sybase Informix IBM Microsoft Pilot Comshare Arbor Cognos Microstrategy Pilot Lockheed IBM SGI 其他初创公司 产品特点 提供历史性的、静 态的数据信息 计算机、磁带和磁盘
机器学习
数据挖掘
可视化
人工智能
高性能计算
KDD已经成为人工智能研究热点
目前,关于KDD的研究工作已经被众多领 域所关注,如过程控制、信息管理、商业、 医疗、金融等领域。 作为大规模数据库中先进的数据分析工具, KDD的研究已经成为数据库及人工智能领 域研究的一个热点。
B. 数据挖掘的应用
KDD的出现
随后,在1991年、1993年和1994年都举行 KDD专题讨论会,汇集来自各个领域的研究 人员和应用开发者,集中讨论数据统计、 海量数据分析算法、知识表示、知识运用 等问题。最初,数据挖掘是作为KDD中利用 算法处理数据的一个步骤,其后逐渐演变 成KDD的同义词。
数据挖掘是多学科的产物
数据挖掘技术及应用
最全面理论+最佳实践
目录
理论:南航李静教授 实践:广东移动案例
(仅供学习交流,如需引用,请注明以上来源单位,谢谢!)
内容提纲
1. 概述 2. 数据仓库与OLAP技术
3. 数据挖掘技术
4. 数据挖掘在电信领域的应用
5.
数据挖掘工具
6. 数据挖掘实例
内容提纲
数据挖掘介绍 数据挖掘系统 数据挖掘算法 国际会议和期刊 课后研读的论文 主要参考资料
从数据库中发现知识(Knowledge Discovery from/in Database, KDD) 知识提取(Knowledge extract) 数据 /模式分析(Data / Model analysis )。 数据考古 数据捕捞
技术上的定义 商业角度的定义
技术上的定义
数据挖掘(Data
Mining)就是从大量 的、不完全的、有噪声的、模糊的、 随机的实际应用数据中,提取隐含在 其中的、人们事先不知道的、但又是 潜在有用的信息和知识的过程。
商业角度的定义
数据挖掘是一种新的商业信息处理
技术,其主要特点是对商业数据库 中的大量业务数据进行抽取、转换、 分析和其他模型化处理,从中提取 辅助商业决策的关键性数据。
数据挖掘的定义(续)
人们给数据挖掘下过很多定义,内涵也各 不相同,目前公认的定义是由Fayyad等人提 出的。 所谓基于数据库的知识发现(KDD)是指 从大量数据中提取有效的、新颖的、潜在 有用的、最终可被理解的模式的非平凡过 程。
数据挖掘与统计学
数据挖掘分析海量数据 许多数据库都不适合统计学分析需要
D. 数据挖掘基本内容
数据挖掘的定义 数据挖掘的数据来源 数据挖掘的过程 数据挖掘的功能 数据挖掘的过程模型 数据挖掘的分类 数据挖掘的主要问题
1. 数据挖掘的定义
数据挖掘是从大量数据中提取或“挖掘”知识。 与数据挖掘类似但稍有不同含义的术语有:
数据库中存储的数据量急剧膨胀 二十世纪末以来,全球信息量以惊人的速度急剧增长—据估计, 每二十个月将增加一倍。许多组织机构的IT系统中都收集了大量的数 据(信息)。 目前的数据库系统虽然可以高效地实现数据的录入、查询、统计等功 能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测 未来的发展趋势。为了充分利用现有信息资源,从海量数据中找出隐 藏的知识,数据挖掘技术应运而生并显示出强大的生命力。 产生了一个新的研究方向:基于数据库的知识发现(Knowledge Discovery in Database),以及相应的数据挖掘(Data Mining)理论和 技术的研究
在各种层次上提供 回溯的、动态的数 据信息
数据挖掘 (正在流行)
“下个月波士顿的 销售会怎么样?为 什么?”
高级算法 多处理器计算机 海量数据库
提供预测性的信息
KDD的出现
数据挖掘是八十年代投资AI研究项目失败后,AI 转入实际应用时提出的。它是一个新兴的,面向 商业应用的AI研究。 基于数据库的知识发现(KDD)一词首次出现在 1989年举行的第十一届AAAI学术会议上。 1995年在加拿大蒙特利尔召开了第一届KDD国际 学术会议(KDD‘95)。 由Kluwers Publishers出版,1997年创刊的 《Knowledge Discovery and Data Mining》是该领 域中的第一本学术刊物。
5. 数据挖掘与人工智能、统计学
数据挖掘利用了人工智能和统计分析的进步所带来的好处。 这两门学科都致力于模式发现和预测。 数据挖掘不是为了替代传统的统计分析技术。相反,它是 统计分析方法学的延伸和扩展。大多数的统计分析技术都 基于完善的数学理论和高超的技巧,预测的准确度还是令 人满意的,但对使用者的要求很高。而随着计算机计算能 力的不断增强,我们有可能利用计算机强大的计算能力只 通过相对简单和固定的方法完成同样的功能。一些新兴的 技术同样在知识发现领域取得了很好的效果,如神经元网 络和决策树,在足够多的数据和计算能力下,它们几乎不 需人工干预就能自动完成许多有价值的功能。 数据挖掘就是充分利用了统计学和人工智能技术的应用程 序,并把这些高深复杂的技术封装起来,使人们不用自己 掌握这些技术也能完成同样的功能,并且更专注于自己所 要解决的问题。
数据挖掘在银行领域的应用
美国银行家协会(ABA)预测数据仓库和数据挖 掘技术在美国商业银行的应用增长率是14.9%。 分析客户使用分销渠道的情况和分销渠道的容 量 ;建立利润评测模型;客户关系优化;风险 控制等
Mellon银行使用数据挖掘软件提高销售和定 价金融产品的精确度,如家庭普通贷款。 美国Firstar银行使用数据挖掘工具,根据客 户的消费模式预测何时为客户提供何种产 品。
数据访问 (80年代)
“在新英格兰的分 部去年三月的销售 额是多少?”
关系数据库(RDBMS) 结构化查询语言(SQL) ODBC
在记录级提供历史 性的、动态数据信 息
数据仓库 决策支持 (90年代)
“在新英格兰的分 部去年三月的销售 额是多少?波士顿 据此可得出什么结 论?”
联机分析处理(OLAP) 多维数据库 数据仓库
随着大数据库的建立和海量数据的不断涌现,必 然提出对强有力的数据分析工具的迫切需求。但 现实情况往往是“数据十分丰富,而信息相当贫 乏。” 快速增长的海量数据收集、存放在大型数据库中, 没有强有力的工具,理解它们已经远远超出人的 能力。因此,有人称之为:“数据坟墓”。 由于专家系统工具过分依赖用户或专家人工地将 知识输入知识库中,而且分析结果往往带有偏差 和错误,再加上耗时、费用高,故不可行。
2. 数据挖掘和数据仓库
大部分情况下,数据挖掘都要先把数据从数据仓 库中拿到数据挖掘库或数据集市中。从数据仓库 中直接得到进行数据挖掘的数据有许多好处。数 据仓库的数据清理和数据挖掘的数据清理差不多, 如果数据在导入数据仓库时已经清理过,那很可 能在做数据挖掘时就没必要再清理一次了,而且 所有的数据不一致的问题都已经解决了。
数据挖掘工具
数据矿山
信息金块
2. 网络之后的下一个技术热点
大量信息在给人们带来方便的同时也带来 了一大堆问题:
信息过量,难以消化 信息真假难以辨识 信息安全难以保证
信息形式不一致,难以统一处理
3. 数据爆炸但知识贫乏
随着数据库技术的迅速发展以及数据库管 理系统的广泛应用,人们积累的数据越来 越多。目前的数据库系统可以高效地实现 数据的录入、查询、统计等功能,但无法 发现数据中存在的关系和规则,无法根据 现有的数据预测未来的发展趋势。缺乏挖 掘数据背后隐藏的知识的手段,导致了 “数据爆炸但知识贫乏”的现象。
银行
汇丰银行需要对不断增长的 客户群进行分类,对每种产 品找出最有价值的客户。。 。。。。
营销费用减少了30%
C. 基本概念区分
数据挖掘与知识发现 数据挖掘和数据仓库 数据挖掘与信息处理 数据挖掘与联机分析 数据挖掘与人工智能、统计学
1. 数据挖掘和知识发现
数据挖掘(Data Mining)从大量的、不完全的、 有噪声的、模糊的、随机的实际应用数据中,提 取隐含在其中的、人们事先不知道的、但又是潜 在有用的信息和知识的过程。与之相似的概念称 为知识发现。 知识发现(Knowledge Discovery in Databases) 是用数据库管理系统来存储数据,用机器学习的 方法来分析数据,挖掘大量数据背后隐藏的知识, 称为数据库中的知识发现。
使直邮的回应率提高了100%
零售商店
GUS日用品零售商店需要准确 的预测未来的商品销售量,降 低库存成本。。。。。。
通过数据挖掘的方法使库存成本比原 来减少了3.8%
税务局
美国国内税务局需要提高对 纳税人的服务水平。。。。 。。
合理安排税务官的工作,为纳税人提供 更迅捷、更准确的服务
银行
金融事务需要搜集和处理大量的数据,由 于银行在金融领域的地位、工作性质、业 务特点以及激烈的市场竞争决定了它对信 息化、电子化比其它领域有更迫切的要求。 利用数据挖掘技术可以帮助银行产品开发 部门描述客户以往的需求趋势,并预测未 来。美国商业银行是发达国家商业银行的 典范,许多地方值得我国学习和借鉴。
数据源
数据仓库
各分公司 数据集市
分 析 数据集市
数据挖掘 数据集市
数据挖掘库可能是数据仓库的一个逻辑上的子集,而 不一定非得是物理上单独的数据库。但如果数据仓库的计 算资源已经很紧张,那么最好还是建立一个单独的数据挖 掘库。 当然为了数据挖掘也不必非得建立一个数据仓库,数 据仓库不是必需的。建立一个巨大的数据仓库,把各个不 同源的数据统一在一起,解决所有的数据冲突问题,然后 把所有的数据导到一个数据仓库内,是一项巨大的工程, 可能要用几年的时间花上百万的钱才能完成。只是为了数 据挖掘,你可以把一个或几个事务数据库导到一个只读的 数据库中,就把它当作数据集市,然后在它上面进行数据 挖掘。
I.
A. B.
数据挖掘介绍
数据挖掘的由来 数据挖掘的应用 基本概念区分 数据挖掘基本内容 数据挖掘基本特征 数据挖掘的其他主题
C.
D. E. F.
A. 数据挖掘的由来
背景 网络之后的下一个技术热点
数据爆炸但知识贫乏
从商业数据到商业信息的进化
1. 背景
人类已进入一个崭新的信息时代
电信 :流失 银行:聚类(细分), 交叉销售 百货公司/超市:购物篮分析 (关联规则) 保险:细分,交叉销售,流失(原因分析) 信用卡: 欺诈探测,细分 电子商务: 网站日志分析 税务部门:偷漏税行为探测 警察机关:犯罪行为分析 医学: 医疗保健
电信
英国电信需要发布一种新的产品 ,需要通过直邮的方式向客户推 荐这种产品。。。。。。
数据源 数据挖掘库
3. 数据挖掘与信息处理
信息处理 信息处理基于查询,可以发现有用的信息。 但是这种查询的回答反映的是直接存放在 数据库中的信息。它们不反映复杂的模式, 或隐藏在数据库中的规律。
4. 数据挖掘与联机分析
OLAP分析过程在本质上是一个演绎推理的过程,是决策 支持领域的一部分。传统的查询和报表工具是告诉你数据 库中都有什么(what happened),OLAP则更进一步告诉 你下一步会怎么样(What next)和如果采取这样的措施又 会怎么样(What if)。用户首先建立一个假设,然后用 OLAP检索数据库来验证这个假设是否正确。 数据挖掘在本质上是一个归纳推理的过程,与OLAP不同 的地方是,数据挖掘不是用于验证某个假定的模式(模型) 的正确性,而是在数据库中自己寻找模型。 数据挖掘和OLAP具有一定的互补性。在利用数据挖掘出 来的结论采取行动之前,OLAP工具能起辅助决策作用。 而且在知识发现的早期阶段,OLAP工具用来探索数据, 找到哪些是对一个问题比较重要的变量,发现异常数据和 互相影响的变量。这都有助于更好地理解数据,加快知识 发现的过程。
4. 从商业数据到商业信息的进化
进化阶段 数据搜集 (60年代) 商业问题 “过去五年中我的 总收入是多少?” 支持技术 产品厂家 IBM CDC Oracle Sybase Informix IBM Microsoft Pilot Comshare Arbor Cognos Microstrategy Pilot Lockheed IBM SGI 其他初创公司 产品特点 提供历史性的、静 态的数据信息 计算机、磁带和磁盘