数据挖掘及商务智能总结
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第一章绪论
什么是数据挖掘,什么是商业智能
从大型数据库中提取有趣的(非平凡的、蕴涵的、先前未知的且是潜在有用的)信息或模式。
商业智能是要在必须的时间段内,把正确有用的信息传递给适当的决策者,以便为有效决策提供信息支持。
分类算法的评价标准
召回率recall =系统检索到的相关文件数/相关文件总数
准确率precision(查准率)= 系统检索到的相关文件数/系统返回的文件总数第二章数据仓库
什么是数据仓库
是运用新信息科技所提供的大量数据存储、分析能力,将以往无法深入整理分析的客户数据建立成为一个强大的顾客关系管理系统,以协助企业制定精准的运营决策。
数据仓库的基本特征
1面向主题2整合性 3长期性 4稳定性
第三章数据挖掘简介
数据挖掘的一般功能
1分类2估计3 预测4关联分类5聚类
数据挖掘的完整步骤
1理解数据与数据所代表的含义
2获取相关知识与技术
3整合与检查数据
4取出错误或不一致的数据
5建模与假设
6数据挖掘运行
7测试与验证所挖掘的数据
8解释与使用数据
数据挖掘建模的标准
CRISP-CM
跨行业数据挖掘的标准化过程
第四章数据挖掘中的主要方法
基于SQL Server 2005 SSAS的十种数据挖掘算法是什么
1.决策树
2.聚类
3.Bayes分类
4.有序规则
5. 关联规则
6.神经网络
7.线性回归
8. Logistic回归
9. 时间序列10. 文本挖掘
第五章数据挖掘与相关领域的关系
数据挖掘与机器学习、统计分析之间的区别与联系(再看看书整理下)
32页
处理大量实际数据更具优势,并且使用数据挖掘工具无需具备专业的统计学背景。
数据分析的需求和趋势已经被许多大型数据库所实现,并且可以进行企业级别的数据挖掘应用。
相对于重视理论和方法的统计学而言,数据挖掘更强调应用,毕竟数据挖掘目的
是方便企业用户的使用。
第六章SQL Server 2005中的商业智能
商业智能(BI)的核心技术是什么
数据仓库和数据挖掘
第七章SQL Server 2005中的数据挖掘
Microsoft SQL Server Management Studio提供了两个用于管理数据库项目(如脚本、查询、数据连接和文件)的容器是什么?
1项目 2解决方案
第八章SQL Server 2005的分析服务
什么是UDM?
统一维度模型
第九章SQL Server 2005的报表服务
什么是报表服务,其功能
是一个基于服务器的完整平台,可创建、管理和交付传统报表和交互式报表。
1制作报表2管理报表3提交报表
第十章决策树模型
什么是决策树?
是数据挖掘的一项主要分析工具。
(决策树能从一个或多个预测变量中,针对类别因变量的选项,预测出个例的趋势变化关系等。也可以由结果来反推原因。)
SQL Server 2005决策树算法步骤
第十一章贝叶斯分类
什么是简单贝叶斯分类器
是简单又使用的分类方法。
SQL Server 2005贝叶斯分类算法步骤
第十二章关联规则
什么是关联规则可解决哪些问题?
是分析发现数据库中不同变量或个体间(例如商品间的关系及年龄与购买行为…)之间关系程度,并用这些规则找出顾客购买行为模式,如购买了台式计算机外设产品(打印机、音箱、硬盘…)的相关影响。发现这样的规则可以应用于商品货架摆设、库存安排以及根据购买行为模式对客户进行分类。
兴趣度指标的意义
当兴趣度指标大于1的时候,这条规则就是比较好的;当兴趣度小于1的时候,这条规则就是没有很大意义的。兴趣度越大,规则的实际意义就越好。
SQL Server 2005关联规则算法步骤
第十三章聚类分析
什么是聚类分析
聚类分析的思想与判断分析类似,同样是由样本分组,寻找到多维数据点中的差异之处。不同的地方有两点:(1)聚类分析的分类方式并不需要预先指定一个指针变量;(2)聚类分析属于一种非参数分析方法,所以并没有非常严谨的数理依据,也无需假设总体为正态分布。
在聚类方法中定量地描述研究对象之间的相近程度的指标
两个 1相似系数 2 距离(用的比较多)
聚类分析中“类”的具有什么特征(判断)
–聚类所说的类不是事先给定的,而是根据数据的相似性和距离来划分
–聚类的数目和结构都没有事先假定
聚类分析方法的分类
1基于层次的方法2基于划分的方法
k-means(K均值聚类)属于哪种聚类
划分聚类的方法
欧式距离的计算
聚类的原则是最大化类内的相似性,最小化类间的相似性(选择)
SQL Server 2005聚类分析算法步骤
第十四章时序聚类分析
序列聚类与关联规则挖掘区别是什么?
•Sequence Clustering:在找出先后发生事物的关系,重点在于分析数据间先后序列关系。
•Association则是找出某一事件或资料中会同时出现的状态,例如项目A 是某事件的一部份,则项目B也出现在该事件中的机率有a %。
序列模式解决什么问题?
时序聚类算法用于根据某一顺序对数据分组。
•例如,Web应用程序的用户经常按照各种路径浏览网站。此算法可以根据浏览站点的页面顺序对用户进行分组,以帮助分析消费者并确定是否某个路径比其他路径具有更高的收益。
•此算法还可以用于预测,例如预测用户可能访问的下一个页面。利用顾客购买的时间间隔序列数据可以分析顾客的购买物和时间的相关性,有相同或类似行为的顾客会被分在相同的聚娄中,这样的分析不但可以包含物品购买的相关也包含了在时间上对购买物的关联性。因此若能针对这样的数据聚类,在应用上会更加灵活。
包含时间间间隔的有序序列的数值数据和定性数据相似度计算方法
1事件共同发生种类相似度 2事件发生周期相似度 3基于相同子序列长度的相似度
SQL Server 2005时序聚类分析算法步骤
第十五章线性回归模型
什么是线性回归
回归分析是以一个或多个自变量描述、预测或控制特定因变量的分析。
回归分析主要在了解自变量与因变量间的数量关系。主要目的:了解自变量与因变量关系方向及强度。以自变量所建立模式对固变量作预测。
回归分析根据自变量个数的不同可以分为:简单回归分析。多元回归分析。回归分析中变量的筛选原则:相关理论或逻辑。研究人员探讨变量关系来决定。什么是多元回归分析
多元回归:回归分析中自变量的数量有多个
选择回归变量的常用方法
1所有可能回归法2向前选择法3向后淘汰法4逐步回归法
SQL Server 2005线性回归分析算法步骤
第十六章罗吉斯回归模型
什么是罗吉斯回归
Logistic回归模型在分析二分类或有序因变量与解释变量的关系。