第一章 数据挖掘的基本概念..
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据爆炸. 知识贫乏
激增的数据背后隐藏着 许多重要的信息,人们希望 能够对其进行更高层次的分 析,以便更好地利用这些数 据。 目前的数据库系统可以 高效地实现数据的录入、查 询、统计等功能,但无法发 现数据中存在的关系和规则, 无法根据现有的数据预测未 来的发展趋势。缺乏挖掘数 据背后隐藏知识的手段,导 致“数据爆炸. 知识贫 乏”的尴尬现象。
通过分析训练集中的数据,为每个类别建立分类分析模型 ;然后用这个分类分析模型对数据库中的其他记录进行分 类。 示例:垃圾邮件的识别属于分类问题,所有训练用邮件预 先被定义好类标号信息,即训练集中的每封邮件预先被标 记为垃圾邮件或合法邮件信息,需要利用已有的训练邮件 建立预测模型,然后利用预测模型来对未来未知邮件进行 预测。
第六章 挖掘大型数据库中的关联规则 ;
第七章 分类与预测; 第八章 聚类分析
17
学习目的:
掌握数据仓库和数据挖掘的基本原理,
学会用信息分析的方法思考问题。
掌握一些算法的基本思想,以便今后在 实践中处理特定问题时使用。
18
第一章 数据挖掘的基本概念
第一章 数据挖掘的基本概念
数据挖掘的定义
解决方法:数据仓库技术和数据挖掘技术
数据仓库和联机分析处理技术(存储);
数据挖掘:在大量的数据中挖掘感兴趣的知识/
规则/规律/模式/约束(分析)。
16
课程目录
第一章 数据挖掘的基本概念;
第二章 数据仓库的基本概念;
第三章 联机分析处理;
第四章 数据预处理;
第五章 概念描述:特征化与比较 ;
几个相关概念
KDD泛指所有从源数据中发掘模式或联系的方法, 用以描述整个数据发掘的过程,包括最开始的制定 业务目标到最终的结果分析; 并用数据挖掘(DM, Data Mining)来描述进行数 据挖掘的子过程。
知识发现的过程和步骤
知识发现的主要过程: A. 确定业务对象
B. 数据准备
C. 数据挖掘 D. 结果分析 E. 知识的同化
简单的说,数据挖掘就是从大量的数据中发现 有用信息的过程。
为什么会出现数据挖掘?
时代背景:我们生活在一个网络化时代,通信、计算机和网络
技术正改变整个人类社会。
网络化时代给我们带来大量的数据:
•
商务环境(CRM):电子商务的Web 数据
• 社交平台数据:facebook、twitter、微博(评论挖掘、商
应用
信用卡欺诈检测 移动电话欺诈检测 医疗分析(异常)
三、数据挖掘的应用
数据挖掘的应用:
电信:客户细分 银行:聚类(细分), 交叉销售 百货公司/超市:购物篮分析 (关联规则) 保险:客户细分,交叉销售,流失(原因分析) 信用卡: 欺诈探测,细分 电子商务: 网站日志分析 税务部门:偷漏税行为探测 警察机关:犯罪行为分析 医学: 医疗保健
数据挖掘都干了些什么?
卓越亚马逊
通过数据挖掘我们可以
发现最有价值 的客户
通过数据挖掘我们可以
罐头 熟食 鲑鱼
使组合销售更 有效率
冻肉
牛肉
鲜货
通过数据挖掘我们可以
留住那些最有 价值的客户
通过数据挖掘我们可以
用更小的成本 发现欺诈现象
数据挖掘的热点应用
主要热点
就目前来看,将来的几个热点包括: — 网站的数据挖掘 (Web Site Data Mining) — 生物信息或基因 (Bioinformatics/genomics)的数据挖 掘 — 文本的数据挖掘 (Textual Mining)。
Wisdom Knowledge Information Data
Knowledge + experience Information + rules Data + context
数据挖掘的定义(从数据中发现知识的角度):
数据挖掘是从大量的数据中挖掘出隐含 的、未知的、用户可能感兴趣的和对决策 有潜在价值的知识和规则。
24
数据挖掘:多学科的汇合
数据库技术 人工智能 统计学
机器学习
数据挖掘
可视化
信息科学
科学计算
其它学科
几个相关概念
机器学习:将一些已知的并被成功解决的问题作为范 例输入计算机,由计算机通过学习这些范例总结并生成 相应的规则,以解决某一类的问题; 知识工程:不同于机器学习,直接给计算机输入已被 代码化的规则,由计算机使用这些规则解决问题,如专 家系统。 20世纪80年代末,出现一个新的术语:数据库中的知 识发现(KDD, Knowledge Discovery in Database)。
就是他能在短时间掌握无数公司资料和背景,也就是将世界上已经存在的海量数 据(包括公司财报、电视、几十年前的报纸、互联网、小道消息等)挖掘出来, 串联起来,甚至将FaceBook、Twitter的海量社交数据挖掘得到普通大众对某种股 票的感情倾向,通过海量信息的挖掘、分析,使一切内幕都不是内幕,使一切趋 势都在眼前,结果在10天内他就赢得了200万美元,神奇的表现让身边的职业投 资者目瞪口呆。
一 引例
例1 如果你在当当的购书网站购买过书籍或音像制品, 以后再浏览该网站时经常看到类似的提示:“猜您可能会 喜欢”, 然后就可以在网页的某个位置看到网站推荐的 图书的名称及其相关链接。
网站怎么知道读者可能会对这些物品感兴趣?
这是因为网站采用了新的技术来了解顾客的潜在需求,比如: 网站从顾客的购买清单中发现你与张三具有相似的兴趣爱好和 购买习惯,但是有些书张三已经买了,而你却还没买,网站会 认定你对这些书可能感兴趣,而对你进行推荐。 网站这种推荐并非漫无边际,而是有一定技术依据的,这种 技术就是数据挖掘技术(DM)。
10
茶,鸡蛋,小甜饼,尿布,啤酒
从这个销售数据中可以得出什么结论?
简单分析发现,有6个顾客买了啤酒,而其中5个人 买了尿布,或说,5个买了尿布的顾客都买了啤酒。
从数据挖掘的角度会得到如下的很强的关联规则:
规则1:“买啤酒” 规则2:“买尿布”
“买尿布”。 置信度为5/6
“买啤酒”。置信度为5/5
结论:“买尿布的顾客很可能会买啤酒”。 对决策者的启示:商品的摆放设计和销售策略。
电信
英国电信需要发布一种新的产品 ,需要通过直邮的方式向客户推 荐这种产品。。。。。。
使直邮的回应率提高了100%
零售商店
GUS(英国的日用品零售商店)需 要准确的预测未来的商品销售 量,降低库存成本。。。。。 。 通过数据挖掘的方法使库存成本比原 来减少了3.8%
税务局
美国国内税务局需要提高对 纳税人的服务水平。。。。 。。
合理安排税务官的工作,为纳税人提供 更迅捷、更准确的服务
银行
汇丰银行需要对不断增长的 客户群进行分类,对每种产 品找出最有价值的客户。。 。。。。
营销费用减少了30%
财务部
美国国防财务部需要从每年上 百万比的军火交易中发现可能 存在的欺诈现象。。。。。。
发现可能存在欺诈的交易,进行深 入调查,节约了大量的调查成本
二 什么是数据挖掘
什么是数据挖掘?
存在太多数据挖掘的定义,但基本上有这样一种描述结构
To find / discover / extract / dredge / harvest 、、、 Interesting / novel / useful / implicit / actable / meaningful 、、、 Information / knowledge / patterns / trends / rules / anomalies 、、、 In massive data / large data set / large database / data warehouse 、、、
聚类
分类 有指导学习 (有预先定义的类)
监督(指导)与否
百度文库
无指导学习 (没有预先定义的类)
是否建立模型或 否,旨在发现空间实体 是,具有预测功能 训练 的属性间的函数关系。
4)孤立点分析
孤立点分析:对差异和极端特例的描述
孤立点:事物偏离常规的异常现象,如标准类外的特 例,数据聚类外的离群值等; 异常检测通过构建正常行为模型(称为特征描述),来检 测与特征描述严重偏离的新的模式。
《数据仓库与数据挖掘》
主讲:王名扬 信息学院
参考书目
《数据挖掘:概念与技术》韩家炜著(机械)
2
网络资源
www.dwway.com 中文(推荐)
www.dmresearch.net 日文 www.dmreview.com www.kdnuggets.com 英文(课程)
www.datawarehouse.com
例:
2)聚类分析
聚类分析:最大化类内的相似性和最小化类间的 相似性(无监督的学习方法)
找出数据集中的共性和差异,并将具有共性的对象聚 合在相应的类中。 “物以类聚,人以群分” 示例:扑克牌的划分
(a)
(b)
(c)
(d)
图 十六张牌基于不同相似性度量的划分结果
3)分类挖掘
分类:反映同类事物共同性质的特征型知识和不 同事物之间的差异型特征知识(有监督的学习方 法)
数据挖掘的功能——可以挖掘什么类型的模
式
数据挖掘的典型应用
一、数据挖掘的定义
数据挖掘的定义(从数据中发现知识角度):
数据挖掘是从大量的数据中挖掘出隐含 的、未知的、用户可能感兴趣的和对决策 有潜在价值的知识和规则。
简单的说,数据挖掘就是从大量的数据中发现 有用的信息。
数据挖掘的定义: 这个定义包括以下几层含义:
例2 啤酒与尿布的故事 某超市Post机上记录如下的销售数据:
顾客 1 2 3 4 5 6 购买商品 面包,黄油,尿布,啤酒 咖啡,糖,小甜饼,鲑鱼,啤酒 面包,黄油,咖啡,尿布,啤酒,鸡蛋 面包,黄油,鲑鱼,鸡 鸡蛋,面包,黄油 鲑鱼,尿布,啤酒
7
8 9
面包,茶,糖鸡蛋
咖啡,糖,鸡,鸡蛋 面包,尿布,啤酒,盐
28
数据挖掘: 一个 KDD 过程
– 挖掘数据: 过程的核心.
模式评估Pattern Evaluation
采掘数据Data Mining 相关任务数据Task-relevant Data Data Warehouse 数据仓库 挑选
Data Cleaning 数据整理 Data Integration数据集成 数据库
数据源必须是真实的、大量的、含噪声的;
发现的是用户感兴趣的知识;
发现的知识要可接受、可理解、可运用; 并不要求发现放之四海皆准的知识,仅支持 特定的问题。
23
数据挖掘是一门交叉学科:
它把人们对数据的应用从低层次的简单查询,提升 到从数据中挖掘知识,提供决策支持。
在这种需求牵引下,汇聚了不同领域的研究者,尤 其是数据库技术、人工智能技术、数理统计、可视化 技术、并行计算等方面的学者和工程技术人员,投身 到数据挖掘这一新兴的研究领域,形成新的技术热点。
3)分类挖掘
例如:信用卡的使用 规则1:If refund=no and marital status=married then cheat=no
决策树方法得到规则
规 则 的 应 用
聚类与分类的主要区别: 聚类是一种无指导的观察式学习,没有预先定义的类; 而分类问题是有指导的示例式学习,有预先定义的类。
13
数据.信息.知识
数据仅是人们用各种工具和手段观察外部世界得到的原始材料; 信息虽给出数据中有一定意义的东西,但往往和任务无直接联系, 不能作为判断、决策和行动的依据; 知识是人们作出正确的判断、决策和采取正确行动的依据。
14
数据的丰富带来了对强有力的数据分析工具的需求!
15
数据仓库与数据挖掘
品营销、事件预测等)、人人网等
• 金融:银行卡交易数据 • 科学计算:天气、地理环境等
为什么会出现数据挖掘?
数据爆炸性增长带来的契机与挑战。。。。
视频:《你知道吗?》 推荐电影《永无止境》:讲述一位落魄的作家库珀,服用了一种可以迅速
提升智力的神奇蓝色药物,然后他将这种高智商用于炒股。库珀是怎么炒股的呢?
29
29
二、数据挖掘的功能
数据挖掘的功能:
数据挖掘可以挖掘的一些常用模式如下:
关联分析(描述); 聚类分析(描述); 分类(预测); 孤立点分析(预测)
数据挖掘的功能:
1)关联分析
关联规则挖掘:反映一个事件和其他事件之间依 赖或关联的知识。
广泛的用于购物篮或事务数据分析。