数据挖掘课件汇总
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
发现知识的使用
有些人将数据挖掘视为数据库中知识发现的一 个基本步骤,如图
Data
mining: 知识 发现过程的核心过 程.
Task-relevant Data Data Warehouse
Pattern Evaluation
Data Mining
Selection
Data Cleaning Data Integration Databases
天文学
类星体
Web应用
通过分析web访问日志,发现客户的偏好和行为模式,
分析网上市场的效果,改进网站的组织。
Data Mining: Concepts and Techniques
一些具体例子
Data Mining: Concepts and Techniques
一些具体例子
例1:医生给一个病人看病(模式识别的完 整过程)。 测量病人的体温和血压,化验血沉,询问 临床表现; 通过综合分析,抓住主要病症; 医生运用自己的知识,根据主要病症,作 出正确的诊断。
Data Mining: Concepts and Techniques
典型数据挖掘系统的结构
Graphical user interface
Pattern evaluation Data mining engine
Database or data warehouse server
Data cleaning & data integration
发现有用特征, 维和变量约简.转化成适合挖掘的形式 摘要, 分类, regression(回归), 关联, 聚类.
数据挖掘功能选择
选择挖掘算法 数据挖掘: 查找感兴趣的模式 模式评估及知识表达
可视化, 转化, 删除冗余模式等等
Data Mining: Concepts and Techniques
方法
例子
汽车保险: detect a group of people who stage(策划) accidents to collect on insurance(骗保) 洗钱: 监测可疑现金交易 医疗保险: detect professional patients and ring of doctors and ring of references
Data Mining: Concepts and Techniques 偶尔购买者60%太老或太年轻,没有大学学位 。
数据挖掘功能 (1)
关联 (相关和因果关系 )
关联规则:形如X=>Y,满足X中条件的记录多半也满足Y中
条件。
多维和单维关联 age(X,
“20..29”) ^ income(X, “20..29K”) =>buys(X, “PC”) [support = 2%, confidence = 60%] 所有顾客的2%在20-29岁,年收入20K-29K,并且在 AllElectronics购买PC。 而这个年龄和收入组的顾客购 买PC的可能性为60%
不同产品销售间的关联
基于关联信息的预测
Data Mining: Concepts and Techniques
市场分析和管理(2)
客户分析
数据挖掘能指出哪种类型的客户灰购买什么产品(分
类,聚类)
确定客户需求
为不同客户确定最好产品 利用预测技术发现能够吸引新客户的因素。
提供概要信息
提取(knowledge extraction),模式分析 ( data/pattern analysis),数据考古( data archeology),数据捕捞( data dredging),信息收割 ( information harvesting), 商业智能(business intelligence), Data 等等 Mining: Concepts and Techniques
Data Mining: Concepts and Techniques
DBA
数据挖掘功能 (1)
概念描述: 特征化和区分 特征化:汇总相应概念的数据,描述这些数据的特征 例如:研究上一年销售增加10%的软件产品的特征。
产生一年内在AllElectronics花费$1000以上顾客特征描 述。结果可能是:年龄在40-50,有工作,有很好的信用等级。
数据挖掘
Data Mining
Data Mining: Concepts and Techniques
第1章. 引言
什么是数据挖掘? 数据挖掘的功能 数据挖掘系统的分类 有关的几个问题 总结
Data Mining: Concepts and Techniques
什么是数据挖掘?
数据区分:将目标概念数据的特征与其它概念数据的特征进行比较
例如:上年销售增加10%的软件与同时期销售至少下降30%的软件 进行比较。 偶
比较两组AllElectronics顾客,如定期购买计算机产品的顾客和
(每年少于3次)购买这种产品的顾客。可能结果是常购买者80%在20 40岁之间,受过大学教育。
Data Mining: Concepts and Techniques
欺诈检测与管理(2)
监测不适当医学检查 电话欺诈
call model: 接受方, 持续时间, 每周或天的 次数. 分析与期望标准相偏离的模式. British Telecom identified discrete groups of callers with frequent intra-group calls, 特别是移动电话,经常 有打破数百万美元的欺诈。
Business Analyst Data Analyst
Data Exploration Statistical Analysis, Querying and Reporting
Data Warehouses / Data Marts OLAP, MDA Data Sources Paper, Files, Information Providers, Database Systems, OLTP
数据挖掘 (数据库中的知识发现KDD):
从存放在数据库、数据仓库或其它类型信息库
中的大量数据中提取或挖掘有趣知识的过程。 (重要的,暗含的, 预先未知的以及潜在有用的)
其它相关术语
Data mining: 用词不当? Knowledge discovery(mining) in databases (KDD), 知识
Telephone
零售
估计有
38% 的零售亏损来自不诚实的雇员.
Data Mining: Concepts and Techniques
Other Applications
运动
IBM
Advanced Scout analyzed NBA game statistics (shots blocked, assists, and fouls) to gain competitive advantage for New York Knicks and Miami Heat
Knowledge-base
Filtering
Databases
Data Warehouse
Data Mining: Concepts and Techniques
1. 预处理 模式空间里,针对具体的研究对象,往往需要进行适当的预处理。 去噪声,提取有用信息,并对输入测量仪器或其它因素所造成的退化现象进 行复原 具体地说,预处理的功能包括: 清除或减少模式采集中的噪声及其它干扰,提高信噪比。 消除或减少数据图像的模糊及几何失真,提高清晰度。 转变模式的结构,以便后续处理(如非线性模式转为线性模式)。 预处理的方法:滤波、变换、编码、标准化等。(这些内容在“数字信号处 理”、“数字图像处理”等课程中学过) 为了便于计算机处理,往往需要将模拟量转化为数字量,也就是进行A/D转 换。在此过程中必须考虑2个问题,采样间隔与量化等级。 采样间隔(采样频率),表示单位时间内(秒),要求多少个采样值。 量化级,表示每个采样值要有多少个量化级,才能满足要求。 2. 特征提取/选择 特征提取/选择的必要性和原则。 一般的情况,人们对客观世界里的具体物体或事件进行模式采集时,总是尽 可能多的采集测量数据,造成样本在模式空间里的维数很大。模式维数很大 首先带来的问题是处理的困难,处理时间很长,费用很高,有时甚至直接用 于分类是不可能的,即所谓“维数灾难”。另外,在过多的数据坐标中,有 些对刻划事物的本质贡献不大,甚至很小。因此,特征提取/选择十分必要。 特征提取/选择的目的目标:就是要压缩模式的维数,使之便于处理,减少消 耗。 特征提取往往以在分类中使用的某种判决规则为准则,所提取的特征使在某 Data Mining: Concepts and Techniques 种准则下的分类错误最小。为此,必须考虑特征之间的统计关系,选用适当
Data Mining: Concepts and Techniques
其它应用
市场分析和管理 (1)
哪些数据需要分析?
信用卡事务,优惠券,客户投诉,生活方式研究等等
目标市场
发现具有相同特征(兴趣,收入水平,消费习惯等)的
客户群。.
确定客户购买模式随时间变化情况
交叉市场分析
数据挖掘和商务智能
Increasing potential to support business decisions End User
Making Decisions Data Presentation Visualization Techniques Data Mining Information Discovery
具体过程
Data Mining: Concepts and Techniques
常见的模式识别系统
Data Mining: Concepts and Techniques
知识发现的步骤:
学习应用领域:
相关先验知识和应用目标
创建目标数据集:数据选择 数据清理和预处理: (may take 60% of effort!) 数据约简和转化:
Data Mining: Concepts and Techniques
一些具体例子
选取做家具的松木。
怎样区分它的类型? 观察:颜色、花纹、亮度、密度(样本测 量值),得到样本模式综合分析:提取、 选择主要特征根据主要区别:区分各单一 样本(松木、桦木)
Data Mining: Concepts and Techniques
contains(T,
“computer”) =>contains(x, “software”)
Data Mining: Concepts and Techniques
[1%, 75%]
数据挖掘功能 (2)
各种多维综合报告
统计汇总信息(主要的数据的趋势和变化)
Data Mining: Concepts and Techniques
风险分析和管理
财政计划和资产评估
现金流分析和预测 时间序列分析 (financial-ratio,
trend analysis, etc.)
资源计划:
资源与耗费汇总及比较
竞争:
竞争监控和市场方向 各户分类及基于类别的定价 在高竞争力市场设臵价格策略
Data Mining: Concepts and Techniques
欺诈检测与管理 (1)
应用
广泛应用于 医疗保险, 零售业, 信用卡服务, 电信领域 (phone card fraud), etc. 利用历史数据建立欺诈行为模型,使用data mining技术来 确定相关实例。
为什么进行数据挖掘?— 潜在的应用
数据库分析以及决策支持
市场分析和管理
目标市场, 客户关系管理(customer relation management), 菜篮子分析,交叉销售,市场划分 预测,客户保持,改善保险业务,质量控制,竞争分 析
风险分析和管理
欺诈行为探查及管理,异常监测 文本挖掘 (新闻组, email, documents) and Web 分析. 智能查询应答