最新整理最新整理知识获取KDD和数据挖掘介绍讲解.ppt
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 知识应用
• 将知识库中的知识应用于实际的运行过程,并 从外界获得反馈,与运行结果进行比较,计算 误差,激发下一轮基于KDD的知识获取过程
• 两个误差阈值:平均误差阈值和严重错误阈值 • 在KDD等过程中,知识库不变且保持可用,知
生产实践 (总结经验)
知识的发展与完善 (新、旧知识融合)
知识工程师从知识源 抽取知识存入知识库
通过机器学习或数 据挖掘工具从实践 数据中获得新知识
由知识工程师和领域 专家配合更新知识库
知识获取研究的主要内容
• 知识抽取 • 知识建模 • 知识转换 • 知识检测 • 知识的组织与管理
知识自动获取研究发展
数据挖掘的常用方法
• 关联规则挖掘 • 决策树方法 • 统计方法 • 粗糙集方法 • 人工神经网络 • 遗传算法
KDD的应用
• 数据挖掘和知识发现系统
• IBM Almaden研究中心的Quest • 加拿大Simon Fraser大学的DBMiner • AT&T实验室的IMACS和Spotlight • 中科院计算所的MSMiner
约束生成
知识库
知识应用
知识发现
知识库管理
运行时数据
数据库
用户
模型结构
约束生成
知识应用
基于知识库的约束生成
知识库
数 据 选 择
数 据 预 处 理
数 据 转 换
数 据 挖 掘
/
解 释 评 价
知
知
知
识
识
识
转
检
融
换
测
合
数据库
应用 系统
运行时 数据
运行 监控
知识发现
知识库管理
主要子系统• 约束生成源自• 从知识库自动产生对KDD过程的约束 • 输入:知识库和KDD模块的参数 • 输出:对KDD过程的约束
• 作为知识获取工具
• Bohanec等人的决策支持工具DEX • IBM Watson研究中心开发的SEAS专家系统明
确提出了“基于知识的数据挖掘”这一概念
KDD的应用
• 存在的问题
发现
KDD工具
原始数据
融合
知识
?
知识工程师 &领域专家
先验知识
知识库
?
本文的研究目标
• 背景:中澳科技合作特别资金项目“数据挖 掘技术在石油天然气勘探开发工程中的应用”
• 非自动的知识获取
知
知
识
知识工程师
知识编辑器
识
源
库
• 自动知识获取
知
知
识
理解、归纳、翻译
识
源
库
运行实践 总结完善
知识自动获取研究发展
• 拥有自学习能力的知识编辑器
• Wheeler 和Schneider 的知识自动获取工具AUTOKNAQ
• 运用机器学习方法增强知识库的自适应能力
• 吴荣根教授的基于模型的数字电路设计系统 • Elliott.和Schneider 的故障分离专家系统
• 运用机器学习方法构建知识库
• Okamura 等人的钢铁工艺生产专家系统 • Yamamoto 等人的高炉配料操作自动知识获取系统 • 中科院合肥智能所的农业病虫害专家系统
知识自动获取研究发展
• 利用KDD技术从数据中自动发现新知识
• Mitchell 等人的燃气涡轮机故障检测TIGON系统 • Takano 等人的可自动生成操作序列的范例学习工具
主要内容
一、研究背景及意义 二、基于KDD的知识自动获取模型概述 三、基于知识库的KDD 四、自动演化知识库 五、模型在自动化测井数据分析中的应用 六、总结与展望
研究背景及意义
• 知识获取研究概述
• 知识获取的基本过程 • 知识获取研究的主要内容 • 知识自动获取研究发展
• KDD (Knowledge Discovery in Databases)研究概述
知识自动获取研究发展
• 存在的问题
环境/背景知识 不断变化
?
自动进行
循 环
知识工程师从知识源 抽取知识存入知识库
通过机器学习或数 据挖掘工具从实践 数据中获得新知识
由知识工程师和领域 专家配合更新知识库
KDD的基本过程
• KDD
• 从大量数据中提取出可信的、新颖的、有用的 且可以被人理解的模式的高级处理过程
• 问题:动态环境下基于KDD的知识自动获取
• 方法:从研究基于知识库的KDD出发,将知 识库中的知识作为先验知识引入KDD过程; 进而研究知识库的自动演化机制,将KDD过 程发现的新模式与知识库中的原有知识进行 自动的知识检测与融合
• 目标:自动进行基于KDD的知识获取循环
基于KDD的知识自动获取模型
• 知识获取的基本过程
生产实践 (总结经验)
知识的发展与完善 (新、旧知识融合)
循环
知识工程师从知识源 抽取知识存入知识库
通过机器学习或数 据挖掘工具从实践 数据中获得新知识
由知识工程师和领域 专家配合更新知识库
知识获取的基本过程
• 人类学习知识的基本过程
基础知识学习 (固化记忆)
• 知识获取的基本过程
• 扩大到了知识管理、Web知识获取等领域, 引入了本体学习、语义Web等概念与技术
• KAON工具套件中的TEXT-TO-ONTO工具 • Henk-Jan Lebbink等人的基于本体的知识系统 • Joerg-Uwe Kietz等人的自动本体获取 • Paulo Gottgtroy等人研究了动态领域中的知识发现问题 • 清华大学的基于语义Web的本体数据挖掘平台 • 中科院计算所的综合知识管理平台CKMP
• 五个步骤为:数据选择、数据预处理、数据转 换、数据挖掘、模式解释/评价
数据 选择
数据 预处理
数据 转换
数据 挖掘
解释/ 评价
数据
目标数据 已预处理 的数据
已转换 的数据
模式
知识
KDD的主要任务
• 关联分析 • 分类 • 聚类 • 预测 • 时序模式 • 偏差检测 • 空间数据挖掘 • Web数据挖掘
• 基于约束的KDD
• 数据选择:依据相应的约束选出相关数据 • 数据预处理:筛选掉非法的记录并补齐缺失值 • 数据挖掘:基于约束的规则挖掘 • 解释/评价:根据规则的支持度、置信度、并结
合其满足约束的程度对目标规则集进行处理
主要子系统
• 知识库管理
• 对所发现的新知识与知识库中的原有知识进行 一致性检测和完整性检测,并对不一致和不完 整的情况自动进行处理
• KDD的基本过程 • KDD的主要任务 • 数据挖掘的常用方法 • KDD的应用
• 本文的研究目的
知识获取的基本过程
• 人类学习知识的基本过程
基础知识学习 (固化记忆)
生产实践 (总结经验)
循环
知识的发展与完善 (新、旧知识融合)
知识获取的基本过程
• 人类学习知识的基本过程
基础知识学习 (固化记忆)
• 将知识库中的知识应用于实际的运行过程,并 从外界获得反馈,与运行结果进行比较,计算 误差,激发下一轮基于KDD的知识获取过程
• 两个误差阈值:平均误差阈值和严重错误阈值 • 在KDD等过程中,知识库不变且保持可用,知
生产实践 (总结经验)
知识的发展与完善 (新、旧知识融合)
知识工程师从知识源 抽取知识存入知识库
通过机器学习或数 据挖掘工具从实践 数据中获得新知识
由知识工程师和领域 专家配合更新知识库
知识获取研究的主要内容
• 知识抽取 • 知识建模 • 知识转换 • 知识检测 • 知识的组织与管理
知识自动获取研究发展
数据挖掘的常用方法
• 关联规则挖掘 • 决策树方法 • 统计方法 • 粗糙集方法 • 人工神经网络 • 遗传算法
KDD的应用
• 数据挖掘和知识发现系统
• IBM Almaden研究中心的Quest • 加拿大Simon Fraser大学的DBMiner • AT&T实验室的IMACS和Spotlight • 中科院计算所的MSMiner
约束生成
知识库
知识应用
知识发现
知识库管理
运行时数据
数据库
用户
模型结构
约束生成
知识应用
基于知识库的约束生成
知识库
数 据 选 择
数 据 预 处 理
数 据 转 换
数 据 挖 掘
/
解 释 评 价
知
知
知
识
识
识
转
检
融
换
测
合
数据库
应用 系统
运行时 数据
运行 监控
知识发现
知识库管理
主要子系统• 约束生成源自• 从知识库自动产生对KDD过程的约束 • 输入:知识库和KDD模块的参数 • 输出:对KDD过程的约束
• 作为知识获取工具
• Bohanec等人的决策支持工具DEX • IBM Watson研究中心开发的SEAS专家系统明
确提出了“基于知识的数据挖掘”这一概念
KDD的应用
• 存在的问题
发现
KDD工具
原始数据
融合
知识
?
知识工程师 &领域专家
先验知识
知识库
?
本文的研究目标
• 背景:中澳科技合作特别资金项目“数据挖 掘技术在石油天然气勘探开发工程中的应用”
• 非自动的知识获取
知
知
识
知识工程师
知识编辑器
识
源
库
• 自动知识获取
知
知
识
理解、归纳、翻译
识
源
库
运行实践 总结完善
知识自动获取研究发展
• 拥有自学习能力的知识编辑器
• Wheeler 和Schneider 的知识自动获取工具AUTOKNAQ
• 运用机器学习方法增强知识库的自适应能力
• 吴荣根教授的基于模型的数字电路设计系统 • Elliott.和Schneider 的故障分离专家系统
• 运用机器学习方法构建知识库
• Okamura 等人的钢铁工艺生产专家系统 • Yamamoto 等人的高炉配料操作自动知识获取系统 • 中科院合肥智能所的农业病虫害专家系统
知识自动获取研究发展
• 利用KDD技术从数据中自动发现新知识
• Mitchell 等人的燃气涡轮机故障检测TIGON系统 • Takano 等人的可自动生成操作序列的范例学习工具
主要内容
一、研究背景及意义 二、基于KDD的知识自动获取模型概述 三、基于知识库的KDD 四、自动演化知识库 五、模型在自动化测井数据分析中的应用 六、总结与展望
研究背景及意义
• 知识获取研究概述
• 知识获取的基本过程 • 知识获取研究的主要内容 • 知识自动获取研究发展
• KDD (Knowledge Discovery in Databases)研究概述
知识自动获取研究发展
• 存在的问题
环境/背景知识 不断变化
?
自动进行
循 环
知识工程师从知识源 抽取知识存入知识库
通过机器学习或数 据挖掘工具从实践 数据中获得新知识
由知识工程师和领域 专家配合更新知识库
KDD的基本过程
• KDD
• 从大量数据中提取出可信的、新颖的、有用的 且可以被人理解的模式的高级处理过程
• 问题:动态环境下基于KDD的知识自动获取
• 方法:从研究基于知识库的KDD出发,将知 识库中的知识作为先验知识引入KDD过程; 进而研究知识库的自动演化机制,将KDD过 程发现的新模式与知识库中的原有知识进行 自动的知识检测与融合
• 目标:自动进行基于KDD的知识获取循环
基于KDD的知识自动获取模型
• 知识获取的基本过程
生产实践 (总结经验)
知识的发展与完善 (新、旧知识融合)
循环
知识工程师从知识源 抽取知识存入知识库
通过机器学习或数 据挖掘工具从实践 数据中获得新知识
由知识工程师和领域 专家配合更新知识库
知识获取的基本过程
• 人类学习知识的基本过程
基础知识学习 (固化记忆)
• 知识获取的基本过程
• 扩大到了知识管理、Web知识获取等领域, 引入了本体学习、语义Web等概念与技术
• KAON工具套件中的TEXT-TO-ONTO工具 • Henk-Jan Lebbink等人的基于本体的知识系统 • Joerg-Uwe Kietz等人的自动本体获取 • Paulo Gottgtroy等人研究了动态领域中的知识发现问题 • 清华大学的基于语义Web的本体数据挖掘平台 • 中科院计算所的综合知识管理平台CKMP
• 五个步骤为:数据选择、数据预处理、数据转 换、数据挖掘、模式解释/评价
数据 选择
数据 预处理
数据 转换
数据 挖掘
解释/ 评价
数据
目标数据 已预处理 的数据
已转换 的数据
模式
知识
KDD的主要任务
• 关联分析 • 分类 • 聚类 • 预测 • 时序模式 • 偏差检测 • 空间数据挖掘 • Web数据挖掘
• 基于约束的KDD
• 数据选择:依据相应的约束选出相关数据 • 数据预处理:筛选掉非法的记录并补齐缺失值 • 数据挖掘:基于约束的规则挖掘 • 解释/评价:根据规则的支持度、置信度、并结
合其满足约束的程度对目标规则集进行处理
主要子系统
• 知识库管理
• 对所发现的新知识与知识库中的原有知识进行 一致性检测和完整性检测,并对不一致和不完 整的情况自动进行处理
• KDD的基本过程 • KDD的主要任务 • 数据挖掘的常用方法 • KDD的应用
• 本文的研究目的
知识获取的基本过程
• 人类学习知识的基本过程
基础知识学习 (固化记忆)
生产实践 (总结经验)
循环
知识的发展与完善 (新、旧知识融合)
知识获取的基本过程
• 人类学习知识的基本过程
基础知识学习 (固化记忆)