第04讲 智能决策理论与方法-1(1)解析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2018年10月6日6时45分
决策理论与方法-智能决策理论与方法
智能决策理论与方法
1、智能决策理论的形成背景
2、知识发现 3、机器学习 4、不确定性理论
决策理论与方法-智能决策理论与方法
2018年10月6日6时45分
知识发现—动机
智能决策的核心是如何获取支持决策的信息和知识。
推理机 推理结果 问题请求 决策者
关系型数据库数据:如营销数据库
文本数据:内容挖掘(如Web内容挖掘,寻找相似页面) Web数据:站点结构数据(如Web结构挖掘,优化站点
设计,站点导航,自适应站点);站点使用数据或点击 流数据(如Web使用挖掘,用户聚类、页面聚类,个性 化推荐等) 空间数据、图像数据、视频数据等。
决策理论与方法-智能决策理论与方法 2018年10月6日6时45分
抽样
预处理
变换
数据挖掘
解释/评价
数据中心
样本集
预处理结果
变换结果
挖掘结果
知识
任务描述
决策理论与方法-智能决策理论与方法
2018年10月6日6时45分
知识发现—基本概念
数据准备阶段一般包含数据选取、预处理和数据变换等任务:
数据选取:根据用户的需要从原始数据集中抽取一组样
本数据确定挖掘任务的操作对象。 常见数据源:
不确定性理论 · 贝叶斯网络 · 模糊逻辑 · 粗糙集理论 · 证据理论
数据库技术 · 面向数据集方法 · 面向属性归纳 · 数据库统计
可视化技术
决策理论与方法-智能决策理论与方法
2018年10月6日6时45分
知识发现—基本概念
解释与评价阶段:
结果筛选:过滤(移去)不感兴趣的或显而易见的模式。
发现特征规则:特征规则是刻划某个概念的特征的断言,
它相当于分类规则的逆命题。例如病症是某种疾病的特 征。规则一般形式是:IF A类 Then 特征表达式。
序列模式发现:它与关联规则相似,不同之处在于事件
的发生有前后顺序,该规则一般形式为:At(i)→Bt(j)
其中t(i)<t(j)。例如序贯规则Jacket and Tie→Shoes表示客 户在买了“夹克”和“领带”之后就会买“鞋”。
利用描述规则特征的数值如信度、支持度或兴趣度等,
定义某个阈值,对规则进行筛选;
指定语义约束,规则的前件或后件只包含感兴趣的属
性,或者指定属性间的依赖性约束;
完全依靠用户对处理结果进行筛选。
决策理论与方法-智能决策理论与方法
2018年10月6日6时45分
知识发现—基本概念
结果评价:确定所发现模式的可信度。基本方法是将样
知识发现—基本概念
数据预处理:噪音数据处理、空值处理、属性类型转化
噪音数据处理:噪音数据往往是因输入错误而导致的、
或受某种外界因素干扰而有意识提供的错误数据。如 何剔除噪音数据?噪音数据与系统中的一些小概率数 据统称为“异常数据(Outlier)”,如何区分噪音数据和 小概率数据? 空值处理:有些数据由于“不重要”、不知道或“不 愿意”而没有获得,引起某些属性值未知,称此类值 为空值。如何处理这些缺失值? 属性类型转化:连续属性离散化或将离散属性拟合成 连续属性等。
| A B | Support N
Confidence | A B | | A|
A为满足前件的对象集,B为满足后件的对象,N为全部 对象集。典型方法:Apriori算法。
决策理论与方法-智能决策理论与方法 2018年10月6日6时45分
知识发现—基本概念
分类(等价关系,判别):按类标签(为数据库中的某属性
集,一般仅包含一个属性)对数据库中的对象进行分类, 具有相同标签值或标签值在指定区间内的对象属于同类。 分类规则是判断某个对象属于某类的充分条件即对象具 有某类的属性时则表示该对象属于该类。其规则形式一 般为IF LogicExp Then A类 Else B类。主要方法:逻辑 回归、判别分析、决策树、ANN、粗糙集、SVM等。
数据库技术等。是知识发现的核心,也是被研究最广泛 的内容。数据挖掘方法很多,需要我们对它们的适用条 件、前提假设有充分的了解。
运行效率分析:不同的算法其效率存在很大差异。算法
设计与选择往往就是精度与效率之间的权衡。
决策理论与方法-智能决策理论与方法 2018年10月6日6时45分
知识发现—基本概念
决策理论与方法-智能决策理论与方法 2018年10月6日6时45分
知识发现—动机
决策支持查询
决策者
查询结果
数据分析师
不一定满意的决策
数据中心
问题
数据分析师与决策者之间对问题的理解存在偏差 缺少有创造性的决策建议 技术问题:如查询效率(RDBMS)
决策理论与方法-智能决策理论与方法
2018年10月6日6时45分
聚类(相容关系):聚类也叫分段,就是将数据库中的实
体分成若干组或簇,每簇内的实体是相似的。规则形式 为IF O1与O2相似 Then O1、O2在同一簇。对象相似的判 断方法有多种如距离法。典型方法:K-means
决策理论与方法-智能决策理论与方法 2018年10月6日6时45分
知识发现—基本概念
决策问题所涉及的变量规模越来越大;
决策所依赖的信息具有不完备性、模糊性、不确定性等
特点,使得决策问题难以全部定量化地表示出来;
某些决策问题及其目标可能是模糊的、不确定的,使得
决策者对自己的偏好难以明确,随着决策分析的深入, 对决策问题的认知加深,自己原有的偏好/倾向得到不断 地修正,使得决策过程出现不断调整的情况,
m
profit
neural
20
30
40
50
age
liner
0
回归模型
0
500
100 0
mins
决策理论与方法-智能决策理论与方法
来自百度文库
2018年10月6日6时45分
知识发现—基本概念
数据挖掘方法
Data Mining
统计方法 · 相关分析 · 线性回归 · 主成分分析 · 聚类分析
机器学习 · 规则归纳 · 基于案例推理 · 遗传算法 · 神经网络
这时,传统的决策数学模型已经难以胜任求解复杂度过高的 决策问题、含有不确定性的决策问题以及半结构化、非结构 化的决策问题,因而产生了智能决策理论、方法及技术。
2018年10月6日6时45分
决策理论与方法-智能决策理论与方法
智能决策理论与方法—AI的应用模式
智能决策方法是应用人工智能(Artificial Intelligence, AI)相 关理论方法,融合传统的决策数学模型和方法而产生的具有 智能化推理和求解的决策方法,其典型特征是能够在不确定、 不完备、模糊的信息环境下,通过应用符号推理、定性推理 等方法,对复杂决策问题进行建模、推理和求解。AI应用于 决策科学主要有两种模式: 针对可建立精确数学模型的决策问题,由于问题的复杂 性,如组合爆炸、参数过多等而无法获得问题的解析解, 需要借助AI中的智能搜索算法获得问题的数值解; 针对无法建立精确数学模型的不确定性决策问题、半结 构化或非结构化决策问题,需要借助AI方法建立相应的 决策模型并获得问题的近似解。
本数据集分成二部分,一部分是训练集用来发现模式, 另一部分是测试集,分析结果的可信度。
处理结果维护:信息处理所涉及的样本数据集常常是动
态变化的,因此需要对所处理的结果进行维护以保证结 果与数据的变化相一致。维护可以对数据变化引起的特 殊问题重新应用所建立的处理方法,或者应用某种增量 处理算法。
决策理论与方法-智能决策理论与方法
决策理论与方法-智能决策理论与方法 2018年10月6日6时45分
知识发现—基本概念
数据变换(数据约简):通过某种方法降低算法的搜索空间。
垂直约简(也称特征选择、属性约简):使用降维或变
换方法减少变量数目,是典型的组合优化问题。
水平约简是通过对对象的分析(包括离散化、泛化等),
合并具有相同属性值的对象,减少对象数目。
知识库
知识工程师
领域专家
问题
知识获取是基于知识的系统(KBS)的最大瓶颈
决策理论与方法-智能决策理论与方法
2018年10月6日6时45分
知识发现—动机
推理机 推理结果 问题请求 决策者 领域专家 案例库 规则库 知识工程师
问题
推理规则的获取与KBS中知识获取一样难,因而基于
案例推理(Case-Based Reasoning)渐渐变成基于案例检 索(Case-Based Retrieving)。
值集。回归可以看作一种分类,区别是分类的类标签值 是离散的,而回归是连续的。
决策理论与方法-智能决策理论与方法
2018年10月6日6时45分
知识发现—基本概念
64K income m-male,f-female
聚类模型
32K
16K
m mmm f m m m m m m m mf m mm m f m mm m m m mm m m f m m m mm mm m m m mf m m f mm mm m mm
解决问题的主要理论方法:人工智能与不确定性理论
2018年10月6日6时45分
决策理论与方法-智能决策理论与方法
智能决策理论与方法
1、智能决策理论的形成背景
2、知识发现 3、机器学习 4、不确定性理论
决策理论与方法-智能决策理论与方法
2018年10月6日6时45分
智能决策理论与方法—形成背景
人类面临越来越复杂的决策任务和决策环境:
决策理论与方法-智能决策理论与方法
2018年10月6日6时45分
知识发现—基本概念
偏离探测:探测测量值与期望值之间的差别并对其进行
解释。常有三种偏离类型:随时间偏离(以历史值为期望
值)、与标准偏离(以标准值为期望值)、与预测偏离(以 预测值为期望值)。
回归:根据历史数据拟合一函数将属性集映射到相应的
数据挖掘任务及常采用的方法:
归纳总结:从泛化的角度总结数据,即从低层次数据抽
象出高层次的描述的过程。主要方法:归纳学习。
发现关联规则:关联规则的形式为A→B,A为前件,B
为后件。 (Day=Friday) and (Product=Nappies) → (Product=Beer)为一典型关联规则
知识发现—动机
推理机 推理结果 问题请求 决策者 知识库 背景知识 数据挖掘工具
领域专家
数据中心
优点
知识独立于问题本身 知识的获取主要通过数据挖掘实现
有创造性收获
决策理论与方法-智能决策理论与方法 2018年10月6日6时45分
知识发现—动机
KDD带来的新问题
知识发现问题:如何从数据中将知识挖掘出来?
决策理论与方法-智能决策理论与方法
2018年10月6日6时45分
知识发现—基本概念
数据挖掘阶段:应用相关算法从准备好的数据中寻找数据中 隐含的对信息利用如预测、决策等有价值的模式。需要考虑 的问题:
任务的确定:分类、聚类、关联规则发现等。
方法的选择:统计方法、机器学习方法、不确定性方法、
面临许多技术问题:如数据异构问题、数据具有 噪音且信息不完整、使用什么样的挖掘算法、知 识如何表示等
知识评价问题:数据本身具有权威性、客观性,
但知识不具备。知识如何评价?
决策理论与方法-智能决策理论与方法
2018年10月6日6时45分
知识发现—基本概念
知识发现(Knowledge Discovery in Databases, KDD):从 大量数据中提取隐含的(预先未知、新颖)、有潜在应用价值 的(可信、有效)并最终能被人理解的模式的非平凡过程。也 称为数据挖掘(Data Mining)。此过程主要包含三个阶段: 数据准备阶段、数据挖掘阶段、解释评价阶段。
决策理论与方法(4)
——智能决策理论与方法(1)
合肥工业大学管理学院 2018年10月6日
不确定性决策
不确定性决策:指难以获得各种状态发生的概率,甚至对未 来状态都难以把握的决策问题。 特点:状态的不确定性。
不确定性:不确定性来自人类的主观认识与客观实际之
间存在的差异。事物发生的随机性、人类知识的不完全、 不可靠、不精确和不一致以及自然语言中存在的模糊性 和歧义性,都反映了这种差异,都会带来不确定性。不 确定性就造成了具有相同描述信息的对象可能属于不同 概念。
2018年10月6日6时45分
知识发现—空值估算
空值是指属性值未知且不可用、与其它任何值都不相同的符 号。在样本数据集中,空值在所有非主码属性中都可能出现。 空值出现的主要原因:
在信息收集时忽略了一些认为不重要的数据或信息提供
者不愿意提供,而这些数据对以后的信息处理可能是有 用的;
决策理论与方法-智能决策理论与方法
智能决策理论与方法
1、智能决策理论的形成背景
2、知识发现 3、机器学习 4、不确定性理论
决策理论与方法-智能决策理论与方法
2018年10月6日6时45分
知识发现—动机
智能决策的核心是如何获取支持决策的信息和知识。
推理机 推理结果 问题请求 决策者
关系型数据库数据:如营销数据库
文本数据:内容挖掘(如Web内容挖掘,寻找相似页面) Web数据:站点结构数据(如Web结构挖掘,优化站点
设计,站点导航,自适应站点);站点使用数据或点击 流数据(如Web使用挖掘,用户聚类、页面聚类,个性 化推荐等) 空间数据、图像数据、视频数据等。
决策理论与方法-智能决策理论与方法 2018年10月6日6时45分
抽样
预处理
变换
数据挖掘
解释/评价
数据中心
样本集
预处理结果
变换结果
挖掘结果
知识
任务描述
决策理论与方法-智能决策理论与方法
2018年10月6日6时45分
知识发现—基本概念
数据准备阶段一般包含数据选取、预处理和数据变换等任务:
数据选取:根据用户的需要从原始数据集中抽取一组样
本数据确定挖掘任务的操作对象。 常见数据源:
不确定性理论 · 贝叶斯网络 · 模糊逻辑 · 粗糙集理论 · 证据理论
数据库技术 · 面向数据集方法 · 面向属性归纳 · 数据库统计
可视化技术
决策理论与方法-智能决策理论与方法
2018年10月6日6时45分
知识发现—基本概念
解释与评价阶段:
结果筛选:过滤(移去)不感兴趣的或显而易见的模式。
发现特征规则:特征规则是刻划某个概念的特征的断言,
它相当于分类规则的逆命题。例如病症是某种疾病的特 征。规则一般形式是:IF A类 Then 特征表达式。
序列模式发现:它与关联规则相似,不同之处在于事件
的发生有前后顺序,该规则一般形式为:At(i)→Bt(j)
其中t(i)<t(j)。例如序贯规则Jacket and Tie→Shoes表示客 户在买了“夹克”和“领带”之后就会买“鞋”。
利用描述规则特征的数值如信度、支持度或兴趣度等,
定义某个阈值,对规则进行筛选;
指定语义约束,规则的前件或后件只包含感兴趣的属
性,或者指定属性间的依赖性约束;
完全依靠用户对处理结果进行筛选。
决策理论与方法-智能决策理论与方法
2018年10月6日6时45分
知识发现—基本概念
结果评价:确定所发现模式的可信度。基本方法是将样
知识发现—基本概念
数据预处理:噪音数据处理、空值处理、属性类型转化
噪音数据处理:噪音数据往往是因输入错误而导致的、
或受某种外界因素干扰而有意识提供的错误数据。如 何剔除噪音数据?噪音数据与系统中的一些小概率数 据统称为“异常数据(Outlier)”,如何区分噪音数据和 小概率数据? 空值处理:有些数据由于“不重要”、不知道或“不 愿意”而没有获得,引起某些属性值未知,称此类值 为空值。如何处理这些缺失值? 属性类型转化:连续属性离散化或将离散属性拟合成 连续属性等。
| A B | Support N
Confidence | A B | | A|
A为满足前件的对象集,B为满足后件的对象,N为全部 对象集。典型方法:Apriori算法。
决策理论与方法-智能决策理论与方法 2018年10月6日6时45分
知识发现—基本概念
分类(等价关系,判别):按类标签(为数据库中的某属性
集,一般仅包含一个属性)对数据库中的对象进行分类, 具有相同标签值或标签值在指定区间内的对象属于同类。 分类规则是判断某个对象属于某类的充分条件即对象具 有某类的属性时则表示该对象属于该类。其规则形式一 般为IF LogicExp Then A类 Else B类。主要方法:逻辑 回归、判别分析、决策树、ANN、粗糙集、SVM等。
数据库技术等。是知识发现的核心,也是被研究最广泛 的内容。数据挖掘方法很多,需要我们对它们的适用条 件、前提假设有充分的了解。
运行效率分析:不同的算法其效率存在很大差异。算法
设计与选择往往就是精度与效率之间的权衡。
决策理论与方法-智能决策理论与方法 2018年10月6日6时45分
知识发现—基本概念
决策理论与方法-智能决策理论与方法 2018年10月6日6时45分
知识发现—动机
决策支持查询
决策者
查询结果
数据分析师
不一定满意的决策
数据中心
问题
数据分析师与决策者之间对问题的理解存在偏差 缺少有创造性的决策建议 技术问题:如查询效率(RDBMS)
决策理论与方法-智能决策理论与方法
2018年10月6日6时45分
聚类(相容关系):聚类也叫分段,就是将数据库中的实
体分成若干组或簇,每簇内的实体是相似的。规则形式 为IF O1与O2相似 Then O1、O2在同一簇。对象相似的判 断方法有多种如距离法。典型方法:K-means
决策理论与方法-智能决策理论与方法 2018年10月6日6时45分
知识发现—基本概念
决策问题所涉及的变量规模越来越大;
决策所依赖的信息具有不完备性、模糊性、不确定性等
特点,使得决策问题难以全部定量化地表示出来;
某些决策问题及其目标可能是模糊的、不确定的,使得
决策者对自己的偏好难以明确,随着决策分析的深入, 对决策问题的认知加深,自己原有的偏好/倾向得到不断 地修正,使得决策过程出现不断调整的情况,
m
profit
neural
20
30
40
50
age
liner
0
回归模型
0
500
100 0
mins
决策理论与方法-智能决策理论与方法
来自百度文库
2018年10月6日6时45分
知识发现—基本概念
数据挖掘方法
Data Mining
统计方法 · 相关分析 · 线性回归 · 主成分分析 · 聚类分析
机器学习 · 规则归纳 · 基于案例推理 · 遗传算法 · 神经网络
这时,传统的决策数学模型已经难以胜任求解复杂度过高的 决策问题、含有不确定性的决策问题以及半结构化、非结构 化的决策问题,因而产生了智能决策理论、方法及技术。
2018年10月6日6时45分
决策理论与方法-智能决策理论与方法
智能决策理论与方法—AI的应用模式
智能决策方法是应用人工智能(Artificial Intelligence, AI)相 关理论方法,融合传统的决策数学模型和方法而产生的具有 智能化推理和求解的决策方法,其典型特征是能够在不确定、 不完备、模糊的信息环境下,通过应用符号推理、定性推理 等方法,对复杂决策问题进行建模、推理和求解。AI应用于 决策科学主要有两种模式: 针对可建立精确数学模型的决策问题,由于问题的复杂 性,如组合爆炸、参数过多等而无法获得问题的解析解, 需要借助AI中的智能搜索算法获得问题的数值解; 针对无法建立精确数学模型的不确定性决策问题、半结 构化或非结构化决策问题,需要借助AI方法建立相应的 决策模型并获得问题的近似解。
本数据集分成二部分,一部分是训练集用来发现模式, 另一部分是测试集,分析结果的可信度。
处理结果维护:信息处理所涉及的样本数据集常常是动
态变化的,因此需要对所处理的结果进行维护以保证结 果与数据的变化相一致。维护可以对数据变化引起的特 殊问题重新应用所建立的处理方法,或者应用某种增量 处理算法。
决策理论与方法-智能决策理论与方法
决策理论与方法-智能决策理论与方法 2018年10月6日6时45分
知识发现—基本概念
数据变换(数据约简):通过某种方法降低算法的搜索空间。
垂直约简(也称特征选择、属性约简):使用降维或变
换方法减少变量数目,是典型的组合优化问题。
水平约简是通过对对象的分析(包括离散化、泛化等),
合并具有相同属性值的对象,减少对象数目。
知识库
知识工程师
领域专家
问题
知识获取是基于知识的系统(KBS)的最大瓶颈
决策理论与方法-智能决策理论与方法
2018年10月6日6时45分
知识发现—动机
推理机 推理结果 问题请求 决策者 领域专家 案例库 规则库 知识工程师
问题
推理规则的获取与KBS中知识获取一样难,因而基于
案例推理(Case-Based Reasoning)渐渐变成基于案例检 索(Case-Based Retrieving)。
值集。回归可以看作一种分类,区别是分类的类标签值 是离散的,而回归是连续的。
决策理论与方法-智能决策理论与方法
2018年10月6日6时45分
知识发现—基本概念
64K income m-male,f-female
聚类模型
32K
16K
m mmm f m m m m m m m mf m mm m f m mm m m m mm m m f m m m mm mm m m m mf m m f mm mm m mm
解决问题的主要理论方法:人工智能与不确定性理论
2018年10月6日6时45分
决策理论与方法-智能决策理论与方法
智能决策理论与方法
1、智能决策理论的形成背景
2、知识发现 3、机器学习 4、不确定性理论
决策理论与方法-智能决策理论与方法
2018年10月6日6时45分
智能决策理论与方法—形成背景
人类面临越来越复杂的决策任务和决策环境:
决策理论与方法-智能决策理论与方法
2018年10月6日6时45分
知识发现—基本概念
偏离探测:探测测量值与期望值之间的差别并对其进行
解释。常有三种偏离类型:随时间偏离(以历史值为期望
值)、与标准偏离(以标准值为期望值)、与预测偏离(以 预测值为期望值)。
回归:根据历史数据拟合一函数将属性集映射到相应的
数据挖掘任务及常采用的方法:
归纳总结:从泛化的角度总结数据,即从低层次数据抽
象出高层次的描述的过程。主要方法:归纳学习。
发现关联规则:关联规则的形式为A→B,A为前件,B
为后件。 (Day=Friday) and (Product=Nappies) → (Product=Beer)为一典型关联规则
知识发现—动机
推理机 推理结果 问题请求 决策者 知识库 背景知识 数据挖掘工具
领域专家
数据中心
优点
知识独立于问题本身 知识的获取主要通过数据挖掘实现
有创造性收获
决策理论与方法-智能决策理论与方法 2018年10月6日6时45分
知识发现—动机
KDD带来的新问题
知识发现问题:如何从数据中将知识挖掘出来?
决策理论与方法-智能决策理论与方法
2018年10月6日6时45分
知识发现—基本概念
数据挖掘阶段:应用相关算法从准备好的数据中寻找数据中 隐含的对信息利用如预测、决策等有价值的模式。需要考虑 的问题:
任务的确定:分类、聚类、关联规则发现等。
方法的选择:统计方法、机器学习方法、不确定性方法、
面临许多技术问题:如数据异构问题、数据具有 噪音且信息不完整、使用什么样的挖掘算法、知 识如何表示等
知识评价问题:数据本身具有权威性、客观性,
但知识不具备。知识如何评价?
决策理论与方法-智能决策理论与方法
2018年10月6日6时45分
知识发现—基本概念
知识发现(Knowledge Discovery in Databases, KDD):从 大量数据中提取隐含的(预先未知、新颖)、有潜在应用价值 的(可信、有效)并最终能被人理解的模式的非平凡过程。也 称为数据挖掘(Data Mining)。此过程主要包含三个阶段: 数据准备阶段、数据挖掘阶段、解释评价阶段。
决策理论与方法(4)
——智能决策理论与方法(1)
合肥工业大学管理学院 2018年10月6日
不确定性决策
不确定性决策:指难以获得各种状态发生的概率,甚至对未 来状态都难以把握的决策问题。 特点:状态的不确定性。
不确定性:不确定性来自人类的主观认识与客观实际之
间存在的差异。事物发生的随机性、人类知识的不完全、 不可靠、不精确和不一致以及自然语言中存在的模糊性 和歧义性,都反映了这种差异,都会带来不确定性。不 确定性就造成了具有相同描述信息的对象可能属于不同 概念。
2018年10月6日6时45分
知识发现—空值估算
空值是指属性值未知且不可用、与其它任何值都不相同的符 号。在样本数据集中,空值在所有非主码属性中都可能出现。 空值出现的主要原因:
在信息收集时忽略了一些认为不重要的数据或信息提供
者不愿意提供,而这些数据对以后的信息处理可能是有 用的;