智能决策理论与方法(1)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
We are drowning in data, but starving for knowledge!
2021年1月21日7时16 分
决策理论与方法-智能决 策理论与方法
KDD & DM
• 知识发现(Knowledge Discovery in Databases ,KDD) 是 指从大量数据中提取有用的(useful)、新颖的(novel)、 有效的(valid)并最终能被人理解(understandable)的模 式(patterns)的处理过程(process)。
❖ 问题
✓ 知识获202取1年是1月2基1日于7时1知6 识的系决策统理论(与KB方S法)-智的能最决 大瓶颈
分
策理论与方法
知识发现—动机
推理机
推理结果
问题请求
决策者
案例库 规则库
知识工程师 领域专家
❖ 问题
✓ 推理规则的获取与KBS中知识获取一样难,因而基于 案例推理(Case-Based Reasoning)渐渐变成基于案例 检索(C2分a02s1年e-1月B2a1日se7时d16Retrie决v策i理策n论理g与)论方。与法方-法智能决
数据预处理—连续属性离散 化
(3)统计试验方法
统计试验方法根据决策属性分析区间划分之间的独立程度,
确定分割点的有效性。
对于任意分割点
c
i j
Pi (0
j
ki )
,均可将
[si , ei )
分成2个区
间 Lc
[
si
,
c
i j
)
和 Rc
(c
i j
,
ei
)
,两区间的独立程度为:
2
2
A转换成离散化的数据集 AP 。因此离散化问题本质上可归结
为利用选取的20分21年割1月点21日对7时属16 性的值决策域理空论与间方法进-智行能决划分的问题。
分
策理论与方法
数据预处理—连续属性离散 化
离散化方法
典型的有等区间方法、等信息量方法、基于信息熵的方法、
Holte的1R离散化方法、统计试验方法、超平面搜索方法以及
用户自定义区间等。应用不同的准则可将现有的离散化方法
分为局部与全局方法(论域空间)、静态与动态方法(属性空间)
和有导师与无导师方法(是否依赖决策属性)。
(1)等区间离散化方法
等区间分割是将连续属性的值域等分成 ( ki N )个区间, ki
一般由用户确定。 2021年1月21日7时16
决策理论与方法-智能决
决策理论与方法-智能决 策理论与方法
智能决策理论与方法
1、智能决策理论的形成背景 2、知识发现 3、粗糙集理论 4、机器学习
2021年1月21日7时16 分
决策理论与方法-智能决 策理论与方法
知识发现—动机
• 智能决策的核心是如何获取支持决策的信息和知识。
推理机
推理结果
问题请求
决策者
知识库
知识工程师 领域专家
知识发现—动机
• KDD带来的新问题
• 知识发现问题:如何从数据中将知识挖掘出来? 面临许多技术问题:如数据异构问题、数据具 有噪音且信息不完整、使用什么样的挖掘算法、 知识如何表示等
• 知识评价问题:数据本身具有权威性、客观性, 但知识不具备。知识如何评价?
2021年1月21日7时16 分
决策理论与方法-智能决 策理论与方法
决策理论与方法
(1)
——智能决策理论与方法
合肥工业大学管理学院 2021年1月21日
不确定性决策
• 不确定性决策:指难以获得各种状态发生的概率,甚至对 未来状态都难以把握的决策问题。
• 特点:状态的不确定性。
• 不确定性:不确定性来自人类的主观认识与客观实际之间存在的差异。事物发生 的随机性、人类知识的不完全、不可靠、不精确和不一致以及自然语言中存在的 模糊性和歧义性,都反映了这种差异,都会带来不确定性。不确定性就造成了具 有相同描述信息的对象可能属于不同概念。
ci C
,
ci 0
),(ci
,
ci 1
),(ci
,
ci 2
),,
(ci
,
ci ki
)}
将ci属性的连续取值映射到离散空间,即对于任意
xk U(k 1,2,, n)
若其属性ci
的取值在区间
[ci j 1
,
ci j
)(
j
(1,2,,
ki
))
内,则将属
性值重新标记为j。这样就把原来含有连续属性的样本数据集
分布用不同值填补空值形成多个对象; • 将含有未知值的一个给定样本数据集转换成一个新的、可能不相容的但每个属性
值均已知的数据集,方法是将某个属性的未知值用所有该属性的可能值替换形成 多个数据集。
2021年1月21日7时16 分
决策理论与方法-智能决 策理论与方法
数据预处理—连续属性离散
化
问题描述 设 A U, C D
• 人类面临越来越复杂的决策任务和决策环境:
• 决策问题所涉及的变量规模越来越大; • 决策所依赖的信息具有不完备性、模糊性、不确定性等特点,使得决策问题难以
全部定量化地表示出来; • 某些决策问题及其目标可能是模糊的、不确定的,使得决策者对自己的偏好难以
明确,随着决策分析的深入,对决策问题的认知加深,自己原有的偏好/倾向得到 不断地修正,使得决策过程出现不断调整的情况,
决策理论与方法-智能决 策理论与方法
KDD过程
(1)维数约简(特征选择与 抽取,数据采样) (2)属性转换 (离散化和泛 化) (3)数据编码
2021年1月21日7时16 分
决策理论与方法-智能决 策理论与方法
KDD过程
(1)确定数据挖掘类型,如分类、 聚类、回归; (2) 选择特定的 方法; (3) 执行数据挖掘算法。
分
策理论与方法
数据预处理—连续属性离散
化
假设某个属性的最大属性值为xmax,最小属性值为xmin,
用户给定的分割点参数为k,则分割点间隔为δ=(xmax-xmin)
/k,
所得到的属性分割
Leabharlann Baidu
点为xmin+i,i=1,2,…,k。
(2)等信息量离散化方法
等信息量分割首先将测量值进行排序,然后将属性值域
分成k个区间,每个区间包含相同数量的测量值。假设某
2021年1月21日7时16 分
决策理论与方法-智能决 策理论与方法
为什么要开展数据挖掘?
• Big Data——大数据时代 • 第一,数据体量(Volume)巨大 。从TB级别,跃升到PB级别。 • 第二,数据类型繁多(Variety) 。网络日志、视频、图片、地理位置信息等等。 • 第三,价值(Value)密度低。以视频为例,连续不间断监控过程中,可能有用的 数据仅仅有一两秒。 • 第四,处理速度(Velocity)快。1秒定律。
参考书推荐
2021年1月21日7时16 分
决策理论与方法-智能决 策理论与方法
为什么要开展数据挖掘?
• 信息技术的广泛应用产生了大量的数据: • 流数据(生产数据、监控数据、传感数据) • 各种(时间)序列数据(证券交易,基因序列) • 对象关系数据(社交网络,分子结构) • 管理数据(MIS,ERP:财务、人力资源、客户关系) • 空间数据(GIS、GPS) • 多媒体数据(视频监控,视频分享) • 文本数据(学术论文,新闻,微博,博客) • 万维网数据(内容,结构,使用,交易数据) • ……
• 数据挖掘(Data Mining,DM) 是KDD的核心阶段, 通过实 施相关算法获得期望的模式。
2021年1月21日
2021年1月21日7时16 分
决策理论与方法-智能决 策理论与方法
电子商务新进展:数据挖掘
KDD过程
理解、定义用户的目标和K DD运行的环境。
2021年1月21日7时16 分
数据预处理—空值估算
• 空值是指属性值未知且不可用、与其它任何值都不相同的 符号。在样本数据集中,空值在所有非主码属性中都可能 出现。空值出现的主要原因:
• 在信息收集时忽略了一些认为不重要的数据或信息提供者不愿意提供,而这些数 据对以后的信息处理可能是有用的;
• 某些属性值未知; • 数据模型的限制。
• 解决问题的主要理论方法:人工智能与不确定性理论
2021年1月21日7时16 分
决策理论与方法-智能决 策理论与方法
智能决策理论与方法
1、智能决策理论的形成背景 2、知识发现 3、粗糙集理论 4、机器学习
2021年1月21日7时16 分
决策理论与方法-智能决 策理论与方法
智能决策理论与方法—形成 背景
个属性的最大属性值为xmax ,最小属性值为xmin ,用户给 定的分割点参数为k,样本集中的对象个数为n,则需要将
样本集中的对象按该属性的取值从小到大排列,然后按对
象数平均划分为k段即得到分割点集,每两个相邻分割点
之间的对象数均为n/k。
2021年1月21日7时16 分
决策理论与方法-智能决 策理论与方法
其
si
ci 0
ci 1
ci 2
ci ki
ei
ki
中
2021年1月21日7时16 分
k 决策理论与方法-智能决 策理论与方法
i
, 为一整数,表示离散化程度,可以看作按属性将论域中
数据预处理—连续属性离散 化
对于需要离散化的连续属性集C C ,其分割点集合记为
P {ci} Pi ci C
{(ci
知识发现—动机
决策者
决策支持查询 查询结果
不一定满意的决策
数据分析师 数据中心
❖ 问题
✓ 数据分析师与决策者之间对问题的理解存在偏差
✓ 缺少有创造性的决策建议
✓ 技术问202题1年1:月2如1日7查时1询6 效率(决R策D理B论M与S方)法-智能决
分
策理论与方法
知识发现—动机
推理机
推理结果
问题请求
• 这时,传统的决策数学模型已经难以胜任求解复杂度过高 的决策问题、含有不确定性的决策问题以及半结构化、非 结构化的决策问题,因而产生了智能决策理论、方法及技 术。
2021年1月21日7时16 分
决策理论与方法-智能决 策理论与方法
智能决策理论与方法—AI的 应用模式
• 智能决策方法是应用人工智能(Artificial Intelligence, AI)相关理论方法,融合传统的决策数学模型和方法而产 生的具有智能化推理和求解的决策方法,其典型特征是能 够在不确定、不完备、模糊的信息环境下,通过应用符号 推理、定性推理等方法,对复杂决策问题进行建模、推理 和求解。AI应用于决策科学主要有两种模式:
决策理论与方法-智能决 策理论与方法
KDD过程
(1)选取可用的数据; (2)定义附加的、必须的数据, 如领域知识; (3)数据集成为一个数据集, 供KDD使用。
2021年1月21日7时16 分
决策理论与方法-智能决 策理论与方法
KDD过程
(1)缺失值处理 (2)剔除噪声或异常数据
2021年1月21日7时16 分
• 针对可建立精确数学模型的决策问题,由于问题的复杂性,如组合爆炸、参数过 多等而无法获得问题的解析解,需要借助AI中的智能搜索算法获得问题的数值解;
• 针对无法建立精确数学模型的不确定性决策问题、半结构化或非结构化决策问题, 需要借助AI方法建立相应的决策模型并获得问题的近似解。
2021年1月21日7时16 分
1
2
3 …… ki-1
ki
c si
ci 0
ci 1
i 2
c c e i
i
ki 1
ki
i
为一U样本{x数1 , x据2 ,集,, xn }
为非空有限集合,C是条件属性集,D是决策属性集。假设ci对 C
于任Vi 意 [有si , ei ) R
ci , R是实数集,P则i Vi 为
连续属性。设 是 P上i 的{分c0i割, c点1i ,集合,,cki记i }为
决策者
知识库
数据挖掘工具
背景知识 领域专家
数据中心
❖ 优点
✓ 知识独立于问题本身
✓ 知识的获取主要通过数据挖掘实现
✓ 有创造2分0性21年收1月获21日7时16
决策理论与方法-智能决 策理论与方法
Data Mining within the DS S
2021年1月21日7时16 分
决策理论与方法-智能决 策理论与方法
2021年1月21日7时16 分
决策理论与方法-智能决 策理论与方法
KDD过程
评估和解释所挖掘的模式, 重点是可理解性、有用性.
2021年1月21日7时16 分
决策理论与方法-智能决 策理论与方法
KDD过程
与原有知识系统合并。 挑战: 动态与增量挖掘问题。
2021年1月21日7时16 分
决策理论与方法-智能决 策理论与方法
2021年1月21日7时16 分
决策理论与方法-智能决 策理论与方法
数据预处理—空值估算
• 空值处理的常用方法:
• 从训练集中移去含未知值的实例; • 用某个最可能的值进行替换; • 基于样本中其它属性的取值和分类信息,构造规则来预测丢失的数据,并用预测
结果“填补”丢失值; • 应用贝叶斯公式确定未知值的概率分布,选择一最可能的值填补空值或根据概率
2021年1月21日7时16 分
决策理论与方法-智能决 策理论与方法
KDD & DM
• 知识发现(Knowledge Discovery in Databases ,KDD) 是 指从大量数据中提取有用的(useful)、新颖的(novel)、 有效的(valid)并最终能被人理解(understandable)的模 式(patterns)的处理过程(process)。
❖ 问题
✓ 知识获202取1年是1月2基1日于7时1知6 识的系决策统理论(与KB方S法)-智的能最决 大瓶颈
分
策理论与方法
知识发现—动机
推理机
推理结果
问题请求
决策者
案例库 规则库
知识工程师 领域专家
❖ 问题
✓ 推理规则的获取与KBS中知识获取一样难,因而基于 案例推理(Case-Based Reasoning)渐渐变成基于案例 检索(C2分a02s1年e-1月B2a1日se7时d16Retrie决v策i理策n论理g与)论方。与法方-法智能决
数据预处理—连续属性离散 化
(3)统计试验方法
统计试验方法根据决策属性分析区间划分之间的独立程度,
确定分割点的有效性。
对于任意分割点
c
i j
Pi (0
j
ki )
,均可将
[si , ei )
分成2个区
间 Lc
[
si
,
c
i j
)
和 Rc
(c
i j
,
ei
)
,两区间的独立程度为:
2
2
A转换成离散化的数据集 AP 。因此离散化问题本质上可归结
为利用选取的20分21年割1月点21日对7时属16 性的值决策域理空论与间方法进-智行能决划分的问题。
分
策理论与方法
数据预处理—连续属性离散 化
离散化方法
典型的有等区间方法、等信息量方法、基于信息熵的方法、
Holte的1R离散化方法、统计试验方法、超平面搜索方法以及
用户自定义区间等。应用不同的准则可将现有的离散化方法
分为局部与全局方法(论域空间)、静态与动态方法(属性空间)
和有导师与无导师方法(是否依赖决策属性)。
(1)等区间离散化方法
等区间分割是将连续属性的值域等分成 ( ki N )个区间, ki
一般由用户确定。 2021年1月21日7时16
决策理论与方法-智能决
决策理论与方法-智能决 策理论与方法
智能决策理论与方法
1、智能决策理论的形成背景 2、知识发现 3、粗糙集理论 4、机器学习
2021年1月21日7时16 分
决策理论与方法-智能决 策理论与方法
知识发现—动机
• 智能决策的核心是如何获取支持决策的信息和知识。
推理机
推理结果
问题请求
决策者
知识库
知识工程师 领域专家
知识发现—动机
• KDD带来的新问题
• 知识发现问题:如何从数据中将知识挖掘出来? 面临许多技术问题:如数据异构问题、数据具 有噪音且信息不完整、使用什么样的挖掘算法、 知识如何表示等
• 知识评价问题:数据本身具有权威性、客观性, 但知识不具备。知识如何评价?
2021年1月21日7时16 分
决策理论与方法-智能决 策理论与方法
决策理论与方法
(1)
——智能决策理论与方法
合肥工业大学管理学院 2021年1月21日
不确定性决策
• 不确定性决策:指难以获得各种状态发生的概率,甚至对 未来状态都难以把握的决策问题。
• 特点:状态的不确定性。
• 不确定性:不确定性来自人类的主观认识与客观实际之间存在的差异。事物发生 的随机性、人类知识的不完全、不可靠、不精确和不一致以及自然语言中存在的 模糊性和歧义性,都反映了这种差异,都会带来不确定性。不确定性就造成了具 有相同描述信息的对象可能属于不同概念。
ci C
,
ci 0
),(ci
,
ci 1
),(ci
,
ci 2
),,
(ci
,
ci ki
)}
将ci属性的连续取值映射到离散空间,即对于任意
xk U(k 1,2,, n)
若其属性ci
的取值在区间
[ci j 1
,
ci j
)(
j
(1,2,,
ki
))
内,则将属
性值重新标记为j。这样就把原来含有连续属性的样本数据集
分布用不同值填补空值形成多个对象; • 将含有未知值的一个给定样本数据集转换成一个新的、可能不相容的但每个属性
值均已知的数据集,方法是将某个属性的未知值用所有该属性的可能值替换形成 多个数据集。
2021年1月21日7时16 分
决策理论与方法-智能决 策理论与方法
数据预处理—连续属性离散
化
问题描述 设 A U, C D
• 人类面临越来越复杂的决策任务和决策环境:
• 决策问题所涉及的变量规模越来越大; • 决策所依赖的信息具有不完备性、模糊性、不确定性等特点,使得决策问题难以
全部定量化地表示出来; • 某些决策问题及其目标可能是模糊的、不确定的,使得决策者对自己的偏好难以
明确,随着决策分析的深入,对决策问题的认知加深,自己原有的偏好/倾向得到 不断地修正,使得决策过程出现不断调整的情况,
决策理论与方法-智能决 策理论与方法
KDD过程
(1)维数约简(特征选择与 抽取,数据采样) (2)属性转换 (离散化和泛 化) (3)数据编码
2021年1月21日7时16 分
决策理论与方法-智能决 策理论与方法
KDD过程
(1)确定数据挖掘类型,如分类、 聚类、回归; (2) 选择特定的 方法; (3) 执行数据挖掘算法。
分
策理论与方法
数据预处理—连续属性离散
化
假设某个属性的最大属性值为xmax,最小属性值为xmin,
用户给定的分割点参数为k,则分割点间隔为δ=(xmax-xmin)
/k,
所得到的属性分割
Leabharlann Baidu
点为xmin+i,i=1,2,…,k。
(2)等信息量离散化方法
等信息量分割首先将测量值进行排序,然后将属性值域
分成k个区间,每个区间包含相同数量的测量值。假设某
2021年1月21日7时16 分
决策理论与方法-智能决 策理论与方法
为什么要开展数据挖掘?
• Big Data——大数据时代 • 第一,数据体量(Volume)巨大 。从TB级别,跃升到PB级别。 • 第二,数据类型繁多(Variety) 。网络日志、视频、图片、地理位置信息等等。 • 第三,价值(Value)密度低。以视频为例,连续不间断监控过程中,可能有用的 数据仅仅有一两秒。 • 第四,处理速度(Velocity)快。1秒定律。
参考书推荐
2021年1月21日7时16 分
决策理论与方法-智能决 策理论与方法
为什么要开展数据挖掘?
• 信息技术的广泛应用产生了大量的数据: • 流数据(生产数据、监控数据、传感数据) • 各种(时间)序列数据(证券交易,基因序列) • 对象关系数据(社交网络,分子结构) • 管理数据(MIS,ERP:财务、人力资源、客户关系) • 空间数据(GIS、GPS) • 多媒体数据(视频监控,视频分享) • 文本数据(学术论文,新闻,微博,博客) • 万维网数据(内容,结构,使用,交易数据) • ……
• 数据挖掘(Data Mining,DM) 是KDD的核心阶段, 通过实 施相关算法获得期望的模式。
2021年1月21日
2021年1月21日7时16 分
决策理论与方法-智能决 策理论与方法
电子商务新进展:数据挖掘
KDD过程
理解、定义用户的目标和K DD运行的环境。
2021年1月21日7时16 分
数据预处理—空值估算
• 空值是指属性值未知且不可用、与其它任何值都不相同的 符号。在样本数据集中,空值在所有非主码属性中都可能 出现。空值出现的主要原因:
• 在信息收集时忽略了一些认为不重要的数据或信息提供者不愿意提供,而这些数 据对以后的信息处理可能是有用的;
• 某些属性值未知; • 数据模型的限制。
• 解决问题的主要理论方法:人工智能与不确定性理论
2021年1月21日7时16 分
决策理论与方法-智能决 策理论与方法
智能决策理论与方法
1、智能决策理论的形成背景 2、知识发现 3、粗糙集理论 4、机器学习
2021年1月21日7时16 分
决策理论与方法-智能决 策理论与方法
智能决策理论与方法—形成 背景
个属性的最大属性值为xmax ,最小属性值为xmin ,用户给 定的分割点参数为k,样本集中的对象个数为n,则需要将
样本集中的对象按该属性的取值从小到大排列,然后按对
象数平均划分为k段即得到分割点集,每两个相邻分割点
之间的对象数均为n/k。
2021年1月21日7时16 分
决策理论与方法-智能决 策理论与方法
其
si
ci 0
ci 1
ci 2
ci ki
ei
ki
中
2021年1月21日7时16 分
k 决策理论与方法-智能决 策理论与方法
i
, 为一整数,表示离散化程度,可以看作按属性将论域中
数据预处理—连续属性离散 化
对于需要离散化的连续属性集C C ,其分割点集合记为
P {ci} Pi ci C
{(ci
知识发现—动机
决策者
决策支持查询 查询结果
不一定满意的决策
数据分析师 数据中心
❖ 问题
✓ 数据分析师与决策者之间对问题的理解存在偏差
✓ 缺少有创造性的决策建议
✓ 技术问202题1年1:月2如1日7查时1询6 效率(决R策D理B论M与S方)法-智能决
分
策理论与方法
知识发现—动机
推理机
推理结果
问题请求
• 这时,传统的决策数学模型已经难以胜任求解复杂度过高 的决策问题、含有不确定性的决策问题以及半结构化、非 结构化的决策问题,因而产生了智能决策理论、方法及技 术。
2021年1月21日7时16 分
决策理论与方法-智能决 策理论与方法
智能决策理论与方法—AI的 应用模式
• 智能决策方法是应用人工智能(Artificial Intelligence, AI)相关理论方法,融合传统的决策数学模型和方法而产 生的具有智能化推理和求解的决策方法,其典型特征是能 够在不确定、不完备、模糊的信息环境下,通过应用符号 推理、定性推理等方法,对复杂决策问题进行建模、推理 和求解。AI应用于决策科学主要有两种模式:
决策理论与方法-智能决 策理论与方法
KDD过程
(1)选取可用的数据; (2)定义附加的、必须的数据, 如领域知识; (3)数据集成为一个数据集, 供KDD使用。
2021年1月21日7时16 分
决策理论与方法-智能决 策理论与方法
KDD过程
(1)缺失值处理 (2)剔除噪声或异常数据
2021年1月21日7时16 分
• 针对可建立精确数学模型的决策问题,由于问题的复杂性,如组合爆炸、参数过 多等而无法获得问题的解析解,需要借助AI中的智能搜索算法获得问题的数值解;
• 针对无法建立精确数学模型的不确定性决策问题、半结构化或非结构化决策问题, 需要借助AI方法建立相应的决策模型并获得问题的近似解。
2021年1月21日7时16 分
1
2
3 …… ki-1
ki
c si
ci 0
ci 1
i 2
c c e i
i
ki 1
ki
i
为一U样本{x数1 , x据2 ,集,, xn }
为非空有限集合,C是条件属性集,D是决策属性集。假设ci对 C
于任Vi 意 [有si , ei ) R
ci , R是实数集,P则i Vi 为
连续属性。设 是 P上i 的{分c0i割, c点1i ,集合,,cki记i }为
决策者
知识库
数据挖掘工具
背景知识 领域专家
数据中心
❖ 优点
✓ 知识独立于问题本身
✓ 知识的获取主要通过数据挖掘实现
✓ 有创造2分0性21年收1月获21日7时16
决策理论与方法-智能决 策理论与方法
Data Mining within the DS S
2021年1月21日7时16 分
决策理论与方法-智能决 策理论与方法
2021年1月21日7时16 分
决策理论与方法-智能决 策理论与方法
KDD过程
评估和解释所挖掘的模式, 重点是可理解性、有用性.
2021年1月21日7时16 分
决策理论与方法-智能决 策理论与方法
KDD过程
与原有知识系统合并。 挑战: 动态与增量挖掘问题。
2021年1月21日7时16 分
决策理论与方法-智能决 策理论与方法
2021年1月21日7时16 分
决策理论与方法-智能决 策理论与方法
数据预处理—空值估算
• 空值处理的常用方法:
• 从训练集中移去含未知值的实例; • 用某个最可能的值进行替换; • 基于样本中其它属性的取值和分类信息,构造规则来预测丢失的数据,并用预测
结果“填补”丢失值; • 应用贝叶斯公式确定未知值的概率分布,选择一最可能的值填补空值或根据概率