从数据中发现不确定性知识研究

从数据中发现不确定性知识研究
从数据中发现不确定性知识研究

从数据中发现不确定性知识研究

发表时间:2010-03-22T22:16:52.310Z 来源:《价值工程》2010年第2期供稿作者:杨庆仙;宋绍云;唐合文

[导读] 知识是人类(或系统)对信息(数据)加工后产生的高级产品,知识可以表示成各种形式:规则、科学规律、方程或概念网杨庆仙① Yang Qingxian;宋绍云② Song Shaoyun;唐合文② Tang Hewen

(①云南交通职业技术学院,昆明 650101;②玉溪师范学院信息技术工程学院,玉溪 653100)

摘要:从数据中发现不确定知识并进行量化一直是研究的难点,在阐述不确定性知识概念的基础上,λ构造叠加算子,并应用该算子从实际例子中发现不确定性知识,从结果可以看出,该算法得到的不确定知识可靠性较高。

关键词:数据挖掘;不确定性;知识表示;知识处理

中图分类号:TP183 文献标识码:A 文章编号:1006-4311(2010)05-0154-03

0 引言

当今是一个数据泛滥的时代,虽然我们能从大量的数据中来获取知识,并用得到的知识进行决策和预测等工作,但从庞大数据中获得的知识是匮乏的,由于现实世界中客观事物或现象的不确定性,导致了人们在认识领域中的信息和知识大多是不精确的,知识真正是,并永远是不确定的[1]。

1 数据与知识

数据是客观事物的符号表示,它被看作自然对象,其主要形态有数字、符号、图形、图像、声音数据,主要组织有结构化、半结构化和非结构等。

知识是人类(或系统)对信息(数据)加工后产生的高级产品,知识可以表示成各种形式:规则、科学规律、方程或概念网。主要有两类知识的来源,首先是经验知识(专家知识),主要是针对特定领域的问题求解,不仅依赖于特定领域确定的理论知识,而且更多地依赖于专家的经验和常识。由于现实世界中客观事物或现象的不确定性,导致了人们在各认识领域中的信息和知识大多是不精确的,这就要求专家系统中知识的表示和处理模式能够反映这种不确定性。其次的知识来源是数据中挖掘的知识,其主要对象是数据,面临的问题是怎样通过推理发现数据中隐藏的知识,以便提供决策,主要的手段是通过不确定性方法(模糊集、粗糙集、概率、信息熵等)来获得数据中的知识。

2 知识发现

知识发现是指从数据集中抽取和精炼有用的模式。

2.1 知识发现的任务

数据总结:对数据进行总结与概括。传统的最简单的数据总结方法是计算出数据库的各个字段上的求和值、平均值、方差值等统计值或者用直方图、饼状图等图形方式表示。

聚类:根据数据的不同特征,将其划分为不同的类,属于无导师学习。

分类:根据分类模型对数据集合分类,即将给定对象划归于某个类。分类(Classification)是知识发现中一项非常重要的任务,是一种有指导的学习(机器学习中的称谓)。

偏差分析:基本思想是寻找观察结果与参照量之间的差别。通过发现异常, 可以引起人们对特殊情况的加倍注意。

建模:构造描述一种活动或状态的数学模型(如贝叶斯模型)。

2.2 问题的不确定性

随机性:主要用概率论来揭示随机现象的统计规律性。

模糊性:主要用模糊集和粗糙集来揭示模糊现象的规律性。

随机性和模糊性是不确定性的两个方面,确定性可以被看作是不确定性的特例。

2.3 知识发现的方法

知识发现方法主要有:传统方法(回归分析、聚类分析等);模糊集方法;粗糙集方法和机器学习(规则归纳、决策树、范例推理、支持向量机、神经网络、贝叶斯信念网络等)。下面介绍粗糙集方法的应用。

3 粗糙集的应用

3.1 粗糙集简介

粗糙集作为一种处理不精确(imprecise)、不一致(inconsistent)、不完整(incomplete)等各种不完备信息的有效工具,一方面得益于他的数学基础成熟、不需要先验知识;另一方面在于它的易用性。由于粗糙集理论创建的目的和研究的出发点就是直接对数据进行分析和推理,从中发现隐含的知识,揭示潜在的规律,因此是一种天然的数据挖掘或者知识发现方法,它与基于概率论的数据挖掘方法、基于模糊理论的数据挖掘方法和基于证据理论的数据挖掘方法等其他处理不确定性问题理论的方法相比较,最显著的区别是它不需要提供问题所需处理的数据集合之外的任何先验知识,而且与处理其他不确定性问题的理论有很强的互补性(特别是模糊理论)。基于粗糙集的方法可用于:近似推理、信息检索、机器学习和数据挖掘等。

3.2 属性约简

3.2.1 基本概念

设,U:为非空对象集,称为论域。R:为U 上的等价关系,且其具有以下性质。

自反性:(a,a)∈R;

对称性:if(a,b)∈R,then(b,a)∈R

传递性:if(a,b)∈R,(b,c)∈R,then(a,c)∈R

由U上的等价关系R定义U上的划分,每个划分块称为等价类。U/R定义为由R导出的等价类。[x]R定义为包含对象x的等价类。例1:设U={x1,x2,…,x8}为积木集。

设 R1:颜色(红,黄,蓝)

相关主题
相关文档
最新文档