知识获取——数据离散与特征提取

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2.知识获取

2.2 数据离散与特征提取

目前,常用的离散化算法有等距离划分法、等频率划分法、基于条件信息熵的方法等。 2.2.1 数据离散

(1) 等距离划分算法(Equal Interval Width )。这种算法是根据用户给定的维数(要离散化的类数),将每个属性划分为属性值距离相等的断点段,每个段中的属性值个数不相等。假设某个属性的最大值为max x ,最小值为min x ,用户给定的维数为k ,则断点间隔δ=(max x -min x )/k ,得到的断点为min x + iδ,i =0,1,…,k 。

(2) 等频率划分算法(Equal Frequency Interval )。这种算法首先将某属性值按从小到大的顺序排列,然后根据用户给定的参数k 把这些属性值分成k 段,每一段中属性值的个数相同,则最后的断点集也可相应获得。

(3)Naive Scaler 算法。Naive Scaler 算法如下: 对于信息表条件属性集C 中的每一个属性a 进行如下过程: 步骤1:按a (x )的值,从小到大对实例x 进行排序,其中U x ∈; 步骤2:从排序后的实例集头部开始扫描,令i x 代表当前实例:

如果)()(1+=i i x a x a ,则继续扫描;

如果)()(1+=i i x d x d ,则继续扫描,其中d 为决策属性 否则,得到新的断点c ,2/))()((1++=i i x a x a c 。 步骤3:结束。

该算法为“逐步增加断点算法”。

(4)Semi Naive Scaler 算法。Semi Naive Scaler 算法是对Naive Scaler 算法的一种改进算法,它通过对Naive Scaler 算法获得的每个候选断点进行进一步处理来决定是否采用此断点,具体处理方法如下:

假设c 代表属性a 的一个候选断点,i x ,j x 是断点c 的两个相邻的属性值,

且c x c x j i ><,;

i D 代表i x 所属的等价类所对应的决策中出现频率最高的决策值

的集合,如果有两个以上的决策值出现的频率相同,则1>i D ;如果j i D D ⊆或者i j D D ⊆,则不选取该断点;否则,选取该断点。

由此可见,Semi Naive Scaler 算法所得到的断点去掉了Naive Scaler 算法所得到断点中一些不必要的断点,得到了更少的断点数。

(5)自组织竞争人工神经网络(Kohonen )算法。

R

图2-1 自组织竞争神经网络结构

自组织竞争人工神经网络的结构如图2-1所示。其中的||ndist ||用来计算网络输入P 和权值1,1IW 的距离,它的输出是1S 维的向量,其中的每个元素是输入向量与权值矩阵各行向量1,1IW i 的距离并取负号,即

||ndist || =-||1,1IW i -P || (2.1)

竞争神经元的输入1n 是||ndist ||的输出向量与阀值向量1b 的和,当网络的阀值为0,并且输入P 与权值1,1IW 完全相等时,1n 取得最大值0。而在网络输出的1S 维向量中,只有对应1n 中最大元素1i n 的相应元素1i a 的值为1,其余元素的值均为0,这说明网络中的第i 个神经元在竞争中取得了胜利。

Kohonen 训练规则的目标是调整网络获胜神经元的权值,即网络权值矩阵中的某一个行向量的值。假设第i 个神经元对第q 个输入向量获胜,那么对应的权值调整公式如下:

()()()()()111,11,11,1--+-=q IW q p q IW q IW i i i

α (2.2)

所以距离某个输入向量最近的权值向量得到的调整使它更加接近于该输入向量。这样,当网络下次输入相似的向量时,该神经元就很可能在竞争中取得胜利。如此反复地进行下去,网络中的各神经元就会响应某一部分输入向量,在它们作为输入的时候,网络相应的输出就为1,从而实现了分类的目的。文献提出了采用Kohonen 网络对属性进行离散化处理的方法,该方法在离散过程中只需

指定聚类数目,离散结果就能比较客观地反映实际数据分布情况。 2.2.2 模糊聚类

应用模糊聚类分析对事物进行分类,一般按如下四个步骤进行:选择统计指标、数据标准化(正规化)、标定和聚类。 2.2.2.1 选择指标

根据实际问题,选择那些具有明确的意义,有较强的分辨力和代表性的特征,作为分类事物的统计指标。统计指标选择得如何,对分类效果有直接的影响。 2.2.2.2数据标准化(正规化)

数据标准化处理方法: [1] 最大最小法:令'1

'1

'

1

'ij

n i ij n

i ij n

i ij

ij x x x x x ===∧-∨∧-=

,式中分母是原始纪录矩阵第j 列各元

素的最大值与最小值之差。

[2] 正态标准化法:设x 为原始数据,x 为原始数据的平均值,σ为原始数据的标准差,则:σ

x

x x -=

'。

[3] 归一化法:设'ij

x 为原始数据,'

1

n

ij i x =∨为原始数据的最大值,则:

''ij

n

ij

ij

ij x

x x ∨=

。或者设t x 为原始采样数据,'t x 为归一化后数据,max x 为原始采

样数据最大值,min x 为原始采样数据最小值,

k 为放大倍数,则:min

max min

'x x x x k x t t --=。

[4] 标准差变换:设论域},,,{21n u u u U =为被分类对象,每个元素又由m 个数据表示,对第i 个元素有),,2,1}(,,,{21n i x x x u im i i i ==,这时原始数据矩阵

相关文档
最新文档