数据挖掘中特征提取的分析与应用

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据挖掘中特征提取的分析与应用

摘要:数据挖掘中需要对数据进行各种分析,在一切分析前需要做好数据预处理。然而经过数据清理、数据集成、数据变换后,数据集仍然会非常大!在海量的数据上直接进行复杂的数据分析与挖掘将需要很长时间,使得这种分析不现实或不可行。数据归约技术可以用来得到数据集的归约表示,它小得多,但仍接近于保持原数据的完整性。这样,在归约后的数据集上挖掘将更有效,并产生相同或几乎相同的分析结果。通过这种方法从大量特征中提取出最具有代表性的特征根据需要分析有用的信息。随着社会的发展,传统的基于信物或口令的安全系统显得越来越脆弱,不能够满足现代安全系统的需要。基于特征提取的指纹识别随之产生,在众多的指纹属性中提取端点和分叉点两大明显特征,进行数据挖掘与分析。

关键词:数据挖掘;数据预处理;数据归约;维归约;特征提取;指纹识别

前言:数据挖掘中需要对数据进行各种分析,在一切分析前需要做好数据预处理。然而经过数据清理、数据集成、数据变换处理后,数据集仍然会非常大!在海量的数据上直接进行复杂的数据分析与挖掘将需要很长时间,使得这种分析不现实或不可行。此时数据归约技术显得尤为重要,通过数据归约技术的数据立方体聚集、维归约、数据压缩、数值压缩、离散化和概念分层产生策略将数据集归约表示,保持原数据的完整性。这样,在归约后的数据集上挖掘将更有效,并产生相同或几乎相同的分析结果。通过这种方法从大量特征中提取出最具有代表性的特征根据需要分析有用的信息。数据挖掘中的特征提取被广泛应用,其中指纹识别则是最典型的应用。

正文:数据挖掘中的特征提取的分析与应用经过数据清理、数据集成、数据变换预处理后,数据量仍然会很大,直接进行分析,肯定会降低挖掘过程的速度和效率。而通过数据归约的数据立方体聚集、维归约、数据压缩、数值压缩等策略可以‘压缩’数据集,而又不损害数据挖掘的结果。

简而言之,数据归约是通过聚集、删除冗余特性或聚类的方法来压缩数据。数据立方体聚集是作用于数据立方体中的数据;维归约可以检测并删除不相关、弱相关或冗余的属性或维;数据压缩使用编码机制压缩数据集;数值压缩用替代的、较小的数据表示替换或估计数据。本文就维归约的特征提取进行详尽的分析与应用说明,首先介绍维归约的概念。

一、维归约

用于数据分析的数据可能包含数以百计的属性,其中大部分属性与挖掘任务不相关,是冗余的。尽管领域专家可以挑选出有用的属性,但这可能是一项困难而费时的任务,特别是当数据的行为不清楚的时候更是如此。遗漏相关属性或留

下不相关属性是有害的,可能会减慢挖掘进程。维归约则是通过删除不相关的属性或维减少数据量。通常使用属性子集的选择方法,即特征提取。

二、特征提取的概念

特征提取是通过映射的方法,将高维的属性空间压缩为低维的属性空间,得到最小的属性集,使得数据类的概念分布尽可能地接近使用所有属性的原分布。得到的数据挖掘结果与所有特征参加的数据挖掘结果相近或完全一致。对于d

个属性来说,有2d个可能的子集。

三、特征提取的分析

通过穷举搜索找出属性的最佳子集可能是不现实的,特别是当d和数据类的数目增加时,因此,对于特征提取通常是使用压缩搜索空间的启发式算法。特征提取的基本启发式方法包括以下四种:

(1)逐步向前选择:该过程由空属性集作为归约集开始,确定原属性集中最好的属性,并将它添加到归约集中。在其后的每一次迭代,将剩下的原属性集中的最好的属性添加到该集合中。如图1左

(2)逐步向后删除:该过程由整个属性集开始。在每一步中,删除尚在属性集中最差的属性。如图1中

(3)逐步向前选择和逐步向后删除的组合:可以将逐步向前选择和逐步向后删除方法结合在一起,每一步选择一个最好的属性,并在剩余属性中删除一个最差的属性。

(4)决策树归纳:决策树归纳构造一个类似于流程图的结构,其中每个内部(非树叶)结点表示一个属性上的测试,每个分枝对应于测试的一个结果;每个外部(树叶)结点表示一个类预测。在每个结点上,算法选择“最好”的属性,将数据划分成类。如图1右

图1 属性子集选择(特征提取)的贪心(启发式)方法

四、特征提取在指纹识别技术上的应用与分析

基于特征提取的特性,其被广泛应用于各种领域。

在现实生活中经常要对人的身份进行识别,例如登飞机时要识别登机者的身份,在银行取钱时要核实取钱者是否是指定账户的合法拥有者,使用计算机时要检查操作者的权限等等。随着国民经济和社会信息化的飞速发展,金融机构、政府机关、企业以及个人之间通过互联网日益紧密地联系在一起,一方面为信息的共享提供了条件,另一方面也为心怀叵测的人试图非法获取他人信息提供了机会。因此,如何自动、准确和高效地识别人的身份是信息安全领域的重要问题。而指纹具有唯一性和稳定性,因此被人们用来当作鉴别一个人身份的主要依据。然而如何在成千上万的指纹数据库中准确找出代表某一个人的指纹,进行数据挖掘,这就需要用到指纹识别技术了。相对于其它生物特征鉴定技术,指纹识别是一种理想的身份鉴别技术。

1、指纹的类型

目前我国指纹的分类主要有以下两种:

(1)基于指纹管理需要的十指指纹管理分类法:该分类方法将指纹分为弓、箕、斗三种类型,并将箕型纹分为反箕和正箕以及中心点、外角点和追迹线的计线法。

(2)计算机指纹管理的分类:指纹自动识别系统一般把指纹纹型分为弓、左箕、右箕、斗和杂型五大类,其分类的规则与十指指纹分析法基本一致,其代号为:A、弓型纹;B、左箕型纹;C、右箕型纹;D、斗型纹;E、杂型纹。

2、指纹图像的采集

传统的指纹采集方法为油墨转印法;活体指纹采集法直接从手指上获取数字指纹图像。

3、指纹图像的预处理

对于一幅指纹采集头采集的原始图像,为了使后续特征提取的操作能够正常有效的进行,必须对原始指纹图像进行一定的处理。通常这样的处理过程包括归一化、图像增强、二值化和细化等过程。如图2所示

图2 指纹图像处理步骤

4、指纹图像的特征选取

因为每个人的指纹多种多样,在指纹识别技术中,指纹特征提取是其中一个非常重要的部分。这其中包括了提取什么样的特征、用什么样的方法提取特征、提取到的特征是不是能够代表该指纹特点的真实特征等三个问题。

指纹图像中存在两种类型的特征:全局特征和局部特征。全局特征通常用于指纹的分类,局部特征通常用于指纹的比对。

基于局部特征,根据《指纹学》所述,国际鉴定协会标准委员会确定的特征细节点有以下五种:(1)纹线端点(2)纹线分叉(3)短线(4)眼线(5)点

奥斯特布曾建议指纹特征细节点除上述五种外再加上以下五种:(6)三角(7)桥形(8)双叉(9)三叉(10)马刺形

指纹特征中还有一个非常重要的特征点——(11)中心点,如图3所示为特征点细节的举例

相关文档
最新文档