多媒体数据挖掘中图像数据的关联规则挖掘

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

ＣｏｒｒｅｌａｔｉｖｅＲｕｌｅｏｆＩｍａｇｅＤａｔａＭｉｎｉｎｇｉｎＭｕｌｔｉｍｅｄｉａＤａｔａＭｉｎｉｎｇ
ＺＨＡＮＧＨｅ，ＧＵＡＮＺｅｑｕｎ（ＳｃｈｏｏｌｏｆＲｅｍｏｔｅＳｅｎｓｉｎｇａｎｄＩｎｆｏｒｍａｔｉｏｎＥｎｇｉｎｅｅｒｉｎｇ，ＷｕｈａｎＵｎｉｖｅｒｓｉｔｙ，Ｗｕｈａｎ４３００７９，Ｃｈｉｎａ）
所有项目的组合，而是备选集ＣＫ。Ａｐｒｉｏｒｉ算法中产生备选集ＣＫ的方法是：用Ｋ－１一备
选集中的项集进行连接操作，再从其结果中删除某些项
集，这些项集的某一（ｋ－１）元子集不在ｋ－１元大项集中。
２．２多媒体图像的关联规则挖掘
多媒体图像数据挖掘的一个十分关键的问题是图
像数据本身的表示问题。这也是图像处理和模式识别的
２图像的关联规则挖掘
由于多媒体数据在结构、特性、存储方式等存在不同之处，对他们的数据挖掘方法差异很大。即便是同一类型的数据，应用目标或数据发现的模式不同，挖掘方法也不同。这些模式包括预测、分类、关联、聚类等。挖掘方法或称挖掘技术如传统统计分析、决策树、遗传算法、神经网络、关联分析等都可以用于多媒体数据的挖掘。这里主要介绍图像数据的关联规则挖掘。图像数据的其他挖掘方法还有相似搜索、多维分析、分类、聚类和预测分析等。２．１关联规则挖掘
１多媒体数据挖掘概述
多媒体数据，包括图形、图像、文本、视频和音频数据等，数据类型复杂，多为半结构或非结构化数据。多媒体数据挖掘系统是在基于内容的多媒体数据检索系统发展的基础上出现的。它的一般结构图如图１所示。从图中可以看出，多媒体数据挖掘系统主要
图１多媒体数据挖掘系统的结构收稿日期：２００４－１１－１５
１）图像内容和非图像内容特征间的关联：如规则 “如果照片的上半部的５０％是蓝色，那它很可能是天空”属于此类。这些关联规则与知识库有很大关系。
２）与空间关系无关的图像内容的关联：如规则 “如一幅图片包含两个蓝色圆形，那么，很可能也包含一个红色正方形 ”。比如我们所知道的很多知名品牌的商标，都有特殊的图案。
３）与空间关系有关的图像内容的关联：如规则 “如果一个红色矩形是在两个黄色正方形之间，那么很可能在下面存在一个大的椭圆形对象”属于此类。
要挖掘多媒体图像数据间的关联，我们可以把每一个图像或它的局部看成一个对象，从中找出不同对象出现的频率的模式。多媒体数据库的关联和挖掘有与事务数据库中的关联不同的特点：
Ａｂｓｔｒａｃｔ：Ｍｕｌｔｉｍｅｄｉａｄａｔａｍｉｎｉｎｇｉｓａｐｏｐｕｌａｒｌｙｉｎｔｅｒｎａｔｉｏｎａｌｒｅｓｅａｒｃｈ．Ｉｔｉｓｏｎｅｏｆｕｔｍｏｓｔｆｒｏｎｔ－ｌｉｎｅｒｅｓｅａｒｃｈ－ｉｎｇｏｒｉｅｎｔａｔｉｏｎｓｆｏｒｄａｔａｂａｓｅ，ｍｕｌｔｉｍｅｄｉａｔｅｃｈｎｏｌｏｇｙａｎｄｉｎｆｏｒｍａｔｉｏｎｄｅｃｉｓｉｏｎ－ｍａｋｉｎｇｆｉｅｌｄｉｎｔｅｒｎａｔｉｏｎａｌｌｙａｎｄａｌｓｏａｓｕｂ－ｆｉｅｌｄｆｏｒｄａｔａｂａｓｅｍｉｎｉｎｇｔｈａｔｉｓｎｅｗａｎｄｆｕｌｌｏｆｃｈａｌｌｅｎｇｅ．Ｔｈｉｓａｒｔｉｃｌｅｉｎｔｒｏｄｕｃｅｄｔｈｅｆｒａｍｅｗｏｒｋｏｆｔｈｅｓｙｓｔｅｍ，ａｎｄｐａｒｔｉｃｕｌａｒｌｙｉｎｔｒｏｄｕｃｅｄｔｈｅｍｅｔｈｏｄｏｆｔｈｅｃｏｒｒｅｌａｔｉｖｅｒｕｌｅｍｉｎｉｎｇｂｙｔａｋｉｎｇｉｍａｇｅｄａｔａａｓｒｅｐｒｅ－ｓｅｎｔａｔｉｖｅ．Ｋｅｙｗｏｒｄｓ：Ｍｕｌｔｉｍｅｄｉａｄａｔａ；ｄａｔａｍｉｎｉｎｇ；ｉｍａｇｅｄａｔａ；ｃｏｒｒｅｌａｔｉｖｅｒｕｌｅ；ｍｅｔａｄａｔａ
关联规则是表示数据库中一组对象之间某种关联关系的规则。对关联规则挖掘的研究在数据挖掘研究领域开展得比较活跃。关联规则挖掘一般以事务为对
· ３４ ·
地理空间信息
２００５年
象，辨别事务项目之间是否存在某种关联关系。现有
的研究主要是面向事务数据库的。问题是这样描述
的：设Ｉ＝｛ｉ１，ｉ２，…，ｉｍ｝是ｍ个不同项的集合，Ｄ是一个事务集，其中每一事务Ｔ是一组项集ｉｔｅｍｓｅｔ，Ｔ!Ｉ，
且每一个Ｔ有一个唯一的标识ＴＩＤ。Ｘ为某些项目的集
合，如果Ｘ!Ｔ，则称事务Ｔ包含Ｘ。关联规则表示为
Ｘ"Ｙ，其中Ｘ#Ｉ，Ｙ#Ｉ，且Ｘ∩Ｙ＝!，Ｘ称为规则的
前提，wenku.baidu.comＹ为结果。
项集中项的数量称为项集的长度。每一项集都有
一个统计的度量称为 “支持度 ” （Ｓｕｐｐｏｒｔ）。对于Ｘ，
张鹤，关泽群
（武汉大学遥感信息工程学院，湖北武汉４３００７９）
摘要：多媒体数据挖掘是目前国际上数据库、多媒体技术和信息决策领域最前沿的研究方向之一，是数据挖掘的一个新兴且富有挑战性的子领域。介绍了多媒体数据挖掘的系统结构，及以图像数据为代表的关联规则挖掘方法。关键词：多媒体数据；数据挖掘；图像数据；关联规则；元数据
２）用大项集来生成所希望的规则。一个直接的
方法是：对每一大项集Ｌ，找出其所有非空子集，对
其每一子集Ａ，如果ｓｕｐｐｏｒｔ（Ｌ）／ｓｕｐｐｏｒｔ（Ａ）大于最小
ｃｏｎｆｉｄｅｎｃｅ，则输出形式为：Ａ"Ｌ－Ａ的规则。
问题的主要难点在于数据量巨大，因此算法的效
第一，一个图像可以包含多个对象，每个对象可以有许多特征。这样可能存在大量的关联，在很多情况下，两个图像的某个特征在某一分辨率级别下是相同的，但在更细的分辨率下是不同的。因此，需要一种分辨率逐步求精的方法。这种多分辨率挖掘策略极大地降低了总体挖掘的代价，而又不损失数据挖掘结果的质量和完整性。
率是关键。研究的重点在第１步，即找出大项集，因
为第２步相对简单。围绕此问题，Ｒ．Ａｇｒａｗａｌ等在１９９４
年提出Ａｐｒｉｏｒｉ算法，重复扫描数据库，在第Ｋ次扫描
时产生长度为Ｋ的大项集，称为ＬＫ，而在第Ｋ＋１次扫描时，只考虑由Ｌ中的Ｋ一项集产生的长度为Ｋ＋１的备
选集ＣＫ。该算法的依据是：任何大项集的子集也是大项集。因此除第１次扫描外，每次扫描考察的并非
挖掘关联规则就是找出这样一些规则，它们的
ｓｕｐｐｏｒｔ和ｃｏｎｆｉｄｅｎｃｅ分别大于用户指定的最小ｓｕｐｐｏｒｔ
和ｃｏｎｆｉｄｅｎｃｅ限度。因此，关联规则的挖掘可分解为
以下两个子问题：
１）产生所有ｓｕｐｐｏｒｔ大于指定的最小ｓｕｐｐｏｒｔ的项
集，这些项集称为大项集，而其他的称为小项集；
数据挖掘是信息技术自然演化的结果，它是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中，提取出隐含在其中的、人们不知道的、但又是潜在有用的信息和知识的过程，即从数据当中发现趋势和模式的过程［１］。多媒体数据库因为其数据量大，数据结构复杂、模式多样等特点一直是人们研究的热点和难点。因此，对它的数据挖掘的研究也越来越多。而图像数据挖掘作为数据挖掘的一个富有挑战性的子领域，是目前多媒体数据库和信息决策领域最前沿的研究方向之一。
关键。一般说来，可以用颜色、纹理、形状和运动向量
等来表示图像的基本特征。高级概念可以看成是一种特
征模式。例如，河流可以认为是具有某种颜色特征的长
条形；大片庄稼区可以认为是具有某种颜色分布和纹理
特征的大片图像区域。高级概念是我们所关心的，它可
能是某种物体的存在或某种现象的发生等。底层的基本
特征与高层概念之间必然存在着某种映射关系，这种关
Ｘ#Ｉ，若事务集Ｄ中包涵Ｘ的事务个数为ｓ，则Ｓｕｐｐｏｒｔ
（Ｘ）＝ｓ。对于事务集Ｄ，规则的置信度（Ｃｏｎｆｉｄｅｎｃｅ）
定义为：
Ｃｏｎｆｉｄｅｎｃｅ（Ｘ"Ｙ）＝
ＳＵＰＰＯＲＴ（Ｘ∪Ｙ）ＳＵＰＰＯＲＴ（Ｘ）
对于事务集Ｄ，规则Ｘ"Ｙ也有支持度：
ｓｕｐｐｏｒｔ（Ｘ"Ｙ）＝Ｄ中包含（Ｘ∪Ｙ）的事务的百分比。
Ｐ１∧Ｐ２∧…∧Ｐｎ→Ｑ１∧Ｑ２∧…∧Ｑｍ（ｃ％）其中，Ｐ１，Ｐ２，…，Ｐｎ，Ｑ１，Ｑ２，…，Ｑｍ是Ｄ中图像的描述谓词，包括对图像大小、颜色、纹理、对象、空间位置、关键字等，ｃ％表示该规则的可信度（ｃｏｎｆｉｄｅｎｃｅ）。该规则理解为，当Ｐ１，Ｐ２，…，Ｐｎ发生时，Ｑ１，Ｑ２，…，Ｑｍ也发生。为了便于分析，可将关联规则简化为：
最小支持度，该描述集就不用考虑。满足最小支持度
的描述集称为频繁描述集。
从频繁描述集中可以推导出规则，如频繁描述集
（Ｐ１，Ｐ２，Ｐ３，Ｐ４）可以推导出规则为：Ｐ１→Ｐ２∧Ｐ３∧Ｐ４Ｐ１∧Ｐ２→Ｐ３∧Ｐ４Ｐ１∧Ｐ２∧Ｐ３→Ｐ４ …
由频繁描述集推导出的规则不一定都有用，只有
那些可信度满足要求的规则才是我们关心的。一个规
系可以用数据挖掘的方法来发现。因此，提出了如图２所示的多媒体图像数据挖掘的过程。
高级概念
概念量化
概念量化
数据挖掘算法
有用信息
原始图像
特征抽取
特征向量
图２多媒体图像数据的挖掘过程
图像的关联规则是指图像的对象或特性之间频繁出现的模式。图像数据库中涉及的多媒体对象的关联规则至少包含以下三类［３］：
Ｐ→Ｑ（ｃ％）
第３卷第６期
张鹤等：多媒体数据挖掘中图像数据的关联规则挖掘
· ３５ ·
怎样挖掘图像关联规则，这里我们从描述集着
手。描述集是一组描述谓词的集合，如｛Ｐ１，Ｐ２，…，Ｐｎ｝，对于每一描述定义一个支持度（ｓｕｐｐｏｒｔ）来表示该描
述在整个图像集中出现的概率，记作σ （Ｐｉ／Ｄ）描述集
２００５年１２月第３卷第６期
中图分类号：Ｐ２３７．３
地理空间信息ＧＥＯＳＰＡＴＩＡＬＩＮＦＯＲＭＡＴＩＯＮ文献标识码：Ｂ
Ｄｅｃ．，２００５Ｖｏｌ．３，Ｎｏ．６
文章编号：１６７２－４６２３（２００５）０６－００３３－０３
多媒体数据挖掘中图像数据的关联规则挖掘
的支持度表示集合内的所有描述同时发生的概率，记
为σ （Ｐ１∧Ｐ２∧…∧Ｐｎ／Ｄ）。因为只关心那些出现频率高的模式，所以对于那些出现概率低的描述就没有必
要考虑，这里可以根据实际的应用背景给定一个最小
支持度ｍｉｎ＿ｓｕｐｐｏｒｔ，只有满足最小支持度的描述或描
述集才考虑，若一组描述集中有一个描述子集不满足
第二，由于包含多个重复出现对象的图片是图像分析中的一个重要特征，在关联分析中不应忽略同一对象的重复出现问题。
第三，在多媒体对象间通常存在着重要的空间关系，如之上，之下，之间，附近，左边右边等。这些特征对挖掘对相关联和相关性非常有用。
图像中的关联规则是这样定义的：设Ｄ是图像集，关联规则为
则的可信度可以用条件概率公式求得。例如上面第一
由三部分组成：多媒体数据库（ＭｕｌｔｉｍｅｄｉａＤａｔａｂａｓｅ，简写为ＭＤ），多媒体数据挖掘引擎（ＭｕｌｔｉｍｅｄｉａＭｉｎ－ｉｎｇＥｎｇｉｎｅ，简写为ＭＭＥ）和挖掘的界面（ＭｕｌｔｉｍｅｄｉａＭｉｎｉｎｇＩｎｔｅｒｆａｃｅ，简称ＭＭＩ。）其中多媒体数据库包括数据预处理、特征提取、数据描述和数据库的建立几个部分，它利用了多媒体检索系统的数据库，包括媒体库、特征库、知识库；挖掘引擎是多媒体数据挖掘的重要部分，它包括多媒体数据特征空间和挖掘功能模块两部分；利用并改进已有的数据挖掘方法，使之适用于多媒体数据特征的挖掘，从而发现用户感兴趣的知识。常用的方法有：人工智能、机器学习、统计学、神经网络等。发现的知识也有多种，如：关联规则、特征规则、分类规则、聚类规则等。挖掘的界面主要用于挖掘过程的交互和挖掘结果的可视化［２］。