多媒体数据挖掘中图像数据的关联规则挖掘

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Cor r elative Rule of Image Data Mining in Multimedia Data Mining
ZHANG He , GUAN Ze q un ( School of Remote Sensing and Information Engineering, Wuhan University, Wuhan 430079, China)
所有项目的组合, 而是备选集CK。 Apriori算法中产生备选集CK的方法是: 用K- 1一备
选集中的项集进行连接操作, 再从其结果中删除某些项
集, 这些项集的某一( k- 1) 元子集不在k- 1元大项集中。
2.2 多媒体图像的关联规则挖掘
多媒体图像数据挖掘的一个十分关键的问题是图
像数据本身的表示问题。这也是图像处理和模式识别的
2 图像的关联规则挖掘
由于多媒体数据在结构、特性、存储方式等存在 不同之处, 对他们的数据挖掘方法差异很大。即便是 同一类型的数据, 应用目标或数据发现的模式不同, 挖掘方法也不同。这些模式包括预测、分类、关联、 聚类等。挖掘方法或称挖掘技术如传统统计分析、决 策树、遗传算法、神经网络、关联分析等都可以用于 多媒体数据的挖掘。这里主要介绍图像数据的关联规 则挖掘。图像数据的其他挖掘方法还有相似搜索、多 维分析、分类、聚类和预测分析等。 2.1 关联规则挖掘
1 多媒体数据挖掘概述
多媒体数据, 包括图形、图像、文本、视频和音 频数据等, 数据类型复杂, 多为半结构或非结构化数 据。多媒体数据挖掘系统是在基于内容的多媒体数据 检索系统发展的基础上出现的。它的一般结构图如图 1所示。从图中可以看出, 多媒体数据挖掘系统主要
图1 多媒体数据挖掘系统的结构 收稿日期: 2004- 11- 15
1) 图像内容和非图像内容特征间的关联: 如规则 “如果照片的上半部的50%是蓝色, 那它很可能是天 空”属于此类。这些关联规则与知识库有很大关系。
2) 与空间关系无关的图像内容的关联: 如规则 “如一幅图片包含两个蓝色圆形, 那么, 很可能也包 含 一 个 红 色 正 方 形 ”。 比 如 我 们 所 知 道 的 很 多 知 名 品 牌的商标,都有特殊的图案。
3) 与空间关系有关的图像内容的关联: 如规则 “如果一个红色矩形是在两个黄色正方形之间, 那么 很可能在下面存在一个大的椭圆形对象”属于此类。
要挖掘多媒体图像数据间的关联, 我们可以把每 一个图像或它的局部看成一个对象, 从中找出不同对 象出现的频率的模式。多媒体数据库的关联和挖掘有 与事务数据库中的关联不同的特点:
Abstr act: Multimedia data mining is a popularly international research. It is one of utmost front- line research- ing orientations for database, multimedia technology and information decision- making field internationally and also a sub- field for database mining that is new and full of challenge. This article introduced the framework of the system, and particularly introduced the method of the correlative rule mining by taking image data as repre- sentative. Key wor ds: Multimedia data; data mining; image data; correlative rule; metadata
关联规则是表示数据库中一组对象之间某种关联 关系的规则。对关联规则挖掘的研究在数据挖掘研究 领域开展得比较活跃。关联规则挖掘一般以事务为对
· 34 ·
地理空间信息
2005 年
象, 辨别事务项目之间是否存在某种关联关系。现有
的研究主要是面向事务数据库的。问题是这样描述
的: 设I= {i1,i2,…, im} 是m个不同项的集合, D是一个 事 务 集 , 其 中 每 一 事 务T是 一 组 项 集item set, T!I,
且每一个T有一个唯一的标识T ID。X为某些项目的集
合, 如果X!T, 则称事务T包含X。关联规则表示为
X"Y, 其中X#I, Y#I, 且X∩Y=!, X称 为 规 则 的
前提,wenku.baidu.comY为结果。
项集中项的数量称为项集的长度。每一项集都有
一 个 统 计 的 度 量 称 为 “支 持 度 ” (Support)。 对 于X,
张 鹤, 关泽群
( 武汉大学 遥感信息工程学院, 湖北 武汉 430079)
摘 要: 多媒体数据挖掘是目前国际上数据库、多媒体技术和信息决策领域最前沿的研究方向之一, 是数据挖掘的一个新 兴且富有挑战性的子领域。介绍了多媒体数据挖掘的系统结构, 及以图像数据为代表的关联规则挖掘方法。 关键词: 多媒体数据; 数据挖掘; 图像数据; 关联规则; 元数据
2) 用大项集来生成所希望的规则。一个直接的
方法是: 对每一大项集L, 找出其所有非空子集, 对
其 每 一 子 集A, 如 果 support ( L) /support ( A) 大 于 最 小
confidence, 则输出形式为: A"L- A的规则。
问题的主要难点在于数据量巨大, 因此算法的效
第一, 一个图像可以包含多个对象, 每个对象可 以有许多特征。这样可能存在大量的关联, 在很多情 况下, 两个图像的某个特征在某一分辨率级别下是相 同的, 但在更细的分辨率下是不同的。因此, 需要一 种分辨率逐步求精的方法。这种多分辨率挖掘策略极 大地降低了总体挖掘的代价, 而又不损失数据挖掘结 果的质量和完整性。
率是关键。研究的重点在第1步, 即找出大项集, 因
为第2步相对简单。围绕此问题, R. Agrawal等在1994
年提出Apriori算法, 重复扫描数据库, 在第K次扫描
时产生长度为K的大项集, 称为LK, 而在第K+1次扫 描时, 只考虑由L中的K一项集产生的长度为K+1的备
选集CK 。该算法的依据是 : 任何大项集的子集也是 大项集。因此除第1次扫描外, 每次扫描考察的并非
挖掘关联规则就是找出这样一些规则, 它们的
support和confidence分 别 大 于 用 户 指 定 的 最 小support
和confidence限度。因此, 关联规则的 挖 掘 可 分 解 为
以下两个子问题:
1) 产生所有support大于 指 定 的 最 小support的 项
集, 这些项集称为大项集, 而其他的称为小项集;
数据挖掘是信息技术自然演化的结果, 它是从大 量的、不完全的、有噪声的、模糊的、随机的实际数 据中, 提取出隐含在其中的、人们不知道的、但又是 潜在有用的信息和知识的过程, 即从数据当中发现趋 势和模式的过程[1]。多媒体数据库因为其数据量大, 数 据结构复杂、模式多样等特点一直是人们研究的热点 和难点。因此, 对它的数据挖掘的研究也越来越多。 而图像数据挖掘作为数据挖掘的一个富有挑战性的子 领域, 是目前多媒体数据库和信息决策领域最前沿的 研究方向之一。
关键。一般说来, 可以用颜色、纹理、形状和运动向量
等来表示图像的基本特征。高级概念可以看成是一种特
征模式。例如, 河流可以认为是具有某种颜色特征的长
条形; 大片庄稼区可以认为是具有某种颜色分布和纹理
特征的大片图像区域。高级概念是我们所关心的, 它可
能是某种物体的存在或某种现象的发生等。底层的基本
特征与高层概念之间必然存在着某种映射关系, 这种关
X#I, 若事务集D中包涵X的事务个数为s, 则Support
( X) =s。 对 于 事 务 集D, 规 则 的 置 信 度 (Confidence)
定义为:
Confidence( X"Y) =
SUPPORT( X∪Y) SUPPORT( X)
对于事务集D, 规则X"Y也有支持度:
support( X"Y) = D中包含( X∪Y) 的事务的百分比。
P1∧P2∧…∧Pn→Q1∧Q2∧…∧Qm (c%) 其中, P1,P2,…,Pn , Q1,Q2,…,Qm是D中图像的描述谓 词, 包括对图像大小、颜色、纹理、对象、空间位置、 关键字等, c%表示该规则的可信度 ( confidence) 。该 规则理解为, 当P1,P2,…,Pn发生时, Q1,Q2,…,Qm也发生。 为了便于分析, 可将关联规则简化为:
最小支持度, 该描述集就不用考虑。满足最小支持度
的描述集称为频繁描述集。
从频繁描述集中可以推导出规则, 如频繁描述集
( P1, P2, P3, P4) 可以推导出规则为: P1→P2∧P3∧P4 P1∧P2→P3∧P4 P1∧P2∧P3→P4 …
由频繁描述集推导出的规则不一定都有用, 只有
那些可信度满足要求的规则才是我们关心的。一个规
系可以用数据挖掘的方法来发现。因此, 提出了如图2 所示的多媒体图像数据挖掘的过程。
高级 概念
概念量化
概念 量化
数据挖掘算法
有用 信息
原始 图像
特征抽取
特征 向量
图2 多媒体图像数据的挖掘过程
图像的关联规则是指图像的对象或特性之间频繁 出现的模式。图像数据库中涉及的多媒体对象的关联 规则至少包含以下三类[3]:
P→Q ( c%)
第 3 卷第 6 期
张 鹤等: 多媒体数据挖掘中图像数据的关联规则挖掘
· 35 ·
怎样挖掘图像关联规则, 这里我们从描述集着
手。描述集是一组描述谓词的集合, 如 {P1,P2,…,Pn}, 对于每一描述定义一个支持度 (support) 来表示该描
述在整个图像集中出现的概率, 记作σ (Pi/D) 描述集
2005 年 12 月 第 3 卷第 6 期
中图分类号: P237.3
地理空间信息 GEOSPATIAL INFORMATION 文献标识码: B
Dec., 2005 Vol.3, No.6
文章编号: 1672- 4623( 2005) 06- 0033- 03
多媒体数据挖掘中图像数据的关联规则挖掘
的支持度表示集合内的所有描述同时发生的概率, 记
为σ (P1∧P2∧…∧Pn/D)。 因 为 只 关 心 那 些 出 现 频 率 高的模式, 所以对于那些出现概率低的描述就没有必
要考虑, 这里可以根据实际的应用背景给定一个最小
支持度min_support, 只有满足最小支持度的描述或描
述集才考虑, 若一组描述集中有一个描述子集不满足
第二, 由于包含多个重复出现对象的图片是图像 分析中的一个重要特征, 在关联分析中不应忽略同一 对象的重复出现问题。
第三, 在多媒体对象间通常存在着重要的空间关 系, 如之上, 之下, 之间, 附近, 左边右边等。这些 特征对挖掘对相关联和相关性非常有用。
图像中的关联规则是这样定义的: 设D是图像 集, 关联规则为
则的可信度可以用条件概率公式求得。例如上面第一
由三部分组成: 多媒体数据库 ( Multimedia Database, 简写为 MD) , 多媒体数据挖掘引擎 ( Multimedia Min- ing Engine,简 写 为MME) 和 挖 掘 的 界 面 ( Multimedia Mining Interface , 简称MMI。) 其中多媒体数据库包括 数据预处理、特征提取、数据描述和数据库的建立几 个部分, 它利用了多媒体检索系统的数据库, 包括媒 体库、特征库、知识库; 挖掘引擎是多媒体数据挖掘 的重要部分, 它包括多媒体数据特征空间和挖掘功能 模块两部分; 利用并改进已有的数据挖掘方法, 使之 适用于多媒体数据特征的挖掘, 从而发现用户感兴趣 的知识。常用的方法有: 人工智能、机器学习、统计 学、神经网络等。发现的知识也有多种, 如: 关联规 则、特征规则、分类规则、聚类规则等。挖掘的界面 主要用于挖掘过程的交互和挖掘结果的可视化[2]。
相关文档
最新文档