图像挖掘技术研究
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
5
图像挖掘模型
原始图像不能直接用于图像挖掘。 必须对原始图像进行预
# 图像挖掘的方法与技术 #$. 预处理技术处理
预处理是对原始图像集进行一系列处理以产生图像描述 特征库的过程, 主要包括: 可视特征提取、 对象识别、 数据规约。 可视特征提取: 图像的媒体特征易于获取, 语义特征在 ( .) 对象识别和可视特征提取后通过人工注释、 或概念学习方式获 得。可视特征采用图像处理技术通过计算获得, 主要有: 颜色、 纹理、形状等。颜色是应用最广泛的可视特征。颜色直方图 ( @E7E> X9G8EJ><U) 用 于 存 放 图 像 对 象 中 每 种 颜 色 的 象 素 的 比 例, 具有平移和旋转不变性, 是最常用的颜色描述。 此外还有颜 和颜色集( 等。纹理刻画了颜色 色矩( @E7E> &EU:=8) @E7E> H:8) 和密度分布的均匀性, 包含了表面结构和其与周围环境关系的 重要信息, 表示方法主要有: 共现矩阵法、 小波变换法等。形状 表示法主要有基于边界表示的傅立叶描述法、 基于区域表示的 方 不变矩方法。此外还有有限元 M(& ( M9=98: (7:U:=8 &:8IE; ) 法和小波描述方法等。 对象识别和空间关系获取: 对象识别即在图像中识别 ( !) 出对象及其空间关系, 涉及到的关键技术有: 图像分割, 对象模
&
引言
随着数字成像技术和设备的广泛应用, 每天都产生大量的
像数据矩阵。图像逻辑表示即图像由对象层次组成。图像数据 表示应该是可扩充的并且应充分表达图像的结构和内容、 图像 中的对象及对象间的关系。 可结合领域知识和应用需求从图像 中提取感兴趣的特征作为对图像的描述, 形成类似事务数据库 的图像特征库以进行图像挖掘。图像描述过程包括: 抽取图像 全局特征、 识别图像对象、 指定图像对象的语义。 图像数据模型是用于提供图像概念表示的图像数据的抽 象, 是一组用于表示图像结构的概念集合, 早期用于图像检索 的图像数据模型有 2’3 、 4’,565 、 7,’3 等 /!0。采用适当的图像 表示模型进行图像内容表达是进行图像挖掘的前提和基础。
使研究者可对天文图像库进行远程挖掘 ,N-。
5$!
信息驱动模型
OI<=J 提 出 一 个 信 息 驱 动 模 型 强 调 图 像 表 示 的 不 同 层 次 模型中图像信息分为 # 个层次: 信息所担任的角色 ,P-,
图. 图像描述模式的 /&0 表示
: 由原始图像信息组成, 如象素点、 !象 素 层 ( ’9B:7 0:D:7) 原始图像特征如色彩、 纹理、 形状特征。 " 对象层( QRS:C8 0:DT : 处理基于象素层原始特征的对象和区域信息。# 语义概念 :7) : 结合领域知识从识别出的对象和 层( H:U<=89C @E=C:F8 0:D:7) 区 域 中 生 成 高 层 的 语 义 概 念 。$模 式 和 知 识 层 ( ’<88:>= <=; :可结合领域相关的文字数字信息发现潜在 V=EW7:;J: 0:D:7) 的领域模式和知识。 象素层和对象层主要进行图像处理、对象识别和特征提 取, 语义概念层和模式知识层进行图像挖掘、 知识集成。 低层处 理可视为图像挖掘的预处理。 该模型中只在图像表示的高层进 行挖掘, 可对该模型扩充以使图像挖掘可在每个图像表示层及 不同层次之间进行模式挖掘。
!
图像的表示
图像数据中需表示的信息可以分为物理表示和逻辑表示。
图像 物 理 表 示 包 括 图 像 头 ( 图像格式、 解析度、 像素位数) 和图
基金项目: 国家自然科学基金重点项目资助( 编号: ; 教育部科技重点项目资助( 编号: 教技司 /!"""0&V% ) TUA1%""& ) 作者简介: 曲文龙( , 男, 博士生, 研究领域为数据挖掘与计算智能。 李卫东, 博士生。 杨炳儒( , 男, 教授, 博士生导师, 研究领域为推理 &UV"B ) &U#1B ) 机制与知识发现、 柔性建模与集成技术。
文章编号 &""!BA11&B( !""# ) "%B"""&B"1
!"#$"%#& ’( )*+,# -%.%., /#0#+$12
34 5#.6’., 7% 5#%8’., 9+., :%.,$4
( ’.E;<():-;. 7.*-.++<-.* F;@@+*+ , G+-H-.* I.-8+<=-:J ;E 59-+.9+ ).? C+9K.;@;*J , G+-H-.* &"""A1)
’, 不是传统的数据挖掘理论与技术在图像数据上的简单 扩展。 ’, 与传统的关系数据库上的数据挖掘相比有如下特点: 图像中信息是隐含的。( 对图像信息可有多种解释, 依赖 ( &) !) 于图像表示方法和应用领域知识。( 图像信息中包含图像对 1)
象的空间关系信息。图像挖掘理论和技术尚不成熟, 还存在一 些未完全解决的问题。如图像挖掘中的图像表示、 挖掘模型与 框架、 预处理、 挖掘技术等, 该文将对以上问题进行分析与回顾。
驱动模型。 构建于数 &6789&:;9<&9=:>,%-是典型的功能驱动模型, 据 挖 掘 系 统 2?&9=:> 和 基 于 内 容 的 图 像 检 索 系 统 @*?1A2 之 上, 由图 ! 所示 # 个功能模块组成: 图像采掘器( —从多媒体库中抽取图像数据 ( .) (BC<D<8E>) 集。( 预处理器( —提取图像特征, 将计算的特 !) ’>:*F>EC:GGE>) 检索引擎( — 征数据存放在特征数据库中。( 5) H:<>CI (=J9=: ) 利用用数据库中图像特征在进行匹配查询。( 知识发现模块 #) —可 对 图 像 集 进 行 特 征 描 述 、 分类、 关联 ( 29GCED:>K &E;67:G) 等挖掘, 该模型中仅使用可视特征表示图像, 未识别图像对象
!$&
图像向量空间模型
向量空间模 型 45’, ( 可在多维 8+9:;< =>)9+ -()*+ (;?+@)
’, 尚未形成完整的理论框架和统一的技术方法,仍处于探索
阶段。
空间表示图像 /10。 该方法类似文本文档的潜在语义模型表示, 采 用矩阵的奇异值分解来识别最具区分辩性的特征。图像库的 计算每个图像的所有候选属性值, 并存储于每 45’, 模型如下: 个图像的特征集合中。设特征集的特征数为 ! , 图像库中有 " 个图像, 则可利用特征集得到一个 !#" 的矩阵 $ , 对矩阵 $ 进 行奇异值分解可得如 下 1 个 矩 阵 : $%&"’"()"。 其 中 &" 和 (" 是 正交矩阵, ’" 是 *#* 对角阵, * 是正交阵的阶,将初始信息分 解为线性无关的向量, 可根据 ’" 识别特征集的优势属性。该模 型对原始特征集合进行了特征空间重构, 对特征进行主元分析 仅选取正交的优势特征集合作为图像特征描述,有效减少冗 余、 实现了降维、 降噪。 该模型难以描述复杂图像中的多个对象 及空间关系的语义特征。
!
!""#$%
计算机工程与应用
型的表示及对象识别。识别一般步骤如图 & :
图 象 集 ’ 中 某 一 断 言 ! 的 支 持 度 (( 为’中 定 义 !: !(’ ) 所有图象的对象在某一概念层次证实断言 ! 的百分比。 多媒体 关 联 规 则 !"# 的 置 信 度 为 : ( , 即为图象 (( !!# ) (’ ) ) (( !(# ) 集 ’ 中, 在某一概念层次证实断言 ! 的对 象 , 在同一层次也证 该支持度为基于对象的支持度。 实断言 # 的对象的百分比, 定 义 &: 数据集 ’ 中, 对于某一概念层次模式 7 为足够频 繁的模式, 当 7 的支持 度 不 小 于 其 相 应 的 最 小 支 持 度 阈 值 (K , 且不大于其相应的最大支持度阈值 #K。 已经提出许多图像关联规则挖掘算法, H+56-1L 提 出 了 一
图像对象可分为全局对象( 整幅图像) 、 局部对象( 图像的 、 对象类型( 及 某一区域) 。每个对象使用唯一标识( 12) 34’( ) 其特征描述。图像对象特征包括以下 5 类: 媒体特征包括: 图像格式、 大小、 颜色、 分辨率、 文件名、 形 式变换、 作者、 建立日期。可视特征包括: 颜色、 纹理、 位置、 尺 寸、 形状、 方向。 &’()*+ 中 指 定 了 + 种 颜 色 描 述 、 5 种纹理描 述、 5 种位置描述、 5 种形状描述、 # 种方向描述。语义特征包 括: 文本注释、 人物, 对象、 行为、 时间、 地点、 原因。 基于上述模型可以面向对象方式表示图像, 对图像在进行 特征提取后, 其特征可存放于关系数据库或对象数据库中以用 于图像挖掘。
!"
・ 博士论坛 ・
!!!!" !"
!!!!"
摘 要 关键词
wenku.baidu.com
图像挖掘技术研究
曲文龙 李卫东 杨炳儒 ( 北京科技大学信息工程学院, 北京 &"""A1)
对目前图像挖掘的研究及应用现状进行综述, 首先阐明图像数据的特点及图像挖掘的主要问题, 随后分析了图
像的表示模型、 图像挖掘的框架模型, 介绍了图像挖掘的主要技术, 最后对图像挖掘应用和未来研究方向进行展望。 图像挖掘 图像表示 多媒体挖掘 数据挖掘 文献标识码 2 中图分类号 CD1&&
计算机工程与应用
!""#$%
&
!$!
基于 &’()*+ 的面向对象的图像内容描述模型
其中包 &’()*+ 是 &’() 公布的标准的多媒体描述界面,
,#-
及其空间关系,也未引入领域相关知识进行预处理和图像挖 掘, 因此挖掘出的模式受到限制。
含对图像的描述模式 , 可作为图像检索和图像数据挖掘应用 中建立图像统一表示模型的参考。 &’()*+ 提出的图像描述模 式由 以 下 基 本 组 件 组 成 : 图像对象、 对象特征、 对象层次图、 实 体关系图。每一图像用对象的集合描述, 对象可用一个或多个 对象层次图来组织, 对象间的非层次关系可用一个或多个实体 关系图表达( 对象层次图实质上是实体关系图的特例) 。 每个对 象有多个相关的属性特征, 属性特征又分为媒体特征、 可视特 征、 语义特征。图 . 是用 /&0 表示的图像描述模式。
处理以生成可供高层挖掘模块使用的图像特征数据库,一个 预处理、 索引、 检索、 挖掘、 模式评 1& 系 统 应 包 含 图 像 的 存 储 、 功能驱动模 估和展示功能。 目 前 的 1& 系 统 模 型 可 分 为 两 种 : 型和信息驱动模型。
5$.
功能驱动模型
通常图像挖掘系统多以不同的功能模块来组织, 属于功能
图像 数 据 , 如数字照片、 医学图像、 卫星图像等, 对这些图像进 行自动分析以获取大量有用知识的需求日益增加, 图像挖掘技 以下简 术提供了有效的方法和技术。图像挖掘( ’()*+ ,-.-.* , 是在图像数据库中抽取隐含的、 先前未知的、 潜在有用 称 ’,) 的知识、 图像数据关系的非平凡过程, 是集中了计算机视觉、 图 像处理、 图像检索、 数据挖掘、 机器学习、 模式识别、 数据库和人 工智能等技术 的 多 学 科 交 叉 的 研 究 领 域 /&0。 由 于 缺 乏 对 ’, 的 深刻理解及其本身存在一些理论和技术障碍, 因而研究进展缓 但 慢 。 自 !""" 年 召 开 第 一 届 多 媒 体 挖 掘 年 会 已 有 三 年 时 间 ,
;<0=$+1=: CK-= >)>+< *-8+= ) ;8+<8-+L ;E :K+ <+=+)<9K ).? )>>@-9):-;. ;E -()*+ (-.-.*$’: E-<=:@J +M>@)-.= :K+ 9K)<)9:+<= ;E -()*+ ).? :K+ ><;N@+(= LK-9K -()*+ (-.-.* E)9+=$CK+. -: ).)@JO+= :K+ (;?+@ ;E -()*+ <+><+=+.:):-;. ).? :K+ E<)(+L;<P ;E -()*+ (-.-.* ).? :K+ :+9K.;@;*J ;E -()*+ (-.-.*$Q-.)@@J, L+ -?+.:-EJ =;(+ ER:R<+ )>>@-9):-;. ).? <+=+)<9K ?-<+9:-;.= ;E -()*+ (-.-.*$ >#?&’$80: ’()*+ (-.-.* , ’()*+ <+><+=+.:):-;. , ,R@:-(+?-) (-.-.* , S):) (-.-.*
图!
&6789&:;9<&9=:> 体系结构
此 外 @<E 提 出 一 种 基 于 多 媒 体 数 据 库 的 数 据 挖 掘 模 型 ,L-。
4<=J 针对复杂类型数据提出一种基于特征空间变换的发 现 特 并将该模型用于 气 象 云 图 图 像 挖 掘 以 征子空间模型 2MHH&,+-, 进行短期气象预测。 &9CI<:7 开发了一个分布式图像挖掘系统