图像关联规则模型及其应用
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
【Abstract】Texture, recurrent number of object and the area of object are not taken into account in conventional low-dimension image association rules. So the relevant image knowledge can’t be mined out. The functions of 7D image association rules model 7D_AR proposed in this paper are more self-contained than conventional low-dimension image association rules, and can solve the above-mentioned problems better. Through concept generalization and deleting irrelevant dimension, various association rules less than 7D can be evolved from the 7D image association rules model 7D_AR. 【Key words】Association rules model; Image mining; 7D_AR model
<形状(X, object)>∧<纹理(X, object )>∧ <方位(X, object)>∧<距离(X, object)>∧
<数量(X, object)>∧<面积(X, object)>} ⇒
7D_ARQ{<颜色(X, color_object)>∧ <形状(X, object)>∧<纹理(X, object )>∧ <方位(X, object)>∧<距离(X, object)>∧ <数量(X, object)>∧<面积(X, object)>} <颜色(X, color_object)>∷={< color(X, red)>|< color(X, green)>|< color(X, blue)>|
图像关联规则是图像挖掘研究的一个重要内容,但目前 关于图像关联规则模型的维数问题讨论比较多,且意见不一。 李雄飞[1]等在一维关联规则的基础上提出了三维相联规则模 型,认为图像中对象的 3 个基本要素(形状、颜色和空间位置) 联系到一起描述图像的语义特征更为恰当。很显然,它没有 考虑纹理要素以及对象的重复出现次数、对象的面积大小。 这就会产生以下问题:(1)当两个对象的颜色和形状相同,但 纹理不同时,三维相联规则模型就无法区分这两个对象,因
(1. 北京印刷学院信息与机电工程学院,北京 102600;2. 北京科技大学信息工程学院,北京 100083)
摘 要:传统的低维图像关联规则没有考虑纹理要素以及对象的重复出现次数、对象的面积大小,与此相关的图像知识无法挖掘出来。该 文提出的七维图像关联规则模型 7D_AR 功能比传统的低维图像关联规则更加完备,可以很好地解决以上问题。通过概念提升及删除无关 维,由七维图像关联规则模型 7D_AR 可以演化出维数小于七维的各种关联则。 关键词:关联规则模型;图像挖掘;7D_AR 模型
由关联对象的定义,可以给出关联对象的概念分层模型, 如图 1 所示。图中由关联对象往下走表示概念分层,由低层 往上走表示概念提升。
关联对象
概
概
念
可视属性
统计量
空间关系 念
分
提
层
升
颜色
形状 纹理 数量
面积 距离
方位
图1 关联对象的概念分层模型
从关联对象的概念分层模型可以看出,各个属性之间是 相互独立的,互相之间没有交叉。随着概念层次的不同,或 者分支的多少不同,关联对象的属性多少也不相同,因此关 联规则的维数也就不相同。这正是引发关联规则模型维数之 争的根本所在。
值 maxsup=max{σ(P/I)}。 定义 6 图像集 I 的关联规则 P→Q 在 I 中为足够强的关
联规则,当:P 和 Q 是足够频繁的,且 P→Q 的可信度大于 阈值 minconf=min{σ((P∧Q)/I)/σ(P/I)}。规则的强度和 minsup, maxsup 的取值与谓词所使用的概念层次有关。所有特征值均 根据概念继承——从一组低层次概念到其相应更高层次概念 的映射来定义。
由定义 2 可知,事件项集 X∪Y 的支持度为 s,称关联模 式 X→Y 在事务数据库 D 中的支持度为 s,其中 s=support(X →Y)=P(X∪Y)。
定义 3 如果 D 中包含 X 的事务中有(100×c)%的事务同 时也包含 Y,称规则 X→Y 在事务数据库 D 中的置信度 (confidence)为 c,其中 c=confidence(X→Y)=P(Y|X)= support(X ∪Y)/support(X),显然 0 ≤ c ≤ 1 。
关联对象的属性维是关联规则的前件和后件的重要组成 部分。以下给出关联对象的 BNF 形式化定义。
定义 7 <关联对象>∷=AO{<可视属性><统计量><空间 关系>},其中
<可视属性>∷=<颜色>|<形状>|<纹理> <统计量>∷=<面积大小>|<重复数量> <空间关系>∷=<方向关系>|<距离关系>
为了挖掘有兴趣的关联规则,用户需要给定最小支持度 阈值(min_sup)和最小置信度阈值(min_conf)。同时满足最小 支持度阈值(min_sup)和最小置信度阈值(min_conf)的规则称 作强规则。
2 七维图像关联规则模型
定义 4 图像集 I 中某一断言 P 的支持度σ(P/I)为 I 中所有 图像的对象在某一概念层次证实断言 P 的百分比。图像关联 规则 P→Q 的置信度为:σ((P∧Q)/I)/σ(P/I),即为 I 中所有图 像,在某一概念层次证实断言 P 的对象中,在同一层次也证 实断言 Q 的对象的百分比。
< color(X, yellow)>|< color(X, deep_red)>} <形状(X, object)>∷={< shape(X, triangle)>|< shape(X, circle)>| < shape(X, rectangle)>|< shape(X, square)>|
< shape(X, ellipse)> } <纹理(X, object)>∷={<texture_density(X, high)>|< texture_den sity(X, low)>| <texture_direction(X,900)>|< texture_direction(X,450)>| < texture_direction(X,300)>|< texture_direction(X,600)>| < texture_direction(X,150)>|< texture_direction(X,750)>}
此像“蓝色的圆 ⇒ 纹理密度高”这样的知识也就无法挖掘出
来;(2)当两个对象的颜色和形状相同,但大小不同时,三维 相联规则模型也无法区分这两个对象,因此像“蓝色的大圆
⇒ 在图的下方”这样的知识也无法挖掘出来;(3)对象的重
复出现(出现多次)与出现一次是不同的,如“2 个绿色的正方
形 ⇒ 上方有个红色的圆”,如果不是 2 个绿色的正方形,就
说明 (1) 7D_ARP{ }和 7D_ARQ{ }表示图像模式,由模式构成 了图像知识表示——关联规则。 (2)七维图像关联规则模型是由谓词组成的。图像关联规 则的谓词可以分为 3 大类(共七维):图像内容谓词,统计谓 词,空间关系谓词。 1)图像内容谓词 表示图像颜色的谓词“颜色(X, color_object)”类型比较 多,color(X, red)、color(X, green) color(X, blue)、color(X, deep_red)、color(X, yellow)分别表示对象的颜色为红色、绿 色、蓝色、深红色、黄色。 形状谓词“形状(X, object)”类型及表示的含义:shape(X, triangle)、shape(X, circle)shape(X,rectangle)、shape(X, square)、 shape(X, ellipse)、shape(X, polygon) 分别表示对象形状为三 角形、圆、矩形、正方形、椭圆、多边形。 2)统计谓词 面积谓词“面积(X, object)”类型及表示的含义:area(X, big)、area(X, middle)、area(X, small) 分别表示对象的面积大、 中等、面积小。 数量谓词“数量(X, object)”及表示的含义:n (X, object) 表示对象的重复出现的次数,n=1, 2,…,当 n=1 时,数量谓词 往往表示为 is_a(X, object),而不写成 1(X, object)。 3)空间关系谓词 空间关系谓词依赖具体的对象而存在,所以在谓词中都 包含对象名称 object,它可以用单个谓词描述,也可以用复 合谓词来描述。 距离关系谓词“距离(X, object)”类型及表示的含义: close_to(X,object)、adjacent_to(X,object)、intersects(X, object)、 equal(X, object)、contains(X, object)、inside(X,object)、covers(X, object)、covered_by(X, object)分别表示接近或临近、相接、 相交叉、完全重合、包含、包含在内部、覆盖、被覆盖。 方向谓词“方位(X, object)”类型及表示的含义:on_left_of (X,object)、on_right_of (X,object)、 before(X, object)、behind(X, object)、upper(X, object)、below(X, object)、in_North_of (X, object)、in_South_of (X, object)、in_West_of (X, object)、 in_East_of (X, object)、in_NE_of (X, object)、in_NW_of (X, object)、in_SE_of (X, object)、in_SW_of (X, object)分别表示 在对象的左边、右边、前边、后边、上边、下边、北边、南 边、西边、东边、东北边、西北边、东南边、西南边。
不能得出上方有个红色的圆。 为了解决以上问题,本文提出了功能更完备的七维关联
规则模型,并研究了其演化规律,结果表明,维数小于 7 的 各种关联规则都可以从 7D 关联规则模型演化出来。文章最 后通过一个图像关联规则挖掘实例对演化规律进行了验证, 结果验证其有效性。
1 关联规则的基本概念
关联规则数据挖掘是 Agrawal[2]等人首先提出的一个重 要的 KDD 研究课题。关联规则又称关联模式。
Image Association Rules Model and Its Application
YOU Fucheng1,2, YANG Bingru2
(1. School of Information & Mechanical Engineering, Beijing Institute of Graphic Communication, Beijing 102600; 2. School of Information Engineering, Beijing University of Science and Technology, Beijing 100083)
定义 1 设 I={i1, i2,…, im}是事务项集,D 是事务数据库, D 中的每个事务 T 是一个数据集且满足 T ⊆ I。如果 X ⊆ T, 称事务 T 包含 X。关联规则是如下形式的一种蕴含关系:X →Y,其中 X ⊆ I,Y ⊆ I,且 X∩Y=Φ。
—22—
Leabharlann Baidu
定义 2 如果 D 中有(100×s)%的事务支持 X,称 X 具有 支持度(support)s,其中 s 满足 0≤s≤1。
<方位(X, object)>∷={< on_left_of(X, object)>|< on_right_of (X,
object)>|
< before(X, object)>|< behind(X, object)>|
< upper(X, object)>|< below(X, object)>| < in_North_of (X, object)>|< in_South_of (X, object) >| < in_West_of (X, object)>|< in_East_of (X, object)>| < in_NE_of (X, object)>|< in_NW_of (X, object)>| < in_SE_of (X, object)>|< in_SW_of (X, object)>} < 距 离 (X, object)>∷={< close_to(X, object)>|< adjacent_to(X, object)>| < intersects(X, object)>|< equal(X, object)>| < contains(X, object)>|< inside(X, object)>| < covers(X, object)>|< covered_by(X, object)>} <数量(X, object)>∷={<(n(X, object)|n=1, 2, 3, …)> } < 面 积 (X, object)>∷={< area(X, big)>|< area(X, middle)>|< area(X, small)}
第 32 卷 第 3 期 Vol.32 № 3
·博士论文·
计算机工程 Computer Engineering
文章编号:1000—3428(2006)03—0022—03 文献标识码:A
图像关联规则模型及其应用
2006 年 2 月 February 2006
中图分类号:TP393.4
游福成 1, 2,杨炳儒 2
定义 5 图像数据集 I 中,对于某一概念层次,模式 P 为 足够频繁的模式,当 P 的支持度不小于其相应的最小支持度 阈值 minsup=min{σ(P/I)},且不大于其相应的最大支持度阈
基金项目:国家自然科学基金资助项目(69835001);教育部科技基金 资助项目([2000]175)
作者简介:游福成(1964—),男,博士、副教授,主研方向:知识发 现;杨炳儒,教授、博导 收稿日期:2005-01-26 E-mail:yfc_box@sina.com
由关联对象的概念分层模型(图 1)的最低层,把所有的关 联对象的属性都包含进来,可以得到最高为七维的关联规则 模型。以下给出七维图像关联规则模型的定义。
定义 8 七维图像关联规则模型定义为:
< 七 维 图 像 关 联 规 则 模 型 >∷=7D_ARP{< 颜 色 (X, color_object)>∧
<形状(X, object)>∧<纹理(X, object )>∧ <方位(X, object)>∧<距离(X, object)>∧
<数量(X, object)>∧<面积(X, object)>} ⇒
7D_ARQ{<颜色(X, color_object)>∧ <形状(X, object)>∧<纹理(X, object )>∧ <方位(X, object)>∧<距离(X, object)>∧ <数量(X, object)>∧<面积(X, object)>} <颜色(X, color_object)>∷={< color(X, red)>|< color(X, green)>|< color(X, blue)>|
图像关联规则是图像挖掘研究的一个重要内容,但目前 关于图像关联规则模型的维数问题讨论比较多,且意见不一。 李雄飞[1]等在一维关联规则的基础上提出了三维相联规则模 型,认为图像中对象的 3 个基本要素(形状、颜色和空间位置) 联系到一起描述图像的语义特征更为恰当。很显然,它没有 考虑纹理要素以及对象的重复出现次数、对象的面积大小。 这就会产生以下问题:(1)当两个对象的颜色和形状相同,但 纹理不同时,三维相联规则模型就无法区分这两个对象,因
(1. 北京印刷学院信息与机电工程学院,北京 102600;2. 北京科技大学信息工程学院,北京 100083)
摘 要:传统的低维图像关联规则没有考虑纹理要素以及对象的重复出现次数、对象的面积大小,与此相关的图像知识无法挖掘出来。该 文提出的七维图像关联规则模型 7D_AR 功能比传统的低维图像关联规则更加完备,可以很好地解决以上问题。通过概念提升及删除无关 维,由七维图像关联规则模型 7D_AR 可以演化出维数小于七维的各种关联则。 关键词:关联规则模型;图像挖掘;7D_AR 模型
由关联对象的定义,可以给出关联对象的概念分层模型, 如图 1 所示。图中由关联对象往下走表示概念分层,由低层 往上走表示概念提升。
关联对象
概
概
念
可视属性
统计量
空间关系 念
分
提
层
升
颜色
形状 纹理 数量
面积 距离
方位
图1 关联对象的概念分层模型
从关联对象的概念分层模型可以看出,各个属性之间是 相互独立的,互相之间没有交叉。随着概念层次的不同,或 者分支的多少不同,关联对象的属性多少也不相同,因此关 联规则的维数也就不相同。这正是引发关联规则模型维数之 争的根本所在。
值 maxsup=max{σ(P/I)}。 定义 6 图像集 I 的关联规则 P→Q 在 I 中为足够强的关
联规则,当:P 和 Q 是足够频繁的,且 P→Q 的可信度大于 阈值 minconf=min{σ((P∧Q)/I)/σ(P/I)}。规则的强度和 minsup, maxsup 的取值与谓词所使用的概念层次有关。所有特征值均 根据概念继承——从一组低层次概念到其相应更高层次概念 的映射来定义。
由定义 2 可知,事件项集 X∪Y 的支持度为 s,称关联模 式 X→Y 在事务数据库 D 中的支持度为 s,其中 s=support(X →Y)=P(X∪Y)。
定义 3 如果 D 中包含 X 的事务中有(100×c)%的事务同 时也包含 Y,称规则 X→Y 在事务数据库 D 中的置信度 (confidence)为 c,其中 c=confidence(X→Y)=P(Y|X)= support(X ∪Y)/support(X),显然 0 ≤ c ≤ 1 。
关联对象的属性维是关联规则的前件和后件的重要组成 部分。以下给出关联对象的 BNF 形式化定义。
定义 7 <关联对象>∷=AO{<可视属性><统计量><空间 关系>},其中
<可视属性>∷=<颜色>|<形状>|<纹理> <统计量>∷=<面积大小>|<重复数量> <空间关系>∷=<方向关系>|<距离关系>
为了挖掘有兴趣的关联规则,用户需要给定最小支持度 阈值(min_sup)和最小置信度阈值(min_conf)。同时满足最小 支持度阈值(min_sup)和最小置信度阈值(min_conf)的规则称 作强规则。
2 七维图像关联规则模型
定义 4 图像集 I 中某一断言 P 的支持度σ(P/I)为 I 中所有 图像的对象在某一概念层次证实断言 P 的百分比。图像关联 规则 P→Q 的置信度为:σ((P∧Q)/I)/σ(P/I),即为 I 中所有图 像,在某一概念层次证实断言 P 的对象中,在同一层次也证 实断言 Q 的对象的百分比。
< color(X, yellow)>|< color(X, deep_red)>} <形状(X, object)>∷={< shape(X, triangle)>|< shape(X, circle)>| < shape(X, rectangle)>|< shape(X, square)>|
< shape(X, ellipse)> } <纹理(X, object)>∷={<texture_density(X, high)>|< texture_den sity(X, low)>| <texture_direction(X,900)>|< texture_direction(X,450)>| < texture_direction(X,300)>|< texture_direction(X,600)>| < texture_direction(X,150)>|< texture_direction(X,750)>}
此像“蓝色的圆 ⇒ 纹理密度高”这样的知识也就无法挖掘出
来;(2)当两个对象的颜色和形状相同,但大小不同时,三维 相联规则模型也无法区分这两个对象,因此像“蓝色的大圆
⇒ 在图的下方”这样的知识也无法挖掘出来;(3)对象的重
复出现(出现多次)与出现一次是不同的,如“2 个绿色的正方
形 ⇒ 上方有个红色的圆”,如果不是 2 个绿色的正方形,就
说明 (1) 7D_ARP{ }和 7D_ARQ{ }表示图像模式,由模式构成 了图像知识表示——关联规则。 (2)七维图像关联规则模型是由谓词组成的。图像关联规 则的谓词可以分为 3 大类(共七维):图像内容谓词,统计谓 词,空间关系谓词。 1)图像内容谓词 表示图像颜色的谓词“颜色(X, color_object)”类型比较 多,color(X, red)、color(X, green) color(X, blue)、color(X, deep_red)、color(X, yellow)分别表示对象的颜色为红色、绿 色、蓝色、深红色、黄色。 形状谓词“形状(X, object)”类型及表示的含义:shape(X, triangle)、shape(X, circle)shape(X,rectangle)、shape(X, square)、 shape(X, ellipse)、shape(X, polygon) 分别表示对象形状为三 角形、圆、矩形、正方形、椭圆、多边形。 2)统计谓词 面积谓词“面积(X, object)”类型及表示的含义:area(X, big)、area(X, middle)、area(X, small) 分别表示对象的面积大、 中等、面积小。 数量谓词“数量(X, object)”及表示的含义:n (X, object) 表示对象的重复出现的次数,n=1, 2,…,当 n=1 时,数量谓词 往往表示为 is_a(X, object),而不写成 1(X, object)。 3)空间关系谓词 空间关系谓词依赖具体的对象而存在,所以在谓词中都 包含对象名称 object,它可以用单个谓词描述,也可以用复 合谓词来描述。 距离关系谓词“距离(X, object)”类型及表示的含义: close_to(X,object)、adjacent_to(X,object)、intersects(X, object)、 equal(X, object)、contains(X, object)、inside(X,object)、covers(X, object)、covered_by(X, object)分别表示接近或临近、相接、 相交叉、完全重合、包含、包含在内部、覆盖、被覆盖。 方向谓词“方位(X, object)”类型及表示的含义:on_left_of (X,object)、on_right_of (X,object)、 before(X, object)、behind(X, object)、upper(X, object)、below(X, object)、in_North_of (X, object)、in_South_of (X, object)、in_West_of (X, object)、 in_East_of (X, object)、in_NE_of (X, object)、in_NW_of (X, object)、in_SE_of (X, object)、in_SW_of (X, object)分别表示 在对象的左边、右边、前边、后边、上边、下边、北边、南 边、西边、东边、东北边、西北边、东南边、西南边。
不能得出上方有个红色的圆。 为了解决以上问题,本文提出了功能更完备的七维关联
规则模型,并研究了其演化规律,结果表明,维数小于 7 的 各种关联规则都可以从 7D 关联规则模型演化出来。文章最 后通过一个图像关联规则挖掘实例对演化规律进行了验证, 结果验证其有效性。
1 关联规则的基本概念
关联规则数据挖掘是 Agrawal[2]等人首先提出的一个重 要的 KDD 研究课题。关联规则又称关联模式。
Image Association Rules Model and Its Application
YOU Fucheng1,2, YANG Bingru2
(1. School of Information & Mechanical Engineering, Beijing Institute of Graphic Communication, Beijing 102600; 2. School of Information Engineering, Beijing University of Science and Technology, Beijing 100083)
定义 1 设 I={i1, i2,…, im}是事务项集,D 是事务数据库, D 中的每个事务 T 是一个数据集且满足 T ⊆ I。如果 X ⊆ T, 称事务 T 包含 X。关联规则是如下形式的一种蕴含关系:X →Y,其中 X ⊆ I,Y ⊆ I,且 X∩Y=Φ。
—22—
Leabharlann Baidu
定义 2 如果 D 中有(100×s)%的事务支持 X,称 X 具有 支持度(support)s,其中 s 满足 0≤s≤1。
<方位(X, object)>∷={< on_left_of(X, object)>|< on_right_of (X,
object)>|
< before(X, object)>|< behind(X, object)>|
< upper(X, object)>|< below(X, object)>| < in_North_of (X, object)>|< in_South_of (X, object) >| < in_West_of (X, object)>|< in_East_of (X, object)>| < in_NE_of (X, object)>|< in_NW_of (X, object)>| < in_SE_of (X, object)>|< in_SW_of (X, object)>} < 距 离 (X, object)>∷={< close_to(X, object)>|< adjacent_to(X, object)>| < intersects(X, object)>|< equal(X, object)>| < contains(X, object)>|< inside(X, object)>| < covers(X, object)>|< covered_by(X, object)>} <数量(X, object)>∷={<(n(X, object)|n=1, 2, 3, …)> } < 面 积 (X, object)>∷={< area(X, big)>|< area(X, middle)>|< area(X, small)}
第 32 卷 第 3 期 Vol.32 № 3
·博士论文·
计算机工程 Computer Engineering
文章编号:1000—3428(2006)03—0022—03 文献标识码:A
图像关联规则模型及其应用
2006 年 2 月 February 2006
中图分类号:TP393.4
游福成 1, 2,杨炳儒 2
定义 5 图像数据集 I 中,对于某一概念层次,模式 P 为 足够频繁的模式,当 P 的支持度不小于其相应的最小支持度 阈值 minsup=min{σ(P/I)},且不大于其相应的最大支持度阈
基金项目:国家自然科学基金资助项目(69835001);教育部科技基金 资助项目([2000]175)
作者简介:游福成(1964—),男,博士、副教授,主研方向:知识发 现;杨炳儒,教授、博导 收稿日期:2005-01-26 E-mail:yfc_box@sina.com
由关联对象的概念分层模型(图 1)的最低层,把所有的关 联对象的属性都包含进来,可以得到最高为七维的关联规则 模型。以下给出七维图像关联规则模型的定义。
定义 8 七维图像关联规则模型定义为:
< 七 维 图 像 关 联 规 则 模 型 >∷=7D_ARP{< 颜 色 (X, color_object)>∧