图像检索与数据库
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
西北工业大学
学号 ___________________________
姓名 ___________________________
考试课程 ___________________________
考试日期 ___________________________
图像检索与数据库
近年来, 由于现代电子技术的发展,文字情报与文字情报一样,也能够经过数字化处理制成数据库用于计算机检索。本文便是对图像数据库及其检索的初步探讨。
1、图像数据库
1.1 图像数据库的类型
数据库一般分为文献参考数据库和源数据库。前者本身并不直接提供用户所需情报, 而是起着一种指示、介绍、牵线搭桥的作用;后者提供的是可供用户直接使用的一次情报。显然图像数据库属于后一类型。目前的图像数据库按照图像情报类型可分为三类, 即图形数据库、照片数据库、绘画图案数据库。
图形数据库大多应用于自然科学、工程技术领域, 收录的是用线条来表达概念的图形资料,包括设计图、配线图、住宅草图; 地图( 如地形图、地势图、道路地图、住宅地图、指路图;天气图等)。
照片数据库在图像数据库中占有主要地位, 广泛应用于社会, 人文科学和自然科学,工程技术各领域。收录的主要内容有:报纸照片; X光片、C T 等医用诊断图;幻灯片;卫星照片、宇航照片等观测图;;资料照片、肖像、记录照片;商品广告用赠礼照片等等。日本摄影研究中心的Photo Disc Library System 光盘数据库便属此类, 它收录了日本著名摄影家的5 万多幅彩色照片, 极富观赏性。
绘画·图案数据库数量也在逐年增多, 涉及的专业领域较多。该类数据库一般收录绘画、插图、图案、CAD 、注册商标、公共设施
标志等。如美国专利商标局的Trademackscan一federal数据库收录了几十万个有效、被废弃、去消或期满的商标, 通过DIALOG 系统为用户提供联机服务。
图像数据库虽属源数据库之列, 但收录的内容不全是单纯的图像, 实际上它是图表、照片、书目记录甚至全文的握合体。图像数据库有以下几个特点:
1.输出内容具有视觉上的魅力;
2.文档编排方法简单;
3.减少情报传递中的语言障碍;
4.收录其他数据库不能收的情报;
5.图像可压缩;
6.避免图像原件( 如名画、照片、标本等)年久劣化;
7.方便复制。
1.2 图像的数字化处理
图像的数字化处理不是通过键人的方法,而是采用自动图像处理技术进行的。
生成数字化图像的设备有计算机、图像扫瞄设备等。图像扫瞄设备将图像分割成很细的扫瞄线, 继而将其分割成象素( 图像的最小单位), 并生成二进制的阵列, 每个二进制数代表一个象索的亮度, 所产生的二进制数据经过图像控制器的处理后存人载体中。
典型的8-1/ 2“ x l l”文件页, 以每英寸30 条扫瞄线扫瞄的话, 黑白图像约需I MB 的存贮容量;彩色图像所需的存贮容量则远
远高于黑白图像。若想存贮几万幅图像, 可想而知存贮设备得有多大的容量才行, 目前要做到这一点仍是不可能的。实际应用中在不影响使用效果的情况下可以降低图像的精度( 若要数字化图像完全代替图像原件使用。尤其是照片、绘画作品等, 需要很高的精度) 。上述黑白图像由于同页面中相同的数据较多(例如空白部分多),通常可以压缩十分之九, 而彩色图像即使经过压缩仍需海量存贮装置。所幸的是现在的磁、光存贮装置可以满足图像存贮对于容量的要求, 尤其是C D 一R OM 光盘可以存贮一万枚经过压缩的图像。
在实际应用中, 一般将光学字符识别和图像扫瞄结合起来使用。如美国专利和注册商标局将专利中的文字以前者为手段转换成数字形式, 而以后者为手段对专利中的图形进行数字化处理, 并将处理过的图像存贮在光盘上。
2、图像检索
图像检索,从90年代以来,主要使用基于图像内容的方法进行图像检索,也就是CBIR。即基于图像特征从大型数据库中检索出用户所需要图像。CBIR现今常用的检索方法为基于低层的视觉特征(如:颜色、纹理、形状、空间结构等) 进行检索,当然也有更高层的基于图像语义特征的检索,但是应用的技术还很不成熟。但不管是什么样的检索,这些特征提取的过程必须是计算机自动完成的。
2.1 查询语言
查询语言是用于帮助用户检索的高级语言, 是指各种操作的接口。书目检索所采用的莱单、填空、SQL 及自然语言都可用于图像检
索。
菜单是由若干个可供用户选择的项目组成的表。用户从屏幕显示的若干个可选项中进行选择, 对无检索经验的用户特别方便。这种方法可适用于选择项分级安排的系统。填空是指用户用系统提示的关键词作为查找表达式, 可以使用布尔逻辑和其它方法扩缩检。为了便于不熟练的用户使用, 常以菜单式, 用户友好接口软件结合使用。不少图像检索系统都采用莱单方式提供检索。如日本东京海洋生物公园情报检索系统,该系统收录200 种左右鱼类(91 年10 月)的文字和图像情报。菜单提供海域、水槽、分类和名称四个选择项,每一选择项下又有若干下位选择项, 检索者通过连续选择, 即可获得所需海洋生物的图像。如从海域角度检索叫红的鱼。检索初期屏幕显示主菜单: 检索初期画面
1 海域“选择根据生活, 海域”
2 水槽“选择放养的水槽”
3 种类“根据生物种类选择”
4 名称“根据生物名选择”
用手指轻触1, 即进人“海域”
1 海域
《世界地图》
1) 东京的海
2) 太平洋
选择1)进人“东京的海”
l) 东京的海
《海域部分图》
(l) 东京湾
(2) 伊豆诸岛北部
(3 ) 伊豆诸岛南部
选择(3 )进人“伊豆诸岛南部”在这一层次的选择项上, 出现许多生活于该海域的鱼类名称, 选择红, 即出现静止的该鱼图像, 继而进一步提供有关该鱼的文字情报。
图像检索还可采用SQL(结构化查询语言)。SQL 与关系数据库配套使用, 可采用布尔逻辑算符, 通过使用find、Print 等指令支持数据库的查找和其他操作, 具有正规的、强有力的语法。日本国立民族学博物馆照片幻灯片数据库(Datab asc for Photo graphs and slides at the National Museum of Ethnology) 采用的便是这种语言。检索时使用莱单, 屏幕上的检索卡上只有文字情报的项目名称, 数据部分是空白的, 由用户输入检索条件, 实行检索时通过PC 机将检索卡上的项目名称与用户填人卡中的字符串生成结构化查询语言的检索命令,再将期送人主机进行检索。
图像检索也可采用有一定限制的自然语言进行。自然语言是最灵活的语言, 系统分析提问的语法, 辨认词类, 识别文档, 记录和字段名,并执行逻辑运算。如DIALOG 的TRADEMARKSCAN-FEDERAL文档, 除了用人工语言外, 也可以用复合词或图像说明语中的词进行自然语言检索, 如STOOTSIE (w)POP? OR T00TSIEPOP? 用商标复合词检