图像语义分析与理解综述
图像语义分析与理解综述
*国家自然科学基金资助项目(N o .60875012,60905005)收稿日期:2009-12-21;修回日期:2010-01-27作者简介 高隽,男,1963年生,教授,博士生导师,主要研究方向为图像理解、智能信息处理、光电信息处理等.E-m a i:l gao j un @hfut .edu .cn .谢昭,男,1980年生,博士,讲师,主要研究方向为计算机视觉、智能信息处理、模式识别.张骏,女,1984年生,博士研究生,主要研究方向为图像理解、认知视觉、机器学习.吴克伟,男,1984年生,博士研究生,主要研究方向为图像理解、人工智能.图像语义分析与理解综述*高 隽 谢 昭 张 骏 吴克伟(合肥工业大学计算机与信息学院合肥 230009)摘 要 语义分析是图像理解中高层认知的重点和难点,存在图像文本之间的语义鸿沟和文本描述多义性两大关键问题.以图像本体的语义化为核心,在归纳图像语义特征及上下文表示的基础上,全面阐述生成法、判别法和句法描述法3种图像语义处理策略.总结语义词汇的客观基准和评价方法.最后指出图像语义理解的发展方向.关键词 图像理解,语义鸿沟,语义一致性,语义评价中图法分类号 T P 391.4I m age Se m antic Anal ysis and Understandi ng :A R eviewGAO Jun ,XI E Zhao ,Z HANG Jun ,WU Ke -W ei(S chool of C o m puter and Infor m ation,H e fei University o f T echnology,H efei 230009)ABSTRACTSe m antic ana l y sis is the i m portance and diffi c u lty of high -level i n terpretati o n i n i m age understandi n g ,i n wh ich there are t w o key issues of tex-t i m age se m an tic gap and tex t descri p ti o n po lyse m y .Concentrating on se m antizati o n o f i m ages onto logy ,three soph i s tica ted m et h odolog ies are round l y rev ie w ed as generati v e ,d iscri m ina ti v e and descriptive gra mm ar on the basis of conc l u d i n g i m ages se m antic fea t u res and context expression .The ob jective benchm ark and eva l u ation for se m an tic vocabu lary are i n duced as w e l.l F i n ally ,the summ arized directions fo r furt h er researches on se m antics i n i m age understand i n g are discussed i n tensively .K ey W ords I m age Understanding ,Se m antic G ap ,Se m an tic Consistency ,Se m an tic Evalua ti o n1 引 言图像理解(I m age Understandi n g ,I U )就是对图像的语义解释.它是以图像为对象,知识为核心,研究图像中何位置有何目标(what is w here)、目标场景之间的相互关系、图像是何场景以及如何应用场景的一门科学.图像理解输入的是数据,输出的是知识,属于图像研究领域的高层内容[1-3].语义(Se -第23卷 第2期 模式识别与人工智能 V o.l 23 N o .2 2010年4月 PR &A I A pr 2010m antics)作为知识信息的基本描述载体,能将完整的图像内容转换成可直观理解的类文本语言表达,在图像理解中起着至关重要的作用.图像理解中的语义分析在应用领域的潜力是巨大的.图像中丰富的语义知识可提供较精确的图像搜索引擎(Searching Eng i n e),生成智能的数字图像相册和虚拟世界中的视觉场景描述.同时,在图像理解本体的研究中,可有效形成/数据-知识0的相互驱动体系,包含有意义的上下文(Context)信息和层状结构(H ierarchica-l S truct u red)信息,能更快速、更准确地识别和检测出场景中的特定目标(如,识别出场景中的/显示器0,根据场景语义知识可自动识别附近的/键盘0).尽管语义分析在图像理解中处于非常重要的位置,但传统的图像分析方法基本上全部回避了语义问题,仅针对纯粹的图像数据进行分析.究其原因主要集中于两方面:1)图像的视觉表达和语义之间很难建立合理关联,描述实体间产生巨大的语义鸿沟(Se m antic Gap);2)语义本身具有表达的多义性和不确定性(Am bigu ity).目前,越来越多的研究已开始关注上述/瓶颈0,并致力于有效模型和方法以实现图像理解中的语义表达.解决图像理解中的语义鸿沟需要建立图像和文本之间的对应关系,解决的思路可大致分为三类.第一条思路侧重于图像本身的研究,通过构建和图像内容相一致的模型或方法,将语义隐式地(I m p lici-t l y)融入其中,建立/文本y图像0的有向联系,核心在于如何将语义融于模型和方法中.采用此策略形成的研究成果多集中于生成(Generati v e)方式和判别(D iscri m inati v e)方式中.第二条思路从语义本身的句法(G ra mm ar)表达和结构关系入手,分析其组成及相互关系,通过建立与之类似的图像视觉元素结构表达,将语义描述和分析方法显式地(Exp lici-t l y)植入包含句法关系的视觉图中,建立/图像y文本0的有向联系.核心在于如何构建符合语义规则的视觉关系图.第三条思路面向应用,以基于内容的图像检索(I m age Retrieval)为核心,增加语义词汇规模,构建多语义多用户多进程的图像检索查询系统.解决语义本身的多义性问题需要建立合理的描述规范和结构体系.Princeton大学的认知学者和语言学家早在20世纪80年代就研究构建了较合理统一的类树状结构.如今已被视为视觉图像研究领域公认的语义关系参考标准,用于大规模图像数据集的设计和标记中,有效归类统一了多义性词语.此外,一些客观的语义检索评价标准也在积极的探索过程中.本文将对上述两个图像语义理解中的问题进行方法提炼和总结.针对语义鸿沟问题,介绍已有模型和方法的处理策略.还采用较完备的图像语义/标尺0(B ench m ark)解决语义的主观多义性.2图像内容的语义分析图像内容描述具有/像素-区域-目标-场景0的层次包含关系,而语义描述的本质就是采用合理的构词方式进行词汇编码(Encodi n g)和注解(Annota-tion)的过程.这种过程与图像内容的各层描述密切相关,图像像素和区域信息源于中低层数据驱动,根据结构型数据的相似特性对像素(区域)进行/标记0(Labeli n g),可为高层语义编码提供有效的低层实体对应关系.目标和场景的中层/分类0(C ategor-i zati o n)特性也具有明显的编码特性,每一类别均可视为简单的语义描述,为多语义分析的拓展提供较好的原型描述.本节将针对前述的语义鸿沟问题介绍常用的图像语义表示方法和分析策略.2.1语义化的图像特征图像内容的语义分析借鉴文本分析策略.首先需要构建与之相对应的对象,整幅图像(I m age)对应整篇文档(Docum ent),而文档中的词汇(Lex icon)也需要对应相应的视觉词汇(V isua lW ord).视觉词汇的获取一般通过对图像信息的显著性分析提取图像的低层特征,低层特征大多从图像数据获取,包括简单的点线面特征和一些特殊的复杂特征,再由鲁棒的特征表达方式生成合适的视觉词汇,视觉词汇一般具有高重用性和若干不变特性.点特征提取以图像中周围灰度变化剧烈的特征点或图像边界上高曲率的点为检测对象,根据灰度或滤波函数确定区域极值点(如H arris角点[4]等),并拓展至不同掩膜下的尺度空间中(如高斯-拉普拉斯、高斯差分等),分析极值点的稳定特性,得到仿射不变的H arris二阶矩描述符[5].线特征描述图像中目标区域的外表形状和轮廓特性,这类轮廓线特征以C anny算子等经典边缘检测算法为基础,集中解决边缘曲线的描述、编组以及组合表达等问题.边缘上的双切线点和高曲率点可连接形成有效的边缘链或圆弧,根据聚类策略或某些规则完成线片段编组,形成线特征的视觉词汇[6-8].区域是图像上具有灰度强相关性的像素集合,包含某种相似属性(如灰度值、纹理等),相对于点线特征,面特征有更丰富的结构信息.区域特征以点特征为中心,采用拉普192模式识别与人工智能23卷拉斯尺度下的H arris或H essian仿射区域描述,对特征尺度上的椭圆仿射区域内的初始点集进行参数迭代估计,根据二阶矩矩阵的特征值测量点邻的仿射形状[4,9].另一种策略分析视觉显著区域对象(如直方图、二值分割图等)的熵值统计特性,得到最佳尺度下的最稳定区域,满足视觉词汇的高重用性[10-11].鲁棒特征表达对提取的特征进行量化表示.点特征一般仅具有图像坐标.线特征则充分考虑邻域边缘点的上下文形状特性,以边缘上采样点为圆心,在极坐标下计算落入等距等角间隔区域的边缘像素直方图.椭圆形面特征描述主要以尺度不变特征变换(Sca le I nvariant Fea t u re Transfor m,SI FT)[12-13]为主,SI FT特征对每个高斯窗口区域估计方向直方图,选择峰值作为参考方向基准,计算4@4网格区域内8个方向的梯度直方图,任何区域均可转换为4@4@8 =128维特征向量.该特征对图像尺度、旋转具有不变性,对亮度和视角改变也保持一定稳定性.通过对特征向量的聚类,得到最原始的特征词汇,形成的语义化图像特征也称为/码书0(Codebook)[14].2.2图像语义的上下文表达图像的语义信息描述主要包含外观位置信息和上下文信息,前者如2.1节所述,可表示成/码书0.上下文信息不是从感兴趣的目标外观中直接产生,而来源于图像邻域及其标签注解,与其他目标的外观位置信息密切相关.当场景中目标外观的可视程度较低时,上下文信息就显得尤为重要.B ieder m an将场景中不相关目标关系分为5种,即支撑(Support)、插入(I nterpositi o n)、概率(Proba-b ility)、位置(Positi o n)和大小(Size)[15-16].五类关系均包含/知识0,不需要知道目标信息就可确定支撑和插入关系,而后三类关系对应于场景中目标之间的语义交互关系,可缩短语义分析时间并消除目标歧义,通常称为/上下文特征0(C ontex t Features),譬如一些相对复杂的特征描述(如全局G ist特征[17-18]、语义掩码特征等)融入场景上下文信息,本身就包含语义(关联)信息,是语义分析的基础.如今有很多研究开始挖掘B ieder m an提出的三类语义关系,可分为语义上下文、空间上下文和尺度上下文[19].语义上下文表示目标出现在一些场景中,而没有出现在其他场景中的似然性,表示为与其他目标的共生(Co-O ccurrence)关系,可采用语义编码方式[20-21],也可由共生矩阵判断两类目标是否相关[22-23],此类上下文对应B ieder m an关系中的/概率0关系.空间上下文表示目标相对于场景中其他目标出现在某个位置上的似然性,对应于/位置0关系.空间上下文隐式地对场景中目标的/共生0进行编码,为场景结构提供更加具体的信息,只需确定很少的目标,就可通过合理的目标空间关系降低目标识别的误差,消除图像中的语义歧义[24-25].尺度上下文表示目标在场景中可能的相对尺度范围,对应于/大小0关系.尺度上下文需处理目标之间的特定空间和深度关系,可缩小多尺度搜索空间,仅关注目标可能出现的尺度.尺度上下文在二维图像中较为复杂,目前仅用于简单的视觉分析系统中[26-27].目前大多数上下文方法主要分析图像中的语义上下文和空间上下文.语义上下文可从其他两种上下文中推理获取,与场景中的目标共生相比.尺度和空间上下文的变化范围较大,而共生关系的知识更易获取,处理计算速度更快.融入上下文特征的图像语义形成了全局和局部两种分析策略,即基于场景的上下文分析和基于目标的上下文分析.前者从场景出发[15,27],将图像统计量看作整体,分析目标和场景之间的高频统计特性,获取全局上下文信息,如马路预示着汽车的出现.后者从目标出发[25,28],分析目标间的高频统计特性,获取局部上下文信息,如电脑预示着键盘的出现.总之,上下文特征包含了更丰富的知识,有助于为图像理解提供更准确的语义信息.2.3语义分析的生成方法生成方法基于模型驱动,以概率统计模型和随机场理论为核心,遵循经典的贝叶斯理论,定义模型集合M,观察数据集合D,通过贝叶斯公式,其模型后验概率p(M|D)可以转换为先验概率p(M)和似然概率p(D|M)的乘积.生成方法一般假设模型遵循固定的概率先验分布(如高斯分布等),其核心从已训练的模型中/生成0观察数据,测试过程通过最大似然概率(M ax i m ize L i k e lihood)得到最符合观察数据分布的模型预测似然(Pred icti v e Like li h ood).图像语义分析的生成方法直接借用文本语义分析的图模型结构(G raph ica lM ode ls),每个节点定义某种概念,节点之间的边表示概念间的条件依赖关系,在隐空间(Latent Space)或随机场(Rando m Field)中建立文本词组和视觉描述之间的关联,生成方法无监督性明显,具有较强的语义延展性.2.3.1层状贝叶斯模型图模型的节点之间由有(无)向边连接,建立视觉词汇和语义词语之间的对应关系.朴素贝叶斯理论形成的经典Bags-o-f W ords模型是层状贝叶斯模1932期高隽等:图像语义分析与理解综述型的雏形,该模型将同属某类语义的视觉词汇视为/包0,其图结构模型和对应的视觉关系描述如图1(a)所示,其中灰色节点为观察变量,白色节点为隐变量,N 为视觉词汇的个数,通过训练建立类别语义描述c 和特征词汇w 之间的概率关系,选取最大后验概率p (c |w )对应的类别作为最终识别结果.(a)朴素贝叶斯(b)概率隐语义分析(c)隐狄利克雷分配(a)N a Çve bay es(b)P robab ili stic latent se m antic ana l y si s (c)L atent D irich let a llocati on图1 有向图语义描述F i g .1 Se m antic i nterpre tati on of directed g raphs朴素贝叶斯模型试图直接建立图像和语义之间的联系,但由于视觉目标和场景的多样性导致这种稀疏的离散分布很难捕捉有效的概率分布规律,因此H o f m ann 借鉴文本分析中的概率隐语义分析(Probab ilistic Latent Se m antic Ana l y sis ,pLSA )模型[29-30],将/语义0描述放入隐空间Z 中,生成相应的/话题0(Top ic)节点,其基本描述如图1(b )所示.D 为M 个图像d 组成的集合,z 表示目标的概念类别(称为/Top ics 0),每幅图像由K 个Topics 向量凸组合而成,通过最大似然估计进行参数迭代,似然函数为p (w |d )的指数形式,与语义词汇和图像的频率相关.模型由期望最大化(E xpec ta tion M ax i m ization,E M )算法交替执行E 过程(计算隐变量后验概率期望)和M 过程(参数迭代最大化似然).决策过程的隐变量语义归属满足z*=arg m ax z P (z |d ),pLSA 模型通过隐变量建立特征与图像间的对应关系,每个文本单元由若干个语义概念按比例组合,本质上隐空间内的语义分布仍然是稀疏的离散分布,很难满足统计的充分条件.隐狄利克雷分配(LatentD ir ich let A llocation ,LDA )模型[31-32]在此基础上引入参数H ,建立隐变量z 的概率分布.在图像语义分析中,变量z 反映词汇集合在隐空间的聚类信息,即隐语义概念,参数H (通常标记为P )则描述隐语义概念在图像空间中的分布,超参A (通常标记为c)一般视为图像集合D 中已知的场景语义描述.如图1(c )所示,由参数估计和变分(V aria tiona l)推理,选取c =arg m ax c P (w |c ,P ,B )作为最终结果.LDA 中不同图像场景以不同的比例P 重用并组合隐话题空间全局聚类(G l o ba lC l u ster),形成/场景-目标-部分0的语义表达关系.LDA 中的隐话题聚类满足De Finetti 可交换原理,其后验分布不受参数次序影响,不同隐话题聚类相互独立,无明显的结构特性.一种显而易见的策略就是在此模型基础上融入几何或空间关系,即同时采用话题对应的语义化特征的外观描述和位置信息,这样不同话题的分布大体被限定于图像场景的某个区域,如天空总是出现在场景的上方等,减小模型决策干扰.如L i 等人[14,33]在LDA 模型中融入词汇的外观和位置信息,并将语义词汇描述c 划分为视觉描述词汇(如sky )和非视觉描述词汇(如w i n d)两类,由词汇类别转换标签自动筛选合适的词汇描述.模型采用取样(Sa mp li n g)策略对从超参先验中生成的视觉词汇和语义标签进行后验概率学习,模型中包含位置信息的语义特征显式地体现了空间约束关系,具有更好的分析效果.(a)无结构(b)全互连结构(c)星状结构(a)U nstructured(b)Fu ll structure (c)Sta r struct u re图2 Part -based 模型表示图F i g.2 R epresen tati on for Part -based m ode lsLDA 模型已明确地将隐空间的/话题0语义进行合理聚类,建立与视觉词汇聚类的对应关系.隐话题聚类隐式地对应场景或目标的某些部分(parts),是一种较原始的par-t based 模型.真正的par-t based模型侧重/目标-部分0之间的语义关联表达,不仅具有较强的结构特性,而且直接概念化隐空间的语义聚类,每个part 直接显式对应语义描述(如人脸可分为眼睛、鼻子、嘴等不同部分).如图2所示,一般通过人工设定或交叉验证的方式固定重要参数(如隐聚类个数、part 个数等)并混合其概率密度,其中固定参数的D ir i c h let 生成过程是一种有限混合./星群0(Conste llati o n)模型[34-35]是其中的典型,根据不194模式识别与人工智能 23卷同区域的外观位置信息描述,确定P 个部分的归属及其概率分布,将目标和背景似然比分解为外观项、形状项、尺度项以及杂项的乘积,依次计算概率密度值(一般是高斯分布或均匀分布),并E M 迭代更新参数,最后通过似然比值判断目标的语义属性.部分间的约束关系体现于形状项中,可以假设为全互连结构(Fu ll Str ucture)或星状结构(S tar S tructure),其结构信息体现于高斯分布的协方差矩阵中(满秩或稀疏矩阵),有助于提高语义分析的准确性.固定参数的D irichlet 生成过程是无限混合模型的一种特例,可通过合适的随机过程,很好表达无限混合(I nfi n ite M i x t u re)模型,自动确定混合个数.这种/非参0(Non -Para m etric)模型可捕捉到概率空间的隐性分布,不受特定的概率密度函数形式表达限制.整个D irich let 过程可拓展至层次结构(H ierar -ch ical D irichlet Process ,HDP).H DP 具有明显的结构特性,可以很容易对应于图像中的/场景-目标-部分0层次结构,其混合组成很显式地表达了不同目标实体间的语义包含关系.Sudderth 在HDP 的基础上,引入转换函数(Transfor m ed Function),生成转换D irichlet 过程(T ransfor m ed D irichlet Process ,TDP),每组的局部聚类不再直接/复制0全局聚类参数,而是通过不同转换函数生成变化多样的局部变参,更符合目标多变特性[36-37].层状贝叶斯模型是当前处理图像语义问题的关注热点,其模型特有的参数化层次结构信息参照文本处理直接对应图像中的语义实体,通过图模型的参数估计和概率推理得到合适的语义描述.模型本身的发展也具有一定的递进关系,即/Bags -o-f W ord模型y pLSA 模型y LDA 模型y par-t based 模型y HDP 模型y TDP 模型0等,分析得到的结果具有层次语义包含关系.2.3.2 随机场模型随机场模型以均值场(M ean F ield)理论为基础,图中节点变量集合{x i |i I V }通常呈4-邻域网格状分布,节点之间的边{(x i ,x j )|i ,j I V;(x i ,x j )I E }体现隐性关联,由势函数W ij (x i ,x j )表示,一般具有含参数H 的近高斯指数分布形式,每个隐节点x i 一般对应一个观察变量节点y i ,由势函数W i (x i ,y i )表示.如图3所示,观察节点可对应图像的像素点,也可对应图像中的某个区域或目标语义化特征描述(如2.1节所述),隐变量则对应语义/标记0或/标签0l .随机场模型具有丰富的结构场信息,节点间上下文关联很强,通常分析像素标记解决图像分割问题.近年来,其特定的约束关系(如桌子和椅子经常关联出现)也被用于图像区域化语义分析中,隐节点集的语义标签对应不同的语义化特征和势函数取值,最大化随机场的能量函数得到的标记赋值,就是最终的区域语义标记属性.随机场模型具有较成熟的计算框架,融合其上下文关联信息的层次贝叶斯/生成0模型是分析图像语义的主流趋势[14,33-35,38-40].图3 随机场模型及其图像语义描述F ig .3 R andom field m ode l and its se m antic descr i pti on2.4 语义分析的判别方法判别方法基于数据驱动,根据已知观察样本直接学习后验概率p (M |D ),主要通过对训练样本的(弱)监督学习,在样本空间产生合适的区分函数,采用形成的分类器或结构参数,完成对特定的特征空间中点的划分(或闭包),形成某些具有相似特性的点的集合.这些共性可直接显式对应图像理解中的若干语义信息,如目标和场景的属性、类别信息等,通常以主观形式体现于观察样本中,其本质就在于学习并获取区分不同语义信息的知识规则(如分类器等).由于语义信息主观设定(如判别几种指定类别),因此判别方法主要侧重观察样本(语义)的处理分析,而非观察样本(语义)的获取.判别方法是包含经典的机器学习方法,精确度较高且易于实现,常用于目标检测识别识别.其策略主要包括最近邻分析、集成学习和核方法.2.4.1 最近邻方法最近邻(k -N earestN e ighbo r ,kNN )方法是基于样本间距离的一种分类方法.其基本思想是在任意空间中、某种距离测度下,寻找和观测点距离最接近的集合,赋予和集合元素相似的属性集合.在图像理解中,就是在图像特征空间寻找和近似的特征描述集,将已知的语义作为分析图像的最终结果.最近邻方法非常简单,但对样本要求较高,需要很多先验知1952期 高 隽 等:图像语义分析与理解综述识,随着大规模语义标记图像库的出现(如后 3.2节所述),最近邻方法有了广阔的应用前景,Torra l b a 等人[41]建立80万幅低分辨率彩色图像集合和相应的语义标记,图像集涵盖所有的视觉目标类别,以W ord N et语义结构树(如后3.1节所述)的最短距离为度量,采用最近邻方法分别对其枝干进行投票,选取最多票数对应最终的语义标签输出.也可直接在图像空间中计算像素点的欧式距离,得到与分析图像相类似的语义空间布局(Con fi g uration).Russe ll 等人[42]利用最近邻方法找出与输入图像相似的检索集,通过含有标记信息的检索图像知识转化到输入图像中,完成场景到目标的对齐任务.语义聚类法还被用于视频数据库中[43],具有较好的结果.2.4.2集成学习集成学习将各种方法获得的模型在累加模型下形成一个对自然模型的近似[44-45],将单一学习器解决问题的思想转换为用多个学习器来共同解决问题.Boosti n g是集成学习方法的典型.其基本思想是每次迭代t生成一个带权重A t的弱分类器(W eaker C lassifier)h t,加大误分样本的权重,保证后续学习对此类样本的持续关注,权重A t表示该弱分类器h t 的重要性,分类效果好的权重大,效果差的权重小.其集成学习的结果就是弱分类器的加权组合E T t=1Ex i I DA t h t(x i)构成一个分类能力很强的强分类器(Strong C lassif-i er),完成简单的二值或复杂的多值分类[46-47].集成学习方法经常用于图像理解的语义分类中,其样本数据集既可以是区域块也可以是滤波后的基元乃至包括上下文和空间布局信息.其分类结果具有很明显的语义区分度.多语义分类中经常出现多类共享的情况,因此,联合Boosti n g的提出极大地减少了分类器的最佳参数搜索时间,使单一弱学习器具有多类判别能力[48-51].同时,近年来多标签多实例(M ult-i Instance M u lt-i Labe l Learn i n g,M I M L)的集成学习策略[52]也倍受学者关注,图像理解中的语义划分问题可通过M I M L转化为单纯数据下的机器学习问题,其输出的分类结果就是对既定语义的编码结果.2.4.3核方法核方法(Kernel)是在数据集中寻找合适的共性/基0,由/基0的混合组成共性空间,与图像理解中的低层基元表示异曲同工.使用核方法可将低维输入空间R n样本特征映射到高维空间中H,即5B R n y H,将非线性问题转换为线性问题.其关键是找到合适的核函数K保持样本在不同空间下的区分关系,即K(x i,x j)=5(x i)#5(x j).它能够在学习框架和特定知识之间建立一种自然的分离来完成图像有意义的表达[53-54].支持向量机(S VM)是常用的核方法之一.它以训练误差作为优化问题的约束条件,以置信范围值最小化作为优化目标,在核函数特征空间中有效训练线性学习分类器,通过确定最优超平面(H yper Plane)及判别函数完成高维空间点的分类.SVM方法在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势,在图像理解中,能有效解决不同环境、姿态以及视角下的广义目标识别分类问题,是目前最为通用的分类模型[55-58].针对多语义分类问题,Farhad i等人[59]将目标的语义属性细分为部分、形状及材质等,相同或相似的语义对应的样本集表明了某种特有的共性关系,采用L1测度对数回归和线性SVM方法学习不同语义类别的判别属性,其多语义属性的不同划分决定了指定目标的唯一描述,具有很强的语义可拓展性.判别模型是通过模型推理学习得出的后验概率,对应不同类别目标的后验概率或对应图像前景和背景的不同后验概率来划定判决边界,进而完成目标识别,指导图像理解.判别模型在特征选取方面灵活度很高,可较快得出判别边界.2.5图像句法描述与分析人对图像场景理解的本质就是对图像本身内在句法(G ra mm ar)的分析.句法源于对语句结构研究,通过一系列的产生式规则将语句划分为相互关联的若干词汇(组)组合,体现句法内词汇之间的约束关系.图像句法分析直接研究图像语义,随着20世纪70年代句法模式识别的提出,Otha就试图构建统一的基于视觉描述的知识库系统,利用人工智能相关策略进行场景语义推理.但由于视觉模型千变万化,方法针对性很强,句法分析方法曾一度没落.当前图像语义分析的一部分研究重心又重新转向图像句法.由于句法分析本身已较为成熟,因此如何建立和句法描述相对应的图像视觉描述非常关键.2.5.1图像与或图表达图像I内的实体具有一定的层次结构,可用与或图(And-O r G raph)的树状结构表示,即解析树pg.如图4所示,同属一个语义概念的实体尽管在外观上具有很大差异,但与或图表达相似,与节点表示实体的分解(D ecom position),如/场景y目标0, /目标y部分0等,遵循A y BCD,的句法规则,或节点表示可供选择的结构组成,遵循A y B|C|D,196模式识别与人工智能23卷。
基于社会网络的图像语义获取研究综述
3 .C o l l e g e o f C o mp u t e r a n d I n f o r ma t i o n E n g i n e e r i n g , H o h a i U n i v e r s i t y , N a n j i n g 2 1 0 0 9 8 , C h i n a )
郭海凤 , 张盈盈 , 李广水 , 韩立新
( 1 . 金 陵科技 学院信 息技 术学院 , 江苏 南京 2 1 1 1 6 9;2 . 北京京 师普教文化传媒有 限公 司 , 北京 1 0 0 0 8 2 ;
3 . 河海 大学计算机与信 息学院 , 江苏 南京 2 1 0 0 9 8 )
n i q u e ma i n l y b a s e s o n i t s c o n t e n t i t i s p a i d mu c h mo r e a t t e n t i o n b y o he t r s nd a s u i t a b i l i t y f o r l a r g e - s c le a n e t wo r k e n v i r o n me n t ,i t ’ S ls a o d o n e t o a r r a y he t c o n t e n t o r g ni a z a t i o n r e l a t i o n nd a h i e r rc a h y c h a r a c t e r i s t i c .A f t e r t h e a n ly a s i s f o s t a t i s t i c s r e s u l t s f r o m t h e
Ab s t r a c t :T h i s p a p e r p r o v i d e s a c o mp r e h e n s i v e s u r v e y o f t h e s e ma n t i c s e x t r a c t i o n f o m r i ma g e s ha t t i s a n n o t a t e d b y u s e r i n he t We b 2 . 0 s y s t e m.T h e ma i n f i e l d s o f s e ma n t i c s e x t r a c t e d f r o m he t s o c i l a i ma g e s a r e g e n e r li a z e d ,i n c l u d i n g t a g s d e n o i s i n g,a u t o -
基于深度卷积特征的细粒度图像分类研究综述
基于深度卷积特征的细粒度图像分类研究综述一、本文概述随着技术的迅速发展,细粒度图像分类已成为计算机视觉领域的一个重要研究方向。
细粒度图像分类旨在区分具有细微差异的不同类别,如不同种类的鸟类、汽车型号等。
由于这些类别之间的差异往往非常细微,传统的图像分类方法往往难以取得理想的效果。
因此,研究基于深度卷积特征的细粒度图像分类方法具有重要的理论价值和实际应用意义。
本文旨在对基于深度卷积特征的细粒度图像分类方法进行全面的综述。
我们将介绍细粒度图像分类的研究背景和意义,阐述细粒度图像分类所面临的挑战和难点。
我们将重点介绍深度卷积特征在细粒度图像分类中的应用,包括卷积神经网络的基本原理、深度卷积特征的提取方法以及基于深度卷积特征的细粒度图像分类模型。
同时,我们还将对近年来提出的代表性方法进行详细介绍和比较,分析它们的优缺点和适用范围。
本文还将探讨细粒度图像分类领域的未来发展趋势,包括多模态数据融合、弱监督学习、迁移学习等方向的研究进展。
我们将对全文进行总结,并指出当前研究中存在的问题和不足,为未来的研究提供参考和借鉴。
通过本文的综述,我们希望能够为读者提供一个全面、深入的视角,了解基于深度卷积特征的细粒度图像分类方法的研究现状和发展趋势,为该领域的进一步研究提供有益的参考和启示。
二、深度卷积神经网络基础深度卷积神经网络(Deep Convolutional Neural Networks,DCNNs)是近年来计算机视觉领域取得重大突破的关键技术之一。
其强大的特征提取和分类能力,使得DCNNs在图像分类、目标检测、图像分割等多个子领域中都取得了显著的成果。
而细粒度图像分类,作为一种特殊且具有挑战性的图像分类任务,也从DCNNs的发展中受益良多。
深度卷积神经网络的基本结构包括卷积层、池化层和全连接层。
卷积层负责通过卷积运算,提取图像中的局部特征;池化层则负责对卷积层提取的特征进行下采样,以减少特征图的维度和计算量;全连接层则负责将前面层提取的特征进行整合,形成最终的分类结果。
基于盲取证的医学图像检索及语义表达研究综述
E mal e u @C C . e .n — i d f C Cn t : c ht : w . n sn t n t / ww d z . e . p/ c T h 8 — 5 一 6 0 6 5 99 4 e+6 5l5993 6O6
C mp tr n we g a dTcn l y电脑知识与技术 o ue K o ld e n e hoo g
得切 入 的 几 个 问题 点 。
关键 词 : 盲取证 ; 医学图像检 索; 语义表 达
中图分类号: P 0 文献标识码: 文章编号 :0 9 3 4 (022 — 4 0 0 T 39 A 10 — 0 42 1 )2 5 5 — 4
Re e r h o e ia ma eRe re a n e n t p e so s d o i d F r n is A v e s a c nM dc l I g t iv l d S ma i Ex r si n Ba e n Bl o e sc o wo GD, o t hn iv r t f e h oo y Gu n z o 1 6 2 C n ; .c o l f mp t ce c , a g l S uh C i a Un e i o c n lg , a gh u5 0 4 , h a 3 h o o s y T i S Co ue S i e C me eMe r n i - lnUnv r t, i su g , A 1 2 3 US ) o ie i P tb rh P 5 1 , A sy t
Vo . , . 2 Au u t 01 . 18 No2 , g s 2 2
基于盲取证的医学图像检索及语义表达研 究综述
张 丽, 余, 丽 刘昌
大模型文献综述
大模型文献综述大模型是指参数量巨大,能够处理复杂任务的人工神经网络。
近年来,随着深度学习的不断发展,大模型在机器学习领域取得了很大的进展,尤其在自然语言处理、图像识别和语音识别等领域。
以下是大模型在相关领域的文献综述:1. 自然语言处理自然语言处理是人工智能领域的一个重要分支,它涉及到如何让计算机理解和生成人类语言的问题。
大模型在自然语言处理领域的应用主要表现在语言模型和生成模型两个方面。
语言模型是一种基于统计的模型,它能够根据上下文预测一个词或短语的可能性。
目前最广泛使用的语言模型是Transformer和GPT系列模型。
这些模型通常包含数亿甚至数十亿的参数,能够处理复杂的语言任务,如文本分类、情感分析、摘要生成等。
生成模型是一种能够根据输入的文本生成相似内容的模型。
目前最著名的生成模型是GAN和Diffusion。
GAN通过生成器和判别器的对抗训练来生成新的图像或文本,而Diffusion则通过逐步添加噪声来逐步生成文本或图像。
这些模型在图像生成、文本生成和语音生成等方面都有广泛的应用。
2. 图像识别图像识别是计算机视觉领域的一个重要分支,它涉及到如何让计算机自动识别和理解图像中的内容。
大模型在图像识别领域的应用主要表现在卷积神经网络(CNN)和生成对抗网络(GAN)等方面。
CNN是一种专门用于图像处理的神经网络,它通过卷积运算对图像进行特征提取,然后使用全连接层进行分类。
近年来,随着深度学习技术的不断发展,CNN的参数量和层数不断增加,出现了很多大规模的CNN模型,如VGG、ResNet和Inception等。
这些模型在图像分类、目标检测和语义分割等方面都取得了很好的效果。
GAN是一种能够生成新图像的模型,它由生成器和判别器两部分组成。
生成器的任务是根据输入的噪声生成新的图像,而判别器的任务则是判断生成的图像是否真实。
通过训练,GAN能够生成各种风格的图像,如手写文字、人脸等。
近年来,GAN在图像生成和图像修复等方面得到了广泛应用。
基于内容语义的医学图像检索综述
基于内容语义的医学图像检索综述随着医学影像技术的不断发展,医学图像已经成为诊断和治疗的重要工具。
随着医学图像数据的不断增加,如何高效、快速地检索所需的医学图像数据成为了一个挑战。
基于内容语义的医学图像检索技术应运而生,它能够从海量的医学影像数据库中准确地检索出符合特定需求的医学图像,为医生和研究人员提供了巨大的帮助。
本综述将从基本概念、研究现状和发展趋势三个方面展开对基于内容语义的医学图像检索进行综述,旨在为该领域的研究和应用提供一份全面的概述和指南。
一、基本概念1.1 医学图像检索的定义基于内容语义的医学图像检索是指利用计算机视觉、模式识别和人工智能等技术,对医学图像进行特征提取、语义理解和相似度计算,实现对医学图像内容的自动分析和理解,从而实现对医学图像的精确检索和相关性排序。
二、研究现状2.1 基于内容语义的医学图像特征提取在基于内容语义的医学图像检索中,特征提取是一个关键的步骤。
传统的医学图像特征提取方法包括形状特征、纹理特征和灰度共生矩阵等。
近年来,随着深度学习技术的快速发展,深度卷积神经网络(CNN)已经成为医学图像特征提取的主流方法,它能够自动学习到医学图像的高级语义特征,提高了医学图像检索的准确性和效率。
医学图像中包含丰富的语义信息,例如病变的位置、形状、大小等。
基于内容语义的医学图像检索需要对这些语义信息进行理解和表达。
目前,常用的医学图像语义理解方法包括基于规则的方法、基于监督学习的方法和基于深度学习的方法。
这些方法能够有效地提取出医学图像中的语义信息,为医学图像的检索和分析提供了有力的支持。
三、发展趋势随着医学影像技术的不断发展,多模态医学图像(如MRI、CT、PET等)的应用越来越广泛。
如何实现对多模态医学图像的联合检索成为了一个新的研究方向。
未来,基于内容语义的医学图像检索技术将不仅局限于单一模态的医学图像,还将面向多模态医学图像的检索,为医生和研究人员提供更加丰富的信息支持。
使用ai写综述
使用ai写综述使用AI写综述随着人工智能(AI)技术的不断发展,AI的应用范围也越来越广泛。
在各个领域中,AI都展现出了巨大的潜力。
本文将综述AI的应用领域、技术原理以及未来发展方向。
一、AI的应用领域1. 机器学习:机器学习是AI的核心技术之一。
通过训练模型,机器可以从数据中学习并提取出有用的信息。
在图像识别、语音识别和自然语言处理等领域中,机器学习技术有着广泛的应用。
2. 自动驾驶:自动驾驶是AI技术在交通领域的重要应用之一。
通过感知、决策和控制等模块,自动驾驶车辆可以实现无人驾驶。
自动驾驶技术的发展有望改变交通方式,提高交通安全性和效率。
3. 金融领域:AI在金融领域中的应用也日益普及。
通过数据分析和模型预测,AI可以帮助金融机构进行风险评估、信用评分和投资决策等工作。
同时,AI还可以提供智能客服和智能投顾等金融服务。
4. 医疗领域:AI技术在医疗领域中的应用也越来越广泛。
通过图像识别技术,AI可以帮助医生进行疾病诊断和影像分析。
此外,AI还可以通过数据分析和模型预测来辅助医疗决策和药物研发。
二、AI的技术原理1. 深度学习:深度学习是一种机器学习技术,它模拟人脑神经网络的工作原理,通过多层神经网络进行模型训练和特征提取。
深度学习可以处理大规模数据,并在图像、语音和自然语言等领域中取得了重大突破。
2. 自然语言处理:自然语言处理是AI技术中的重要分支,它可以使计算机理解和处理人类语言。
通过文本分析、语义理解和机器翻译等技术,自然语言处理可以帮助机器实现智能对话和文本处理。
3. 强化学习:强化学习是一种通过试错学习的方法,机器通过与环境的交互来学习最优策略。
强化学习在游戏、机器人控制和自动驾驶等领域中有着广泛的应用。
三、AI的未来发展方向1. 边缘计算:随着物联网技术的发展,越来越多的设备将连接到互联网。
为了减少延迟和节省带宽,将AI算法应用于边缘设备成为一种趋势,这可以在设备本地进行数据处理和决策。
semantic segmentation 综述
semantic segmentation 综述语义分割(Semantic Segmentation)是计算机视觉领域的一个重要任务,它旨在将图像中的每个像素分配给一个预定义的类别标签。
随着深度学习技术的发展,语义分割取得了显著的进步,并在许多应用中得到了广泛的应用,如自动驾驶、机器人导航、医疗图像分析等。
语义分割的基本原理是将图像划分为多个区域,每个区域内的像素具有相似的语义信息。
通过训练深度学习模型,可以学习到每个像素的类别标签,从而实现像素级别的分类。
语义分割的方法可以分为两类:一类是基于CNN的方法,另一类是基于CRF的方法。
基于CNN的方法通常采用多尺度特征融合和上下文信息的方法来提高分割精度。
基于CRF的方法则利用概率图模型来考虑像素之间的依赖关系,从而更好地处理复杂的场景和细节。
在训练语义分割模型时,可以采用不同的数据增强技术来增加训练数据集的多样性和数量。
例如,可以采用随机裁剪、旋转、翻转等操作来处理训练图像,以提高模型的泛化能力。
同时,可以采用不同的损失函数来优化模型,例如交叉熵损失函数和Dice损失函数等。
在实际应用中,语义分割可以应用于各种场景中,如街道场景、室内场景、医疗图像等。
通过将图像划分为多个区域,可以更好地理解图像的内容和结构,从而为后续的任务提供更准确的信息和数据支持。
例如,在自动驾驶中,通过语义分割可以更好地识别行人、车辆和其他障碍物,从而为车辆的路径规划和决策提供更准确的信息。
总之,语义分割是计算机视觉领域的一个重要任务,它旨在将图像中的每个像素分配给一个预定义的类别标签。
随着深度学习技术的发展,语义分割的应用越来越广泛,为许多领域提供了更准确的信息和数据支持。
国内图式理论研究综述
国内图式理论研究综述一、概述图式理论是一种重要的认知心理学理论,旨在解释人类如何处理和理解信息。
自上世纪30年代心理学家让皮亚杰提出这一概念以来,图式理论在国内外心理学、教育学、语言学等领域得到了广泛的应用和研究。
国内对于图式理论的研究起步于20世纪80年代,随着心理学和相关学科的快速发展,相关研究逐渐深入,形成了丰富的理论体系和实践应用。
国内图式理论的研究主要集中在图式的概念界定、图式的分类与特点、图式的形成与发展、图式的应用等方面。
学者们通过对图式的深入研究,揭示了图式在个体认知过程中的重要作用,为理解和解释人类认知活动提供了新的视角。
同时,国内研究还结合中国文化和社会背景,对图式理论进行了本土化的探索和发展,为图式理论的国际交流和发展做出了贡献。
近年来,随着神经科学、计算机科学等跨学科的快速发展,国内图式理论研究呈现出新的趋势和特点。
一方面,研究者们开始运用先进的技术手段,如神经影像学、计算机模拟等,深入探索图式的神经机制和计算模型另一方面,图式理论的应用领域也在不断拓展,如教育、心理咨询、人机交互等,为社会发展和人类进步提供了有力支持。
国内图式理论研究仍存在一些问题和挑战。
如研究方法不够多样化、研究内容不够全面、实践应用不够广泛等。
未来研究需要进一步加强跨学科合作,拓展研究方法和内容,推动图式理论的深入发展和实践应用。
同时,还需要加强对图式理论在本土化、国际化方面的探索和交流,促进图式理论的全球发展和应用。
1. 图式理论的定义与起源图式理论,作为一种重要的认知心理学理论,自其诞生以来,在多个学科领域产生了深远的影响。
它起源于20世纪30年代的心理学家让皮亚杰的认知发展理论,后经过康德、巴特莱特等人的进一步发展与完善,逐渐形成了系统的理论体系。
“图式”一词,在心理学中,通常指的是人脑中一种有组织、可重复使用的信息结构或知识单元。
它是个体对外部世界进行感知、理解和记忆的基本单位,是人脑对客观事物进行概括和表征的心理结构。
《2024年多模态深度学习综述》范文
《多模态深度学习综述》篇一一、引言随着信息技术的飞速发展,数据呈现出多元化、异构化的特点,这为人工智能的深度学习带来了新的挑战与机遇。
多模态深度学习正是在这一背景下兴起的新型技术,其能处理多种不同类型的数据(如文本、图像、音频、视频等),并且结合不同模态间的信息交互来提高处理和分析的准确率。
本文将对多模态深度学习进行综述,分析其原理、技术发展以及应用现状。
二、多模态深度学习的基本原理多模态深度学习是指利用深度学习技术对来自不同模态的数据进行联合建模和特征提取的过程。
其基本原理包括数据预处理、特征提取、信息融合和模型训练四个步骤。
首先,对来自不同模态的数据进行预处理,包括数据清洗、格式转换等;然后,利用深度学习技术对每种模态的数据进行特征提取;接着,通过信息融合技术将不同模态的特征进行整合;最后,通过模型训练得到多模态联合模型。
三、多模态深度学习的技术发展多模态深度学习的技术发展经历了从早期简单的多模态特征融合到现在的深度多模态联合建模的过程。
早期的方法主要依赖于手工设计的特征提取方法,而随着深度学习技术的发展,现在的方法更多地依赖于深度神经网络进行特征提取和联合建模。
此外,随着技术的发展,多模态学习的应用场景也在不断扩大,从最初的图像和文本处理扩展到语音识别、视频理解等多个领域。
四、多模态深度学习的应用现状多模态深度学习在各个领域都得到了广泛的应用。
在图像处理领域,多模态深度学习可以结合文本信息进行图像理解;在语音识别领域,可以利用多模态技术提高语音识别的准确率;在自然语言处理领域,可以利用图像或视频等多模态信息进行语义理解和文本生成。
此外,在智能家居、自动驾驶、人机交互等领域也有广泛的应用前景。
五、多模态深度学习的挑战与展望虽然多模态深度学习取得了显著的成果,但仍面临一些挑战。
首先,如何有效地融合不同模态的数据是一个重要的问题。
不同模态的数据具有不同的特征和表示方式,如何将它们有效地融合在一起是一个难题。
自然语言处理中的语义分析技术综述
自然语言处理中的语义分析技术综述自然语言处理(Natural Language Processing,NLP)是人工智能领域中的一个重要研究方向,旨在使计算机能够理解和处理人类语言。
在NLP中,语义分析是一项关键技术,旨在识别和理解文本中的语义信息。
语义分析可以帮助计算机更好地理解人类语言,从而实现机器翻译、信息检索、问答系统、智能对话和文本分类等应用。
语义分析技术包括词义消歧、语义角色标注、关系抽取和情感分析等方面。
下面将从这些技术进行综述。
首先,词义消歧是语义分析中的重要任务之一。
在自然语言中,一个单词可能有多个不同的意义,而词义消歧的目标是确定上下文中单词的确切含义。
这一任务可以通过构建语义网络、利用统计语言模型和基于知识图谱的方法来实现。
这些方法可以帮助计算机准确地理解上下文中单词的语义。
其次,语义角色标注是将句子中的词语与其在句子中的语义角色相对应的任务。
语义角色标注可以识别出动词的论元并确定其在句子中的语义角色,如施事者、受事者和时间等。
这项技术在问答系统和信息检索中发挥了重要作用,可以帮助计算机理解句子的含义,并提供更准确的回答或搜索结果。
关系抽取是语义分析的另一个重要任务,旨在从文本中提取出实体之间的关系。
关系抽取可以帮助计算机理解实体之间的相互作用和影响,从而构建出知识图谱或语义网络。
关系抽取可以通过基于模式匹配的方法、基于机器学习的方法或基于深度学习的方法来实现。
这些方法能够从海量的文本中自动提取出实体之间的关系,为后续的语义分析任务提供支持。
另外,情感分析是一项在社交媒体和在线评论等文本中广泛应用的语义分析技术。
情感分析旨在识别和判断文本中所表达的情感或倾向,如正面、负面或中性等。
情感分析可以通过构建情感词典、利用机器学习算法或使用深度神经网络来实现。
情感分析在情感智能、舆情分析和用户情感分析等领域具有广泛的应用。
总的来说,自然语言处理中的语义分析技术在许多领域中发挥着重要作用。
图像自动语义标注技术综述
p p r I sv l a ef rt er s a c e swhod voet h e e rh i sfed a e. ti au bl o h e e r h r e t ot er s a c t l . n hi i
K e o ds i a es ma t ; e a tca n tto i a ere a yw r : m g e n i s m n i n o in;m ger tiv l c a
S UN u - ig DU u n J nD n , Ja
(co l f o ue c n e n cn lg , n nP l eh iUnvri ,i zo4 4 0 , hn ) S h o o mp tr i c dt h oo yHea oy c c i s yJ ou 50 0 C ia C Se a e tn e t a
针对 目前广 泛研究 的图像语义标注 技术 ,从其分类 、关键 技术 、存在 问题 及发展方 向进行 了进行 了论述 ,以期 为从事该方 向研究 的人 员提供一定 的借 鉴意义和参考价值 。 关键 词:图像语义 ;语义 标注 ;图像检 索
Re e o t m a i m a m a i viw n Au o tcI geSe ntcAnno a i n Te h que t to c ni s
用 于医学、通 信、工农业生产 、航天 、教育、军事等
多个 领域 。为了更好管理和利用这些海量 图片信息 , 建立 有效的分类和检索方式 已成为迫 切需要解决 的问
户而言 ,提供实例 图像并不是 一件容 易的事 ,而且 图
像低层视觉特征 与图像 的高层 语义间还 存在 “ 义鸿 语
沟 ’l ,所 以采 用低层特 征进 行检索 并不能充分的表 ’
计算机视觉中的图像生成技术综述
计算机视觉中的图像生成技术综述计算机视觉(Computer Vision)作为人工智能(Artificial Intelligence)领域的一个重要分支,致力于使计算机能够对视觉数据进行理解和处理。
而图像生成技术(Image Generation)是计算机视觉中的一个重要方向,旨在让计算机能够生成逼真的图像。
本文将对计算机视觉中的图像生成技术进行综述,并介绍其中的一些主要方法和应用。
图像生成技术在计算机视觉领域具有广泛的应用前景,如计算机辅助设计、虚拟现实、增强现实、电影特效等。
在图像生成技术的发展过程中,深度学习技术的兴起极大地推动了该领域的进步。
深度学习通过建立具有多个隐藏层的神经网络模型,可以学习到图像背后的高层次表达和潜在规律。
下面将介绍几种常见的图像生成技术。
首先,基于生成对抗网络(Generative Adversarial Networks, GANs)的图像生成技术是目前非常流行的方法之一。
GANs由一个生成器模型和一个判别器模型组成,通过对抗的方式进行训练,使得生成器能够生成更逼真的图像,而判别器则能够判断生成的图像与真实图像的差异。
GANs的核心思想是通过两个模型之间的对抗与合作来提高生成图像的质量,近年来在图像生成领域取得了显著的成果。
其次,变分自编码器(Variational Autoencoder,VAE)也是一种常用的图像生成技术。
VAE是一种无监督学习的模型,在生成图像的过程中引入了隐变量,通过学习样本的潜在分布来生成新的图像样本。
VAE通过最大化推理近似的下界来进行训练,能够学习到图像的低维表示。
它不仅可以生成逼真的图像,还可以实现图像的语义分析和重构。
除了GANs和VAE,还有一种常用的图像生成技术是基于变换网络(Transformation Networks)的方法。
这种方法通过学习输入图像与目标图像之间的映射关系,从而将输入图像转换成目标图像。
变换网络可以通过训练数据学习到输入和目标图像之间的非线性变换,从而生成逼真的图像。
基于弱监督学习的图像语义分割方法综述
基于弱监督学习的图像语义分割方法综述随着深度学习技术的发展,图像语义分割在计算机视觉领域扮演着越来越重要的角色。
图像语义分割是指将图像中的每一个像素分配到其对应的语义类别中,这一任务对于许多计算机视觉应用具有重要意义,例如自动驾驶、医学影像分析、无人机监测等。
传统的图像语义分割方法需要大量的标注数据,对于大规模数据集而言成本较高。
为了解决这一问题,研究者们开始探索基于弱监督学习的图像语义分割方法,该方法只需要较少的标注信息或者没有标注信息,从而降低了数据标注的成本。
本文将对基于弱监督学习的图像语义分割方法进行综述,包括其基本原理、常用的技术方法以及未来的发展趋势。
一、基本原理基于弱监督学习的图像语义分割方法旨在利用较少的标注信息来训练模型,从而实现对图像的语义分割。
相比于传统的监督学习方法,弱监督学习并不要求对每一个像素都进行标注,而是可以通过一定的方式来利用强度较弱的标注信息。
通常来说,弱监督学习方法主要包括以下几种形式:1.标签缺失:在一些情况下,对图像的标注信息并不完整,可能只标注了部分区域的类别信息,而其他区域的标注信息缺失。
基于弱监督学习的图像语义分割方法就是通过利用这部分不完整的标注信息来训练模型。
2.弱标注:在一些情况下,标注信息可能只是粗糙的类别信息或者不精确的边界信息,这种情况下也可以被视为弱监督学习的范畴。
对一张图像只标注了其中的一个目标物体类别,而没有标注其具体的边界信息。
基于这些弱监督学习的原理,研究者们提出了各种不同的方法来解决图像语义分割的问题,这些方法多数意在利用弱监督信息来训练模型,使得模型能够自动学习更准确的语义分割。
二、常用的技术方法基于弱监督学习的图像语义分割方法涉及到许多不同的技术方法,主要可以分为以下几种类型:1.半监督学习方法半监督学习方法是一种介于监督学习和无监督学习之间的学习范式,它可以有效利用标注数据和未标注数据来训练模型。
在图像语义分割领域,半监督学习方法可以利用少量的标注数据和大量的未标注数据来训练模型,从而实现对图像的语义分割。
文献综述格式及范文
文献综述格式及范文引言:文献综述是研究过程中不可或缺的一部分,它能够帮助我们系统地调研、汇总和分析前人的研究成果,从而形成全面的理论基础和背景知识。
本文将介绍文献综述的格式要求,并提供一个范文供大家参考。
一、文献综述的格式要求1. 文献综述的标题文献综述的标题应简明扼要地反映研究内容或主题,同时具有吸引读者的特点。
标题应该具有一定的概括性,不过分狭隘和模糊。
同时,标题在语言表达和表格排版上也需要注意统一性和规范性。
2. 文献综述的引言引言应该包括对本次文献综述的目的和重要性的介绍,同时也需要说明本综述的研究方法和范围。
此外,引言还可以简要介绍当前相关研究领域的研究现状和发展趋势,从而为读者了解研究背景提供必要的信息。
3. 文献综述的主体部分主体部分是文献综述的核心,它需要系统地分析、综合和比较前人的研究成果,从而揭示研究领域的科学问题和未解之谜。
在主体部分中,可以通过不同的章节来组织文献综述,例如按照时间、理论分支、研究方法等进行分类。
4. 文献综述的结论结论部分是对整个文献综述的总结和归纳,在这一部分中,可以对文献综述进行评价,并提出未来研究的展望。
结论部分需要简明扼要地回顾研究的目的和结果,并强调研究的创新性和意义。
二、文献综述的范文(标题):基于机器学习的图像识别综述(引言)图像识别是计算机视觉领域的重要研究方向,近年来随着机器学习技术的发展,图像识别取得了显著的进展。
本文通过对前人的研究成果进行综合和总结,旨在分析图像识别领域的研究现状和发展趋势,并为未来的研究提供指导和参考。
(主体部分)1. 传统图像识别方法在这一章节中,我们回顾了传统的图像识别方法,包括特征提取、模式匹配等传统算法。
我们总结了这些方法的优点和局限性,并分析了它们在实际应用中的效果。
我们还介绍了一些经典的基于传统方法的图像识别系统,并对其进行了评价和比较。
2. 基于机器学习的图像识别方法在这一章节中,我们重点关注了机器学习在图像识别中的应用。
话语分析研究综述
佳 结合 点
述 语narrativediscourse)进 分 同 海 斯Hym 话 ( 行了 析。 时, 姆 ( es)
了 文化和社会中的 峪 语言:语言学和人类学读本》 (Language in
收集一些著名的人类学语言学家和社会语言学家的论文主编
Sea) , 《 身临其境》 (Being There) , 《 天长地久》 ays) , 《 (Alw 尽善
尽美》 Good As it Gets)等。 (As 2.4 为取得较好的商业效应,部类似影片片名翻译的 模仿和雷同。 例如皮克斯(Pixar Animation Studios)公司的动画
《 怪物总动员》《 , 海底总动员》《 ,潜艇总动员》 晶兵总动员》 和《 等。这些译名既概括了故事情节, 又取得了商业化效应 , 也不 失为电影名翻译的成功之作。
3 结论
典小说的韵味。再如 《 仙履奇缘》 (Cinderella),《 十一罗汉》 (0cean's Eleven),《 风月俏佳人》 (Pretty W oman)等译名中, 使用了
越多, 研究成果大批出现。首先是巴塞斯(Barthes)、 ( 格雷姆斯 (G reimas)和梅茨 etz)等学者用符号学(Semiotics)的 (M 观点, 对叙
中 发生的, 而是在连贯的话语中的” (Harris,l952)。 哈里斯从成 分分布的角度研究话语结构, 他认为他建立的“ 分布分析” 可 (The Firm) ,《 亿万未婚夫》 B (The achelor) ,《 幸福终点站》 外e Terminal),《 麻雀变王妃》 Prince andM (The e)等。
米歇尔(M itchell)也在50年代末进行了话语分析的相关研 究。 他是结合语境研究买卖对话特点的。 他按照弗斯(Firth)的
智能识别技术综述
智能识别技术综述智能识别技术是一种基于人工智能的技术,通过模拟人类的认知能力和思维方式,实现对各种信息的自动分析、理解和识别。
这项技术已经在图像识别、语音识别、自然语言处理等领域取得了重要的突破,为人们的生活和工作带来了巨大的便利。
在图像识别领域,智能识别技术可以识别和理解图像中的物体、场景和人脸等信息。
通过深度学习算法和大量的数据训练,智能识别系统可以准确地识别出图像中的不同物体,并进行分类和标注。
这项技术已经广泛应用于人脸识别、车牌识别、商品识别等场景中,大大提高了工作效率和安全性。
在语音识别领域,智能识别技术可以将人的语音信息转化为文字或命令,并进行相应的处理和响应。
通过深度神经网络和语音模型的训练,智能识别系统可以识别出不同的语音指令,并将其转化为相应的操作或回答。
这项技术已经广泛应用于语音助手、语音输入、语音翻译等场景中,使得人们可以通过语音与机器进行自然而方便的交互。
在自然语言处理领域,智能识别技术可以对人类的自然语言进行分析和理解。
通过语义分析、情感分析等技术,智能识别系统可以识别出文本中的关键信息和情感倾向,并进行相应的处理和回应。
这项技术已经广泛应用于智能客服、智能问答、机器翻译等场景中,大大提高了人们获取和处理信息的效率。
除了图像识别、语音识别和自然语言处理,智能识别技术还在其他领域得到了广泛的应用。
例如,在医疗诊断领域,智能识别技术可以通过分析医学影像、病历等信息,辅助医生进行疾病的诊断和治疗。
在金融风控领域,智能识别技术可以通过分析用户的行为、交易记录等信息,识别出异常行为和风险,提供有效的风险控制和防范措施。
尽管智能识别技术在各领域都取得了显著的进展,但仍然存在一些挑战和问题。
首先,由于智能识别技术的复杂性和高度依赖于数据和算法,需要大量的计算资源和训练数据支持。
其次,智能识别技术在处理复杂和多样化的任务时,仍然存在一定的误识别和误判的问题,需要进一步提高准确性和鲁棒性。
数字媒体内容分析与分类方法综述
数字媒体内容分析与分类方法综述数字媒体的快速发展和普及为人们的信息传播和获取方式带来了巨大的变革。
然而,由于大量的数字媒体内容日益增加,如何有效地对这些内容进行分析和分类成为一个亟待解决的问题。
数字媒体内容分析与分类方法的综述对于提供有效的数据处理和信息管理具有重要意义。
一、数字媒体内容分析方法综述数字媒体内容分析的目标是将大量的数字媒体数据转化为有用的信息,并为用户提供个性化的内容。
在数字媒体内容分析中,主要涉及图像、音频和视频等多个媒体类型。
1. 图像内容分析方法图像内容分析是对数字图像进行特征提取和分析的过程,以便实现图像的自动分类和识别。
在图像内容分析方法中,常用的技术包括图像特征提取、图像识别和图像检索等。
其中,深度学习技术在图像内容分析中得到了广泛应用,通过神经网络模型可以提取图像的高级语义特征,进而实现准确的分类和检索。
2. 音频内容分析方法音频内容分析主要关注对音频数据进行处理和分析,以实现音频的分类和识别。
常用的音频内容分析技术包括音频信号处理、音频特征提取和音频识别等。
其中,频谱分析和声学特征提取是音频内容分析中常用的方法。
此外,机器学习算法和深度学习技术也可以用于音频内容分析,实现高效的分类和识别。
3. 视频内容分析方法视频内容分析主要涉及对视频数据进行处理和分析,以实现视频内容的分类和识别。
视频内容分析方法包括视频特征提取、视频检测和跟踪、视频摘要和视频分析等。
在视频内容分析中,常用的技术有光流分析、运动检测和目标识别等。
近年来,基于深度学习的视频内容分析方法得到了广泛的应用,通过卷积神经网络模型可以有效地提取视频的时空特征,实现准确的分类和识别。
二、数字媒体内容分类方法综述数字媒体内容分类旨在将大量的数字媒体数据划分为不同的类别,以方便用户的浏览和检索。
数字媒体内容分类方法主要基于数据的内容特征和上下文信息进行分析和判别。
1. 基于特征的内容分类方法基于特征的内容分类方法侧重于提取数据的特征信息,并通过对这些特征进行分析和判别来实现分类。
基于概念级语义的图像描述与识别
Ke wo d I g e n i , s rp i n a d r c g iin o g , e n i g p Ree a c e d a k y r s ma e s ma tc De c i t n e o n to fi o ma e S ma t a , lv n e f e b c c
REN mme CHENG a i LIXio y n XI Yu y Yu i Xi n y a- a E - u
( c o l f o u e ce c n lc m nc t n n i e r g J n s iest , h n i g 2 2 1 , hn ) S h o mp trS i e d Te o mu iai sE gn e i ,i g u Un v ri Z e j n 1 0 3 C ia o C n a e o n a y a
r s a c n lr en m b r f e e e c s i h o i f I , u v y o h e c i t n mo e fc n e t e n is e e r h o a g u e so f r n e n t ed ma n o r CB R a s r e f e d s r i d l o c p ma t , t p o o s c s ma t e t r x r c i n a d t e s u y p o r s ft eCBI b s d o o c p e n i i ma e i e al r m h e n i f a u e e ta t , n h t d r g e so h c o R a e n c n e ts ma t s c d n d t i fo t e s
a ec n e t p rcae yp o l,h er hrs l fta iin l g o tn sa p e itdb e pe t es ac eut o r dto a s CBI ( n e tB sd I a eRere a)s se wih R C tn— e m g tiv 1 y tm t o a lwe- v lvs a et rs ( u h a oo ,e tr ,h p ) ae n ts t fco y I ee ty as CB R a e n c n e t o rl e iu l a u e s c sc lr tx u e s a e r o ai a tr . n r cn e r , I b sd o o cp e f s sm a tc ( u ha o s h p y r ma t ,t. ata t h te to fr sa c es I hsp p r b s d o r fu d e nis s c sb y , a p , o n i ec ) trcst ea tn in o ee rh r. n ti a e , a e n p o o n c
语义波理论及其分析框架综述
语义波理论及其分析框架综述谢莎(湖南大学外国语学院,湖南长沙410082)摘要:经过六十多年的发展,话语分析出现了合理化语码理论下的语义波理论新视角,语义引力和语义密度的强弱起伏变化被用来诠释课堂话语中的知识累积建构。
目前语义波的分析框架主要包含主位结构和信息结构,语义波的概念性、时间性和空间性的划分,和权力三项。
其作用在于将语义波看成一个动态的实体,增强了课堂话语的解释力,但存在的问题是单个语义波没有形成统一的刻度划分标准,使得分析结果不够具体化,清晰化。
关键词:语义波;语义引力;语义密度;知识累积建构;权力三项;主位结构;多模态话语分析中图分类号:H0文献标识码:A文章编号:1009-5039(2019)10-0116-03出现于20世纪50年代,经过六十多年的发展,话语分析从起步至兴盛取得了丰硕成果,流派分支包括英美学派,福柯学派,和批评话语学派等。
在此基础上,近几年新兴的理论框架相继涌现,多模态话语分析(朱永生,2007,2008,2009;辛志英,2008;王立非,2008;张德禄,2009,2011,2013;李战子,2012),生态话语分析(何伟,张瑞杰,2017;辛志英,黄国文,2013;赵蕊华,2016),以及语义波理论来源——系统功能语言学家Karl Maton(2003,2007,2013)提出的合理化语码理论(Legitimation Code Theory,简称为LCT)。
系统功能语言学M.A.K.Halliday,R.Hasan,J.Martin,C. Matthiessen,K.Maton等对于话语分析做出的巨大贡献,主要体现在与社会学展开的跨学科对话。
张宜敏(2017)将对话具体分为三个阶段,而合理化语码分析出现在第三个阶段,属于系统功能语言学与社会学、教育学的结合成果:其研究重点在评价、语式、语场、语法隐喻以及LCT。
Ma⁃ton吸收利用了Halliday的系统功能语言学理论和Bernstein的语码理论和知识结构理论,逐步创立和丰富了合理化语码理论。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
*国家自然科学基金资助项目(N o .60875012,60905005)收稿日期:2009-12-21;修回日期:2010-01-27作者简介 高隽,男,1963年生,教授,博士生导师,主要研究方向为图像理解、智能信息处理、光电信息处理等.E m a i:l gao j un @hfut .edu .cn .谢昭,男,1980年生,博士,讲师,主要研究方向为计算机视觉、智能信息处理、模式识别.张骏,女,1984年生,博士研究生,主要研究方向为图像理解、认知视觉、机器学习.吴克伟,男,1984年生,博士研究生,主要研究方向为图像理解、人工智能.图像语义分析与理解综述*高 隽 谢 昭 张 骏 吴克伟(合肥工业大学计算机与信息学院合肥 230009)摘 要 语义分析是图像理解中高层认知的重点和难点,存在图像文本之间的语义鸿沟和文本描述多义性两大关键问题.以图像本体的语义化为核心,在归纳图像语义特征及上下文表示的基础上,全面阐述生成法、判别法和句法描述法3种图像语义处理策略.总结语义词汇的客观基准和评价方法.最后指出图像语义理解的发展方向.关键词 图像理解,语义鸿沟,语义一致性,语义评价中图法分类号 T P 391.4I m age Se m antic Anal ysis and Understandi ng :A R eviewGAO Jun ,XI E Zhao ,Z HANG Jun ,WU Ke W ei(S chool of C o m puter and Infor m ation,H e fei University o f T echnology,H efei 230009)ABSTRACTSe m antic ana l y sis is the i m portance and diffi c u lty of high level i n terpretati o n i n i m age understandi n g ,i n wh ich there are t w o key issues of text i m age se m an tic gap and tex t descri p ti o n po lyse m y .Concentrating on se m antizati o n o f i m ages onto logy ,three soph i s tica ted m et h odolog ies are round l y rev ie w ed as generati v e ,d iscri m ina ti v e and descriptive gra mm ar on the basis of conc l u d i n g i m ages se m antic fea t u res and context expression .The ob jective benchm ark and eva l u ation for se m an tic vocabu lary are i n duced as w e l.l F i n ally ,the summ arized directions fo r furt h er researches on se m antics i n i m age understand i n g are discussed i n tensively .K ey W ords I m age Understanding ,Se m antic G ap ,Se m an tic Consistency ,Se m an tic Evalua ti o n1 引 言图像理解(I m age Understandi n g ,I U )就是对图像的语义解释.它是以图像为对象,知识为核心,研究图像中何位置有何目标(what is w here)、目标场景之间的相互关系、图像是何场景以及如何应用场景的一门科学.图像理解输入的是数据,输出的是知识,属于图像研究领域的高层内容[1-3].语义(Se第23卷 第2期 模式识别与人工智能 V o.l 23 N o .2 2010年4月 PR &A I A pr 2010m antics)作为知识信息的基本描述载体,能将完整的图像内容转换成可直观理解的类文本语言表达,在图像理解中起着至关重要的作用.图像理解中的语义分析在应用领域的潜力是巨大的.图像中丰富的语义知识可提供较精确的图像搜索引擎(Searching Eng i n e),生成智能的数字图像相册和虚拟世界中的视觉场景描述.同时,在图像理解本体的研究中,可有效形成 数据 知识的相互驱动体系,包含有意义的上下文(Context)信息和层状结构(H ierarchical S truct u red)信息,能更快速、更准确地识别和检测出场景中的特定目标(如,识别出场景中的 显示器,根据场景语义知识可自动识别附近的 键盘).尽管语义分析在图像理解中处于非常重要的位置,但传统的图像分析方法基本上全部回避了语义问题,仅针对纯粹的图像数据进行分析.究其原因主要集中于两方面:1)图像的视觉表达和语义之间很难建立合理关联,描述实体间产生巨大的语义鸿沟(Se m antic Gap);2)语义本身具有表达的多义性和不确定性(Am bigu ity).目前,越来越多的研究已开始关注上述 瓶颈,并致力于有效模型和方法以实现图像理解中的语义表达.解决图像理解中的语义鸿沟需要建立图像和文本之间的对应关系,解决的思路可大致分为三类.第一条思路侧重于图像本身的研究,通过构建和图像内容相一致的模型或方法,将语义隐式地(I m p licit l y)融入其中,建立 文本!图像的有向联系,核心在于如何将语义融于模型和方法中.采用此策略形成的研究成果多集中于生成(Generati v e)方式和判别(D iscri m inati v e)方式中.第二条思路从语义本身的句法(G ra mm ar)表达和结构关系入手,分析其组成及相互关系,通过建立与之类似的图像视觉元素结构表达,将语义描述和分析方法显式地(Exp licit l y)植入包含句法关系的视觉图中,建立 图像!文本的有向联系.核心在于如何构建符合语义规则的视觉关系图.第三条思路面向应用,以基于内容的图像检索(I m age Retrieval)为核心,增加语义词汇规模,构建多语义多用户多进程的图像检索查询系统.解决语义本身的多义性问题需要建立合理的描述规范和结构体系.Princeton大学的认知学者和语言学家早在20世纪80年代就研究构建了较合理统一的类树状结构.如今已被视为视觉图像研究领域公认的语义关系参考标准,用于大规模图像数据集的设计和标记中,有效归类统一了多义性词语.此外,一些客观的语义检索评价标准也在积极的探索过程中.本文将对上述两个图像语义理解中的问题进行方法提炼和总结.针对语义鸿沟问题,介绍已有模型和方法的处理策略.还采用较完备的图像语义 标尺(B ench m ark)解决语义的主观多义性.2 图像内容的语义分析图像内容描述具有 像素 区域 目标 场景的层次包含关系,而语义描述的本质就是采用合理的构词方式进行词汇编码(Encodi n g)和注解(Annota tion)的过程.这种过程与图像内容的各层描述密切相关,图像像素和区域信息源于中低层数据驱动,根据结构型数据的相似特性对像素(区域)进行 标记(Labeli n g),可为高层语义编码提供有效的低层实体对应关系.目标和场景的中层 分类(C ategori zati o n)特性也具有明显的编码特性,每一类别均可视为简单的语义描述,为多语义分析的拓展提供较好的原型描述.本节将针对前述的语义鸿沟问题介绍常用的图像语义表示方法和分析策略.2.1 语义化的图像特征图像内容的语义分析借鉴文本分析策略.首先需要构建与之相对应的对象,整幅图像(I m age)对应整篇文档(Docum ent),而文档中的词汇(Lex icon)也需要对应相应的视觉词汇(V isua lW ord).视觉词汇的获取一般通过对图像信息的显著性分析提取图像的低层特征,低层特征大多从图像数据获取,包括简单的点线面特征和一些特殊的复杂特征,再由鲁棒的特征表达方式生成合适的视觉词汇,视觉词汇一般具有高重用性和若干不变特性.点特征提取以图像中周围灰度变化剧烈的特征点或图像边界上高曲率的点为检测对象,根据灰度或滤波函数确定区域极值点(如H arris角点[4]等),并拓展至不同掩膜下的尺度空间中(如高斯 拉普拉斯、高斯差分等),分析极值点的稳定特性,得到仿射不变的H arris二阶矩描述符[5].线特征描述图像中目标区域的外表形状和轮廓特性,这类轮廓线特征以C anny算子等经典边缘检测算法为基础,集中解决边缘曲线的描述、编组以及组合表达等问题.边缘上的双切线点和高曲率点可连接形成有效的边缘链或圆弧,根据聚类策略或某些规则完成线片段编组,形成线特征的视觉词汇[6-8].区域是图像上具有灰度强相关性的像素集合,包含某种相似属性(如灰度值、纹理等),相对于点线特征,面特征有更丰富的结构信息.区域特征以点特征为中心,采用拉普192模式识别与人工智能 23卷拉斯尺度下的H arris或H essian仿射区域描述,对特征尺度上的椭圆仿射区域内的初始点集进行参数迭代估计,根据二阶矩矩阵的特征值测量点邻的仿射形状[4,9].另一种策略分析视觉显著区域对象(如直方图、二值分割图等)的熵值统计特性,得到最佳尺度下的最稳定区域,满足视觉词汇的高重用性[10-11].鲁棒特征表达对提取的特征进行量化表示.点特征一般仅具有图像坐标.线特征则充分考虑邻域边缘点的上下文形状特性,以边缘上采样点为圆心,在极坐标下计算落入等距等角间隔区域的边缘像素直方图.椭圆形面特征描述主要以尺度不变特征变换(Sca le I nvariant Fea t u re Transfor m,SI FT)[12-13]为主,SI FT特征对每个高斯窗口区域估计方向直方图,选择峰值作为参考方向基准,计算4∀4网格区域内8个方向的梯度直方图,任何区域均可转换为4∀4∀8 =128维特征向量.该特征对图像尺度、旋转具有不变性,对亮度和视角改变也保持一定稳定性.通过对特征向量的聚类,得到最原始的特征词汇,形成的语义化图像特征也称为 码书(Codebook)[14].2.2 图像语义的上下文表达图像的语义信息描述主要包含外观位置信息和上下文信息,前者如2.1节所述,可表示成 码书.上下文信息不是从感兴趣的目标外观中直接产生,而来源于图像邻域及其标签注解,与其他目标的外观位置信息密切相关.当场景中目标外观的可视程度较低时,上下文信息就显得尤为重要.B ieder m an将场景中不相关目标关系分为5种,即支撑(Support)、插入(I nterpositi o n)、概率(Proba b ility)、位置(Positi o n)和大小(Size)[15-16].五类关系均包含 知识,不需要知道目标信息就可确定支撑和插入关系,而后三类关系对应于场景中目标之间的语义交互关系,可缩短语义分析时间并消除目标歧义,通常称为 上下文特征(C ontex t Features),譬如一些相对复杂的特征描述(如全局G ist特征[17-18]、语义掩码特征等)融入场景上下文信息,本身就包含语义(关联)信息,是语义分析的基础.如今有很多研究开始挖掘B ieder m an提出的三类语义关系,可分为语义上下文、空间上下文和尺度上下文[19].语义上下文表示目标出现在一些场景中,而没有出现在其他场景中的似然性,表示为与其他目标的共生(Co O ccurrence)关系,可采用语义编码方式[20-21],也可由共生矩阵判断两类目标是否相关[22-23],此类上下文对应B ieder m an关系中的 概率关系.空间上下文表示目标相对于场景中其他目标出现在某个位置上的似然性,对应于 位置关系.空间上下文隐式地对场景中目标的 共生进行编码,为场景结构提供更加具体的信息,只需确定很少的目标,就可通过合理的目标空间关系降低目标识别的误差,消除图像中的语义歧义[24-25].尺度上下文表示目标在场景中可能的相对尺度范围,对应于 大小关系.尺度上下文需处理目标之间的特定空间和深度关系,可缩小多尺度搜索空间,仅关注目标可能出现的尺度.尺度上下文在二维图像中较为复杂,目前仅用于简单的视觉分析系统中[26-27].目前大多数上下文方法主要分析图像中的语义上下文和空间上下文.语义上下文可从其他两种上下文中推理获取,与场景中的目标共生相比.尺度和空间上下文的变化范围较大,而共生关系的知识更易获取,处理计算速度更快.融入上下文特征的图像语义形成了全局和局部两种分析策略,即基于场景的上下文分析和基于目标的上下文分析.前者从场景出发[15,27],将图像统计量看作整体,分析目标和场景之间的高频统计特性,获取全局上下文信息,如马路预示着汽车的出现.后者从目标出发[25,28],分析目标间的高频统计特性,获取局部上下文信息,如电脑预示着键盘的出现.总之,上下文特征包含了更丰富的知识,有助于为图像理解提供更准确的语义信息.2.3 语义分析的生成方法生成方法基于模型驱动,以概率统计模型和随机场理论为核心,遵循经典的贝叶斯理论,定义模型集合M,观察数据集合D,通过贝叶斯公式,其模型后验概率p(M|D)可以转换为先验概率p(M)和似然概率p(D|M)的乘积.生成方法一般假设模型遵循固定的概率先验分布(如高斯分布等),其核心从已训练的模型中 生成观察数据,测试过程通过最大似然概率(M ax i m ize L i k e lihood)得到最符合观察数据分布的模型预测似然(Pred icti v e Like li h ood).图像语义分析的生成方法直接借用文本语义分析的图模型结构(G raph ica lM ode ls),每个节点定义某种概念,节点之间的边表示概念间的条件依赖关系,在隐空间(Latent Space)或随机场(Rando m Field)中建立文本词组和视觉描述之间的关联,生成方法无监督性明显,具有较强的语义延展性.2.3.1 层状贝叶斯模型图模型的节点之间由有(无)向边连接,建立视觉词汇和语义词语之间的对应关系.朴素贝叶斯理论形成的经典Bags of W ords模型是层状贝叶斯模1932期 高 隽 等:图像语义分析与理解综述型的雏形,该模型将同属某类语义的视觉词汇视为 包 ,其图结构模型和对应的视觉关系描述如图1(a)所示,其中灰色节点为观察变量,白色节点为隐变量,N 为视觉词汇的个数,通过训练建立类别语义描述c 和特征词汇w 之间的概率关系,选取最大后验概率p (c |w )对应的类别作为最终识别结果.(a)朴素贝叶斯(b)概率隐语义分析(c)隐狄利克雷分配(a)N a ve bay es(b)P robab ili stic latent se m antic ana l y si s (c)L atent D irich let a llocati on图1 有向图语义描述F i g .1 Se m antic i nterpre tati on of directed g raphs朴素贝叶斯模型试图直接建立图像和语义之间的联系,但由于视觉目标和场景的多样性导致这种稀疏的离散分布很难捕捉有效的概率分布规律,因此H o f m ann 借鉴文本分析中的概率隐语义分析(Probab ilistic Latent Se m antic Ana l y sis ,pLSA )模型[29-30],将 语义 描述放入隐空间Z 中,生成相应的 话题 (Top ic)节点,其基本描述如图1(b )所示.D 为M 个图像d 组成的集合,z 表示目标的概念类别(称为 Top ics ),每幅图像由K 个Topics 向量凸组合而成,通过最大似然估计进行参数迭代,似然函数为p (w |d )的指数形式,与语义词汇和图像的频率相关.模型由期望最大化(E xpec ta tion M ax i m ization,E M )算法交替执行E 过程(计算隐变量后验概率期望)和M 过程(参数迭代最大化似然).决策过程的隐变量语义归属满足z*=arg m ax z P (z |d ),pLSA 模型通过隐变量建立特征与图像间的对应关系,每个文本单元由若干个语义概念按比例组合,本质上隐空间内的语义分布仍然是稀疏的离散分布,很难满足统计的充分条件.隐狄利克雷分配(LatentD ir ich let A llocation ,LDA )模型[31-32]在此基础上引入参数 ,建立隐变量z 的概率分布.在图像语义分析中,变量z 反映词汇集合在隐空间的聚类信息,即隐语义概念,参数 (通常标记为 )则描述隐语义概念在图像空间中的分布,超参 (通常标记为c)一般视为图像集合D 中已知的场景语义描述.如图1(c )所示,由参数估计和变分(V aria tiona l)推理,选取c =arg m ax c P (w |c , ,!)作为最终结果.LDA 中不同图像场景以不同的比例 重用并组合隐话题空间全局聚类(G l o ba lC l u ster),形成 场景 目标 部分 的语义表达关系.LDA 中的隐话题聚类满足De Finetti 可交换原理,其后验分布不受参数次序影响,不同隐话题聚类相互独立,无明显的结构特性.一种显而易见的策略就是在此模型基础上融入几何或空间关系,即同时采用话题对应的语义化特征的外观描述和位置信息,这样不同话题的分布大体被限定于图像场景的某个区域,如天空总是出现在场景的上方等,减小模型决策干扰.如L i 等人[14,33]在LDA 模型中融入词汇的外观和位置信息,并将语义词汇描述c 划分为视觉描述词汇(如sky )和非视觉描述词汇(如w i n d)两类,由词汇类别转换标签自动筛选合适的词汇描述.模型采用取样(Sa mp li n g)策略对从超参先验中生成的视觉词汇和语义标签进行后验概率学习,模型中包含位置信息的语义特征显式地体现了空间约束关系,具有更好的分析效果.(a)无结构(b)全互连结构(c)星状结构(a)U nstructured(b)Fu ll structure (c)Sta r struct u re图2 Part based 模型表示图F i g.2 R epresen tati on for Part based m ode lsLDA 模型已明确地将隐空间的 话题 语义进行合理聚类,建立与视觉词汇聚类的对应关系.隐话题聚类隐式地对应场景或目标的某些部分(parts),是一种较原始的part based 模型.真正的part based 模型侧重 目标 部分 之间的语义关联表达,不仅具有较强的结构特性,而且直接概念化隐空间的语义聚类,每个part 直接显式对应语义描述(如人脸可分为眼睛、鼻子、嘴等不同部分).如图2所示,一般通过人工设定或交叉验证的方式固定重要参数(如隐聚类个数、part 个数等)并混合其概率密度,其中固定参数的D ir i c h let 生成过程是一种有限混合. 星群 (Conste llati o n)模型[34-35]是其中的典型,根据不194模式识别与人工智能 23卷同区域的外观位置信息描述,确定P 个部分的归属及其概率分布,将目标和背景似然比分解为外观项、形状项、尺度项以及杂项的乘积,依次计算概率密度值(一般是高斯分布或均匀分布),并E M 迭代更新参数,最后通过似然比值判断目标的语义属性.部分间的约束关系体现于形状项中,可以假设为全互连结构(Fu ll Str ucture)或星状结构(S tar S tructure),其结构信息体现于高斯分布的协方差矩阵中(满秩或稀疏矩阵),有助于提高语义分析的准确性.固定参数的D irichlet 生成过程是无限混合模型的一种特例,可通过合适的随机过程,很好表达无限混合(I nfi n ite M i x t u re)模型,自动确定混合个数.这种 非参 (Non Para m etric)模型可捕捉到概率空间的隐性分布,不受特定的概率密度函数形式表达限制.整个D irich let 过程可拓展至层次结构(H ierar ch ical D irichlet Process ,HDP).H DP 具有明显的结构特性,可以很容易对应于图像中的 场景 目标 部分 层次结构,其混合组成很显式地表达了不同目标实体间的语义包含关系.Sudderth 在HDP 的基础上,引入转换函数(Transfor m ed Function),生成转换D irichlet 过程(T ransfor m ed D irichlet Process ,TDP),每组的局部聚类不再直接 复制 全局聚类参数,而是通过不同转换函数生成变化多样的局部变参,更符合目标多变特性[36-37].层状贝叶斯模型是当前处理图像语义问题的关注热点,其模型特有的参数化层次结构信息参照文本处理直接对应图像中的语义实体,通过图模型的参数估计和概率推理得到合适的语义描述.模型本身的发展也具有一定的递进关系,即 Bags of W ord 模型!pLSA 模型!LDA 模型!part based 模型!HDP 模型!TDP 模型 等,分析得到的结果具有层次语义包含关系.2.3.2 随机场模型随机场模型以均值场(M ean F ield)理论为基础,图中节点变量集合{x i |i #V }通常呈4 邻域网格状分布,节点之间的边{(x i ,x j )|i ,j #V;(x i ,x j )#E }体现隐性关联,由势函数∀ij (x i ,x j )表示,一般具有含参数 的近高斯指数分布形式,每个隐节点x i 一般对应一个观察变量节点y i ,由势函数∀i (x i ,y i )表示.如图3所示,观察节点可对应图像的像素点,也可对应图像中的某个区域或目标语义化特征描述(如2.1节所述),隐变量则对应语义 标记 或 标签 l .随机场模型具有丰富的结构场信息,节点间上下文关联很强,通常分析像素标记解决图像分割问题.近年来,其特定的约束关系(如桌子和椅子经常关联出现)也被用于图像区域化语义分析中,隐节点集的语义标签对应不同的语义化特征和势函数取值,最大化随机场的能量函数得到的标记赋值,就是最终的区域语义标记属性.随机场模型具有较成熟的计算框架,融合其上下文关联信息的层次贝叶斯 生成 模型是分析图像语义的主流趋势[14,33-35,38-40].图3 随机场模型及其图像语义描述F ig .3 R andom field m ode l and its se m antic descr i pti on2.4 语义分析的判别方法判别方法基于数据驱动,根据已知观察样本直接学习后验概率p (M |D ),主要通过对训练样本的(弱)监督学习,在样本空间产生合适的区分函数,采用形成的分类器或结构参数,完成对特定的特征空间中点的划分(或闭包),形成某些具有相似特性的点的集合.这些共性可直接显式对应图像理解中的若干语义信息,如目标和场景的属性、类别信息等,通常以主观形式体现于观察样本中,其本质就在于学习并获取区分不同语义信息的知识规则(如分类器等).由于语义信息主观设定(如判别几种指定类别),因此判别方法主要侧重观察样本(语义)的处理分析,而非观察样本(语义)的获取.判别方法是包含经典的机器学习方法,精确度较高且易于实现,常用于目标检测识别识别.其策略主要包括最近邻分析、集成学习和核方法.2.4.1 最近邻方法最近邻(k N earestN e ighbo r ,kNN )方法是基于样本间距离的一种分类方法.其基本思想是在任意空间中、某种距离测度下,寻找和观测点距离最接近的集合,赋予和集合元素相似的属性集合.在图像理解中,就是在图像特征空间寻找和近似的特征描述集,将已知的语义作为分析图像的最终结果.最近邻方法非常简单,但对样本要求较高,需要很多先验知1952期 高 隽 等:图像语义分析与理解综述识,随着大规模语义标记图像库的出现(如后 3.2节所述),最近邻方法有了广阔的应用前景,Torra l b a 等人[41]建立80万幅低分辨率彩色图像集合和相应的语义标记,图像集涵盖所有的视觉目标类别,以W ord N et语义结构树(如后3.1节所述)的最短距离为度量,采用最近邻方法分别对其枝干进行投票,选取最多票数对应最终的语义标签输出.也可直接在图像空间中计算像素点的欧式距离,得到与分析图像相类似的语义空间布局(Con fi g uration).Russe ll 等人[42]利用最近邻方法找出与输入图像相似的检索集,通过含有标记信息的检索图像知识转化到输入图像中,完成场景到目标的对齐任务.语义聚类法还被用于视频数据库中[43],具有较好的结果.2.4.2 集成学习集成学习将各种方法获得的模型在累加模型下形成一个对自然模型的近似[44-45],将单一学习器解决问题的思想转换为用多个学习器来共同解决问题.Boosti n g是集成学习方法的典型.其基本思想是每次迭代t生成一个带权重t的弱分类器(W eaker C lassifier)h t,加大误分样本的权重,保证后续学习对此类样本的持续关注,权重t表示该弱分类器h t 的重要性,分类效果好的权重大,效果差的权重小.其集成学习的结果就是弱分类器的加权组合∃T t=1∃x i#Dt h t(x i)构成一个分类能力很强的强分类器(Strong C lassifi er),完成简单的二值或复杂的多值分类[46-47].集成学习方法经常用于图像理解的语义分类中,其样本数据集既可以是区域块也可以是滤波后的基元乃至包括上下文和空间布局信息.其分类结果具有很明显的语义区分度.多语义分类中经常出现多类共享的情况,因此,联合Boosti n g的提出极大地减少了分类器的最佳参数搜索时间,使单一弱学习器具有多类判别能力[48-51].同时,近年来多标签多实例(M ulti Instance M u lti Labe l Learn i n g,M I M L)的集成学习策略[52]也倍受学者关注,图像理解中的语义划分问题可通过M I M L转化为单纯数据下的机器学习问题,其输出的分类结果就是对既定语义的编码结果.2.4.3 核方法核方法(Kernel)是在数据集中寻找合适的共性 基,由 基的混合组成共性空间,与图像理解中的低层基元表示异曲同工.使用核方法可将低维输入空间R n样本特征映射到高维空间中H,即#%R n !H,将非线性问题转换为线性问题.其关键是找到合适的核函数K保持样本在不同空间下的区分关系,即K(x i,x j)=#(x i)&#(x j).它能够在学习框架和特定知识之间建立一种自然的分离来完成图像有意义的表达[53-54].支持向量机(S VM)是常用的核方法之一.它以训练误差作为优化问题的约束条件,以置信范围值最小化作为优化目标,在核函数特征空间中有效训练线性学习分类器,通过确定最优超平面(H yper Plane)及判别函数完成高维空间点的分类.SVM方法在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势,在图像理解中,能有效解决不同环境、姿态以及视角下的广义目标识别分类问题,是目前最为通用的分类模型[55-58].针对多语义分类问题,Farhad i等人[59]将目标的语义属性细分为部分、形状及材质等,相同或相似的语义对应的样本集表明了某种特有的共性关系,采用L1测度对数回归和线性SVM方法学习不同语义类别的判别属性,其多语义属性的不同划分决定了指定目标的唯一描述,具有很强的语义可拓展性.判别模型是通过模型推理学习得出的后验概率,对应不同类别目标的后验概率或对应图像前景和背景的不同后验概率来划定判决边界,进而完成目标识别,指导图像理解.判别模型在特征选取方面灵活度很高,可较快得出判别边界.2.5 图像句法描述与分析人对图像场景理解的本质就是对图像本身内在句法(G ra mm ar)的分析.句法源于对语句结构研究,通过一系列的产生式规则将语句划分为相互关联的若干词汇(组)组合,体现句法内词汇之间的约束关系.图像句法分析直接研究图像语义,随着20世纪70年代句法模式识别的提出,Otha就试图构建统一的基于视觉描述的知识库系统,利用人工智能相关策略进行场景语义推理.但由于视觉模型千变万化,方法针对性很强,句法分析方法曾一度没落.当前图像语义分析的一部分研究重心又重新转向图像句法.由于句法分析本身已较为成熟,因此如何建立和句法描述相对应的图像视觉描述非常关键.2.5.1 图像与或图表达图像I内的实体具有一定的层次结构,可用与或图(And O r G raph)的树状结构表示,即解析树pg.如图4所示,同属一个语义概念的实体尽管在外观上具有很大差异,但与或图表达相似,与节点表示实体的分解(D ecom position),如 场景!目标, 目标!部分等,遵循A!BCD∋的句法规则,或节点表示可供选择的结构组成,遵循A!B|C|D∋196模式识别与人工智能 23卷。