VisualSaliency
高一牛津英语 Module3 Unit1 The world of our senses
1.What is the story about?
A young lady in the fog.
2.Where did Polly live?
At 86 King Street. 3.Who helped Polly? A blind man.
Word study
1. forecast (line 3)
There are different types of stories. Stories have basic elements as follows: What happened; a plot When it happened ; a certain time period Where it happened; a place Why it happened; a problem or an issue to be solved Who was involved in the event; main character A story with a climax or a surprise ending is usually more eye-catching.
What would happen if you lost one or two of your senses? • A person who cannot see is_______ blind and someone who cannot hear is ________. deaf
Do you know how blind people can read?
What do you see in the picture?
江苏教育学院附属高级中学
江苏教育学院附属高级中学 陈志耘 Move or
基于Kinect的3D人脸识别(1)
基于kinect的3D人脸识别技术摘要在2D人脸识别技术不断发展的今天,深度学习的出现让2D人脸识别技术的准确率已经达到了97.54%,2D技术的发展空间越来越小。
而随着3D技术也越来越成熟,将3D技术融合到人脸识别技术中是一种新的发展方向。
而现阶段,kinect这种体积轻巧,价格便宜,捕获3D数据效率高而且分辨率不低的设备成了许多研究人员的研究对象。
在本文中我们也利用了kinect设备完成了一个基于kinect的3D人脸识别研究的过程。
首先通过kinect设备采集了一批数据,接着实现了一种基于熵图和显著性图,利用HOG特征算子,和随机森林分类器和SVM分类器进行识别的算法系统。
通过我们的实验,利用随机森林分类器实现的分类器准确率只有73%,而利用SVM分类器达到的准确率有83.19%。
但是因为采集数据的范围小,以及算法的不完善性,我们的系统还有很大的提升空间。
关键词:kinect,RGB-D,显著性,熵图,随机森林,SVM,人脸识别AbstractWith the fast development of the face recognition based 2D data, the deep learning technology makes the accuracy of the face recognition based 2D data have reached in 97.54% and the development of the 2D technology in face recognition has reached the bottleneck. However, with the 3D technology becoming more and more mature, it is a new development direction to fuse the 3D technology into face recognitiontechnology. In the meanwhile, the Kinect which is portable, inexpensive and has high capturing rate and moderate definition becomes the research object of many researchers.In our paper, we used the Kinect equipment to finish a project which is about face recognition based 3D data. First of all, we collected enough RGB-D data using Kinect. Then we implemented the algorithm system which is based the entropy map and the visual saliency map, gets the feature vector using the HOG descriptor and using random decision forest and support vector machine to classify the data.The result of our experiment is not very well. The accuracy of the recognition with random decision forest classifier reaches only 73%. However, the accuracy of the recognition with support vector machine reaches 83.19%. Because of the small scale in the database and the imperfect algorithm, our system can still make great progress.Key words:Kinect, RGB-D, salience, entropy, RDF, SVM, face recognition1,绪论1.1研究背景随着人们对人工智能,机器学习算法的研究的不断深入,其分支领域中的计算机视觉中的人脸识别技术也得到了充分的发展和巨大的进步。
基于视觉特征的跨域图像检索算法的研究
摘要摘要随着成像传感器性能的不断发展和类型的不断丰富,同一事物来自不同成像载体、不同成像光谱、不同成像条件的跨域图像也日益增多。
为了高效地利用这些数字资源,人们往往需要综合多种不同的成像传感器以获得更加全面丰富的信息。
跨域图像检索就是研究如何在不同视觉域图像进行检索,相关课题已经成为当今计算机视觉领域的研究热点之一,并在很多领域都有广泛的应用,例如:异质图像配准与融合、视觉定位与导航、场景分类等。
因此,深入研究跨域图像之间的检索问题具有重要的理论意义和应用价值。
本文详细介绍了跨域图像检索的研究现状,深入分析了不同视觉域图像之间的内在联系,重点研究了跨域视觉显著性检测、跨域特征的提取与描述、跨域图像相似度度量这三个关键问题,并实现了基于显著性检测的跨域视觉检索方法、基于视觉词汇翻译器的跨域图像检索方法和基于共生特征的跨域图像检索方法。
论文的主要研究工作如下:(1)分析了跨域图像的视觉显著性,提出了一种基于显著性检测的跨域视觉检索方法。
该方法首先利用图像超像素区域的边界连接值,赋予各个区域不同的显著性值,获得主体目标区域;然后通过线性分类器进一步优化跨域特征,并对数据库图像进行多尺度处理;最后计算图像间的相似度,返回相似度得分最高的图像作为检索结果。
该方法有效地降低了背景等无关区域的干扰,提高了检索准确率。
(2)针对跨域图像特征差异较大无法直接进行匹配的问题,提出了一种基于视觉词汇翻译器的跨域图像检索方法。
该方法受语言翻译机制的启发,利用视觉词汇翻译器,建立了不同视觉域之间的联系。
该翻译器主要包含两部分:一是视觉词汇树,它可以看作是每个视觉域的字典;二是从属词汇树叶节点的索引文件,其中保存了不同视觉域间的翻译关系。
通过视觉词汇翻译器,跨域检索问题被转化为同域检索问题,从新的角度实现了跨视觉域间的图像检索。
实验验证了算法的性能。
(3)利用不同视觉域间的跨域共生相关性,提出了一种基于视觉共生特征的跨域图像检索方法。
visualization (可视疗法)
Roles in healing of visualization:
•e Visualization For Stress Relief: This technique is great for people who feel a significant amount of general stress and would like to quickly feel more relaxed. It can work just about anywhere and takes only a few minutes.
Roles in healing of visualization:
•7.Shielding
•8.Wellness and Wholeness: ΩVisualization can be a powerful tool for improvement as well as for maintaining a happy life style. Beautiful pictures can reinforce the perfect life you are living or hope to begin living. Ω Whatever represents your ideal of "love" or "perfection" or "tranquility" those are the pictures you want to focus on.
Visualization
Group D
Imagination is more important than knowledge. Knowledge is limited while imagination embraces the entire world----Albert Einstein.
地理信息可视化新观点
/10.1145/2556288.2557228
Figure 1: Thematic map by the New York Times describing geographical differences in the likelihood of moving up an income bracket [19].
ABSTRACT
Brent Hecht Computer Science & Engineering University of Minnesota bhecht@
Nicholas Diakopoulos School of Journalism Columbia University nad2141@
Interactive visualizations add rich, data-based context to online news articles. Geographic maps are currently the most prevalent form of these visualizations. Unfortunately, designers capable of producing high-quality, customized geovisualizations are scarce. We present NewsViews, a novel automated news visualization system that generates interactive, annotated maps without requiring professional designers. NewsViews’ maps support trend identification and data comparisons relevant to a given news article. The NewsViews system leverages text mining to identify key concepts and locations discussed in articles (as well as potential annotations), an extensive repository of “found” databases, and techniques adapted from cartography to identify and create visually “interesting” thematic maps. In this work, we develop and evaluate key criteria in automatic, annotated, map generation and experimentally validate the key features for successful representations (e.g., relevance to context, variable selection, “interestingness” of representation and annotation quality).
基于多级全局信息传递模型的视觉显著性检测
2021⁃01⁃10计算机应用,Journal of Computer Applications 2021,41(1):208-214ISSN 1001⁃9081CODEN JYIIDU http ://基于多级全局信息传递模型的视觉显著性检测温静*,宋建伟(山西大学计算机与信息技术学院,太原030006)(∗通信作者电子邮箱wjing@ )摘要:对神经网络中的卷积特征采用分层处理的思想能明显提升显著目标检测的性能。
然而,在集成分层特征时,如何获得丰富的全局信息以及有效融合较高层特征空间的全局信息和底层细节信息仍是一个没有解决的问题。
为此,提出了一种基于多级全局信息传递模型的显著性检测算法。
为了提取丰富的多尺度全局信息,在较高层级引入了多尺度全局特征聚合模块(MGFAM ),并且将多层级提取出的全局信息进行特征融合操作;此外,为了同时获得高层特征空间的全局信息和丰富的底层细节信息,将提取到的有判别力的高级全局语义信息以特征传递的方式和较低层次特征进行融合。
这些操作可以最大限度提取到高级全局语义信息,同时避免了这些信息在逐步传递到较低层时产生的损失。
在ECSSD 、PASCAL -S 、SOD 、HKU -IS 等4个数据集上进行实验,实验结果表明,所提算法相较于较先进的NLDF 模型,其F -measure (F )值分别提高了0.028、0.05、0.035和0.013,平均绝对误差(MAE )分别降低了0.023、0.03、0.023和0.007。
同时,所提算法在准确率、召回率、F -measure 值及MAE 等指标上也优于几种经典的图像显著性检测方法。
关键词:显著性检测;全局信息;神经网络;信息传递;多尺度池化中图分类号:TP391.413文献标志码:AVisual saliency detection based on multi -level global information propagation modelWEN Jing *,SONG Jianwei(School of Computer and Information Technology ,Shanxi University ,Taiyuan Shanxi 030600,China )Abstract:The idea of hierarchical processing of convolution features in neural networks has a significant effect onsaliency object detection.However ,when integrating hierarchical features ,it is still an open problem how to obtain rich global information ,as well as effectively integrate the global information and of the higher -level feature space and low -leveldetail information.Therefore ,a saliency detection algorithm based on a multi -level global information propagation model was proposed.In order to extract rich multi -scale global information ,a Multi -scale Global Feature Aggregation Module(MGFAM )was introduced to the higher -level ,and feature fusion operation was performed to the global information extracted from multiple levels.In addition ,in order to obtain the global information of the high -level feature space and the rich low -level detail information at the same time ,the extracted discriminative high -level global semantic information was fused with the lower -level features by means of feature propagation.These operations were able to extract the high -level global semantic information to the greatest extent ,and avoid the loss of this information when it was gradually propagated to the lower -level.Experimental results on four datasets including ECSSD ,PASCAL -S ,SOD ,HKU -IS show that compared with the advanced NLDF (Non -Local Deep Features for salient object detection )model ,the proposed algorithm has the F -measure (F )valueincreased by 0.028、0.05、0.035and 0.013respectively ,the Mean Absolute Error (MAE )decreased by 0.023、0.03、0.023and 0.007respectively ,and the proposed algorithm was superior to several classical image saliency detection methods in terms of precision ,recall ,F -measure and MAE.Key words:saliency detection;global information;neural network;information propagation;multi -scale pooling引言视觉显著性源于认知学中的视觉注意模型,旨在模拟人类视觉系统自动检测出图片中最与众不同和吸引人眼球的目标区域。
于慧敏,浙江大学,教授,博士生导师。主要研究方向为图像视频处理与
于慧敏,浙江大学,教授,博士生导师。
主要研究方向为图像/视频处理与分析。
2003年获科学技术三等奖一项,授权发明专利近20项,多篇论文发表在模式识别和计算机视觉领域顶尖学报和会议上。
近年来,在 (3D/2D)视频/图象处理与分析、视频监控、3D视频获取和医学图像处理等方面,主持了多项国家自然科学基金、973子课题、国家国防计划项目、国家863课题、浙江省重大/重点项目的研究和开发。
一、近年主持的科研项目(1)国家自然基金,61471321、目标协同分割与识别技术的研究、2015-2018。
(2) 973子课题,2012CB316406-1、面向公共安全的跨媒体呈现与验证和示范平、2012-2016。
(3)国家自然基金,60872069、基于3D 视频的运动分割与3D 运动估计、2009-2011。
(4) 863项目,2007AA01Z331、基于异构结构的3D实时获取技术与系统、2007-2009。
(5)浙江省科技计划项目,2013C310035 、多国纸币序列号和特殊污染字符识别技、2013-2015。
(6)浙江省科技计划重点项目, 2006C21035 、集成化多模医学影像信息计算和处理平台的研发、2006-2008。
(7)航天基金,***三维动目标的获取与重建、2008-2010。
(8)中国电信,3D视频监控系统、2010。
(9)中兴通讯,跨摄像机的目标匹配与跟踪技术研究、2014.05-2015.05。
(10)浙江大力科技,激光雷达导航与图像读表系统、2015-。
(11)横向,纸币序列号的实时识别技术、2011-2012。
(12)横向,清分机视频处理技术、2010-2012。
(参与)(13)横向,基于多摄像机的目标跟踪、事件检测与行为分析、2010。
(14)横向,红外视频雷达、2010-2012。
(15)横向,客运车辆行车安全视频分析系统、2010-2011。
二、近五年发表的论文期刊论文:1)Fei Chen, Huimin Yu#, and Roland Hu. Shape Sparse Representation for JointObject Classification and Segmentation [J]. IEEE Transactions on Image Processing 22(3): 992-1004 ,2013.2)Xie Y, Yu H#, Gong X, et al. Learning Visual-Spatial Saliency for Multiple-ShotPerson Re-Identification[J].Signal Processing Letters IEEE, 2015, 22:1854-1858.3)Yang, Bai, Huimin Yu#, and Roland Hu. Unsupervised regions basedsegmentation using object discovery, Journal of Visual Communication and Image Representation, 2015,31: 125-137.4)Fei Chen, Roland Hu, Huimin Yu#, Shiyan Wang: Reduced set density estimatorfor object segmentation based on shape probabilistic representation. J. Visual Communication and Image Representation,2012, 23(7): 1085-1094.5)Fei Chen, Huimin Yu#, Jincao Yao , Roland Hu ,Robust sparse kernel densityestimation by inducing randomness[J],Pattern Analysis and Applications: Volume 18, Issue 2 (2015), Page 367-375.6)赵璐,于慧敏#,基于先验形状信息和水平集方法的车辆检测,浙江大学学报(工学版),pp.124-129,2010.1。
结合目标色彩特征的基于注意力的图像分割
结合目标色彩特征的基于注意力的图像分割张建兴;李军;石庆龙【摘要】An attention-based approach for image segmentation is proposed. It integrates the bottom-up and top-down attention mechanism, to form a scene-target selection method for the target objects in an image. In the multi-scale space of image, this algorithm simultaneously extractsthe intensity, color and orientation features of the scene image and the color feature of the target object to generate the scene-target saliency map. Then, it processes the saliency map by combination the multi-scale scene-target images with normalization of the image features. Finally, the target object is obtained by double-interpolation and black-white segmentation of the scene image. By applying the algorithm to the images in natural scene and indoor environment, experiment is conducted. The experimental results indicate that the algorithm can successfully segment the scene image and extract the target object in any condition, and exhibit good robustness even for the scene image with noisy objects.%提出一种基于注意力的图像分割算法,在视觉场景选择机制基础上结合目标色彩特征的任务驱动机制,形成了自下而上和自上而下的注意力集成分割机理。
itti-A Model of Saliency-Based Visual Attention
3.2 显著性图
,
,
特征图被结合成3个醒目度图,I表示灰度,C表示颜色,O表示方 向,位于显著性图的中间尺度-尺度4(sigma=4)。 通过跨尺度相加得到,将每个图压缩到尺度4,然后进行点对点 相加。 创建3个独立通道和进行独立的归一化的动机基于这样的假设: 相似的特征为了获得显著性而强烈竞争,而不同模态独立地对显 著性图做贡献。 3个醒目性图进行归一化后,求和,作为显著性图的最终输入S。
2 背景知识-其他
高斯金字塔 Gabor金字塔 WTA网络 弹出效应(pop-out) BU(Bottom-Up)和TD(Top-Down)
Fig. 3. Feature maps produced by the proposed model using a benchmark image. Saliency with respect to each feature is represented by brightness of grey shade. (a) Input. (b) Color contrast. (c) Eccentricity. (d) Orientation. (e) Symmetry. (f) Size. (g) Master map.
1.FOA转移到获胜的神经元位置; 2.激发了WTA的全局禁止机制,对所有WTA神经元禁止或重 置; 3.对SM中FOA新位置和一定大小的区域的局部禁止被暂时激 活,一方面可以使得下一个显著性变为胜者使得FOA转移,另 一方面也可以阻止FOA转移到前一个注意位置。
3.2 显著性图
为了保证向后续的与当前注意位置邻近的空间 显著性位置的跳跃模型有一定偏好,在FOA附 近的区域,一个小的刺激在SM中瞬时激活。 由于没有使用任何TD注意成分,FOA只是一个 圆区,其半径固定为输入图像宽度或高度中较 小者的1/6。 时间常数,电导和模拟神经元的激发阈值依据 神经物理学的结果进行选择:从一个显著位置 到另一个的FOA跳转大约为30-70ms,对已被 注意的位置的禁止时间大约为500-900ms。
与活力绘斑斓有关的英语作文
Vibrancy is a term that encapsulates the essence of life and the spectrum of colors that make up the world around us.Its not just about the physical presence of colors,but also the emotional and psychological impact they have on our daily lives.Heres an essay that delves into the concept of vibrancy and its multifaceted implications.The Essence of Vibrancy:A Celebration of Lifes ColorsVibrancy is a word that resonates with the very core of existence.It is the palpable energy that emanates from the world around us,a testament to the diverse and dynamic nature of life.The concept of vibrancy is not confined to the visual realm it extends to the auditory,olfactory,and tactile experiences that enrich our lives.Visual Vibrancy:A Palette of LifeThe visual aspect of vibrancy is perhaps the most immediate and striking.From the brilliant hues of a sunset to the verdant greens of a forest,colors are the visual language of the world.They communicate emotions,set the mood,and evoke memories.A vibrant painting or a colorful garden can uplift the spirit,while a monochromatic landscape can evoke a sense of tranquility.Emotional Vibrancy:The Spectrum of FeelingsBeyond the visual,vibrancy also refers to the emotional richness of life.It is the laughter of children,the passion of a performer,and the warmth of a loving embrace.Emotional vibrancy is the ebb and flow of human experience,the highs and lows that make life a rollercoaster of feelings.It is the ability to feel deeply and to express those feelings with authenticity and vigor.Cultural Vibrancy:The Melting Pot of TraditionsCultural vibrancy is the tapestry of traditions,languages,and customs that make up the human experience.It is the music of different lands,the flavors of diverse cuisines,and the stories of various histories.This vibrancy is what makes our world a rich and exciting place to live in,where every corner has a unique tale to tell and a distinct flavor to savor. Psychological Vibrancy:The Resilience of the Human SpiritPsychological vibrancy is the inner strength and resilience that allows individuals to facelifes challenges with courage and optimism.It is the ability to bounce back from adversity,to find joy in the simplest of pleasures,and to maintain a positive outlook even in the face of hardship.This form of vibrancy is the lifeblood of the human spirit,the force that drives us to grow and to overcome.Environmental Vibrancy:The Pulse of NatureThe environment,too,has its own vibrancy.It is the buzz of a beehive,the rustle of leaves in the wind,and the tranquil murmur of a flowing stream.Environmental vibrancy is the heartbeat of the natural world,a reminder of the delicate balance that sustains life on our planet.It is the symphony of nature that plays out in every ecosystem,a testament to the interconnectedness of all living things.Conclusion:Embracing the Vibrancy of LifeIn conclusion,vibrancy is a multifaceted concept that encompasses the richness of life in all its forms.It is the colors we see,the emotions we feel,the cultures we experience,the psychological strength we possess,and the natural world we inhabit.Embracing the vibrancy of life means appreciating the full spectrum of experiences that make our existence so varied and so very worthwhile.It is about living life to the fullest, celebrating the diversity that enriches our world,and cherishing the moments that make life truly vibrant.。
论视觉审美中的物性化体验
论视觉审美中的物性化体验一、本文概述Overview of this article视觉审美是人类文化生活中不可或缺的一部分,它涉及我们对周围世界的感知、理解和评价。
在这个过程中,物性化体验扮演着至关重要的角色。
本文旨在探讨视觉审美中的物性化体验,分析其内涵、特点及其在视觉艺术中的作用,以期深化我们对视觉审美现象的理解。
Visual aesthetics is an indispensable part of human cultural life, involving our perception, understanding, and evaluation of the surrounding world. In this process, materialized experiences play a crucial role. This article aims to explore the materialization experience in visual aesthetics, analyze its connotation, characteristics, and role in visual art, in order to deepen our understanding of visual aesthetic phenomena.我们将首先阐述物性化体验的基本概念,包括其定义、特征和分类。
接着,我们将探讨物性化体验在视觉审美中的具体表现,如何通过色彩、形状、线条等视觉元素激发观者的物性化体验。
我们还将分析物性化体验在不同视觉艺术形式(如绘画、摄影、电影等)中的体现,以及它如何影响我们对这些艺术作品的感知和评价。
We will first elaborate on the basic concept of materialized experience, including its definition, characteristics, and classification. Next, we will explore the specific manifestations of materialization experience in visual aesthetics, and how to stimulate viewers' materialization experience through visual elements such as color, shape, and lines. We will also analyze the manifestation of materialization experience in different visual art forms (such as painting, photography, film, etc.), and how it affects our perception and evaluation of these artworks.本文还将探讨物性化体验在视觉审美中的价值和意义。
演讲训练
小窍门
手势
要点:
手臂放在身侧,并要轻松自如 强调想法时,手的动作要尽量放大 手势动作的范围要在腰部以上
避免:
重复做同一手势或一个手势时间过长 想做一个手势中途犹豫,欲做欲不做 过多或太夸张
不做手势时,手臂自然垂直身侧 实际上你自己觉得很夸张的动作,对于观众而言,并不那么过份 经常换换手势
有效演讲的三要素
在演讲中,观众对你的印象一般基于三个要素
Verbal (语言的) Vocal (声音的) Visual (视觉的)
Verbal-----你所说的内容
Verbal is the knowledge, expertise and information you possess.
设计开场白:介绍主题,建立共识 – 成功的一半 – 抓住观众的兴趣 – 各种方式(故事、问题、名言、经验) 主体:支持论点的资料、事实、实例 – 全面理解 – 逻辑性的叙述 – 化繁为简 – 前后呼应 – 一次一个观念 结束:重述主题、再次强调重点 – 将观众情绪
设定时间长短 简短 随意写下各种观点 落笔时将观点组织一下
天龙七部
Opening grabber(好的开场白) Objective / Purpose(目标) Overview(演讲内容概括) Body, Content(主体)
– 时序、利/弊、定义/举例
Review / Sumary(回顾、总结) Call to action(观众获益度) End grabber(结尾印象深刻)
要点:
注意:
能够移动 字体要正规并且要写得大 使用色彩来突出重点 用铅笔注意上提示和作记号 可以在墙上粘贴
Unit1ArtUsefulwordsandExpressions2课件高中英语人教版选择性
2.如果你能很容易地记住图片、图表和视频中的信息, 你可能是一个视觉学习者。 If you easily remember information from pictures, charts and videos, you are likely a visual learner.
18.guarantee : vt. 保证; 确保; 肯定…必然发 生 n. 保证; 保修 单; 担保物
guarantee sb sth = guarantee sth to sb 向某人保证某事 guarantee to do sth 保证做某事 guarantee sb/sth against/from.. 保证...不受/免遭... give sb a guarantee that... 向某人保证... under guarantee 在保修期内 翻译:1.他们保证在一周内完成这项工作。 They guarantee to finish the work within a week. 2.我们不能保证我们的航班永远不会延误。 We cannot guarantee (that) our flights will never be delayed. 3.努力工作是成功的保证。 Hard work is the guarantee of success. 4.我的表还在保修期内,所以他们会免费修理。
humbly adv. 谦逊地;恭顺地 humbleness n. 谦逊;卑贱 critical adj.批评的;关键的;爱挑刺的 critically adv.批判地;严重地 critic n.批评家;评论家 criticise sb. for (doing) sth. 因(做)某事批评某人 receive/take (accept) criticism: 受到/接受批评 翻译:1.她喜欢在背后批评别人。 She likes to criticise other people behind their backs. 2.日本的决定招致了很多批评。
一种基于CLMF的深度卷积神经网络模型
一种基于CLMF的深度卷积神经网络模型随婷婷;王晓峰【摘要】针对传统人工特征提取模型难以满足复杂场景下目标识别的需求,提出了一种基于CLMF 的深度卷积神经网络(Convolutional neural networks with candidate location and multi-feature fusion, CLMF-CNN)。
该模型结合视觉显著性、多特征融合和CNN模型实现目标对象的识别。
首先,利用加权Itti模型获取目标候选区;然后,利用CNN模型从颜色、亮度多特征角度提取目标对象的特征,经过加权融合供目标识别;最后,与单一特征以及目前的流行算法进行对比实验,结果表明本文模型不仅在同等条件下正确识别率得到了提高,同时,达到实时性要求。
%To solve the problem that the traditional manual feature extraction models are unable to satisfy object recognition in complex environment, an object recognition model based on convolutional neural networks with candidate location and multi-feature fusion (CLMF-CNN) model is proposed. The model combines the visual saliency, multi-feature fusion and CNN model to realize the object recognition. Firstly, the candidate objects are conformed via weighted Itti model. Consequently, color and intensity features are obtained via CNN model respectively. After the multi-feature fusion method, the features can be used for object recognition. Finally, the model is tested and compared with the single feature method and current popular algorithms. Experimental result in this paper proves that our method can not only get good performance in improving the accuracy of object recognition, but also satisfy real-time requirements.【期刊名称】《自动化学报》【年(卷),期】2016(042)006【总页数】8页(P875-882)【关键词】图像识别;深度学习;卷积神经网络;多特征融合【作者】随婷婷;王晓峰【作者单位】上海海事大学信息工程学院上海 201306;上海海事大学信息工程学院上海 201306【正文语种】中文引用格式随婷婷,王晓峰.一种基于CLMF的深度卷积神经网络模型.自动化学报,2016,42(6):875-882随着科学技术的飞速发展,图像识别技术已从简单的理论融入到了大众的日常生活之中[1-2].从手机、电脑、打卡机等使用指纹身份识别,到阿里巴巴发布的人脸识别支付技术,都离不开图像识别.然而,在这个信息量爆炸的时代,如何能够提高识别率意义重大,直接关系到图像识别的实用性和安全性.幸运的是,深度学习的出现解决了如何自动学习出“优质特征”的问题[2-3].它通过模仿人脑分析学习的机制,将分级信息处理过程引用到了特征表示上,通过逐层特征变换,将样本在原空间的特征表示变换到一个新特征空间,从而使分类识别更加容易.相比于人工构造特征的方法,利用深度学习方法来学习特征,能够更为丰富地刻画数据的内在信息[4].深度卷积神经网络(Convolutional neural networks,CNN)作为深度学习的常用模型,已成为众多科研领域的研究热点之一.受到Hubel-Wiesel生物视觉模型的启发,LeCun等于1989年首先提出了CNN模型,解决了小规模的图像识别问题[5-6].但对于大规模的图像无法得到较好的效果.直至2012年,Krizhevsky等在传统的CNN模型上提出了深度的理念,取得了不错的识别结果,推进了图像识别技术[7].与传统识别算法相比,它的输入不使用任何的人工特征,避免了复杂繁琐的手动特征提取过程,可实现自动特征学习,在处理大规模的图像识别时同样具有优势.目前,CNN模型被广泛应用于图像识别领域之中[4,7-9].Ji等通过延伸数据的空间维度,提出一种3D CNNs模型[10],用于人体运动行为的识别之中,取得了不错的识别效果.2013年,徐姗姗等[11]利用CNN模型对木材的缺陷进行识别,降低时间消耗的同时,获得了较高的缺陷识别精度.2014年,贾世杰等将CNN模型用于商品图像分类中[12],为电子商务软件提供了一种快捷、高效的分类过滤手段.这无不说明CNN模型在图像识别方面的优势,即高效特征抽取、权值共享、模型复杂度低的特点.故本文采用CNN模型作为图像特征提取的基础模型.然而,在目标识别的初期阶段需要对目标对象进行定位(Candidate location,CL),这是CNN模型所忽略的.近年来,神经科学方面的研究者发现,人类视觉系统具有快速定位兴趣目标的能力[13].显然,将这种能力引入CNN模型,无疑将提升目标识别的效率.目前,最具代表的是Itti模型[14-15],它能模拟视觉注意机制,利用颜色、亮度和朝向特征获取感兴趣区.故采用Itti模型实现CL阶段. 同时,CNN模型常采用灰度图像作为图像的输入,缺失了对于颜色、亮度特征的理解.而颜色特征对于图像的旋转、尺度变换和平移具有不错的稳定性[16].亮度是人类视觉系统较为敏感的图像特征.若融合颜色、亮度特征,能够更为完善地表达图像.因此,采用多特征融合的方法来表示图像具有一定的必要性.综上所述,为了能够使CNN模型更为快捷地实现CL阶段的目标定位,多特征信息的互补,本文以CNN模型为基础模型,添加Itti模型以及多特征融合思想,建立一种基于CLMF的深度卷积神经网络模型(Convolutional neural networks with candidate location and multi-feature fusion,CLMFCNN),以便快速地获取目标区域,提高目标识别效率和准确度.深度卷积神经网络是第一个成功训练多层神经网络的学习算法.由于该网络有效地避免了复杂的图像预处理,可以自主学习图像特征,所以得到了广泛的应用.CNN 模型通过对局部感受野卷积(Local connections)、权值共享、下采样和多网络层[17],实现NN(Neural network)结构的优化,不但减少了神经元和权值的个数.同时,利用池化操作(Pooling)使特征具有位移、缩放和扭曲不变性[17].典型的深度卷积网络结构如图1所示.第一层为图像输入层,然后由多个卷积层(Convolution,C层)和下采样层(Subsampling,S层)组成,最后一层为全连接层.1.1 C层的学习C层主要是利用卷积核抽取特征,实现对特征进行过滤和强化的效果.在每个卷积层中,将前一层输出的特征图与卷积核进行卷积操作[18],然后通过激活函数,即可输出该层的特征图,如式(1)所示.其中,f是激活函数,本文选用Sigmoid函数.t表示层数,ki,j是卷积核,∗表示2D卷积操作,bj是偏置,Pj表示所选择的输入特征图的集合.1.2 S层的学习S层主要通过下采样减少C层的特征维数,对S层中每个大小为n×n的池进行“池平均”或“池最大”操作[19],以获取抽样特征,如式(2)所示.其中,w为权重,down(·)为下采样函数,本文采用“池最大”操作.通过池化操作,不仅有效降低了C层的复杂度,抑制了过拟合现象,同时,提升了特征对微小畸变、旋转的容忍能力,增强了算法的性能和鲁棒性.为了使CNN模型能够在图像中快速搜索到目标对象,模仿人脑视觉系统,在CL阶段添加视觉注意模型,旨在快速获取目标对象.同时,从特征融合的角度,实现图像颜色、亮度的多特征表达.CLMFCNN的模型结构图如图2所示,由候选目标区获取和多特征融合两模块组成.2.1 基于视觉显著性的候选目标获取大量研究发现,人类的视觉系统能够快速搜索到兴趣目标,并进入视觉感知[20-21].受其启发,若在目标识别的CL阶段采用视觉显著性获取候选目标,能够有效地降低背景所带来的干扰.目前最具代表性的是Itti等于1998年提出的选择注意模型,该模型经过不断的改进,已经可以较好地应用于目标识别之中.其基本思想是采用自底向上的模式,通过构建不同尺度的高斯金字塔,并利用式(3)~式(5)获取亮度、颜色、朝向特征[15];然后,计算中央周边算子得到特征显著图;最后,通过归一化组合得到显著图,从而模拟人类视觉系统选择出显著区域. 其中,r、g、b为三个颜色分量.R=r-(g+b)/2;G=g-(r+g)/2;Y=(r+g)/2-|r-g|/2-b;c、s代表金字塔中央尺度和周边尺度.θ为Gabor滤波器的方向;⊖代表“中央—周边”算子.然而,Itti模型仅采用自底向上的机制,缺失了高级认知的指导[14-15].特别地,由其获取的显著图仅由各类特征叠加而成的,这违背了视觉系统的选择机制.在不同的环境下,视觉系统搜索不同目标时,对于各个特征的倚重应有所不同.故综合考虑各类特征对于目标定位的贡献度,赋予权重,通过特征与权重的乘积和确定显著区,如式(6)所示.其中,βj为显著特征权重,由式(7)获得.Sali代表显著值,SaliCo为颜色显著值、SaliIn为亮度显著值、SaliOr为朝向显著值,k代表不同的尺度.目前,对于显著区域的提取多由目标知识驱动,忽略了背景特征对于目标检测的抑制作用.而神经物理学实验表明,背景特征对于目标检测也具有重要意义[22].因此综合考虑目标和背景的概率知识,利用式(7)确定显著特征权重βr.其中,βr表示显著特征权重,P(O)表示目标O出现的先验概率;P(O|Fsalir)表示给定前景区的某一图像度量Fsalir时,目标O出现的条件概率;P(O|Bsalir)表示给定背景区某一图像度量Bsalir时,目标O出现的条件概率;图像度量包括颜色特征值SaliCo、亮度特征值SaliIn和朝向特征值SaliOr.2.2 多特征融合由于CNN模型在特征提取过程中使用的特征单一,忽略了颜色、亮度特征的影响,如图1所示.故本文在深度卷积神经网络的基础上,添加颜色、亮度特征提取的思想,使用B-Y颜色通道、R-G颜色通道以及亮度通道三通道对视觉图像进行特征提取.其中,B-Y和R-G颜色通道的图像表示可由式(8)和(9)获得.因此,CLMF-CNN模型不仅考虑了亮度特征,同时考虑了对象的颜色特征,使得特征向量更能表现目标对象的特性.然而,多特征的融合方法对于特征的表达能力具有一定的影响.目前,常用的多特征融合方法有简单叠加、串行连接等.但这些方法不仅较难体现各种特征的差异性,反而扩大了特征的维数,增加了计算量.因此,引出权重的概念,根据不同的特征在识别过程中的贡献度,在CNN的全连接层后添加一层各类特征的权重计算层.通常,特征的识别效果采用误差率表示,误差率越低则表示该类特征具有较强的区分能力.受此启发,从误差率的角度定义权重,如式(10)所示.其中,wn为特征n的权重,0 ≤wn ≤1且en表示特征n的误差率.由此可以发现,en越低的特征将获得越高的权重.因此,每个目标融合后的特征向量可表示为式(11).其中,N为特征类别数,表示特征n相应的特征向量.2.3 算法流程CLMF-CNN模型由学习阶段以及目标识别阶段两部分组成.具体步骤如下:1)学习阶段:步骤 1.根据学习样本,采用样本统计分析法计算样本图像内目标对象与背景的条件概率P(O|Fsalir)和P(O|Bsalir);步骤2.根据式(7)确定Itti模型内的权重βj;步骤3.利用CNN模型获取目标对象在B-Y颜色通道、R-G颜色通道以及亮度通道三通道的特征向量;步骤4.训练不同特征向量,获取各类特征的误差率en;步骤5.根据误差率en,利用式(10)获取不同特征的权重.2)目标识别阶段:步骤1.根据权重βj,利用加权Itti模型获取测试图像相应的候选目标区域;步骤2.利用CNN模型对候选目标进行B-Y颜色通道、R-G颜色通道以及亮度通道三通道的特征提取;步骤 3.根据式(11),结合不同特征的权重wn进行加权融合,形成候选目标的特征表达;步骤4.对候选目标进行识别,输出测试图像的类别.仿真实验平台配置为酷睿四核处理器2.8GHz,8GB内存,使用Caltech 101数据集,该数据库包含101类,每类大约包含40到800张彩色图片.然而,CNN模型需要建立在大量样本的基础上,故选取其中样本量较大的8类:飞机(Airplanes)、人脸(Faces)、钢琴(Piano)、帆船(Ketch)、摩托车(Motor)、手枪(Revolver)、手表(Watch)以及豹(Leopards),并利用Google对图库进行扩充,每种类别选用2000幅图像,本文方法的参数设置如表1所示,其中,学习率初始值设为0.1,并在迭代过程中线性下降以寻找最优值.同时,为了评估识别效果,采用十折交叉实验法进行验证,并利用识别精度作为评价标准,如式(12)所示.其中,PreV ali表示第i类图像的识别精度,PTi表示正确识别的样本数,FTi表示错误识别的样本数.3.1 CL阶段提取候选目标的作用由图3可以发现,利用改进的Itti模型可以有效地在CL阶段提取目标候选区,避免了背景的干扰,便于后续CLMF-CNN模型的特征提取.实验结果表明,平均每幅图像的处理时间约为62.76ms.显然,在目标候选区的提取上消耗了一定的计算时间,但是,相应地减少了30%~50%的伪目标区域,降低了识别干扰,反而提高了识别效率.从图4可以发现,利用Itti模型改进的CNN模型的确提升了目标的识别精度.为了进一步分析CL阶段目标定位的有效性,选用覆盖率(Overlap value,OV)评价目标对象区界定的成功率,如式(13)所示.其中,preboxij是图像i对应的第j个候选目标区域. objboxi是图像i对应的目标区域.由图5可以发现,由于文献[23]利用固定窗口遍历搜索的方法,所以对于脸、钢琴、手枪的定位效果较好.然而,对于飞机、帆船、豹等大小多变的目标对象,界定的效果产生了一定的影响.相反,本文方法充分考虑了各项特征的贡献率,能够较好地定位目标对象的区域,为后期的目标识别提供了一定的保证.3.2 识别时间消耗对比时间消耗无疑是对目标识别效果的一个重要评价指标.图6从目标识别所需时耗的角度对比了文献[23]方法和CLMF-CNN模型.由于文献[23]方法需要以固定大小的窗口遍历图像来实现目标的定位,因此定位的时耗十分受滑动窗口大小以及图像大小的限制.若以30×30的窗口遍历一幅N×N的图像时,文献[23]方法在定位时将进行(N-29)2个操作.若图像为256×256,则单幅图像在定位时的操作将超过5万次,无疑增加了图像识别过程中的时间消耗.相反,由于CLMF-CNN模型采用视觉显著性定位的方法,虽然在对单幅图像搜索目标时需要消耗时间用于定位显著区域,但可以快速滤除图像中的伪目标区域,大幅度地减少后期识别操作,反而降低了目标识别的时间消耗,十分有利于图像的快速识别.3.3 特征融合的作用在特征提取阶段,采用了多特征融合方法,利用各类特征的贡献度来分配权重.为了验证权重的作用,实验将本文的多特征融合方法与各类单一特征方法以及目前流行的多特征乘性融合方法[24]、多特征加性融合方法[25]进行对比.从图7可以发现,采用单一特征的CNN模型识别效果明显不佳,且不稳定,易受光照等外界因素的干扰.说明需要通过特征融合,使各类特征取长补短,才能实现更好的识别效果.文献[24]方法,可实现各类特征的融合,但该方法易放大噪声的影响,导致融合结果对噪声较为敏感.相反,文献[25]在一定程度能够抑制噪声,说明加性融合的确能较好地融合各类特征.然而其识别效果仍不理想,说明权重的分配对融合后特征向量的识别效果具有一定的影响.本文的方法具有较好的识别结果,原因在于:CLMF-CNN模型充分考虑了各项特征对于识别效果的贡献度,从误差率的角度分配各项权重,降低了对于噪声的敏感度,且提升了识别效果,增强了识别方法的鲁棒性.3.4 识别效果对比为了验证本文方法的有效性,实验将CLMFCNN模型和文献[26-28]的方法进行对比,如图8所示.其中,对于人脸、摩托车和手表这些目标对象,CLMF-CNN 模型具有一定的优势.原因在于,这些目标较为显著,对于CLMF-CNN模型更易找到目标对象区域.而对于文献[26-28]方法,由于过多的依赖固定窗口滑动搜索的方法,导致对目标区域的定位有一定的偏差.同时,本文的多特征融合方法能够充分地考虑各类特征的贡献度,合理地分配权重,使得各类特征扬长避短,更有效地表达目标对象.由图8可以发现,CLMF-CNN模型的识别效果基本优于其他方法,为目标识别提供了一种较为有效的方法.同时,为了进一步验证本文方法的识别效果,实验将CLMF-CNN模型运用于图像标注中.从表2可以发现,本文方法基本可以标注出预先学习的目标对象,说明CLMF-CNN模型可以较好地解决图像的自动标注问题.本文提出一种基于CLMF的卷积神经网络模型,并用于图像识别,取得了较为满意的实验结果.与现有方法相比,CLMF-CNN具有以下几个突出的特点:1)模仿人脑视觉认知的过程添加了CL阶段的候选目标区选取模块,确立了目标对象区,减少了由于伪目标区域所造成的计算时间消耗和识别干扰.2)利用多特征的加权融合降低了由单一特征不充分所引起的歧义,丰富了图像的特征表达.然而,图像质量对于目标识别具有一定影响.下一步工作的重点将从图像融合技术文献[29-30]的角度提高图像质量,进一步改善目标识别效果.1 Sarikaya R,Hinton G E,Deoras A.Application of deep belief networks for natural language understanding.IEEE/ACM Transactions on Audio,Speech,&Language Processing,2014,22(4):778-7842 Graves A,Mohamed A R,Hinton G.Speech recognition with deep recurrent neural networks.In:Proceedings of the 38th IEEE International Conference on Acoustics,Speech and Signal Processing.Vancouver,BC:IEEE,2013. 6645-66493 Liu Jian-Wei,Liu Yuan,Luo Xiong-Lin.Research and development on deep learning.Application Research of Computers,2014,31(7):1921-1930(刘建伟,刘媛,罗雄麟.深度学习研究进展.计算机应用研究,2014,31(7):1921-1930)4 Najafabadi M M,Villanustre F,Khoshgoftaar T M,Seliya N,Wald R,Muharemagic E.Deep learning applications and challenges in big dataanalytics.Journal of Big Data,2015,2:15 LeCun Y,Bottou L,Bengio Y,Haffner P.Gradient-based learning applied to document recognition.Proceedings of the IEEE,1998,86(11):2278-23246 LeCun Y,Boser B,Denker J S,Henderson D,Howard R E,Hubbard W,Jackel L D.Backpropagation applied to handwritten zip code recognition.Neural Computation,1989,1(4):541-5517 Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks.In:Proceedings of the Advances in Neural Information Processing Systems ke Tahoe,Nevada,USA:Curran Associates,Inc.,2012.2012-20208 Wang Xin,Tang Jun,Wang Nian.Gait recognition based on double-layer convolutional neural networks.Journal of Anhui University(Natural Science Edition),2015,39(1):32-36(王欣,唐俊,王年.基于双层卷积神经网络的步态识别算法.安徽大学学报(自然科学版),2015,39(1):32-36)9 Ouyang W,Wang X.Joint deep learning for pedestrian detection.In:Proceedings of the 2013 IEEE International Conference on Computer Vision.Sydney,Australia:IEEE,2013.2056-206310 Ji S W,Xu W,Yang M,Yu K.3D convolutional neural networks for human action recognition.IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(1):221-23111 Xu Shan-Shan,Liu Ying-An,Xu Sheng.Wood defects recognition based on the convolutional neural network.Journal of Shandong University(Engineering Science),2013,43(2):23-28(徐姗姗,刘应安,徐昇.基于卷积神经网络的木材缺陷识别.山东大学学报(工学版),2013,43(2):23-28)12 Jia Shi-Jie,Yang Dong-Po,Liu Jin-Huan.Product image fine-grained classification based on convolutional neural network.Journal of Shandong University of Science and Technology(Natural Science),2014,33(6):91-96(贾世杰,杨东坡,刘金环.基于卷积神经网络的商品图像精细分类.山东科技大学学报(自然科学版),2014,33(6):91-96)13 Unuma H,Hasegawa H.Visual attention and object perception:levelsof visual features and perceptual representation. Journal of Kawamura Gakuen Womans University,2007,18:47-6014 Serre T,Wolf L,Poggio T.Object recognition with features inspired by visual cortex.In:Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition(CVPR).San Diego,CA:IEEE,2005.994-100015 Itti L,Koch C,Niebur E.A model of saliency-based visual attention for rapid scene analysis.IEEE Transactions on Pattern Analysis&Machine Intelligence,1998,20(11):1254-125916 Yao Yuan-Qing,Li Feng,Zhou Shu-Ren.Target tracking based on color and the texture puter Engineering&Science,2014,36(8):1581-1587(姚原青,李峰,周书仁.基于颜色–纹理特征的目标跟踪.计算机工程与科学,2014,36(8):1581-1587)17 LeCun Y,Bengio Y,Hinton G.Deep learning.Nature,2015,521(7553):436-4418 Huang F J,LeCun rge-scale learning with SVM and convolutional for generic object categorization.In:Proceedings of the 2006 IEEE Computer Society Conference on Computer Vision&Pattern Recognition.New York,USA:IEEE,2006.284-29119 Scherer D,M¨uller A,Behnke S.Evaluation of pooling operations in convolutional architectures for object recognition. In:Proceedings of the 20th International Conference on Artificial Neural Networks.Thessaloniki,Greece:Springer,2010.92-10120 Serences J T,Yantis S.Selective visual attention and perceptual coherence.Trends in Cognitive Sciences,2006,10(1):38-4521 Li Wan-Yi,Wang Peng,Qiao Hong.A survey of visual attention based methods for object tracking.Acta Automatica Siinica,2014,40(4):561-576(黎万义,王鹏,乔红.引入视觉注意机制的目标跟踪方法综述.自动化学报,2014,40(4):561-576)22 Maljkovic V,Nakayama K.Priming of pop-out:I.role offeatures.Memory&Cognition,1994,22(6):657-67223 Roos M J,Wolmetz M,Chevillet M A.A hierarchical model of vision (HMAX)can also recognize speech.BMC Neuroscience,2014,15(Suppl 1):18724 Li P H,Chaumette F.Image cues fusion for object tracking based on particle filter.In:Proceedings of the 3rd International Workshop on Articulated Motion and Deformable Objects.Palma de Mallorca,Spain:Springer,2004.99-11025 Wang X,Tang Z M.Modified particle filter-based infrared pedestriantracking.Infrared Physics&Technology,2010,53(4):280-28726 Zhu Qing-Sheng,Zhang Min,Liu Feng.Hierarchical citrus canker recognition based on HMAX puter Science,2008,35(4):231-232(朱庆生,张敏,柳锋.基于HMAX特征的层次式柑桔溃疡病识别方法.计算机科学,2008,35(4):231-232)27 Tang Yu-Jing.Classification and Recognition Research based on Human Visual Perception Mechanism[Master dissertation],Nanjing University of Science and Technology,China,2009.(汤毓婧.基于人脑视觉感知机理的分类与识别研究[硕士学位论文],南京理工大学,中国,2009.)28 Wang J,Yang J,Yu K,Lv F,Huang T,Gong Y.Localityconstrained linear coding for image classification.In:Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).San Francisco,CA:IEEE,2010.3360-336729 Zhang Xiao-Li,Li Xiong-Fei,Li Jun.Validation and correlation analysis of metrics for evaluating performance of image fusion.Acta Automatica Sinica,2014,40(2):306-315(张小利,李雄飞,李军.融合图像质量评价指标的相关性分析及性能评估.自动化学报,2014,40(2):306-315)30 Yang Bo,Jing Zhong-Liang.Image fusion algorithm based on the quincunx-sampled discrete wavelet frame.Acta Automatica Sinica,2010,36(1):12-22(杨波,敬忠良.梅花形采样离散小波框架图像融合算法.自动化学报,2010,36(1):12-22)随婷婷上海海事大学信息工程学院博士研究生.2013年获得上海海事大学信息工程学院硕士学位.主要研究方向为深度学习,人工智能,数据挖掘与知识发现.本文通信作者.E-mail:****************(SUI Ting-Ting Ph.D.candidate at the College of Information Engineering,Shanghai Maritime University.She received her master degree from the College of Information Engineering,Shanghai Maritime University in 2013.Her research interest covers deep learning,artificial intelligence,data mining and knowledge discovery.Corresponding author of this paper.)王晓峰上海海事大学教授,博士.主要研究方向为深度学习,人工智能,数据挖掘与知识发现.E-mail:****************.cn(WANG Xiao-Feng Ph.D.,professor at Shanghai Maritime University.His research interest covers deep learning,artificial intelligence,data mining and knowledge discovery.)。
网页设计中按钮是什么颜色
网页设计中按钮是什么颜色网页设计中按钮是什么颜色什么颜色的按钮更容易让用户点击,大概是网页设计、电商设计中最早的争论之一吧。
就跟随店铺一起去了解下吧,想了解更多相关信息请持续关注我们店铺!很多人说红色是最佳颜色,因为它传递紧迫感并引起兴奋。
或者说是绿色,因为绿色意味着前进(Go)。
然而,Unbounce(一个网站)认为橙色大按钮是最理想的,因为橙色代表热情、能量和“完成它”的态度。
既然大家都给出了答案,那么还有什么好争论的呢?因为数据显示的结果,并不能很好的支持某个颜色是按钮的最佳选择。
Hubspot(网站)发表了一个受欢迎的案例,结果显示A/B测试中红色按钮的表现优于绿色。
但是,Sentient的用户见过橙色、粉红色、鲜绿色、甚至白色按钮效果优于红色。
WiderFunnel(网站)的Chris Goward表示,橙色按钮在A/B测试中经常获胜。
由于这么多冲突的调查结果, Peep Laja和ConversionXL(网站)的网友们认为,颜色本身对按钮的影响非常小,颜色的影响在于它对整个页面视觉层级的影响,最有效的按钮是“明显”的按钮。
“明显”的按钮到底是什么意思呢?在神经科学中,视觉显著性(visual saliency )是一个专业术语,表示一个东西在场景中的“明显”程度。
显著性是一个很复杂的话题,但是有些东西你必须知道:你的视觉皮层天生偏向于更容易注意到某个场景中更为“明显”的东西。
这不是心理导致的,它不受文化、个人偏好和种族的影响,这是人类大脑进化的结果,使我们更加容易的在纷乱的视觉世界里侦察到猎物、捕食者或同伴。
视觉显著性是可以被测量的。
最可靠的方法是,进行大规模的眼动跟踪研究,观察统计人们第一眼放在你网页的哪个位置。
哪些东西有助于提高显著性?在按钮的全局环境中,一个页面有太多的视觉因素促使你的大脑迅速的判断整个设计,并给你的眼睛下达指令。
我们使用机器学习来分析来自眼动跟踪的数据,来判断哪些设计因素对视觉显著性的影响最大。
基于眼动数据的分类视觉注意模型_王凤娇
计算机科学 Computer Science
基于眼动数据的分类视觉注意模型
Vol.43 No.1 Jan 2016
王凤娇 田 媚 黄雅平 艾丽华 (北 京 交 通 大 学 计 算 机 与 信 息 技 术 学 院 北 京 100044)
摘 要 视觉注意是人类视觉系统中的重要部分,现有的视觉注意模型大多强调基于自底向上的注意,较少考虑 自 顶 向下的语义,也鲜有针对不同类别图像的特定注意模型。眼 动 追 踪 技 术 可 以 客 观、准 确 地 捕 捉 到 被 试 的 注 意 焦 点 ,但 在视觉注意模型中的应用还比较少见。因此,提出了一种自底向上和自顶 向 下 注 意 相 结 合 的 分 类 视 觉 注 意 模 型 CM- VA,该模型针对不同类别的图像,在眼动数据的基础上训 练 分 类 视 觉 注 意 模 型 来 进 行 视 觉 显 著 性 预 测 。实 验 结 果 表 明 :与 现 有 的 其 它 8 个 视 觉 注 意 模 型 相 比 ,该 模 型 的 性 能 最 优 。 关 键 词 视 觉 注 意 ,视 觉 显 著 性 ,分 类 模 型 ,自 底 向 上 ,自 顶 向 下 中 图 法 分 类 号 TP391 文 献 标 识 码 A DOI 10.11896/j.issn.1002-137X.2016.1.020
关键词视觉注意视觉显著性分类模型自底向上自顶向下中图法分类号tp391文献标识码adoi1011896classificationmodelofvisualattentionbasedoneyemovementdatawangfengjiaotianmeihuangyapingailihuaabstractvisualattentionisaveryimportantpartofthehumanvisualsystemmostoftheexistingvisualattentionmodelsemphasizebottomupattentionconsideringlesstopdownsemanticthereisfewspecificattentionmodelfordifferentcategoriesofimageseyetrackingtechnologycancapturethefocusofattentionobjectivelyandaccuratelybutitsapplicationinvisualattentionmodelisstillrelativelyrarethereforeweproposedaclassificationmodelofvisualattentionwhichtrainsclassificationmodelsfordifferentcategoriesofimagesonthebasisofeyemovementdatasoastopredictvisualsaliencyourmodelwascomparedwithotherexistingeightmodelsprovingitssuperiorperformancethanothermodelskeywordsvisualattention引言人类的信息加工在很大程度上依赖于视觉来自外界的信息约有8090是通过人眼获得的进而通过人眼进行高层次的认知和复杂处理如物体认知或者场景理解这都依赖于视觉注意机制
基于新Top Hat变换局部对比度的红外小目标检测
基于新Top Hat变换局部对比度的红外小目标检测刘源;汤心溢;李争【摘要】复杂场景下由背景物体产生的虚警是红外小目标检测中的难点,在目标信号微弱时问题尤为突出.为了抑制虚警,提出一种基于局部对比度特征的小目标检测算法.首先,利用一种新型Top Hat变换检测出图像中的潜在目标区域;然后分析潜在目标区域及其邻域特性,计算本文提出的局部对比度特征;最后基于此特征提取目标区域.对合成图像和实际红外图像的实验表明,本算法能有效地抑制背景景物造成的虚警,取得很高的检测率,并且对目标强度的变化以及目标所在背景的变化均具有一定的适应性.%False alarms generated by complex scenes of the background are a challenging problem for infrared small target detection, especially when the target is dim. To reduce false alarms, a small target detection algorithm based on local contrast is proposed. First, a modified top hat transform is applied to detect regions that are likely to contain a target. Then for each of the regions, we calculate the proposed local contrast measure. The target regions are then detected based on such measure. Experimental results on synthetic and real data show that the proposed method reduces false alarms generated by background and achieves high detection accuracy. Moreover, the algorithm is shown to be robust to the variation of the target intensity and fluctuation of the target neighborhood.【期刊名称】《红外技术》【年(卷),期】2015(037)007【总页数】9页(P544-552)【关键词】小目标检测;红外图像;新型TopHat变换;局部对比度;复杂场景【作者】刘源;汤心溢;李争【作者单位】中国科学院上海技术物理研究所,上海 200083;中国科学院上海技术物理研究所,上海 200083;中国科学院上海技术物理研究所,上海 200083【正文语种】中文【中图分类】TP391控制检测虚警率是红外小目标检测中的关键问题。