大脑皮层视觉通路计算模型的物体识别

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

2012年5月18日
8
本文解决思路的基本思想
模拟大脑视觉皮层的处理过程
通过一种层次结构定量地模拟了大脑视觉皮层腹部通路前100-200毫秒的处理过程。系统共分4个层次，包括两个simple S units和两个complex C units。兼顾可分性(S units)和不变性(C units)
2012年5月18日 15
C1 units
较大的感受野 - 对感受野内不同位置，不同尺寸的边缘都会有响应。通过尺度和空间邻域的局部最大值操作（Local Maximum）来实现。体现了平移和尺度不变性。
2012年5月18日 16
C1 units
max C1
max
2012年5月18日
17
C1 units
文章的相关信息
PAMI 2007.3 相关文献
M. Riesenhuber and T. Poggio, “Hierarchical Models of Object Recognition in Cortex,” Nature Neuroscience, vol. 2, no. 11, pp. 1019-1025, 1999. T. Serre, M. Kouh, C. Cadieu, U. Knoblich, G. Kreiman, and T. Poggio, “A Theory of Object Recognition: Computations and Circuits in the Feedforward Path of the Ventral Stream in Primate Visual Cortex,” AI Memo 2005-036/CBCL Memo 259, Massachusetts Inst. of Technology, Cambridge, 2005.
主要研究方向
the processes by which the brain learns to recognize and categorize visual objects http://cbcl.mit.edu/cbcl/web-pis/poggio/index.htm
2012年5月18日 3
研究意义
人类和哺乳动物的视觉系统优于目前的机器视觉的系统，因此模仿大脑皮层中物体识别的过程就变得非常有吸引力。
2012年5月18日
6
前人相关工作的介绍
相关工作
层次化结构
Constellation model Multilayered convolutional networks 。。。
物体表示方法
采用的特征
scale and position-invariant C2 SMFs
测试数据库
CalTech5, CalTech101, and MIT-CBCL
2012年5月18日
26
Object Recognition in Clutter
Comparison with benchmark systems
The Learning Stage
选择若干具有代表性的patch
从训练图像(C1 level)中随机采样每类物体有自己的代表patch
2012年5月18日
23
The Classification Stage
特征
Standard model features (SMFs) : C1 or C2
分类器
SVM Boosting
2012年5月18日
24
实验
Object Recognition in Clutter Object Recognition without Clutter
2012年5月18日
25
Object Recognition in Clutter
测试条件
目标物体没有分割，位置和尺度也不同
2012年5月18日 35
2012年5月18日
36
2012年5月18日
37
采用的特征
C1和C2均可，但C1优于C2
测试数据库
StreetScenes scene-understanding data set
2012年5月18日 30
Object Recognition without Clutter
2012年5月18日
31
Object Recognition without Clutter
2012年5月18日
32
Object Recognition without Clutter
2012年5月18日
33
总结
本文提出了一种基于大脑皮层视觉通路计算模型的物体识别方法，并应用到多种不同的识别任务中，取得了不错的效果。
2012年5月18日
34
最后
可以改进之处
增加层数，比如S3 , C3 , S4等等融合多个层次的特征学习过程中采用特征选择调整模型参数增加反馈的过程提高速度能否应用到人脸识别?
[19]，[20] ：constellation models [17] ：hierarchical SVM [18] ：fragments + gentleBoost
2012年5月18日
27
Object Recognition in Clutter
Comparison with SIFT features
主要的学术贡献点
提出了一个关于视觉皮层腹部通路(ventral stream of visual cortex)中回路和计算的定量模型。提出了一个component-based的人脸检测/识别模型。
2012年5月18日 2
wk.baidu.com
作者的相关信息
Tomaso Poggio
所在机构
Department of Brain & Cognitive Sciences and Artificial Intelligence Laboratory, Massachusetts Institute of Technology
所在机构
Postdoctoral associate at the Center for Biological and Computational Learning (CBCL) at MIT
主要研究方向
Biological vision, machine vision, object recognition, computational neuroscience, learning in cortex
大脑皮层
由简单到复杂，由低级到高级 Simple Cell -> Complex Cell -> Hypercomplex Cell -> ...
2012年5月18日
12
基础知识
视觉信息处理特点
两条通路
腹部通路 (ventral stream) ，又称what通路背部通路 (dorsal stream)，又称where通路
Appearance-based 区分性强但缺乏不变性。 Histogram-based 不变性强但缺乏区分性。
2012年5月18日
7
本文所研究问题的提出
问题的提出
不变性（Invariance）和区分性（Selective）对于物体识别来说都是很重要的。本文提出一种新的物体描述方式，能够很好地平衡不变性和区分性。
2012年5月18日
9
文章的组织结构
Introduction Detailed Implementation Empirical Evaluation Discussion
2012年5月18日
10
基础知识
相关学科
神经科学 (Neuroscience)
脑研究的综合学科。应用生命科学和物理科学，信息科学的综合途径，从分子、细胞到计算网络、心理多个水平，对神经系统的形成，正常功能和异常病变进行研究。
S1 C1
2012年5月18日
18
S1和C1具体参数
2012年5月18日
19
S2 units
与从训练集中学到的patch进行模板匹配。 Patch
2012年5月18日 20
S2 units
X RBF Pi =
r
2012年5月18日
21
C2 units
在所有尺度，所有位置上取最大值。
2012年5月18日 22
2012年5月18日
4
文章摘要
受生物学的启发，我们提出了一种识别复杂视觉场景的新的通用框架。在这个框架中，我们描述了一个与视觉皮层组织结构非常相似的一个层次化模型，并且通过交替进行模板匹配(template matching)和最大化操作 (maximum pooling operation)，得到复杂性和不变性越来越高的特征表示。我们在多个识别任务上验证了这种方法的正确性，包括复杂场景中单类或多类物体的识别，以及依赖于识别 shape-based和texture-based物体的复杂场景理解。在满足一些生物学限制条件的情况下，这种方法的性能非常好：它可以从少量训练样本中进行学习，并且与目前最好的系统旗鼓相当。除了与计算机视觉的相关性，这种方法的成功证明了大脑皮层中物体识别前馈模型的正确性。
2012年5月18日 5
研究背景和研究意义
研究背景
研究大脑视觉皮层中物体识别的过程对于神经科学（Neuroscience）来说是一个关键的问题。计算机视觉中神经科学的应用局限在推导立体视 (stereo)算法和验证DoG以及Gabor的正确性。一些基于仿生的高层次特征没有在实际的图像数据库上验证。
题目: Robust Object Recognition with Cortex-Like Mechanisms
作者：Thomas Serre , Tomaso Poggio 讲解人：Su Yu
2012年5月18日
1
作者的相关信息
Thomas Serre
2005年获得博士学位
computational neuroscience MIT, Brain and Cognitive Science Dept, Cambridge, MA. Advisor: Tomaso Poggio
层次结构
视网膜 -> 侧膝体 -> 视皮层
反馈连接
高层区域 -> 视觉初级皮层区高级行为也会对低层神经元活动产生影响
感受野等级特性
神经细胞越复杂，对应视网膜上区域越大。
注意选择机制学习机制
2012年5月18日 13
系统框架
2012年5月18日
14
S1 units
Gabor - 模拟简单视觉细胞的感受野。多方向，多尺度。提取具有区分能力的底层特征。
2012年5月18日
28
Object Recognition in Clutter
Number of features and training examples
2012年5月18日
29
Object Recognition without Clutter
测试条件
和滑动窗结合 — 从图像的不同位置和不同尺度提取图像窗，resize到同样大小。没有位置和尺度的变化没有clutter
认知科学 (Cognitive Science)
是研究人、动物和机器的智能的本质和规律的科学，目标是揭示人脑认知过程的机制，用计算机程序实现这一机制并加以验证。
2012年5月18日
11
基础知识
人类视觉感知系统
视觉信息在大脑中按照一定的通路传输
视网膜接受外界信号信号通过视神经交叉和视束传到中枢的侧膝体信息到达大脑皮层细胞