2017年计算机视觉领域前沿展望报告
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2017年计算机视觉领域前沿展望报告
(此文档为word格式,可任意修改编辑!)
2017年8月
正文目录
一、计算机视觉的发展现状与应用 (4)
1.1 从传统图片处理方法跨入人工智能处理时代 (5)
1.2 海量训练数据集解决计算机视觉瓶颈 (5)
1.3 深度学习方法提升计算机视觉准确度 (6)
1.4 计算机视觉在众多领域得到应用 (6)
二、知名研究机构和创业团队 (7)
2.1 国外研究机构和学术达人 (7)
2.2 国内知名创业团队 (8)
三、两大挑战赛 (10)
3.1 ImageNet (10)
3.2 MS COCO (16)
四、三大顶级会议 (18)
4.1 三大会议的介绍 (18)
4.2 会议亮点回顾 (19)
风险提示 (24)
图表目录
图1:计算机视觉与其他学科的相互关系 (4)
图2:ImageNet竞赛 (11)
图3:目标检测 (12)
图4:目标定位 (13)
图5:视频中的目标物体检测 (14)
图6:场景分类 (15)
图7:场景分割 (16)
图8:目标检测和分割 (17)
图9:关键点检测 (17)
图10:图片描述 (18)
图11:给机器“看电视剧”预测人类行为 (20)
图12:基于深度学习的手势识别 (21)
图13:微软全息“穿越”技术:HoloPortation (22)
图14:人工智能为视频配音 (23)
图15:深度学习识别YouTube视频内容 (23)
图16:社会化行走机器人Jackrabbot 懂礼貌会排队 (24)
表格目录
表1:2012年以来ImageNet图像分类大赛冠军成绩 (6)
表2:计算机视觉技术在众多领域得到应用 (7)
表3:国外著名高校计算机视觉相关实验室 (8)
表4:ImageNet 2016中国团队包揽众多冠军 (12)
一、计算机视觉的发展现状与应用
1.1 从传统图片处理方法跨入人工智能处理时代
计算机视觉(Computer Vision)研究如何让计算机可以像人类一样去理解图片、视频等多媒体资源内容。例如用摄影机和计算机代替人眼对目标进行识别、跟踪和测量等,并进一步处理成更适合人眼观察或进行仪器检测的图像。近些年在海量的图像数据集、机器学习(深度学习)方法以及性能日益提升的计算机支持下,计算机视觉领域的技术与应用均得到迅速发展,
图1:计算机视觉与其他学科的相互关系
①、传统的图片处理依据数字图像的基本特性进行处理,例如常见美图软件中的祛斑效果就属于图像处理中的图像增强部分。伴随着图像处理技术的不断提升,对于图像的简单处理已经不能满足人们的使用需求,模式识别便成为新的发展方向。
②、模式识别方法着眼于图像间的不同,使得计算机可以像人类一样很方便地分辨出两幅图片的差异。例如指纹识别就是模式识别中的一个经典应用。可以说模式识别已经踏入了人工智能的领域。
③、人工智能方法利用的是最新的卷积神经网络技术,自动生成足以区分不同图片的强大特征。迈入人工智能领域,可以说计算机视觉已经可以像人类一样去看,去理解。尽管神经网络不断刷新着计算机视觉的表现成果,但对于人类来说依然是一个黑匣子,究竟是什么造就了神经网络的强大能力,尚需学术界、工业界进一步的探索与研究。
1.2 海量训练数据集解决计算机视觉瓶颈
计算机视觉的传统挑战是图片分类,即让计算机拥有可以识别图像中物体的能力。对于图片分类问题,计算机就像一个学生,需要人类为它提供图片和图片对应的标签来告诉计算机图片上究竟有什么。计算机虽然有强大的计算能力,但是却缺乏人类一样的智慧,需要给予大量有标注的图片。对于已有的数据集,目前传统的算法已经足够优秀。MNIST手写数字数据集的错误率已经达到0.3%。
计算机视觉的进一步发展需要新的图片数据集,但数据标注需要耗费大量人力物力,一般实验室很难完成如此艰巨的工作。直到现任斯坦福人工智能实验室和斯坦福视觉实验室主任李飞飞教授(近期公开宣布加入 Google并担任Google Cloud Machine Learning负责人)带领团队,于2007年发起、2009年创建完成的图像识别数据集
ImageNet解决了这个问题。该数据集不仅图片种类达到惊人的1000种,同时每一类都含有超过1000张图片。新的海量数据集的出现挑战了计算机视觉的传统技术,推动了计算机视觉领域技术的发展,也让卷积神经网络一展所长。
1.3 深度学习方法提升计算机视觉准确度
目前计算机视觉领域最为流行也最为有效的技术是卷积神经网络。它是一种常见的深度学习架构,相比传统神经网络,卷积神经网络体积更小,能力更强。得益于现在强大的GPU并行运算能力,卷积神经网络已经由最开始的8层的AlexNet,到16层的VGGNet,再到152层ResNet,甚至更高,在ImageNet比赛中所取得的成绩也越来越优秀,自从2012年Hinton团队首次在该赛事中使用深度学习以来,Top5分类错误率已经从26.1%降低到不足3%。
表1:2012年以来ImageNet图像分类大赛冠军成绩
1.4 计算机视觉在众多领域得到应用
计算机视觉作为人工智能的研究方向之一,主要目的在于使得计
算机能识别、分辨甚至理解不同的图像、视频及复杂场景。在自动驾驶、机器人、AR/VR、金融、安防以及医疗领域均得到应用。
表2:计算机视觉技术在众多领域得到应用
二、知名研究机构和创业团队
2.1 国外研究机构和学术达人
国外计算机视觉相关的研究,除了耳熟能详的Google、微软、Facebook等工业界科技巨头有所涉及之外,一些著名高校也设有专门的实验室,如斯坦福、麻省理工以及伯克利等。