计算机视觉的一些基本概念
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
图像的基本知识
高度、宽度 假如一张照片的分辨率为:1920×1080,1920 就是照片的宽度,1080 就是图片的高度 深度 存储每个像素所用的位数,比如正常RGB的深度就是 2^8 *×3 = 256 × 3 = 768 , 那么 此类图片中的深度为768,每个像素点都能够代表768中颜色 通道数 RGB图片就是有三通道,RGBA类图片就是有四通道 颜色格式 是将某种颜色表现为数字形式的模型,比较常见的有:RGB模式、RGBA模式、CMYK模式、 位图模式、灰度模式、索引颜色模式、双色调模式和多通道模式。
计算机视觉的应用
计算机视觉是人工智能的眼睛。是未来自动化获取数据的主要渠道之一,也是处理数据的重 要工具之一。目前可以预想到的应用主要有如下:
无人驾驶 无人安防 人脸识别 文字识别 车辆车牌识别
以图搜图 VR/AR 3D重构 医学图像分析 无人机 more ……
计算机视觉是什么?
计算机视觉是一项研究如何让机器“看”的科学技术
是以光电传感器(摄像机、雷达等)和计算机为核心来模拟人类视觉的数字视觉系统 计算机利用光电传感器所采集的二维图像数据,建立三维或者高维真实世界 的模型,构建人工智能系统,可自行做出行为决策,或者辅助人类做出决策
摄像机
在实际应用当中,计算机视觉系统基本上都是通过不同种类的摄像机来获取数据,然后发送 给服务端(AI Server)进行处理,分类有: 监控摄像机(网络摄像机和模拟摄像机) 行业摄像机(超快动态摄像机、红外摄像机、热成像摄像机等) 智能摄像机 工业摄像机
源自文库
分辨率 每帧图片的分辨率 清晰度 平常看中,有不同清晰度,实际上就对应着不同的分辨率(每帧图像的分辨率) 视频编码 在网络视频流中,并不是把每一帧图片全部发送到客户端来展示,而是传输每一帧的差别数 据(IPB),客户端然后对其进行解析,最终补充每一帧完整图片
IPB帧 I帧:帧内编码帧(intra picture自身可以通过视频解压算法解压成一张单独的完整视频画面, 所以I帧去掉的是视频帧在空间维度上的冗余信息 。 P帧:前向预测编码帧(predictive-frame),需要参考其前面的一个I帧或者P帧来解码成一 张完整的视频画面 。 B帧:双向预测内插编码帧(bi-directional interpolated predictionframe),要参考其前 一个I帧或者P帧及其后面的一个P帧来生成一张完整的视频画面,所以P帧与B帧去掉的是视频 帧在时间维度上的冗余信息
CPU与GPU
绿色:计算单元 橙红色:存储单元 橙黄色:控制单元
Cache、Local Memory : CPU > GPU Threads(线程数):GPU > CPU Registers(寄存器):GPU > CPU SIMD Unit(单指令多数据流):GPU > CPU
CPU在设计上,低延迟,可是低吞吐量,CPU的ALU(算数运算单元)虽然少,可是很强大, 可以在很少的时钟周期内完成算数计算,或许数量少,就可以任性的减少时钟周期,所以其 频率非常高,能够达到1.532 ~ 3 (千兆,10的9次方)。 大缓存容量、复杂的逻辑控制单 元也可以减低延迟。
GPU在设计上,高延迟,可是高吞吐量。GPU的特点是有很多的ALU和很少的cache. 缓存 的目的不是保存后面需要访问的数据的,这点和CPU不同,而是为thread提高服务的。如果 有很多线程需要访问同一个相同的数据,缓存会合并这些访问,然后再去访问dram(因为 需要访问的数据保存在dram中而不是cache里面),获取数据后cache会转发这个数据给对 应的线程,这个时候是数据转发的角色。但是由于需要访问dram,自然会带来延时的问题。
视频的基本知识
原始视频 图片序列,视频中的每张有序图片被称为“帧(frame)”。压缩后的视频,会采取各种算法减 少数据的容量,其中ITUIPB就是最常见的。 码率 数据传输时单位时间传送的数据位数,通俗一点的理解就是取样率,单位时间取样率越大, 精度就越高,即分辨率越高 帧率 每秒传输的帧数,fps(有没有一种似曾相识的感觉~~~),全称为 frames per second, 我们看的电影帧率就是24fps,PAL(我国通用的电视视频制式)制式电视则为25fps