《人工智能开源硬件与python编程实践》课件-项目4 基于计算机视觉的物体形状检测

合集下载

教学配套课件：人工智能开源硬件与python编程实践

• RGB565彩色模式，一个像素占两个字节，即16位。第一个字节的前5位用来表示R(Red)，第一个字节的后三位连同第二个字节的前三位用来表示G(Green)，第二个字节的后5位用来表示B(Blue)。一个像素的16位颜色信息中，高5位为R 分量，中间6位为G分量，低5位为B分量。
2022/3/2
set_pixformat(sensor.RGB565) #设置为565彩色；
知识拓展：灰度图像
• 灰度图像是每个像素只有一个采样颜色的图像，通常显示为从最暗黑色到最亮的白色的灰度。
• 黑白图像只有黑白两种颜色，灰度图像在黑色与白色之间还有许多级的颜色深度。
• 图像灰度级指图像中的色度分量亮度的最大值与最小值之差的级别。一般使用8位数据来表示灰度，这样灰度共有256级。
• 以While程序结构为例，重点体会Python的缩进规则，进一步了解和体验Python语言中if、for和函数定义等程序模块的结构设计。如果不遵守缩进规则，会是什么结果？
• 课程中所编写的程序是运行在智能硬件上，属于嵌入式编程。请从硬件的工作频率、内存、外存、输入输出接口、摄像头等附件的性能、编程库的调用等方面分析，嵌入式 Python与运行在电脑上的Python程序在编程方法上有哪些异同？
• 易于学习、易于掌握、易于推广普及； • 已经被移植在各种系统平台，扩展库特别
丰富。
2022/3/2
知识拓展：Python编程基础
• 变量与赋值 • 列表、元组及切片操作 • 语句 • 程序结构（顺序、条件、循环） • 函数 • 对象 • 注释
Python嵌入式编程
• 固化库、外部库的导入和引用； • MPU资源的引用； • OpenAI开源硬件常用嵌入式程序结构

《人工智能开源硬件与python编程实践》课件-项目2 视频捕捉与处理Python编程

人工智能开源硬件与python编程实践
视频捕捉与处理 Python编程
2020/9/24
情境导入
火车站“刷脸”进站模式采用了人脸识别技术。检票闸机上都安装了摄像头，旅客走近机器时，摄像头实时采集含有人脸的视频流，并自动在图像帧中检测和跟踪人脸，进而对检测到的人脸进行特征识别，与身份证芯片里的照片进行比对。
票证信息相符以及人脸与证件照比对通过，闸机就会自动放行。
任务与目标
了解视频与图像的基本原理、相关技术和应用框架；
掌握运用人工智能开源硬件进行摄像头工作控制的方法，掌握Python语言的编程方法；
应用人工智能开源硬件和Python相关算法模块设计视频采集与捕捉功能；
针对生活应用场景，进一步开展创意设计，设计具有实用价值的set_framesize(sensor.QVGA) #设置图像的分辨率；
知识拓展：图像存储格式
彩色图像由RGB三个分量组成。Bitmap图像格式由三个颜色通道组成，每个通道用8位数据来表示，各有 256 个可能的值。所以，Bitmap图像又称为24 位真彩色图像，也被称为RGB888格式。
# 获取一张图像
sensor.snapshot() #拍摄一张照片，返回一个image对象。
2020/9/24
功能拓展
通过摄像头捕捉到视频图像；按下板上按键，保存图像帧到板上Flash存储中；模拟实现相机功能。
2020/9/24
完整案例：
import sensor, image, time
。
2020/9/24
知识拓展：分辨率
摄像头的分辨率是指摄像头解析图象的能力，也即摄像头的影像传感器的像素数。
最高分辨率就是指摄像头能最高分辨图像的能力，即摄像头的最高像素数。30万像素CMOS摄像头的最高分辨率一般是分辨率为640×480 。

《人工智能开源硬件与python编程实践》课件-项目11 计算机视觉与二维码识别

镜头畸变校正的Python代码如下：
img = sensor.snapshot()
img.lens_corr(1.3) # strength of 1.3 is good for the 2.8mm lens.
二维码的识别
image.find_qrcodes([roi])方法查找 roi 区域内的所有二维码，返回一个 image.qrcode 对象的列表。
这种方式使符号可以表示缺省字符集以外的数据（如阿拉伯字符、古斯拉夫字符、希腊字母等），以及其他解释（如用一定的压缩方式表示的数据）或者对行业特点的需要进行编码。
QR Code码可高效地表示汉字，相同内容，其尺寸小于相同密度的 PDF417条码。市场上大部分条码打印机都支持QR code条码，其专有的汉字模式更加适合我国应用。
设计与实践
二维码的定位与检测图像畸变校正二维码识别Python程序调试、验证及完善
二维码结构特征
二维码扫描首先要做的就是要发现下图中三个黑色正方形区域，如果找到这个三个区域，就成功的检测到一个二维码了；
三个角上的正方形区域从左到右，从上到下黑白比例为1:1:3:1:1。
知识拓展：二维码的特点
编码信息容量大。可容纳多达1850个大写字母，或2710 个数字，或1108个字节，或500多个汉字，比普通条码信息容量约高几十倍。
编码范围广。二维码可以把图片、声音、文字、签字、指纹等可以数字化的信息进行编码，用条码表示出来；可以表示多种语言文字；可表示图像数据。
print(code)
二维码的识别
find_qrcodes函数只能用于识别QRCODE码，应用时需要注意；
可以利用串口终端显示区观察二维码的识别情况，通过print(code)把识别出的二维码信息显示出来；

《人工智能开源硬件与python编程实践》课件-项目11 计算机视觉与二维码识别

人工智能开源硬件与python编程实践
计算机视觉与二维码识别
2020实就是通过“用户手机-二维码-云端后台-智能车锁”之间的信息传递来完成的。
用户使用手机先扫单车上二维码，而后向云端发起解锁请求。云端对用户信息、单车信息进行核查，而后将授权信息发送给手机。用户通过手机蓝牙接口将解锁指令和授权信息传递给单车的智能锁，智能锁核验授权信息后解锁，并将解锁成功的信息通知手机。手机将解锁成功的信息回复给云端，云端开始给用户计费。
这种方式使符号可以表示缺省字符集以外的数据（如阿拉伯字符、古斯拉夫字符、希腊字母等），以及其他解释（如用一定的压缩方式表示的数据）或者对行业特点的需要进行编码。
QR Code码可高效地表示汉字，相同内容，其尺寸小于相同密度的 PDF417条码。市场上大部分条码打印机都支持QR code条码，其专有的汉字模式更加适合我国应用。
知识拓展： QR码图形结构
QR码的图形要可以分为编码区和功能图形如图所示,编码区又可以分为数据与纠错码、个格式信息模块和个版本信息模块版本号大于,功能图形主要包括寻像图像、定位图像以及校正图像。
知识拓展：二维码解码识别技术
分为五个步骤：图像预处理、定位与校正、读取数据、纠错以及译码。
任务与目标
了解图像处理及二维码识别技术的基本原理、相关算法和应用框架；
掌握运用人工智能开源硬件设计智能应用系统的方法，掌握Python语言的编程方法；
应用人工智能开源硬件和Python相关算法模块设计二维码扫描与识别应用系统；
利用Python编程，编写二维码提取及识别算法，实现对二维码的识别解码功能，针对生活应用场景，进一步创新设计具有实用价值的二维码应用系统。
镜头畸变校正的Python代码如下：

《人工智能开源硬件与python编程实践》课件-项目15 语音识别与Python编程实践

语音识别处理器内含有事先训练好的声学模型参数库，由大批量非特定人普通话连续语音语料训练而成，支持ASR连续语音识别，应用时不需要再进行任何录音训练。
定义语音识别工作场景
语音识别处理器允许用户定义一张识别关键词语列表，应用中还可以动态编辑和维护这张识别关键词语列表。只需要把关键词语以字符串的形式传送给芯片，即可以在下次识别过程中生效。每个关键词语可以是单字、词组、短句或者任何的中文发音的组合。
按键
ASR处理器拾音器
语音识别处理器
语音识别处理器基于ASR技术，具有降噪、端点检测、语音识别等功能。语音识别处理器内置有高精度的A/D和D/A通道，设计时直接把拾音器连接在处理器芯片的AD 引脚上，不需要外接 AD 芯片，不需要外接辅助的Flash 和 RAM，就能完成说话语音的实时采集。
隐马尔科夫模型的应用cmu的李开复实现了第一个基于隐马尔科夫模型的大词汇量语音识别系统sphinx它是第一个高性能的非特定人大词汇量连续语音识别系统在声学识别层面以多个说话人发音的大规模语音数据为基础通过对连续语音中上下文发音变体的hmm建模语音音素识别率有了长足的进步语音信号的特征是随时间变化的具有短时性在550ms的一段时间间隔中保持相对稳定一致的特性
结合本次编程实践，重点体会自定义函数在Python应用系统中的作用，进一步了解和体验Python语言中函数定义程序模块的结构设计方法。
在语音识别应用中，相似音容易造成识别上的混淆，这对实际应用系统工作有什么影响？如何改进你的系统设计尽量减少相似音的负面影响？
在语音识别应用中，周围环境中的噪音，对语音识别将产生很大干扰。在系统设计中有没有针对性的办法？请思考，如何尽量降低噪音对语音识别效果的影响？请提出设计方案。

人工智能全套课件.

一、教学内容二、教学目标1. 理解机器学习的基本原理，掌握主要的分类和回归算法。

2. 学习神经网络的架构，了解深度学习在多个领域的应用。

三、教学难点与重点教学难点：神经网络的结构与训练过程，深度学习的具体应用。

教学重点：机器学习的基本概念，各类算法的原理及实现。

四、教具与学具准备1. 电脑及投影设备，用于展示课件和实例。

3. 笔记本和教材，供学生记录重点内容。

五、教学过程2. 理论讲解：介绍机器学习的基本概念，讲解各类算法原理。

3. 实例演示：以图像识别为例，展示神经网络的构建与训练过程。

4. 随堂练习：让学生运用所学知识，完成简单的分类和回归任务。

5. 深度学习应用：介绍深度学习在自然语言处理等领域的应用案例。

六、板书设计1. 机器学习基础：分类算法、回归算法。

2. 神经网络与深度学习：结构、训练、优化。

3. 应用案例：图像识别、自然语言处理。

七、作业设计1. 作业题目：（1）简述机器学习的基本概念及其应用。

（2）比较线性回归和逻辑回归的异同点。

2. 答案：（1）机器学习是指让计算机通过数据学习，不断提高性能的过程。

应用领域包括：搜索排名、推荐系统、语音识别等。

（2）线性回归和逻辑回归的异同点：同：都是回归算法，通过优化目标函数求解参数。

异：线性回归适用于连续型输出，逻辑回归适用于二分类输出。

（3）神经网络训练过程：输入数据、前向传播、计算损失、反向传播、更新权重。

八、课后反思及拓展延伸1. 反思：关注学生在课堂上的参与度，及时解答疑问，提高教学效果。

2. 拓展延伸：鼓励学生深入学习相关领域知识，如计算机视觉、自然语言处理等，提高实际应用能力。

组织课外实践活动，让学生在实际项目中锻炼技能。

重点和难点解析：1. 教学难点：神经网络的结构与训练过程。

2. 实例演示：以图像识别为例，展示神经网络的构建与训练过程。

3. 作业设计：神经网络训练过程的详细解答。

详细补充和说明：一、神经网络的结构与训练过程1. 初始化：为神经网络中的权重和偏置赋予随机值。

人工智能开源硬件python编程实践试题答案

《人工智能开源硬件与python编程实践》试卷答案一、单项选择题（每题2分，共20分）1、下列编程语言及工具中，开放源代码的是（）A. C++B. JavaC. PythonD. VB2、Python程序中，自定义函数的语句块使用（）方式来表示起始和结束。

A. 使用括号{}B. 使用括号[]C. 使用括号()D. 缩进3、OpenAIE硬件中能够运行Python程序是因为MPU芯片中固化有（）A. IDE开发环境B. 编译器C. 解释器D. Python库4、如果要利用OpenAIE IDE编程工具辅助进行程序调试，可以利用（）中交互的信息。

A. 视频显示区B. 串行终端监视区C. 外部调试文件D. 新建调式窗口5、关于轨迹跟踪与拟合方法，说法错误的是（）A. get_regression方法只能处理黑线B. get_regression方法进行线性回归计算C. get_regression方法最小二乘法D. get_regression方法也可以用来对复杂些曲线轨迹进行拟合6、某同学自行采集人脸样本图像进行Haar模型训练，正确的过程包括（）A. 每张人脸只选一张照片纳入训练集，选另一张照片纳入测试集B. 选一部分人脸照片作为正样本，选另一部分人脸照片作为负样本C. 对采集的样本照片进行规范化，统一图像格式和宽度比D. 训练后，使用负样本进行模型测试7、下列属于经典卷积神经网络模型的是（）A. AlexNetB. PyTorchC. CaffeD. frontface8、手写体数字识别可以使用以下哪种模型？（）A. cifar10B. Lenet5C. Haar CascadeD. Smilenet9、下列哪种技术应用在语音识别领域？（）A. HMMB. LenetC. HaarD. Canny10、语音识别应用中，常常针对特定应用场景设置命令词及短语列表，这样做的原因是（）A. 抗噪声B. 消除相似音影响C. 受声学模型词汇集的限制D. 改善识别性能二、概念解释（每题5分，共20分）1、Hough变换2、二维码3、卷积神经网络4、ASR语音识别三、简答题（每题10分，共30分）1、OpenAIE人工智能硬件中固化了哪些Python编程库？2、简述基于OpenAIE硬件的语音识别应用程序设计过程。

人工智能基础与应用配套课件

内容导航
CONTENTS
了解人工智能
第1章人工智能概述
16
了解深度学习
人工智能发展现状人工智能机器学习框架
怎样学习人工智能
1.3 人工智能发展现状
第1章人工智能概述
17
➢ 在竞赛领域，在ILSVRC的图像分类比赛中，2012年，AlexNet网络（一个7层的卷积神经网络）将图像分类的错误率从2011年的 26%下降到16%。
➢ 当然，手机的语音助手也可以有相同的功能，如Siri、小爱同学等。
1.1 了解人工智能
3．机器翻译
第1章人工智能概述
8
在日常学习或者工作中，人们经常会有一些单词不认识或者要把某句话翻译成英语，目前借助软件或者网页就可以实现中英文互译。这里举一个例子，当翻译“我在周日看了一本书” 的时候，人工翻译可以很好地翻译出“I read a book on Sunday”，但是对于机器而言，它有着不同的翻译结果，首先就是一词多义的问题，如“看”这个词，可以翻译为 “look”“watch”“read”等，其次就是语序问题，“在周日”这样的时间状语一般习惯放在句子后面，在翻译时需要做到“信、达、雅”，现在基于深度学习的翻译基航
CONTENTS
了解人工智能
第1章人工智能概述
18
了解深度学习
人工智能发展现状人工智能机器学习框架
怎样学习人工智能
1.4.1 机器学习框架简介
第1章人工智能概述
19
常用的人工智能机器学习的基本框架包括TensorFlow、PaddlePaddle、Caffe、PyTorch、MXNet等，其说明如表1-1所示。
1.2 了解深度学习
第1章人工智能概述

《人工智能开源硬件与python编程实践》课件-项目5 计算机视觉目标跟踪系统

针对生活应用场景，进一步开展创意设计，设计具有实用价值的目标跟踪应用系统。
知识拓展：Lab颜色空间模型参数
L是亮度，取值范围是L∈（0,100）；a为颜色在红绿轴的分量，取值范围是a∈（-128，127）； b为颜色在蓝黄轴的分量，取值范围是b∈（-128 ，127）。一些算法库对Lab模型参数做了量化对齐处理，使其处于0-255范围，具体做法是： L=L*2.55，a=a+128，b=b+128。
继续拖动各B参数的最大值和最小值通道上的指针，尽量消除非红色像素点，得到最好的效果
设计与实践
镜头畸变的校正通过像素统计进行颜色检测调试、验证及完善程序
镜头畸变的校正
摄像头会遇到镜头畸变的问题。根据近大远小的光学原理，在感光芯片的边缘位置会出现桶型畸变，成像中会产生鱼眼效果；
以下图中的红色色块Lab建模为例：
启动阈值编辑器
在OpenAIE IDE开发环境中，从顶部菜单的“工具”栏里，依次进行操作：选择工具->机器视觉>阈值编辑器
选择建模源图像
阈值编辑器操作界面
左上是源图像显示区，显示导入的图像帧。右上是色块跟踪区，显示按照当前Lab阈值参数进行颜色跟踪的情况。该区域显示的是二值化图像，白色像素是被跟踪的像素。
阈值参数调节继续拖动各b参数的最大值和最小值通道上的指针尽量消除非红色像素点得到最好的效果拖动a参数的最大值和最小值通道上的指针尽量消除非红色像素点排除其余颜色的干扰
人工智能开源硬件与python编程实践
计算机视觉目标跟踪系统
情境导入
乒乓球、足球等机器人中涉及的关键技术是利用计算机机器视觉技术实现对球形的识别和实时跟踪，引导机械臂完成击球动作。

Python人工智能技术与应用课件：认知Python基础命令

机器学习的分类方法
（三）人工智能相关的Python知识
在Python中，一系列类、函数会封装在模块中，构成一个个优秀的库（Library），方便使用者在各种场合使用。简而言之就是指封装特定的功能，完成特定任务的文件。
标准库（Standard Library）
第三方库（Third Library）
if 语句
elif语句
else语句
if语句检查一个条件，如果条件为真，则执行相应的代码块，如果条件为假，则跳过代码块。
lif语句用于检查其他条件，如果条件为真，则执行相应的代码块，如果条件为假，则跳过代码块。
else语句用于在所有条件都不满足的情况下执行代码块。
Python选择和循环语句
计算机程序 Python程序
......程序

将程序中的数据输出到文件
中Output
计算机中文件文件可以长久保存
数据
从文件中读取数据输入到程序中：
Input
Python文件的输入与输出（文件I/O流程）
深度学习技术原理与常用算法
Python常用文件操作及其解释说明
Python 文件操作
打开/关闭文件
读写文件
查找文件文件复制文件移动删除文件
解释说明
使用open()函数打开文件，使用 close()函数关闭文件
Python函数有两类函数
➢内建函数，比如print() ➢提供创建函数的功能，即用户自定义函数
Python函数关键概念函数参数函数体返回值
机器学习的分类方法
最上层是函数定义时声明的变量，用于接收外部传入的实参值，以便在函数体内使用。
倒数第二层函数体是函数定义中的一部分，用于定义函数执行的功能，函数体可以包含多条语句，也可以是空语句。

《人工智能开源硬件与python编程实践》课件-项目16 语音交互控制智能相机设计综合实践

特征提取之后的处理分为两个步骤：第一步是训练阶段，构建模型参数库，词表中每个词重复发音多遍进行采样，再经特征提取和某种训练中得到。第二步是识别阶段，按照一定的准则求取待测语音特征参数和语音信息与模式库中相应模板之间的失真测度，最匹配的就是识别结果。
2020/9/24
知识拓展： DNN进行语音数据训练
从顶向下的监督学习，就是用有标签的数据调整所有层的权值和阈值，按照误差反向传播算法( back propagation，BP) 自顶向下传输，对网络进行微调( tune-fining) 。
知识拓展：利用DNN进行语音特征提取
深度自动编码器是一种深度学习神经网络，其输入和输出具有相同的维度。由于它以在输出层重构出原始输入作为目标，不需要额外的监督信息，因而可以直接从海量未标注原始数据中自动学习数据特征。
成照片；
语音交互与智能控制的自拍相机流程图
启动视觉模块启动语音识别模块
语音命令词识别
否 “拍照”指令
是无
人脸检测有
无笑脸检测有
暗亮度检测亮有保存当前图像帧
无线网络发送图像帧文件
提示提示补光
语音识别库编程方法
ASR库提供与语音识别相关的asr对象，pyb库包括led、 button、serial等对象，分别与板上集成的LED彩灯、按键、串口对应。serial对象提供初始化set()、发送send()、接收receive()等方法。asr对象主要提供设置工作场景命令词add_cmd()、启动识别过程run()、获取识别结果 get_res()等方法。
语音识别过程
实现语音识别功能的流程是：初始化-->添加关键词识别列表-->开始识别-->等待识别结果。实现 ASR类导入及初始化、工作场景设置以及启动语音识别过程的Python程序代码示例如下：

人工智能最新版课件

一、教学内容二、教学目标1. 理解机器学习的基本概念，掌握常见的机器学习算法及应用场景。

2. 了解深度学习的原理，掌握神经网络、卷积神经网络和循环神经网络的基本结构及其应用。

3. 培养学生的编程实践能力，能利用相关算法解决实际问题。

三、教学难点与重点难点：深度学习的神经网络结构及其应用。

重点：机器学习的基本概念、算法及应用；深度学习的原理及其在实际问题中的应用。

四、教具与学具准备1. 课件：包含教材内容的讲解、案例分析和实践操作演示。

2. 编程环境：Python编程环境，安装TensorFlow和PyTorch等深度学习框架。

3. 硬件设备：计算机、投影仪等。

五、教学过程2. 知识讲解：（1）介绍机器学习的基本概念、分类和回归算法。

（2）讲解深度学习的原理，展示神经网络、卷积神经网络和循环神经网络的结构。

3. 例题讲解：结合实际案例，演示如何利用机器学习算法和深度学习框架解决实际问题。

4. 随堂练习：让学生动手实践，加深对知识点的理解和掌握。

六、板书设计1. 机器学习基本概念、分类和回归算法。

2. 深度学习原理、神经网络结构及其应用。

3. 实践案例和随堂练习。

七、作业设计1. 作业题目：（1）简述机器学习的基本概念及其分类。

（2）利用线性回归算法预测某城市未来一周的气温变化。

（3）编写一个简单的神经网络模型，实现手写数字识别。

2. 答案：八、课后反思及拓展延伸2. 拓展延伸：（1）学习其他机器学习算法，如支持向量机、决策树等。

（2）深入研究深度学习框架，如TensorFlow、PyTorch等。

重点和难点解析1. 教学难点与重点的确定。

2. 例题讲解与实践操作的深度。

3. 作业设计的针对性与实用性。

4. 课后反思与拓展延伸的深度与广度。

一、教学难点与重点的确定（1）难点：深度学习的神经网络结构及其应用。

详细说明：深度学习的神经网络结构较为复杂，涉及大量数学和计算机科学知识。

在教学过程中，应着重讲解神经网络的基础知识，如激活函数、反向传播算法等，并通过实例演示不同类型的神经网络结构（如卷积神经网络、循环神经网络）在具体问题中的应用。

Python人工智能技术与应用课件：调研分析计算机视觉技术

（二）传统机器学习中的特征提取技术
手动设计：传统机器学习中，需要手动设计特征提取器来将输入数据转换为机器学习算法可以处理的格式。
➢ 手动微调:视觉工程师必须决定寻找哪些特征以检测图 ➢ 重新设计和调整:这通常需像中的特定对象，并且为每要领域专业知识和大量试错，个类别选择正确的特征。当而且随着数据集的变化，特可能的类别数量增加时，该征提取器可能需要重新设计方法将变得十分复杂。工程和调整。人力成本和时间成师还必须手动微调许多参数，本极高。例如颜色，边缘，质地。
对象可变性高对象方向多变特征刚性物体有固定位置和方向已知
应用特点
不确定未知缺陷足够的可用图像
具体特征需要较高透明度
计算机视觉的主要功能
A
B
C
分类（Clas-sification）
D
检测
识别
（Detection）（Identification）
E
分割（Segmentation）
图像滤波与降噪
检测车道线对于自动驾驶汽车而言，车道线的削减可能会带来灾难性的后果。采用分割技术来检测车道线，使得自动驾驶车辆在行驶时保持在规定的车道上，同时还能检测弯道并按照道路转弯，从而为乘客提供安全的行驶体验。
计算机视觉技术的应用
（二）其他行业应用
农作物环境检测
农业行业
计算机视觉在农业中的应用主要是用来检测农作物的健康状况、病害的发生和虫害的检测，以及农作物成熟度的评估。
计算机视觉技术发展历程
（四）基于传统机器学习和基于深度学习的计算机视觉技术典型应用场景
当前深度学习与传统机器学习算法技术典型应用场景与应用特点
深度学习
传统视觉方法
典型应用

Python中的计算机视觉实践及应用

Python中的计算机视觉实践及应用计算机视觉（Computer Vision）是指让计算机系统能够获取、解析、分析和理解现实世界的图像和视频的能力。

计算机视觉领域是近年来非常热门的研究方向，其发展已经不再仅仅是理论研究，而是涉及到了许多实际的应用。

Python作为一种易于学习和使用的高级编程语言，是计算机视觉开发中的重要工具之一。

本文将结合实践案例，介绍Python在计算机视觉中的应用和实践。

一、计算机视觉的基础计算机视觉是由信号处理、图像处理、人工智能、模式识别等多种学科交叉而来，其核心是图像处理和模式识别，在此基础上发展了一系列技术和方法。

在计算机视觉中，常见的基础算法包括图像预处理、图像分割、特征提取、目标检测、目标跟踪等。

1.图像预处理图像预处理是指对输入图像进行一系列预处理操作，以提高后续算法的性能。

常见的图像预处理技术包括图像增强、噪声去除、图像平滑等。

在Python中，可以使用Pillow和OpenCV等库来实现图像预处理。

2.图像分割图像分割是指将图像中的目标和背景分离的过程。

常见的图像分割算法包括阈值分割、边缘检测、区域生长等，这些算法可以大幅度减少后续算法的计算量。

在Python中，可以使用OpenCV和Scikit-image等库来实现图像分割。

3.特征提取特征提取是指从图像中提取出有用信息的过程，它是计算机视觉中最核心的问题之一。

常用的特征提取算法包括边缘检测、角点检测、纹理特征等。

在Python中，可以使用OpenCV、Scikit-image和TensorFlow等库来实现特征提取。

4.目标检测目标检测是指在图像或视频中自动检测出感兴趣的目标的过程。

常用的目标检测算法包括基于特征的方法、基于深度学习的方法等。

在Python中，可以使用OpenCV和TensorFlow等库来实现目标检测。

5.目标跟踪目标跟踪是指在视频序列中持续追踪一个目标的过程。

常用的目标跟踪算法包括卡尔曼滤波、粒子滤波等。

《人工智能开源硬件与python编程实践》课件-项目8 计算机视觉与人脸检测

➢检测人脸使用image.find_features(cascade[, threshold=0.5[, scale=1.5[, roi]]])方法，搜索与Haar Cascade匹配的所有区域的图像，返回所检测到的边界框矩形元组(x，y，w，h)列表。若未发现，则返回空列表。 ➢cascade 是Haar Cascade对象。threshold 是浮点数（0.0-1.0），较小的值在提高检测速率同时增加误报率。 scale 是必须大于1.0的浮点数。较高的比例因子运行更快，但其图像匹配相应较差。理想值介于1.35-1.5之间。
分类则是按照某种标准给对象贴标签，再根据标签来区分归类。也就是说，分类情况下事先定义好了类别，类别数不再变化。
知识拓展：区别与联系
分类器需要事先由包含人工标注类别的训练数据训练得到，属于有监督的学习。
聚类则没有事先预定的类别，类别数不确定。聚类不需要人工标注和预先训练分类器，类别在聚类过程中自动生成，是一种无监督学习。
高准确率。
知识拓展：利用haar算子实现人脸检测
对比检查分成了多个阶段，后一阶段的运行以先前阶段的完成为前提。
设计与实践
摄像头工作参数设置加载Haar算子启动人脸检测 Python编程及实现运行结果分析
摄像头工作参数设置
Haar Cascade算法采用的是黑白像素特征，积分图也是在灰度图像上生成的。在人脸检测应用中，摄像头要设置为灰度图模式：
智能手机的相机功能也都采用了自动跟踪人脸、自动对焦的技术，辅助人们拍下美好画面。
人脸检测与自动跟踪技术在校园出入控制、智慧教室等系统中均有应用，也是进一步开展人脸识别的基础。
任务与目标
了解人脸检测技术的基本原理、Haar相关算法和应用框架；

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

y_stride 是霍夫变换时需要跳过的y像素的数量。若已知直线段较长，可增加y_stride 。
threshold 控制从霍夫变换中监测到的圆。只返回大于或等于阈值的圆。一个圆的大小是组成圆的所有索贝尔滤波像素大小的总和。
margin的分量x_margin、y_margin和r_margin用来控制所检测的圆的合并。
圆形检测find_circles方法
image.find_circles()方法，使用霍夫变换在图像中查找圆，返回一个image.circle对象列表；
x_stride是霍夫变换时需要跳过的x像素的数量。若已知圆较大，可增加 x_stride 。
y_stride是霍夫变换时需要跳过的y像素的数量。若已知圆较大，可增加 y_stride 。
经验及调试方法
image.circle对象有四个值：x，y，r (半径)和magnitude。magnitude 是检测圆的强度，值越高越好
roi是一个用以搜索的矩形区域(x, y, w, h)，图像操作范围仅限于roi区域内的像素。如果未指定，默认的roi即整幅图像。
x_stride是霍夫变换时需要跳过的x像素的数量。若已知圆较大，可增加x_stride。
利用霍夫变换完成空间映射；
用计数器统计出现次数最高的未知系数组合，如 (ρ,θ)等。
知识拓展：直线检测
根据提取出的很多特征点(X0,Y0)，(X1,Y1)，...， (Xn,Yn)求待拟合直线Y=kX+b中的斜率k和偏移b 。
通过任意两点得到若干组（k,b），选取出现次数最多的一组(k,b)就是要求的参数。
知识拓展：图像预处理方法
灰度化二值化图像增强图像去噪边缘检测
知识拓展：灰度化
灰度化是一种常用的图像预处理方法，它将彩色图像转化为灰度图像，应用在图像分析与识别等应用中；
在RGB空间中，空间的原点对应的是黑色，距离原点最远的那个顶点对应的是白色。原点和白色顶点的连线段上对应了从黑色到白色的灰度值，也称亮度值；
通过选取合适的阈值，将256个不同等级的灰度图像进行划分，划分结果仍然可以描绘图像的整体或局部特征，这样就实现了图像检测主要是侦测诸如直线、圆形、椭圆形、矩形等几何形状，常用的算法是霍夫变换。
霍夫变换是通过直角坐标系和极坐标系之间的变换将图像空间中具有相同特征的直线或者曲线映射到参数空间中的一个点上，然后在参数空间中对点进行描述，使结果更易识别和检测，最后用累加器进行累加，从而把检测图形的问题转化为寻找最大累加值的问题。
把图像平面上的特征像素点映射到参数平面上，通过累计可能会出现几组参数峰值点，可以检测出图像中的多条直线。
知识拓展：圆检测
对圆的检测本质上就是求三个参数(x0,y0,r)，所以就可以通过任意三点求解三个未知数，然后对 (x0,y0,r)这个集合投票，最终出现次数最多的一组参数就是决定圆方程的参数。
分析与思考
find_rects方法可以快速实现矩形的检测与追踪。生活中经常会遇到三角形、菱形等其它几何形状的物体（如图），利用霍夫变换检测直线的方法有助于这些形状的检测吗？利用网络查阅相关技术方法，给出解决方案。
利用find_circles函数可以实现圆形物体的识别追踪，实际生活中会有识别椭圆等形状物体的需求。如何参考圆的检测原理，进行椭圆等形状物体的追踪？利用网络查阅相关技术方法，给出解决方案。
for r in img.find_rects(threshold = 25000): #查找矩形，阈值=10000
img.draw_rectangle(r.rect(), color = (255, 0, 0)) 颜色为红色
#画出矩形，
for p in r.corners():
#找出矩形的四个角
img.draw_circle(p[0], p[1], 5, color = (0, 255, 0))# 四个角顺时针画出绿色的半径为5像素的圆形
threshold控制从霍夫变换中监测到的圆。只返回大于或等于 threshold 的圆。应用程序的正确的 threshold值取决于图像。注意：一个圆的大小 (magnitude)是组成圆所有索贝尔滤波像素大小的总和。
圆形检测例程
while(True): img = sensor.snapshot().lens_corr(1.3) #进行镜头畸变校正，去除图像中的鱼眼效应； for c in img.find_circles(threshold = 2500, x_margin = 10, y_margin = 10, r_margin = 10,r_min = 2, r_max = 100, r_step = 2): #以圆心（c.x(), c.y()）和半径c.r()，用黄色画圆； img.draw_circle(c.x(), c.y(), c.r(), color = (255, 255, 0))
灰度图像只含有亮度信息，不含色彩信息，其亮度是连续变化的，要表示灰度图像就需要把亮度值进行量化，通常把灰度划分为256个灰度级，从0到255。
知识拓展：二值化
值化也是图像预处理的一种技术，又称图像黑白化。
通过二值化的处理，可以凸显出图像的轮廓。它将像素点的灰度值设置为0或者255，不采用其它灰度值，目的是使整个图像都呈现出黑白效果。
Threshold参数的取值要根据应用场景的情况进行调节。在矩形边缘处所有像素上滑动索贝尔算子并进行累加，边界值小于 threshold的矩形会进入返回列表。
矩形检测例程
while(True):
clock.tick()
img = sensor.snapshot()
# find_rects中threshold应设置为足够高的值，以滤除在图像中检测到的具有低边缘幅度的噪声矩形。最适用与背景形成鲜明对比的矩形。
人工智能开源硬件与python编程实践
基于计算机视觉的物体形状检测
情境导入
视觉分拣机器人，利用视觉系统采集图像，计算机系统进行图像处理，先完成特征点检测、轮廓检测等过程，再进行图像匹配或形状识别。
生活中经常遇到需要对物体形状进行判断的情形，自动拣球机可以发现视野内的乒乓球、高尔夫球、足球等圆形物体，餐盘识别系统可以发现矩形、圆形等指定形状的餐盘。学习物体形状检测方法，了解相关应用技术，具有实际意义。
知识拓展：霍夫变换的步骤
用canny算子进行边缘轮廓提取。在做霍夫变换时，如果将所有的像素点都做映射处理，会导致计算量太大，一般都是先用canny算子对边缘轮廓做提取，尽可能的去掉平滑区域的点，减少计算量；
利用二值化的方法以及开闭等形态学操作提取轮廓，去掉噪声等扰动，求得在拟合线性方程时尽可能准确；
设计与实践
形状检测Python编程接口圆形检测编程矩形检测编程调试、验证及完善
形状检测编程接口
人工智能开源控制板上集成的Python视觉库中提供利用霍夫变换检测直线、圆形、矩形的算法；
提供find_lines方法进行直线检测；提供find_circles方法进行圆形检测；提供find_rects方法进行矩形检测。
利用霍夫变换进行圆检测，就是将图像空间中的边缘特征像素点映射到参数空间，然后把参数空间中的坐标点元素对应的累加值进行累加，最后根据累加值确定圆心和半径。
知识拓展：矩形检测
基于窗口霍夫变换与阈值分割自动识别图像中的矩形策略：通过图像窗口霍夫变换，提取霍夫图像的峰值（对应原始图像的线段），当四个峰值满足某些几何条件时，则检测出矩形。
r_min，r_max和r_step用来控制测试圆的半径。缩小测试圆半径的数值可以提升搜索性能。
阈值 threshold = 3500比较合适。如果视野中检测到的圆过多，需要增大阈值；相反，如果视野中检测到的圆过少，需要减少阈值。
矩形检测find_rects方法
image.find_rects()方法用于查找图像中的矩形，返回一个image.rect 对象的列表。该方法适用于检测与背景形成鲜明对比的矩形。
在形状追踪应用中，环境光照的变化对识别形状结果有影响吗？光照的影响严重到什么程度？请找到一种对策，并设计解决方案。
如何利用find_blobs、find_circles等方法，同时进行颜色识别与形状的综合识别？请尝试编程解决。
任务与目标
了解图像处理及图形识别技术的基本原理、相关算法和应用框架；
掌握运用人工智能开源硬件设计智能应用系统的方法，掌握Python语言的编程方法；
应用人工智能开源硬件和Python相关算法模块设计物体形状检测功能；
针对生活应用场景，进一步开展创意设计，设计具有实用价值的物体形状检测应用系统。

《人工智能开源硬件与python编程实践》课件-项目4 基于计算机视觉的物体形状检测

教学配套课件：人工智能开源硬件与python编程实践

《人工智能开源硬件与python编程实践》课件-项目2 视频捕捉与处理Python编程

《人工智能开源硬件与python编程实践》课件-项目11 计算机视觉与二维码识别

《人工智能开源硬件与python编程实践》课件-项目11 计算机视觉与二维码识别

《人工智能开源硬件与python编程实践》课件-项目15 语音识别与Python编程实践

人工智能全套课件.

人工智能开源硬件python编程实践试题答案

人工智能基础与应用 配套课件

《人工智能开源硬件与python编程实践》课件-项目5 计算机视觉目标跟踪系统

Python人工智能技术与应用课件：认知Python基础命令

《人工智能开源硬件与python编程实践》课件-项目16 语音交互控制智能相机设计综合实践

人工智能最新版课件

Python人工智能技术与应用课件：调研分析计算机视觉技术

Python中的计算机视觉实践及应用

《人工智能开源硬件与python编程实践》课件-项目8 计算机视觉与人脸检测

人工智能基础与应用配套课件