基于多小波分析的多层感知器驾驶行为识别技术
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
采用多小波变换和多层感知分类器的驾驶姿势识别技术
摘要
开发了以人为中心的驾驶员辅助系统(HDAS)实现自动检测和识别驾驶行为,提出了一种基于GHM的有效的驾驶姿势特征识别方式,利用多小波变换和多层感知器识别了四种预定义的驾驶姿势。从SEU创建的驾驶姿势数据库提取的特征,通过与IKSVMs 、kNN分类器和Parzen分类器相比,选用MLP分类器对驾驶姿势进行层实验和交叉验证试验。实验结果表明,基于GHM多小波变换和MLP分类器的特征提取,与IKSVMs, kNN分类器和Parzen分类器相比,使用softmax激活函数将激活层和双曲正切函数的隐层能提供最佳的分类性能。实验结果还表明,在四个预定义的分类中手机是最困难的一个,在维持和交叉验证实验中分别为83.01%和84.04%。这些结果表明以人为中心的驾驶辅助系统(HDAS)采用GHM多小波变换和MLP分类器来提取特征实现,自动检测和识别驾驶行为的方法是有效的。
1、驾驶姿势数据采集和规范化
在驾驶姿势数据收集工作使用罗技C905 CCD相机。通过10个男司机和10女司机采集驾驶姿势数,汽车在自然条件下的室外停车场,随着环境的变化改变灯光的强度。已经建立好的数据库有四种的驾驶姿势数据,即把握方向盘,变速杆操作,吃一块蛋糕和打电话。图1显示了驾驶姿势数据样本组成的80组驾驶姿势图片,每一张图片都有480×640像素的分辨率。
图一、四种驾驶姿势。(a)把握方向盘,(b)变速杆操作,
(c)吃一块蛋糕,(d)打电话
为了解决驾驶姿势数据采集图像的光照变化问题,采用提高图像质量的办法。称为同态滤波器(HOMOF), 即为著名的标准化方法。利用HOMOF,图像首先转换为对数,注重频域分析。然后通过逆傅里叶变换反向转换到时域,并采取适当的指数运算。对驾驶图像感兴趣的对象主要是类似皮肤颜色的区域,如驾驶员的头部,右手和左手。这是一个事实,人的肤色无论种族都有非常相似的色性能,在一定的光照条件下肤色检测可以是相当强大。彩色像素为肤色和非肤色可以通过在RGB空间进行标准化分类工作。一个RGB的坐标(R,G,B)为每个原色0和255之间的值被标准化到坐标(R0,G0,B0),可以利用下列关系:
标准化的颜色(r0,g0,b0)被归类到肤色,如果它位于这个区域,则可以用下面的方法来标准化RGB空间。
图2显示了四个肤色分割的HOMOF图像预处理结果。
图二、肤色分割处理结果
2、用多小波变换提取特征
基于机器视觉的人体姿态识别具有挑战性,主要是由于人体的动作和空间位置变化的复杂,由于需要采用鲁棒性来评价车辆在行驶过程中的光照条件使得这一问题更加复杂了。在本节中,我们展示了利用司机裸露的皮肤,以及司机的头部和左右手的空间位置来建立驾驶员的姿态特征。在一般小波的情况下,可以允许一个多分辨率的分析{V n},n∈N, L2(R)是一个有有限函数生成的拓展函数φ(t)=( φ0(t), φ1(t), …,φm-1(t))T,m∈N和t是一个时间变量,然后利用下面的多尺
度函数φ(t)T验证2尺度方程。
其中0≤cφ≥m-1,并且L1[c]是一个m×m阶实数低通矩阵。多分辨率结构给出了V1=V0+W0,其中W0在V1中与V0正交。我们可以基于W0构建一组正交基φ(t)=( φ0(t), φ1(t), …,φm-1(t))T,通过以下公式转换得到。
其中L2 [c]是通过实系数矩阵{L1[c]}得到的一个m×m阶实数高通矩阵。
其中0≤n1,n2≤n-1并且z 是一个矩阵变量。方程式(3)和(4)通过傅里叶变换转化为ψ(2ω) =L1(e jω)ψ(ω)和φ(2ω)= L2(e jω)φ(ω),J∈Z,其中ω 是角频率变量。此外,我们假设数列{L1(c),0≤c≤m-1} 和{L2(c),0≤c≤m-1} 是有限,因此ψ(t)和φ(t)会得到有力的支持。我们还假设通过矩阵史密斯—巴恩韦尔正交条件验证L1(z),这样的尺度函数及其整数形式转化为V0的标准正交基。因为,由于S(t)∈V0,我们可以得到
从V0=V-1+W-1,我们可以得到
然后,我们可以用下面的步骤推到出系数之间的的关系
从分析中,我们可以得到
Geronimo等人构建了一个最著名的多小波,称为Geronimo-Hardin-Massopust
(GHM)多小波具有两个重要的特性。即正规化的整数可以转化拓展为一两个逼近的函数。GHM 多小波变换需要用分辨率为2n1×2n2(n1,n2∈N)像素的图像以及利用肤色分割把图像从新缩放到的256×256 像素相同的维度。图 3 显示了一个利用GHM 多小波变换把图像分解到1,2,3不同等级的例子。利用GHM 多小波变换的细节系数矩阵,把每个图像分解到水平3,采用一阶和二阶的统计手段计算驾驶姿势特征向量的平均值和标准差,在本文中给出了一种1×(256×23+1)维的驾驶姿势特征向量的提取。
图三、GHM多小波图像分解
3、多层感知器的分类
在模式分类中,最常用的神经分类器是前馈反向传播多层感知器(MLP)。MLP使用反向传播算法,是检测和识别过程的标准算法。MLP在的解决随机问题方面研究也很有用,这往往许一个非常复杂的问题,通过适当的近似得到近似解。在本文中,以利用三层MLP分类器分类驾驶姿势,其结构如图4所示。
图四、三层分类感知器结构
在输入的层中,X=(x1…,x i…,x p)T是特征向量的驾驶姿势,而p是特征向量的维数。在隐藏的层中,W =(w11…,x ij…,x qp)T, 1≤i≤p, 1≤j≤q,是隐层的权向量
和q是隐层神经元数目。U=(u1…,u j…,u p)T是隐层加权向量,H=(h1…,h j…,h p)T是隐层输出值向量。在输出层中,W=(w
…,x rj…,x oq)T,1≤r≤0,是权重向量和o
11
是分类数。U=(u1…,u r…,u o)T是输出层的加权向量,Y=(y1…,y r…,y o)T是驾驶姿势类别。在三层,σh和σ 0分别是在隐的层和输出层的激活传递函数。四个激活传递函数常用应用在模式分类中,如下。
线性激活函数
Logistic激活函数
Softmax激活函数
双曲正切激活函数
线性激活函数只在整个实数范围内产生了正数。Logistic函数是一种常见的S形曲线,用Verhulst给定其名称和尺度,根据公式(13)输入数据(0,1)。Softmax 激活函数由Bridle提出,所有的输出值介于0和1之间,它们的和是1,这是一个概括的多变量逻辑函数。双曲正切函数被定义为双曲正弦和余弦函数之间的比率。在我们设计的多层感知器结构中,与采用双曲正切函数的隐层和输出层相比,分别采用了其他三个的激活函数,即线性激活函数、Logistic激活函数和Softmax 激活功能。
莱文伯格—马夸特(LM)算法,由莱文伯格和唐纳德·马夸特发明,被列为最有效的MLP小型和中型训练算法之一。LM 算法的基本思想是,它会执行一个联合的训练过程:在一个复杂的曲率范围内,LM 算法切换到最陡下降法(SD)算法,直到局部曲率是恰当的二次近似。然后它近似为高斯-牛顿(GN) 算法,可以大大加快收敛速度。LM 算法的权值更新律如下
其中l是目前的训练时间,Wl是当前的权重矩阵,Wl+1是下一个重量,Jl