视频中的主持人帧识别
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
实验名称:互信息应用学院:自动化学院
班级:09030702
学号:2007302171
姓名:马志强
关于寻找视频中主持人帧的模式识别
——欧式距离与互信息在图像模式识别中的比较
自动化学院信息工程 09030702 2007302171 马志强
摘要:文章首先介绍了对视频中帧的采集,收集之后进行处理,分别使用欧式距离方法与互信息方法实现受访帧与模板帧的匹配,最终得出受访帧是否为所要求的主持人帧,然后对两种方法进行比,获得更好的匹配手段。
关键字:欧式距离,互信息,图像分析,模式识别,模糊背景匹配,主持人帧检测。
0引言:
《走近科学》是一档观众喜闻乐见的科普新闻节目,许多民间神秘而情节起伏跌宕的故事通过科学的分析,得到了彻底的解释。该节目的亮点之一在于节目中将谜团层层揭开,引导观众获悉神秘背后的真相,节目时间为22分钟左右,而对于只希望获得主要的线索而不着重于丰富的节目花絮的观众来说,获取节目中的梗概信息就显得尤为重要,正巧节目中的有效信息都是通过主持人发布,根据这一特点,获取主持人帧,从而缩短获得信息的时间。针对此问题的提出和解决,进行试验,记录论文如下。
1.1欧式距离:
也称欧几里得距离,它是一个通常采用的距离定义,它是在m维空间中两个点之间的真实距离。在二维和三维空间中的欧式距离的就是两点之间的距离,二维的公式是
d = sqrt((x1-x2)^2+(y1-y2)^2)
三维的公式是
d=sqrt((x1-x2)^2+(y1-y2)^2+(z1-z2)^2)
推广到n维空间,欧式距离的公式是
d=sqrt( ∑(xi1-xi2)^2 ) 这里i=1,2..n
xi1表示第一个点的第i维坐标,xi2表示第二个点的第i维坐标
n维欧氏空间是一个点集,它的每个点可以表示为(x(1),x(2),...x(n)),其中x(i)(i=1, 2...n)是实数,称为x的第i个坐标,两个点x和y=(y(1),y(2)...y(n))之间的距离d(x,y)定义为上面的公式.
在本例中,欧式距离用来衡量受访的帧与模板帧的相似程度。
1.2互信息:
互信息(Mutual Information)是信息论里一种有用的信息度量,它是指两个事件集合之间的相关性。两个事件X和Y的互信息定义为:
I(X,Y) = H(X) + H(Y) - H(X,Y)
其中 H(X,Y) 是联合熵(Joint Entropy),其定义为:
H(X,Y) = - ∑ p(x,y)logp(x,y)
在本例中,互信息作为衡量受访的帧与模板帧的数值信息。
1.3实验中的欧式距离与互信息:
实验中具体涉及到将欧式距离与互信息应用到图像配准中,故利用Mat lab将真彩色图像转换成为对应N*M灰度像素图像而生成的N*M阶矩阵,对应每一个像素点都有一个1-255的像素值与之对应,调用欧拉距离或互信息的程序,计算出具体的欧拉距离与互信息的值,通过与事先设定的阈值比较获得符合要求的具体帧序。
在对图片收集后,需要将不是符合条件即非主持人帧排除,而收集只有出现了主持人的帧。
2实验过程:
2.1获得图片集:
实验中首先要解决的问题是将视频信息转换成为一个对应视频的帧序列,具体的解决方案有两个:利用Mat lab直接解决,达到高度的统一化;利用其它软件将视频分割。在试图使用Mat lab解决该问题时,出现了很多棘手的情况。就Mat lab而言,对读取的视频要求很高,只限于*.avi的三种无压缩的格式,这就造成了获取这种无压缩的视频文件仅能通过软件先行的转换,而结果是转换得到的22分钟的视频有20G左右的大小,如此庞大的数据,对于在我的古董机上运行的Mat lab是不可实现问题,即便我的工具允许我进行如此的运算,我也感觉这增添了实验的冗余,原因是,转换的目的是为了能够利用Mat lab实现统一运算,而为了实现这一目的要先行一步视频转换,这多少有些削足适履。因此使用了方案的后者:我使用的工具是KMPlayer视频工具,具体操作就不做赘述。
获得的图片集根据视频,每6秒钟截取一帧,具体原因于实验结果处分析。
2.2处理图片:
比对获得的图片与模板图片间的欧式距离和互信息值,进而比较阈值,获得满足条件的主持人帧。具体程序附于报告最后。
2.3获得结果:
处理好图片之后进行结果与实际情况分析,得出具体的实验结果。
3实验结果:
3.1实验直接结果:
对同样的一序列帧利用上述两种方案进行处理,将欧式距离法简写为EM,互信息法简写为HM。获得如下的实验结果:
关于提取主持人帧的实验结果:
帧内容时间EM检测HM检测
主持人开场0分0秒有有
主持人介绍鬼打墙7分46秒有有
主持人过渡9分0秒有有
白色盛水盆10分9秒有无
主持人出现11分28秒有有
白色盛水盆12分10秒有无
主持人出现12分40秒有有
白色烟雾20分54秒有无
主持人总结21分有有
出错率30% 0%
以上为攫取时间上统计的出错率,该组数据对统计的意义不是太大,原因在于视频帧的截取选定为每分钟10帧,从而并不寄希望于统计出准确的时间,而该实验真正需要统计的出错率需要从获取的符合条件帧数作出比较。
获得准确帧的统计结果:
方法获得帧数准确帧数准确比率
EM测试56 44 78.57%
HM测试44 44 100%
3.2结果分析:
3.21EM方法的错误分析:
在使用EM方法时,原理是比对受访图片与模板图片的比对区域各个点之间的像素差,当相似差累计到一定程度时,认为所访问的图片与模板有过大差异,进而认为其不是满足条件的主持人帧。
根据欧式距离公式获得的积累的像素差值的平方根值是判断两幅图像是否匹配的重要依据,所以该方法很大程度上对图片比对区域中的像素条件要求相对较低,例如EM方法中所误读出的图片的结果值是满足条件的。