图像和视频中叠加文字提取算法的研究与实际应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2019年10月
(4)创新投融资模式。加大对城市信息化项目的资金投入,充分发挥各种市级计划的引导作用,积极争取国家和省科技部门、经济综合管理和产业部门对城市信息化建设的指导与支持。设立城市信息化应用推进专项资金,对资金项目进行统一审批管理,市直单位每年单列专项资金予以支持。同时,发挥政府投资导向作用,建立健全多方参与的投融资机制,吸引和鼓励民间资本对城市信息化建设进行投入。在项目建设中,积极采用BT、PPP等公私合营模式,减少政府资金投入,有效引导社会力量参与建设,为参与企业提供资金保障政策。
参考文献
[1]刘刚,张再生,梁谋.智慧城市建设面临的问题及其解决途径———
以海口市为例[J].城市问题,2013(6):42-45.
[2]辜胜阻,杨建武,刘江日.当前我国智慧城市建设中的问题与对策[J].中国软科学,2013(1):6-12.
收稿日期:2019-08-18
作者简介:马建勋(1983-),男,汉族,河北沧州人,工程师,硕士,研究方向为信息化。
图像和视频中叠加文字提取算法的研究与实际应用刘书红,王昊宇,陈晨(吉林建筑科技学院计算机科学与工程学院,吉林长春130114)
【摘要】随着当今计算机技术、互联网技术和多媒体技术快速发展,人的生活方式也随之发生了变化,数字化的生活和我们息息相关,图像和视频已经逐渐取代了文字,成为人们生活主要传递信息方式。现在的图像和视频已经以不同往常,基本叠加了重要的注释文字或字幕,掌握提取图像和视频中叠加文字的技术是尤为重要的。本文就国内外有关图像和视频识别新算法进行研究,对文字检测、文字分割和字符分割等技术进行研究。
【关键词】图像视频;叠加文字;提取算法
【中图分类号】TP391.43【文献标识码】A【文章编号】1006-4222(2019)10-0012-02
0引言
图像和视频中叠加文字提取技术是一门交叉学科,涉及
到多个领域,是现代生活中必不可少的技术,比如高速公路捕捉肇事车辆车牌号,通过图像处理出的文字经过计算直接进行处罚,根据通过识别图像中的文字来甄别和过滤掉不良信息,优化网络环境。在智能控制方面,智能机器人或无人驾驶通过捕获图像中的关键文字执行操作,盲人辅助器通过识别图像中文字向盲人传达重要的文字信息等。
1图像和视频中叠加文字提取的意义近年来随着数码产品和摄影设备的升级,据《21世纪经济报道》报道:中国移动电话数量达到14.04亿用户,其中4G用户总数达到7.46亿户,随着移动电话智能化[1],在十年内达到了爆炸式的增长,基本人手一部智能手机,随着图像视频的拍摄端、接收端到传输线路的全面升级,图像和视频已经代替文字成为传递信息的主要载具,文字更多的通过图像为背景,辅助信息传播,是社会、经济和科技发展的必经之路。如今文字已经成为图像和视频的补充信息,若能够将这些文字从复杂
的背景图片中检索出来进行处理成为了一个重要的任务。2国内外研究现状
20世纪70年代,随着光学字符识别Optical Character Recognition技术兴起,英文简称OCR,学者开始了图像中文字提取技术进行研究,随着二十年的发展视频已成为文字提取的主要研究热点,目的是为了提取视频以及图片中关键文字,通过把图片视频中的文字进行匹配,使用者可以通过搜索引擎搜到所要找寻的图片或视频,这一研究课题成为90年代的热点。文字提取主要文字检测和文字分割,提取方法国内外研究者都进行了大量实验研究,其中有代表性的包括:卡耐基梅隆大学计算机系、哥伦比亚大学多媒体研究中心、微软亚洲研究院、浙江大学、中国科学院自动化研究所等[2]。曼海姆大学在林哈特和埃菲尔斯伯格的领导下,开发了可以分析视频内容的系统,其系统在结合OCR技术,在视频文件中文字识别达到了4~7成的成功率。而在中文方面,微软亚洲研究院根据中文字符的四种笔画特征和中文结构做了一系列的研究,将视频中中文字符的识别率大大提升。浙大在张引和潘云鹤等人的研究中,通过以文字边缘与背景图色彩差进行特殊运算,甄别图片视频中的中文字得到了很好的效果[3]。中科院的李慧萍研究团队利用向前反馈神经网络来甄别图片和视频中的文字。
3复杂背景图像信息识别
要通过从复杂的图像中提取感兴趣以及重要的信息,是将复杂的工作简化的第一步,因为因图像因摄像失真、多余内容繁杂、环境因素或对图局部深度研究则要从复杂的背景图像中识别目标信息,将其完整的提取出来,要通过图像预处理技术。图像处理中阈值选取中阈值分割技术是关键,阈值选取的过高或过低都会影响对图像是关键信息提取的结果,每类图像视频都要对应一个阈值选取,没有一个通用的阈值适用于所有图像,阈值的选取方法一般有最大类间方差法和双峰阈值法。将图像中的所需信息通过图像预处理方式提取出来,可以为后续文字检测文字分割做铺垫,如图1~图2所示。4文字检测技术环节简要探讨
文字提取主要文字检测和文字分割法,通过科研人员多年的实验和研发,文字检测基本可以分为三种情况,基于边缘、区域、纹理来进行对文字检测算法。
4.1基于边缘的文字检测
文字具有的高密度性与背景图形成鲜明对比,反应在图像上文字则有丰富的边缘信息,可以通过文字边缘检测得到原图像,通过图像处理技术利用文字与背景之间的对比度进行相应过滤,滤掉非文字区域留下文字块,然后根据算法输出相应文字信息。基于边缘文字检测是较快的检测方式,有很快的执行速度,很快去除无用信息留下待检测的文字信息,但是也会因此提高误检率。是一个效率高,错误率也较高的检测方式,在有些构图简单的背景下可以直接检测出文字,但一般都用这种算法来进行第一步初始检测,在结合后面介绍的算法
通信设计与应用12
2019年10
月
图1拍摄原
图
图2对图像中的文字提取
提高效率并降低错误率。
4.2基于纹理的文字检测
由特殊笔画组成的文字与线条型填充型的背景区域在纹理上存在一定的区别,基于纹理的文字检测就是利用背景与文字的纹理属性不同而做的图像识别,将有文字特性的纹理提取出来。纹理特征算法可以用于不同阶段的文本检测算法中,首先是使用纹理特征对原始图像的小部分进行分类,典型方法是通过大小合适的滑动窗口对原始图像进行详尽的扫描[4],计算并分类窗口中的纹理特征,得到文字块,然后根据其他特征和规则进行后期的提炼。通过纹理的文字检测可以对一些文字图像,类文字的图形都能有效的识别,对于纹理越复杂的图像越容易通过算法判断出文字部分,计算机的处理器性能越好识别的速度越快,能力越强。
4.3基于连通区域的文字检测
基于部分图像描述字体普遍使用统一底色,导致和背景色形成鲜明的对比度,利用基本的图像分割算法将区域色从背景图像中分离出来,再经过文字特有的笔画构造对连通区域进行分析,排除非文字区域,然后经过优化得到文字块,这种方法对于新闻视频有较好的检测结果,不适用与文字与背景颜色频繁改变的情况。这种算法依靠图像出事文字的区域连通性,文字以标识等方式正式的在原图像图层中显示,提取出来的文字很好的原始效果。
5文字分割技术环节简要探讨
通过文字检测技术检测出来的文字通常黏着原始图像的背景,以文字块的方式被检测出来,为了得到完整、清晰的文字信息[5],需要把无关于文字信息的背景从文字中分离出去,文字分割方法大体分为基于颜色阈值的方法、基于统计模型的方法和无监督聚类法等。
5.1基于颜色阈值的方法
基于颜色阈值法假定文字的亮度与背景亮度不同,通过估计背景颜色阈值来达到文字分割的目的,根据图像的类别,可以通过整体或局部取一个阈值分割文字,局部阈值相比更容易切割文字,但同时需要更久的工作时间,这种方法不适用于背景极为复杂的图像及视频,如图3~图4、表1所示。5.2基于统计模型的方法
基于统计模型的方法通过建立混合高斯模型,基于文字像素进行切割。
5.3无监督聚类法
无监督聚类法是基于文字快中的颜色分为一类,背景分为一类,通常采用k均值聚类算法对所有像素进行聚类。此方法适用于复杂的文字块图像[6],但当图像中与文字颜色相近时,部分元素会被归为文字,影响OCR识别,如表2所示。
6结束语
随着多媒体技术飞速发展,图像和视频中叠加文字的提取是一项非常重要的实用技术,同样也是人工智能的一个重要领域,提取技术涉及到众多领域,是一门跨行业学科,并在多个科学、民生和社会方面都有所应用,本文分析了国内外研究情况和文字提取对生活带来的意义,最后就图像和视频文字提取中文字检测、文字分割技术进行了简单描述。
基金项目:吉林省大学生创新创业训练计划项目“复杂背景图像中文本文字提取的算法研究”吉教高字[2018]30号3840。
参考文献
[1]詹耀文.图像和视频中叠加文字提取算法研究及应用[D].北京:中国
科学院计算技术研究所,2006.
[2]田洁.视频叠加中文字符识别算法研究[D].北京:中国科学院大学, 2017.
[3]王燕娜.自然场景文本检测与识别方法研究[D].北京:中国科学院大
学,2018.
[4]张可.视频字幕检测方法研究与智能标注工具的实现[D].北京:中
国科学院大学,2017.
[5]陈义,李言俊,孙小炜.利用OCR识别技术实现视频中文字的提取[J].计算机工程与应用,2010(10):180-183.
[6]胡平.叠加文字和场景文字提取研究[D].北京:中国科学院大学, 2016.
收稿日期:2019-09-09
作者简介:刘书红(1978-),女,汉族,吉林通榆人,讲师,硕士研究生,研究方向为图像处理。
图3整体取阈值
图4局部取阈值
CER CRR速度/字符/s 本文算法94.3%84.2%402
阈值算法68.2%58.3%1022
简单K-means算法87.8%69.7%108
表1算法的性能比较
文字块字符数CER CRR WWW图片382332593.5%84.3%
视频帧415518791.2%82.8%
表2对不同图像分割能力
通信设计与应用13