图像文本定位
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
文本特征
文本类型:
1、人工添加文本
人工文本通常出现在视频帧图像中,如在新闻视频中 由人工加入的新闻标题、时间等,体育赛事中人工加 入的分数记录等,访谈节目中对话的脚本字幕等,通 常有重要的提示作用
2、自然场景文本
场景文本是指拍摄场景中所包含的文字,如人们使用 数码相机、数码摄像机、扫描仪等拍摄的自然场景的 文本图像。因自然文本所处的图像或视频背景复杂, 受光照、拍摄角度、拍摄场景等因素影响,自然场景 文本定位是一个具有较大难度性和挑战性的研究课题
• 3.字符的边缘
由于字符与图像背景间具有一定的对比度,因而字符与背景间 都有较突出的边缘,这为通过边缘检测进行文本定位提供了依 据。边缘包含边缘强度和边缘方向两个要素。不同的文字,边 缘的方向不同,如英文和汉字的边缘方向集中在水平、垂直和 45°方向,而拉丁文的边缘方向集中在垂直方向。
• 4.文字的结构
文本定位主要技术方法利用的文本特征
• 基于区域的方法主要利用颜色这一特征。 • 基于边缘检测的方法主要利用边缘信息这一特征。 • 基于纹理特征的方法主要利用纹理这一特征。
性能评价:
1、文本定位矩形框的精确度
由标定的矩形与Ground-truth 矩形的重合度来衡量,两者的 重合度越高,文本定位精度越高
2、统一的样本图像库
现在大多用ICDAR推出的样本图像库来评定。该图像库主要是 通过数码相机拍摄得到的场景图像,以门牌、广告、指示标识 为主
查准率:文本区域数 / 所有区域总数
• 5.纹理特征
纹理是一种反映图像中同质现象的视觉特征,它体现了物体表 面的具有缓慢变化或者周期性变化的表面结构组织排列属性。 纹理具有三大标志:某种局部序列性不断重复、非随机排列、 纹理区域内大致为均匀的统一体。纹理不同于灰度、颜色等图 像特征,它通过像素及其周围空间邻域的灰度分布来表现,即: 局部纹理信息。局部纹理信息不同程度的重复性,即全局纹理 信息。
查全率: 正确定位的文本பைடு நூலகம்域数 / 图像中所有文本区域总数
文本定位应用:
1、图像、视频检索 2、网络图像过滤 3、智能交通 4、邮件分拣等
文本的特征
1.颜色特征 大多数情况下,同一区域中同一行文字,其颜色、色调、亮度 等属性相同或相似,与图片背景有较大的对比度。人工文本尤 其如此。但也有特殊情况(艺术)。 2.字符的大小 同一行文字,字符大小基本一致。但同一图像中的文字大小, 可能差别很大,大的可能占到图像面积的80%以上,而小的则 只有几个像素。由于太小的字符,识别率不高,像素低于10 的 字符通常被删除。
图像中的文本提取可概括为两个步骤:
①文本定位。 即找出图像中文本所在的位置或刚好包 围文本的矩形区域。
②文本识别 对定位出的文本区域进行二值化、增强处 理, 再送入光学字符识别系统 (OCR)中进行字符识别。
文本定位是文本识别的前提, 是文本提取的关键
文本类型
性能评价
文本定位应 用
文本定位的 方法
图像文本检测
参考文章:
图像文本定位技术研究---黄治虎
图像与视频中的文本定位技术研究综述---廖佳,王红 梅,牛晓东
图像中的文本定位技术研究综述---晋瑾 ,平西建, 张涛, 陈明贵
自然场景中文本检测技术研究综述---戴津
图像和视频中的文本包含丰富、明确的信息。 如果这些文本 能被自动地提取出来,则对图像高层语义的自动理解、索引和 检索是非常有价值的
典型文档图像的布局都是经过精心设计,相对固定以便于读者 阅读。这就降低了文本区域的分割的难度。但是对于自然场景 当中的文本,它可能出现在图像的任意位置,并且往往字符稀 疏,字符对齐方式没有严格要求。但是对于同一文本块内,文 字的字体和字号往往保持一致,汉字在同一字体和字号下,其 高度和宽度以及粗细一致,线条平直。