图像中的文本检测与定位

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

连通区域分析
连通区域鉴定
(1)图像中文本的宽和高不会太小,也不会太大,并且 高度比通常在一定范围内。
(2)文本区域的面积一般呈现某种规则。
(3)利用文本区域角点信息剔除一些非文本区域。 (4)文本区域向X轴的投影曲线特性与非文本区域向X轴 的投影曲线特性相差较大。 (5)通常情况下,文本图像中的文本不会出现在图像的 边界区域。
(1)输入要分类的数据集合,设置类别数K (2)随机选取K个数据作为初始聚类中心
(3)逐个将需分类的数据样本按最小距离准则分配给K个聚
类中心的某一个 (4)各个聚类中心重新计算 (5)聚类中心再次移动到它所在的类别中心 (6)重复步骤(3)-(5),直到收敛
图像文本分割方法
图像文本分割方法
基于均值漂移图像分割算法
(1)边缘保持平滑 (2)彩色边缘检测
(3)RGB颜色空间的二次采样
(4)RGB空间转换为LUV空间 (5)均值漂移过程 (6)将分类后的数据还原为图像
图像文本分割方法
文本候选区域生成
图像分层,分割后的图像被分成若干层,将每层颜色提 取出来,并进行二值化。
对分层后的各子图进行连通区域提取
采用深度优先搜索思想提取连通区域,获得每个子图像 中连通区域的位置、面积。结合文本本身的一些几何特征、 角点信息以及其他一些规则剔除一些很明显的非文本区域。 角点检测
HOG特征
矩形HOG块的划分:一般一个块(Block)都由若干单元 (Cell)组成,一个单元都有若干个像素点组成。
HOG特征
(5)HOG特征向量归一化:对block块内的HOG特征向量进行 归一化。对block块内特征向量的归一化主要是为了使特征 向量空间对光照,阴影和边缘变化具有鲁棒性。还有归一化 是针对每一个block进行的,一般采用的归一化函数有以下 四种:
改进的LBP(二)
LBP旋转不变模式:从 LBP 的定义可以看出,LBP 算子 是灰度不变的,但却不是旋转不变的。图像的旋转就会 得到不同的 LBP值。Maenpaa等人又将 LBP算子进行了扩 展,提出了具有旋转不变性的 LBP 算子,即不断旋转圆 形邻域得到一系列
初始定义的 LBP值,
取其最小值作为该
HSV颜色空间示意图中,H 参数表示色彩信息,该参数用角
度量表示;S参数为饱和度,它
表示色彩的纯度,数值大小为0 到1,数值越高表示色彩越纯;V 参数表示色彩的明亮程度,范围 从0到1。
图像文本分割方法
基于HSV比基于RGB效果好些,因为HSV的色彩空间更 符合人眼的视觉特性。
图像文本分割方法
K均值聚类图wk.baidu.com分割
连通区域分析
连通区域合并
生成候选文本区域
AdaBoost算法
AdaBoost算法
AdaBoost举例
Adaboost举例
第一步,根据分类的正确率,得到一个新的样本分布D2­, 一个子分类器h1。
第二步,根据分类的正确率,得到一个新的样本分布D3, 一个子分类器h2。
Adaboost举例
第三步,得到一个子分类器h3。
整合所有子分类器:
特征提取
HOG特征
LBP特征 其他纹理特征(均值、方差、熵等)
HOG特征
生成过程:
HOG特征
HOG特征
HOG特征
HOG特征
(4)基于梯度幅值的方向权重投影
HOG结构:通常使用的HOG结构大致有三种:矩形HOG(简 称为R-HOG),圆形HOG和中心环绕HOG。它们的单位都是 Block(即块)。Dalal的试验证明矩形HOG和圆形HOG的检测 效果基本一致,而环绕形HOG效果相对差一些。
图像中的文本检测与定位
应用
网络过滤
图像、视 频检索
应用
智能交通
数字图书馆
文本定位主要方法
基于区域(同一行字符颜色相似,不适用于字符含多种 颜色) 基于边缘(文本与背景对比度较大,笔画边缘突出,背 景边缘少) 基于纹理(可检测字符与背景对比度较小、背景复杂的 文本,但计算量大,算法比较耗时) 基于学习(神经网络,SVM,Adaboost等)
邻域的 LBP 值。
改进的LBP(三)
一个LBP算子可以产生不同的二进制模式,对于半径为R 的圆形区域内含有P个采样点的LBP算子将会产生P2种模式。 很显然,随着邻域集内采样点数的增加,二进制模式的 种类是急剧增加的。为了解决二进制模式过多的问题, 提高统计性,Ojala提出了采用一种“等价模式”来对 LBP算子的模式种类进行降维。Ojala将“等价模式”定 义为:当某个LBP所对应的循环二进制数从0到1或从1到0 最多有两次跳变时,该LBP所对应的二进制就称为一个等 价模式类。
谢 谢!
通过这样的改进,二进制模式的种类大大减少,而不会 丢失任何信息。模式数量由原来的2P种减少为 P ( P1)+2种,其中P表示邻域集内的采样点数。
文本定位结果
对ICDAR2003文本定位数据库中251幅测试图像进行测试, 评测结果计算公式:
准确率0.71,召回率0.65,综合评价指标为0.68,平均 处理时间为7.7秒。
文本定位流程
图像文本分割方法
直方图阈值法:通常是对每个区域色彩空间的各个分量
计算阈值,将各个分量与阈值比较,得到图像分割结果。 (1)基于RGB 用8×8大小的均匀网格将图像分成互不相交的子图 像,在每个子图像中分别求R、G、B的局部阈值。公式如 下:
图像文本分割方法
图像文本分割方法
(2)基于HSV
LBP特征
原始的LBP算子定义为在3*3的窗口内,以窗口中心像素 为阈值,将相邻的8个像素的灰度值与其进行比较,若周 围像素值大于中心像素值,则该像素点的位置被标记为1, 否则为0。这样,3*3邻域内的8个点经比较可产生8位二 进制数(通常转换为十进制数即LBP码),即得到该窗口 中心像素点的LBP值,并用这个值来反映该区域的纹理信 息。如下图所示:
改进的LBP(一)
基本的 LBP算子只覆盖了一个固定半径范围内的小区域, 为了适应不同尺度的纹理特征,并达到灰度和旋转不变 性的要求,Ojala等对 LBP 算子进行了改进。 圆形LBP算子:将 3×3邻域扩展到任意邻域,并用圆形 邻域代替了正方形邻域,改进后的 LBP 算子允许在半径 为 R 的圆形邻域内有任意多个像素点。从而得到了半径 为R的圆形区域内含有P个采样点的LBP算子。
相关文档
最新文档