OCR技术及其应用29页PPT
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一致性假设 在统计意义下,一般假设:
样本与分类对象具有同分布。 给定的所有分类对象独立同分布。
教学课件
18
样本的分析
决策对样本空间划分的有效性。 推广能力:决策对分类对象的有效
性。
教学课件
19
贝叶斯决策理论
已知的先验概率 需要决策的类别数是一定的 基于模型的方法
教学课件
20
人工神经网络
14
语义后处理
中国的经济发展水平
中
国
触
结
济
岁
展
木
平
申
围
徘
绪
牛
图
解
络
印
囤
创
经
讳
泼
屠
水
严
疥
发
晨
本
乎
先
大
屏
示
乒
午
固
的
绳
光
天
限
永
Leabharlann Baidu
年
中国
经济
发展
水平
中固
先天
本年
图解
光大
教学课件
15
格式化输出
教学课件
16
目前挑战性的课题
脱机手写汉字识别 超大字符集的印刷字符识别 非定制版面分析
教学课件
17
OCR涉及的模式识别问题
需要对所有分类器加权平均进行分类。 1990年Shapire证明,如果将多个弱分类器集
成在一起,它将具有强分类器的泛化能力。
教学课件
26
谢谢!
教学课件
27
END
缺乏充分的理论基础 局部极小点问题 过学习与欠学习的问题
教学课件
21
支持向量机
统计学习理论
一种专门研究小样本统计学习规律的理论 九十年代初取得重要进展
教学课件
22
核技术
可以证明,一定存在一个映射,称为核 函数,将在欧式空间定义的样本映射到 特征空间(一个更高维的空间),使得在特 征空间上,样本构成两个不相交的闭凸 集。
>-3</822>4>*-3<<2/730 2674/17*62+6209>1**8* 108*<->5/++425>-0*<52 ->975*>>>3880029825-<
教学课件
5
电子政务领域的应用
电子公文审批与流转 电子公文的识别与查询
教学课件
6
OCR应用的技术组成
图像处理
语义 后处理
字符识别
字符分割
版面分析
版面还原
格式化 输出
字体识别
表格识别
教学课件
7
图像处理
去噪声、平滑、去黑边、倾斜校正等
教学课件
8
教学课件
9
版面理解
教学课件
10
表格识别
教学课件
11
字符分割
行分割 字分割
教学课件
12
字符识别
教学课件
13
字体识别
宋体 仿宋 黑体 楷体 隶书 魏碑 圆体
教学课件
研究核函数选择的技术称为核技术。
教学课件
23
对比测试
教学课件
24
弱分类器
如果一个分类器的分类能力(泛 化)稍大于50%,这个分类器称 为弱分类器。
这意味着,比掷硬币猜正面的概 率稍好,就是弱分类器。
教学课件
25
集成
采用投票的方式决定新样本类别。 由于每个分类器的分类能力不同,在集成时,
Optical Character Recognition
文档图像 电子文档
教学课件
1
字符识别的历程
概念的提出始于1929年 国内的研究从70年代才开始,目前已经达
到国际先进水平,其中汉字工作识别技术 已经位居国际领先
教学课件
2
字符识别的类型
脱机
联机
教学课件
3
银行领域的应用
教学课件
4
税务领域的应用
样本与分类对象具有同分布。 给定的所有分类对象独立同分布。
教学课件
18
样本的分析
决策对样本空间划分的有效性。 推广能力:决策对分类对象的有效
性。
教学课件
19
贝叶斯决策理论
已知的先验概率 需要决策的类别数是一定的 基于模型的方法
教学课件
20
人工神经网络
14
语义后处理
中国的经济发展水平
中
国
触
结
济
岁
展
木
平
申
围
徘
绪
牛
图
解
络
印
囤
创
经
讳
泼
屠
水
严
疥
发
晨
本
乎
先
大
屏
示
乒
午
固
的
绳
光
天
限
永
Leabharlann Baidu
年
中国
经济
发展
水平
中固
先天
本年
图解
光大
教学课件
15
格式化输出
教学课件
16
目前挑战性的课题
脱机手写汉字识别 超大字符集的印刷字符识别 非定制版面分析
教学课件
17
OCR涉及的模式识别问题
需要对所有分类器加权平均进行分类。 1990年Shapire证明,如果将多个弱分类器集
成在一起,它将具有强分类器的泛化能力。
教学课件
26
谢谢!
教学课件
27
END
缺乏充分的理论基础 局部极小点问题 过学习与欠学习的问题
教学课件
21
支持向量机
统计学习理论
一种专门研究小样本统计学习规律的理论 九十年代初取得重要进展
教学课件
22
核技术
可以证明,一定存在一个映射,称为核 函数,将在欧式空间定义的样本映射到 特征空间(一个更高维的空间),使得在特 征空间上,样本构成两个不相交的闭凸 集。
>-3</822>4>*-3<<2/730 2674/17*62+6209>1**8* 108*<->5/++425>-0*<52 ->975*>>>3880029825-<
教学课件
5
电子政务领域的应用
电子公文审批与流转 电子公文的识别与查询
教学课件
6
OCR应用的技术组成
图像处理
语义 后处理
字符识别
字符分割
版面分析
版面还原
格式化 输出
字体识别
表格识别
教学课件
7
图像处理
去噪声、平滑、去黑边、倾斜校正等
教学课件
8
教学课件
9
版面理解
教学课件
10
表格识别
教学课件
11
字符分割
行分割 字分割
教学课件
12
字符识别
教学课件
13
字体识别
宋体 仿宋 黑体 楷体 隶书 魏碑 圆体
教学课件
研究核函数选择的技术称为核技术。
教学课件
23
对比测试
教学课件
24
弱分类器
如果一个分类器的分类能力(泛 化)稍大于50%,这个分类器称 为弱分类器。
这意味着,比掷硬币猜正面的概 率稍好,就是弱分类器。
教学课件
25
集成
采用投票的方式决定新样本类别。 由于每个分类器的分类能力不同,在集成时,
Optical Character Recognition
文档图像 电子文档
教学课件
1
字符识别的历程
概念的提出始于1929年 国内的研究从70年代才开始,目前已经达
到国际先进水平,其中汉字工作识别技术 已经位居国际领先
教学课件
2
字符识别的类型
脱机
联机
教学课件
3
银行领域的应用
教学课件
4
税务领域的应用