基于深度CNN和极限学习机相结合的实时文档分类
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
摘 要 提出一种文档图像实时分类训练和测试的方法。在实际应用中,数据训练的精确性和高效性在文档 图像识别中起着关键的作用。现有的深度学习方法不能满足此要求,因为需要大量的时间用于训练和微调深层 次的网络架构。针对此问题,提出一种基于计算机视觉的新方法:第一阶段训练深度网络,作为特征提取器;第二 阶段用极限学习机(ELM)用于分类。该方法的性能优于目前最先进的基于深度学习的相关方法,在 Tobacco 3482数据集上的最终准确率为 83.45%。与之前基于卷积神经网络(CNN)的方法相比,相对误差降低了 26%。 ELM的训练时间仅为 1.156秒,对 2482张图像的整体预测时间是 3.083秒。因此,该文档分类方法适合于大规 模实时应用。
Keywords Documentimageclassification CNN Migrationlearning
0 引 言
如今,商 业 文 件 (见 图 1)通 常 由 文 档 分 析 系 统 (DAS)进行处理,以减少工作人员的工作量。DAS的
一项重要任务是对文档进行分类,即确定文档所指的 业务流程的类型。典型的文档类是发票、地址变更或 索赔等。文档分类方法可分为基于图像[1-6]和基于内 容的方法 [7-8]。DAS选 取 哪 一 种 方 法 更 合 适,通 常 取 决于用户处理的文档。像通常的字母一样,自由格式
关键词 文档图像分类 CNN 迁移学习
中图分类号 TP391.41 文献标识码 A DOI:10.3969/j.issn.1000386x.2019.03.032
REALTIMEDOCUMENTCLASSIFICATION BASED ON DEEPCNNANDEXTREMELEARNING MACHINE
YanHe1,2 WangPeng1 DongYingyan1 LuoCheng1 LiHuan1
1(CollegeofComputerScience,ChongqingUniversityofTeachnology,Chongqing401320,China) 2(ArtificialIntelligenceCollege,ChongqingUniversityofTeachnology,Chongqing401147,China)
的文档通常需要基于内容的分类,而在不同布局中包 含相同 文 本 的 表 单 则 可 以 通 过 基 于 图 像 的 方 法 来 区分。
175
图 1 来自不同类别的 Tobacco3482数据集的样本图像
然而,并不总是事先知道文档属于什么类别,这就 是为什么在基于图像的方法和基于内容的方法之间很 难选择的原因。一般来说,基于图像的方法是大多数 学者首选的方法,因为它直接工作在数字图像上。由 于文档图像类的多样性,存在高类内方差和低类间方 差的类,分别如图 2和图 3所示。因此,很难找到用于 文档图像分类的人工特征提取方法。
Abstract Thispaperpresentedarealtimetrainingandtestingmethodfordocumentimageclassification.Inpractical applications,theaccuracyandefficiencyofdatatrainingplayakeyroleindocumentimagerecognition.Theexisting deeplearningmethodscannotmeetthisrequirement,becausetheyneedalotoftimetotrainandfinetunethedeep networkarchitecture.Tosolvethisproblem,weproposedanew methodbasedoncomputervision.Themethodwas dividedintotwosteps:thedepthnetworkwastrainedasafeatureextractor;weusedtheextremelearningmachine (ELM)forclassification.Theperformanceofthismethodissuperiortotheadvancedmethodsbasedondeeplearning. ThefinalaccuracyofthismethodonTobacco3482datasetis83.45%.Comparedwiththemethodbasedonconvolution neuralnetwork,therelativeerrorisreducedby26%.ThetrainingtimeofELM isonly1.156s,andtheoverall predictiontimeof2482imagesis3.083s.Therefore,themethodissuitableforlargescalerealtimeapplications.
第 36卷第 3期 2019年 3月
计算机应用与软件 ComputerApplicationsandSoftware
Vol36 No.3 Mar.2019
基于深度 CNN和极限学习机相结合的实时文档分类
闫 河1,2 王 鹏1 董莺艳1 罗 成1 李 焕1
1(重庆理工大学计算机科学与工程学院 重庆 401320) 2(重庆理工大学两江人工智能学院 重庆 401147)
收稿日期:2018-10-09。国家自然科学基金面上项目(61173184);重庆市自然科学基金项目(cstc2018jcyjAX0694)。闫河,教 授,主研领域:深度学习,图像识别。王鹏,硕士生。董莺艳,硕士生。罗成,硕士生。李焕,学习机相结合的实时文档分类
图 2 Tobacco3482数据集广告类的文档, 显示了较高的类内差异
Keywords Documentimageclassification CNN Migrationlearning
0 引 言
如今,商 业 文 件 (见 图 1)通 常 由 文 档 分 析 系 统 (DAS)进行处理,以减少工作人员的工作量。DAS的
一项重要任务是对文档进行分类,即确定文档所指的 业务流程的类型。典型的文档类是发票、地址变更或 索赔等。文档分类方法可分为基于图像[1-6]和基于内 容的方法 [7-8]。DAS选 取 哪 一 种 方 法 更 合 适,通 常 取 决于用户处理的文档。像通常的字母一样,自由格式
关键词 文档图像分类 CNN 迁移学习
中图分类号 TP391.41 文献标识码 A DOI:10.3969/j.issn.1000386x.2019.03.032
REALTIMEDOCUMENTCLASSIFICATION BASED ON DEEPCNNANDEXTREMELEARNING MACHINE
YanHe1,2 WangPeng1 DongYingyan1 LuoCheng1 LiHuan1
1(CollegeofComputerScience,ChongqingUniversityofTeachnology,Chongqing401320,China) 2(ArtificialIntelligenceCollege,ChongqingUniversityofTeachnology,Chongqing401147,China)
的文档通常需要基于内容的分类,而在不同布局中包 含相同 文 本 的 表 单 则 可 以 通 过 基 于 图 像 的 方 法 来 区分。
175
图 1 来自不同类别的 Tobacco3482数据集的样本图像
然而,并不总是事先知道文档属于什么类别,这就 是为什么在基于图像的方法和基于内容的方法之间很 难选择的原因。一般来说,基于图像的方法是大多数 学者首选的方法,因为它直接工作在数字图像上。由 于文档图像类的多样性,存在高类内方差和低类间方 差的类,分别如图 2和图 3所示。因此,很难找到用于 文档图像分类的人工特征提取方法。
Abstract Thispaperpresentedarealtimetrainingandtestingmethodfordocumentimageclassification.Inpractical applications,theaccuracyandefficiencyofdatatrainingplayakeyroleindocumentimagerecognition.Theexisting deeplearningmethodscannotmeetthisrequirement,becausetheyneedalotoftimetotrainandfinetunethedeep networkarchitecture.Tosolvethisproblem,weproposedanew methodbasedoncomputervision.Themethodwas dividedintotwosteps:thedepthnetworkwastrainedasafeatureextractor;weusedtheextremelearningmachine (ELM)forclassification.Theperformanceofthismethodissuperiortotheadvancedmethodsbasedondeeplearning. ThefinalaccuracyofthismethodonTobacco3482datasetis83.45%.Comparedwiththemethodbasedonconvolution neuralnetwork,therelativeerrorisreducedby26%.ThetrainingtimeofELM isonly1.156s,andtheoverall predictiontimeof2482imagesis3.083s.Therefore,themethodissuitableforlargescalerealtimeapplications.
第 36卷第 3期 2019年 3月
计算机应用与软件 ComputerApplicationsandSoftware
Vol36 No.3 Mar.2019
基于深度 CNN和极限学习机相结合的实时文档分类
闫 河1,2 王 鹏1 董莺艳1 罗 成1 李 焕1
1(重庆理工大学计算机科学与工程学院 重庆 401320) 2(重庆理工大学两江人工智能学院 重庆 401147)
收稿日期:2018-10-09。国家自然科学基金面上项目(61173184);重庆市自然科学基金项目(cstc2018jcyjAX0694)。闫河,教 授,主研领域:深度学习,图像识别。王鹏,硕士生。董莺艳,硕士生。罗成,硕士生。李焕,学习机相结合的实时文档分类
图 2 Tobacco3482数据集广告类的文档, 显示了较高的类内差异