基于卷积降噪自编码器的藏文历史文献版面分析方法
去噪自编码深度卷积网络实战——地震去噪实战案例讲解
去噪自编码深度卷积网络实战——地震去噪实战案例讲解很多同学都有个疑问:前面一直都是对理想数据进行处理,这样有多大用处呢?那用在实际中是怎样应用的呢?第一节课我们讲过,自编码可以用在预训练、自动创作、自动填充、去除噪声、数据降维等等方向。
今天我们就从最常见的降噪这项应用开始讲解。
一、降噪自动编码的由来降噪自动编码器(Denoising AutoEncoder)最初的应用是为了让自动编码网络有更强的鲁棒性(Robust)。
这是什么原理呢?就是将原始的完整数据以一定概率分布(通常使用二项分布)去擦除,然后将处理后的结果作为输入的训练数据。
这样训练出来的网络抗干扰能力更强,预测的结果往往更好。
就比如下图:原始的数据是x,首先我们随机的去掉了x中的两个数据形成了x’,然后我们用这个有破损(术语叫Corruputed)的数据x’作为训练数据来训练自编码网络y,训练过程中计算出的结果是z,然后将z与原始x做误差迭代不断优化网络y。
最后训练出来的y就有了更好的性能。
为什么训练破损的数据更能激发网络的鲁棒性呢?有论文解释说神经网络通过从破损数据中学习到有效特征数据,从而恢复完整的数据。
这个训练过程是增强了神经网络特征提取的能力。
就是说学习破损数据的过程相当于一个简化的PCA,本质是进行降维提取。
而降维就是神经网络最擅长的工作之一。
二、降噪自动编码在地震去噪领域的应用前面提到了通过训练破损的数据,可以提高自编码网络学习能力。
那含有噪声的数据,也是一种破损的数据,同样可以使用自编码网络进行降噪处理。
在地震勘探领域,伴随地震数据采集过程中,由于人为或环境因素的影响,不可避免地会引入随机噪声。
受污染的地震资料严重影响了后续的地震资料处理和成像。
因此,抑制随机噪声可以有效地提高地震资料的信噪比,有利于提高成像质量。
比如我们常常会将左图的含噪数据进行降噪处理,变成右图的样子。
自编码网络天生就有很强的特征信息提取能力,因此特别适合降噪的处理这一类的应用。
基于内容的藏文古籍文献学特征检索方法
基于内容的藏文古籍文献学特征检索方法摘要:针对目前基于关键词的藏文古籍文献学特征检索需要大量著录人力、专业的辨识能力和缺乏定量标准的问题,本文将基于内容的图像检索技术引入到藏文古籍文献学特征检索中,即采用“以图搜图”的方法在藏文古籍图像数据库中检索与模板图像具有相同或相似文献学特征的图像。
实验在所构建的5个藏文古籍文献学特征数据集和7种基于内容的图像检索技术特征提取算法上进行,证明了方法的可行性。
该方法可为在海量文献图像数据库中的文献学特征检索问题提供有益参考。
关键词:藏文古籍;文献学特征;基于内容的图像检索;深度学习1引言在文献学学科中,墨种、字体类型、文献载体、装订形式,甚至污损程度、版面残缺程度等特征,被称为文献学特征。
藏文古籍中的文献学特征往往是藏文文献学研究者们重点关注的内容,被广泛用于对文献特点、功能、类型、生产、分布、发展规律和文献发展历史等研究中。
藏文古籍文献学特征检索是指通过信息检索手段从文献数据库中检索出满足指定文献学特征的藏文古籍。
目前,在现有藏文古籍文献数据库中,藏文古籍文献学特征检索均是基于关键词的,这需要文献学研究者人工地进行辨识,并把文献学特征描述信息录入数据库。
但是,在文献信息数字化的背景下,藏文古籍文献数据库的规模不断扩大,基于关键词的文献学特征检索面临巨大挑战:对海量藏文古籍图像标注文献学特征不仅费时费力,还需要专业的辨识能力和缺乏定量标准。
对此,本文将把基于内容的图像检索(Content-basedimageretrieval,CBIR)技术引入到藏文古籍文献学特征检索中,即采用“以图搜图”的方法在藏文古籍图像数据中检索与模板图具有相同或相似文献学特征的图像。
这是一种不同于基于关键词的藏文古籍文献学特征检索的方法,可快速、高效地实现海量数据库中的文献学特征检索。
本文其余部分组织如下:第2节介绍藏文古籍文献学特征和基于内容的图像检索的相关工作,第3节介绍基于内容的藏文古籍文献学特征检索方法,第4节是实验,第5节是总结。
基于卷积自编码器的图像去噪技术研究
基于卷积自编码器的图像去噪技术研究随着图像处理技术的不断发展,图像去噪技术成为了很多研究人员的热点问题。
在实际应用中,我们经常会发现图像受到了不同程度的噪声污染,这些因素影响了图像的质量和准确性。
在这种情况下,图像去噪技术是非常必要的。
基于卷积自编码器的图像去噪技术是一种常用的方法,近年来被广泛应用。
那么,什么是卷积自编码器,它如何实现图像去噪呢?一、卷积自编码器是什么?卷积自编码器是一种基于卷积神经网络的模型,通常应用于图像处理和计算机视觉中。
与传统的自编码器相比,卷积自编码器能够更好地保留图像的空间结构信息,适用于处理大尺寸高维数据,且具有更好的表征能力。
它包含了两个主要的部分:1.编码器(Encoder)编码器是将输入的图像映射为一组编码,这些编码在低维空间中表示原图像的特性。
通常编码器包含多层卷积神经网络,可以提取出不同级别的特征信息,并通过池化层进行下采样,减小特征图的维度。
2.解码器(Decoder)解码器接受编码器的输出,将其转换为原始输入的重建。
通常解码器同样包含多层卷积神经网络,用于对编码进行上采样和反卷积操作。
最终,使用解码器生成的图像应该和原始输入图像非常接近。
二、卷积自编码器实现去噪卷积自编码器常用于图像去噪,具体步骤如下:1.准备数据首先,我们需要准备一个带有噪音的图像数据集。
这种噪声可以来自图像拍摄或压缩过程中的种种因素。
在训练模型之前,需要将训练数据进行预处理和标准化,以便更好地加载到模型中。
2.构建模型接下来,我们需要使用卷积自编码器模型,搭建一个能够去除噪声的模型。
在模型的架构中,编码器和解码器需要进行权值共享,以确保网络参数的数量最小化,从而避免过拟合。
此外,通过添加dropout或正则化项等技术,还可以增加模型的泛化能力。
3.训练模型训练过程通常采用随机梯度下降(SGD)算法,对模型在训练集上进行反复迭代,以寻找最适合于数据的权重。
此外,学习率的选择也是非常重要的,学习率过大会导致发散,而学习率过小则会导致收敛速度变慢。
基于语义分割的藏文古籍文档文本区域检测
基于语义分割的藏文古籍文档文本区域检测
贡去卓么;才让加;三知加
【期刊名称】《计算机仿真》
【年(卷),期】2022(39)5
【摘要】藏文古籍文档是中华民族宝贵的文化遗产,采用数字化处理技术对藏文古籍文档进行保护和传承具有重要的历史意义。
针对藏文古籍文档文本区域检测提出了一种基于图像语义分割的方法。
利用判别式对抗网络框架下的语义分割网络对藏文古籍文档不同类型的文本区域进行了像素分类;其次,根据像素分类结果提取了各个文本区域的轮廓;最后,将检测到的版面布局信息进行保存。
最终实现藏文古籍文档的文本区域检测。
通过拉萨版《甘珠尔》(藏文)的扫描页面构建了自定义的藏文古籍文档图像数据集,并在上述数据集上进行了实验。
经实验表明,在上述数据集上得到了较好的检测效果,证明了上述方法的有效性。
【总页数】7页(P448-454)
【作者】贡去卓么;才让加;三知加
【作者单位】青海师范大学计算机学院;青海省藏文信息处理与机器翻译重点实验室;青海省藏文信息处理工程技术研究中心
【正文语种】中文
【中图分类】TP391
【相关文献】
1.基于文本域分割和文本行检测的扭曲文档图像校正
2.藏文古籍文本检测研究现状
3.基于文本三区域分割的场景文本检测方法
4.基于语义分割的食品标签文本检测
5.APSENet:一种基于实例分割网络的满文档案文本行检测方法
因版权原因,仅展示原文概要,查看原文内容请购买。
藏文文本编码识别方法研究
藏文文本编码识别方法研究春燕;曲珍【摘要】讨论了藏文编码识别与转换中的关键问题,介绍了藏文结构特点和统计学特征以及各种可能的识别准则,并进行分析比较.确定了使用以藏文的音节点间距规律和高频音节为特征的识别方法对方正Windows、方正Dos、同元、华光Windows、华光Dos、班智达、ASCII的藏文编码方案、ISO/IEC10646基本集、国家标准扩充集A的藏文编码识别,能够正确地将藏文文本与其他语言进行区分.在对目标样本的测试中,该算法的识别率可达100%.%This paper discusses critical problems with Tibetan encoding identification and conversion. Accordingto Tibetan character structural and its statistical characteristics, it introduces various possible recognition rules, and the results are analyzed and compared. Used characteristics of distance regulation and high frequency between Tibetan syllables to determination encoding identification of FOUNDER Windows, FOUNDER Dos, Tonguer, HURGURNG Windows, HURGURNG Dos, Pandita, the Tibetan encoding based on ASCII, ISO/IEC10646 basic set and Tibetan coded character sets-Extension A, can correctly distinguish Tibetan text with other languages. The rate of recognition reaches 100% using these algorithms on the test documents.【期刊名称】《计算机工程与应用》【年(卷),期】2013(049)001【总页数】4页(P141-144)【关键词】藏文编码;藏文编码识别;音节点【作者】春燕;曲珍【作者单位】西藏大学计算机科学与技术系,拉萨850012;西藏大学计算机科学与技术系,拉萨850012【正文语种】中文【中图分类】TP391.1对藏文文本的识别由两部分实现:一是识别该文本是否为藏文文本,二是识别该藏文文本所使用的编码方案。
藏文信息处理的原理与应用电子版
藏文信息处理的原理与应用电子版引言藏文是中国少数民族中使用的一种重要文字,它承载着藏族人民的文化遗产和思想智慧。
为了更好地进行藏文信息的处理和应用,电子版的藏文信息处理技术应运而生。
本文将介绍藏文信息处理的原理和应用,以及电子版在这个过程中的作用。
藏文信息处理的原理1. Unicode编码Unicode是一种全球统一的字符编码标准,它为不同文字和符号提供了唯一的数字编码,包括了藏文字符。
Unicode编码使得计算机能够正确地处理藏文字符,并能够在不同的平台上进行正确显示和编辑。
2. 字符转换由于藏文的特殊性,需要将其转换为计算机能够处理的格式,一种常见的方式是将藏文字符转换为Unicode编码。
这样可以在计算机上进行相应的处理和操作,比如搜索、排序、保存等。
3. 分词在进行藏文信息处理时,常常需要将文本拆分成词语的形式进行处理。
分词是将一段藏文文本按照词语为单位进行划分的过程。
分词可以提取有用的信息,帮助进行词频统计、文本分类和信息检索等操作。
4. 语言模型语言模型是指对自然语言中的词序列概率进行建模的方法。
通过语言模型,我们可以对藏文文本进行预测和生成。
语言模型可以用于机器翻译、自动摘要、对话系统等应用中,为藏文信息处理提供了更多的可能性。
藏文信息处理的应用1. 机器翻译机器翻译是将一种语言的文本转换为另一种语言的过程。
对于藏文这样的特殊语言,采用机器翻译可以极大地减少人工翻译的工作量,并且提高翻译的效率。
通过将藏文转换为计算机可处理的格式,机器翻译可以在不同语言之间进行自动翻译。
2. 文本分析文本分析是对文本信息进行提取、分析和理解的过程。
在藏文信息处理中,文本分析可以帮助我们更好地理解藏文文本的含义和结构,比如提取关键信息、聚类相似文本、情感分析等。
文本分析可以应用于网络舆情监测、情报分析、文本挖掘等方面。
3. 信息检索信息检索是指在大规模文本数据集中查找符合用户需求的文档或信息的过程。
对于藏文信息处理来说,信息检索可以帮助用户快速、准确地找到想要的藏文文档。
基于栈式降噪自动编码器的中文短文本分类
基于栈式降噪自动编码器的中文短文本分类邱爽;姜明洋;张智丰;卢奕南;裴志利【期刊名称】《内蒙古民族大学学报(自然科学版)》【年(卷),期】2017(032)005【摘要】深度学习技术已经广泛应用到大数据处理中,并在很多方面获得了可观的成绩.其中,自编码神经网络作为一种特征降维算法已被广大专家学者所应用.本文主要讨论一种改进的自动编码器——栈式降噪自编码神经网络(The Stacked Denoising Auto Encoder,SDAE),该算法使学习到的特征更加具有鲁棒性.并研究了该算法基于ReLU激活函数的中文短文本分类.与KNN,SVM,BP对比,无论召回率还是准确率,SDAE均优于KNN、BP、SVM.【总页数】6页(P400-405)【作者】邱爽;姜明洋;张智丰;卢奕南;裴志利【作者单位】内蒙古民族大学数学学院,内蒙古通辽028043;内蒙古民族大学计算机科学与技术学院,内蒙古通辽028043;内蒙古民族大学计算机科学与技术学院,内蒙古通辽028043;吉林大学计算机科学与技术学院,吉林长春130012;内蒙古民族大学计算机科学与技术学院,内蒙古通辽028043【正文语种】中文【中图分类】TP391【相关文献】1.基于栈式降噪稀疏自动编码器的雷达目标识别方法 [J], 赵飞翔;刘永祥;霍凯2.基于栈式降噪自动编码器的气体识别 [J], 于万钧;安改换;鹿文静;甘超;刘全3.基于栈式降噪自动编码器的动态混合推荐算法 [J], 李梦梦; 夏阳; 李心茹; 徐婷; 魏思政4.基于优化栈式降噪自动编码器的路面不平度检测∗ [J], 刘庆华; 马焕5.基于栈式降噪自动编码器的建筑工程施工成本预测 [J], 刘必君;叶雨辰因版权原因,仅展示原文概要,查看原文内容请购买。
基于卷积降噪自编码器的藏文历史文献版面分析方法
基于卷积降噪自编码器的藏文历史文献版面分析方法张西群;马龙龙;段立娟;刘泽宇;吴健【期刊名称】《中文信息学报》【年(卷),期】2018(032)007【摘要】近年来,随着人们对历史和传统文化的保护和传承越来越重视,研究人员对历史文献数字化的兴趣也越来越高涨.版面分析是历史文献数字化的重要基础步骤,该文提出了一种基于卷积降噪自编码器的藏文历史文献版面分析方法.首先,将藏文历史文献图像进行超像素聚类获得超像素块;然后,利用卷积降噪自编码器提取超像素块的特征;最后,使用SVM分类器对藏文历史文献的超像素块进行分类预测,从而提取出藏文历史文献版面的各个部分.在藏文历史文献数据集上的实验表明,该方法能够对藏文历史文献的不同版面元素进行有效的分离.【总页数】8页(P67-73,81)【作者】张西群;马龙龙;段立娟;刘泽宇;吴健【作者单位】北京工业大学信息学部 ,北京100124;可信计算北京市重点实验室 ,北京100124;中国科学院软件研究所中文信息处理实验室 ,北京100190;北京工业大学信息学部 ,北京100124;大规模流数据集成与分析北京市重点实验室 ,北京 ,100124;中国科学院软件研究所中文信息处理实验室 ,北京100190;中国科学院软件研究所中文信息处理实验室 ,北京100190【正文语种】中文【中图分类】TP391【相关文献】1.基于卷积降噪自编码器和CNN的滚动轴承故障诊断 [J], 张立智;井陆阳;徐卫晓;谭继文2.基于残差卷积自编码器(RCAE)的红外图像降噪方法研究 [J], 张遥; 陈西曲3.降噪自编码器深度卷积过程神经网络及在时变信号分类中的应用 [J], 朱喆; 许少华4.基于一维卷积神经网络和降噪自编码器的驾驶行为识别 [J], 杨云开;范文兵;彭东旭5.基于卷积降噪自编码器的地震数据去噪 [J], 宋辉;高洋;陈伟;张翔因版权原因,仅展示原文概要,查看原文内容请购买。
一种基于堆栈式去噪自编码机的显著性物体检测方法[发明专利]
专利名称:一种基于堆栈式去噪自编码机的显著性物体检测方法
专利类型:发明专利
发明人:韩军伟,张鼎文,郭雷
申请号:CN201410200352.1
申请日:20140513
公开号:CN103955936A
公开日:
20140730
专利内容由知识产权出版社提供
摘要:本发明涉及一种基于堆栈式去噪自编码机的显著性物体检测方法,首先利用去噪自编码机对位于图像周边的图块进行建模,然后将训练好的模型对整幅图像中的图块进行深度特征的提取及重建,并将深度重建残余作为显著性的计算手段。
最终取得更具准确性,鲁棒性的显著物体检测结果。
申请人:西北工业大学
地址:710072 陕西省西安市友谊西路127号
国籍:CN
代理机构:西北工业大学专利中心
代理人:王鲜凯
更多信息请下载全文后查看。
基于堆叠降噪自编码器的神经–符号模型及在晶圆表面缺陷识别
基于堆叠降噪自编码器的神经–符号模型及在晶圆表面缺陷识
别
刘国梁;余建波
【期刊名称】《自动化学报》
【年(卷),期】2022(48)11
【摘要】深度神经网络是具有复杂结构和多个非线性处理单元的模型,通过模块化的方式分层从数据提取代表性特征,已经在晶圆缺陷识别领域得到了较为广泛的应用.但是,深度神经网络在应用过程中本身存在“黑箱”和过度依赖数据的问题,显著地影响深度神经网络在晶圆缺陷识别的工业可应用性.提出一种基于堆叠降噪自编码器的神经–符号模型.首先,根据堆叠降噪自编码器的网络特点采用了一套符号规则系统,规则形式和组成结构使其可与深度神经网络有效融合.其次,根据网络和符号规则之间的关联性提出完整的知识抽取与插入算法,实现了深度网络和规则之间的知识转换.在实际工业晶圆表面图像数据集WM-811K上的试验结果表明,基于堆叠降噪自编码器的神经–符号模型不仅取得了较好的缺陷探测与识别性能,而且可有效提取规则并通过规则有效描述深度神经网络内部计算逻辑,综合性能优于目前经典的深度神经网络.
【总页数】15页(P2688-2702)
【作者】刘国梁;余建波
【作者单位】同济大学机械与能源工程学院
【正文语种】中文
【中图分类】TP3
【相关文献】
1.基于混合模型与流形调节的晶圆表面缺陷识别
2.基于局部与非局部线性判别分析和高斯混合模型动态集成的晶圆表面缺陷探测与识别
3.晶圆表面缺陷模式识别的二维主成分分析卷积自编码器
4.基于稀疏堆叠降噪自编码器-深层神经网络的语音DOA估计算法
5.基于堆叠稀疏降噪自编码器的暂态稳定评估模型
因版权原因,仅展示原文概要,查看原文内容请购买。
一种基于WaveNet的藏语语音合成方法
一种基于WaveNet的藏语语音合成方法
丁云涛;才让卓玛;贡保加;才智杰
【期刊名称】《计算机仿真》
【年(卷),期】2023(40)1
【摘要】针对Griffin-Lim声码器合成语音保真度低、人工合成痕迹明显的问题,提出了一种基于WaveNet神经网络声码器的藏语语音合成方法。
方法基于藏文文本特征及藏语Mel频谱,运用WaveNet的相位恢复能力实现了藏语的语音合成。
先将藏文文本经字符编码转换为相应词向量,并通过卷积运算和注意力权重赋值完成文本特征提取;利用非线性变换和线性投影预测Mel频谱;利用WaveNet声码器合成藏语语音波形。
实验数据表明,相对于Griffin-Lim算法合成的语音,所提方法所合成的语音效果更好。
【总页数】6页(P295-299)
【作者】丁云涛;才让卓玛;贡保加;才智杰
【作者单位】青海师范大学计算机学院;西南民族大学计算机科学与工程学院;藏语智能信息处理及应用国家重点实验室
【正文语种】中文
【中图分类】TP183
【相关文献】
1.基于MBE算法的一种新的语音合成方法
2.基于协同发音现象的一种汉语语音合成方法
3.基于WaveNet的端到端语音合成方法
4.一种基于改进注意力机制的实时鲁棒语音合成方法
5.一种基于WaveNet的火力控制系统误差溯源方法
因版权原因,仅展示原文概要,查看原文内容请购买。
基于CNN+LSTM的藏语语音去噪算法
基于CNN+LSTM的藏语语音去噪算法
王君堡;王希;边巴旺堆
【期刊名称】《电声技术》
【年(卷),期】2022(46)6
【摘要】本文主要研究藏语语音去噪算法,提出一种基于频谱映射的卷积长短期记忆藏语语音去噪算法。
该算法由数据准备模块、特征提取模块、网络模块以及音频还原模块4个模块组成,以纯净的拉萨语语音和加了噪声库NOISE-92六种单一噪声的带噪语音作为数据集,提取带噪语音和纯净语音的对数功率谱特征作为输入对网络进行训练,网络的效果通过可感知语音质量和短时客观可懂度两个指标进行评价。
实验结果表明,该算法在非平稳噪声上的去噪效果优于平稳噪声,且信噪比越大其去噪效果越好;在低信噪比下,该算法在非平稳噪声上的表现优于谱减法和最小均方误差法。
【总页数】7页(P47-53)
【作者】王君堡;王希;边巴旺堆
【作者单位】西藏大学信息科学技术学院;西藏大学信息技术国家级实验教学示范中心
【正文语种】中文
【中图分类】TN912.3
【相关文献】
1.基于Matlab的藏语语音基音检测算法研究
2.基于优化Apriori算法的藏语音韵律规则研究
3.基于语料库的藏语语音合成单元选择算法
4.基于藏语拉萨语语音识别中端点监测算法的研究
5.基于MD-CGAN的情感语音去噪算法
因版权原因,仅展示原文概要,查看原文内容请购买。
基于CEEMDAN
第 39 卷第 1 期电力科学与技术学报Vol. 39 No. 1 2024 年 1 月JOURNAL OF ELECTRIC POWER SCIENCE AND TECHNOLOGY Jan. 2024引用格式:尚海昆,张冉喆,黄涛,等.基于CEEMDAN-TQWT方法的变压器局部放电信号降噪[J].电力科学与技术学报,2024,39(1):272‑284. Citation:SHANG Haikun,ZHANG Ranzhe,HUANG Tao,et al.Partial discharge signal denoising based on CEEMDAN‑TQWT method for power transformers[J]. Journal of Electric Power Science and Technology,2024,39(1):272‑284.基于CEEMDAN‑TQWT方法的变压器局部放电信号降噪尚海昆,张冉喆,黄涛,林伟,赵子璇(东北电力大学现代电力系统仿真控制与绿色电能新技术教育部重点实验室,吉林吉林 132012)摘要:针对传统方法处理局部放电信号时存在振荡明显、消噪不彻底等问题,采用基于自适应白噪声完备集成经验模态分解(complete ensemble empirical model decomposition with adaptive noise,CEEMDAN)与可调品质因子小波变换(tunable Q⁃factor wavelet transform,TQWT)相结合的方法对局部放电信号进行消噪处理。
采用CEEMDAN将含噪变压器局部放电信号分解成多个固有模态函数(intrinsic mode function,IMF)分量,并利用相关系数判断IMF分量与原始信号的相关度。
将弱相关者视为劣质IMF,对其进行TQWT分解,利用能量占比与峭度指标来筛选小波子带,提取IMF的有效细节信息,进行TQWT逆变换,从而得到新的IMF分量;将强相关者视为优质IMF,与变换后的新IMF分量共同进行信号重构,得到消噪结果。
一种藏文古籍的版面分析方法及系统[发明专利]
(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 202011434430.6(22)申请日 2020.12.10(71)申请人 西藏大学地址 850000 西藏自治区拉萨市城关区江苏路36号申请人 同方知网数字出版技术股份有限公司(72)发明人 尼玛扎西 拥措 师庆辉 芦筱菲 毕琰虹 洛桑嘎登 仁增多吉 (74)专利代理机构 郑州知一智业专利代理事务所(普通合伙) 41172代理人 刘彩霞(51)Int.Cl.G06T 7/11(2017.01)G06T 7/136(2017.01)G06T 5/30(2006.01)G06T 5/00(2006.01)G06K 9/00(2006.01)(54)发明名称一种藏文古籍的版面分析方法及系统(57)摘要本发明涉及一种藏文古籍的版面分析方法及系统,获取藏文古籍图像,对藏文古籍图像进行二值化处理,获取藏文古籍图像的二值图像,对二值图像进行分离处理,获取文本文档和非文本文档,对文本文档进行区域分割,提取文本区域,获取非本文文档中的图像元素。
本发明提供的藏文古籍的版面分析方法能够针对版面结构较复杂的藏文古籍进行可靠分析,并不依赖于具体文档的版面结构,提升处理效果,能够准确分析识别出其中的文本文档和非文本文档,并对文本文档和非文本文档进行可靠处理,而且,本发明提供的藏文古籍的版面分析方法中,降低了计算复杂度,减少了整个过程的计算时间,提高了分析精度和效率。
权利要求书4页 说明书11页 附图4页CN 112561928 A 2021.03.26C N 112561928A1.一种藏文古籍的版面分析方法,其特征在于,包括:获取藏文古籍图像;对所述藏文古籍图像进行二值化处理,获取所述藏文古籍图像的二值图像;对所述二值图像进行分离处理,获取所述二值图像中的文本文档和非文本文档;对所述文本文档进行区域分割,提取文本区域;获取所述非本文文档中的图像元素。
浅析西藏图书馆藏文图书编目自动化
浅析西藏图书馆藏文图书编目自动化
德吉
【期刊名称】《四川图书馆学报》
【年(卷),期】2010(000)005
【摘要】随着现代网络信息技术的不断发展,藏文图书编目也在逐渐采用各种计算机信息管理系统,文章介绍了西藏图书馆藏文图书编目从传统到自动化的转型过程,从而阐述了ILASII环境下藏文图书编目的优势和不足,最后提出了完善藏文图书编目的策略.
【总页数】4页(P49-52)
【作者】德吉
【作者单位】西藏图书馆,西藏拉萨850000
【正文语种】中文
【中图分类】G254.3
【相关文献】
1.高校图书馆藏文图书编目与流通工作探讨——以西藏大学图书馆为例 [J], 张云洋
2.浅析高校图书馆图书加工的质量优化--以西藏民族学院图书馆为例 [J], 李春华
3.基于关联规则的藏文文献流通特征研究——以西藏大学图书馆为例 [J], 刘芳;胡志杰
4.藏学藏文图书编目与排架方法浅析——以西藏民族大学图书馆为例 [J], 范晓朦
5.浅析基层工会在构建和谐图书馆中的作用——以西藏民族大学图书馆工会为例[J], 陈春霞
因版权原因,仅展示原文概要,查看原文内容请购买。
藏文信息处理技术的研究现状与展望
藏文信息处理技术的研究现状与展望藏文信息处理技术是指对藏文进行处理、分析和应用的技术领域。
藏文作为一种特殊的文字系统,具有独特的语法、词汇和语义特点,因此对其进行信息处理需要特殊的技术和方法。
本文将介绍目前藏文信息处理技术的研究现状,并展望未来的发展方向。
对藏文信息处理技术的研究主要集中在以下几个方面。
首先,文字识别是藏文信息处理的基础。
由于藏文的文字形状复杂,传统的光学字符识别技术难以准确识别藏文。
因此,研究者们提出了基于深度学习的藏文文字识别方法,取得了较好的效果。
其次,机器翻译是藏文信息处理的重要应用之一。
由于藏文和其他语言之间存在较大的差异,传统的统计机器翻译模型难以达到较高的翻译质量。
因此,研究者们提出了基于神经网络的机器翻译方法,取得了较好的效果。
藏文信息处理技术还涉及到文本分类、情感分析、信息检索等方面的研究。
例如,研究者们提出了基于机器学习的藏文文本分类方法,用于对藏文文本进行分类和归类。
同时,研究者们还提出了基于情感词典和机器学习的藏文情感分析方法,用于分析藏文文本中的情感倾向。
未来,藏文信息处理技术仍有许多挑战和发展方向。
首先,如何提高藏文文字识别的准确率是一个重要的研究方向。
虽然基于深度学习的方法取得了较好的效果,但仍存在一些问题,比如在少样本和多样本情况下的表现不稳定。
因此,研究者们可以探索更加有效的特征表示和模型设计方法,提高藏文文字识别的准确率。
如何提高机器翻译的质量是另一个重要的研究方向。
目前,基于神经网络的机器翻译方法已取得了较好的效果,但仍存在一些问题,比如对稀缺词汇和长句的处理能力有限。
因此,研究者们可以探索更加高效和准确的机器翻译方法,提高机器翻译的质量。
如何提高藏文信息处理技术在实际应用中的效果也是一个重要的研究方向。
目前,藏文信息处理技术主要应用于文本分类、情感分析、信息检索等方面,但实际效果仍有待提高。
因此,研究者们可以探索更加有效和实用的方法,提高藏文信息处理技术在实际应用中的效果。
一种藏文自动校对方法
一种藏文自动校对方法引言:随着信息技术的发展,自然语言处理技术也日益成熟。
在藏文自动校对方面,研究者们提出了一种有效的方法,能够自动检测和修正藏文中的错误,提高文本的质量和可读性。
本文将介绍这种藏文自动校对方法的原理和实施步骤。
一、原理:藏文自动校对方法基于统计和规则模型。
首先,通过语料库收集大量的正确和错误的藏文文本,建立统计模型来分析错误出现的规律。
然后,根据规则模型对错误进行判断和修正。
最后,根据修正结果,对文本进行评估和反馈,不断优化模型。
二、实施步骤:1. 数据收集与预处理:从互联网、藏文书籍等渠道收集大量的藏文文本,并进行预处理,包括分词、标注词性等,以便后续的统计和规则分析。
2. 统计模型构建:基于预处理后的数据,建立统计模型,分析错误出现的频率和上下文关系。
通过统计方法,找出常见的错误类型和其出现的规律,为后续的规则模型提供依据。
3. 规则模型设计:根据统计模型的结果,设计规则模型,制定一系列的规则来判断文本中的错误并进行修正。
常见的错误类型包括错别字、语法错误等。
规则模型可以使用正则表达式、有限状态机等方法来实现。
4. 错误检测与修正:根据规则模型,对文本进行错误检测和修正。
首先,对文本进行分词和词性标注,然后根据规则模型逐句判断错误,并进行修正。
修正可以是替换、删除或插入等操作。
5. 评估与反馈:根据修正后的文本,进行评估,统计校对的准确率和效果。
根据评估结果,不断优化统计和规则模型,提高校对的精度和效率。
三、优点与应用:藏文自动校对方法具有以下优点:1. 高效快速:通过自动化的方式,可以快速检测和修正大量的文本,提高工作效率。
2. 准确可靠:基于统计和规则模型,校对结果准确可靠,大大降低了人工校对的错误率。
3. 可扩展性强:方法可以根据需求进行优化和扩展,适用于不同领域的藏文文本校对。
藏文自动校对方法的应用也非常广泛:1. 媒体出版:对报纸、杂志、图书等藏文出版物进行自动校对,提高印刷质量和阅读体验。
基于文献计量的藏语自然语言处理研究分析
TIBETAN PLATEAUFORUM 作者简介:肖维霖(1991—),女,湖南娄底人,中国藏学研究中心助理研究馆员,硕士研究生,主要从事藏学文献学研究。
基于文献计量的藏语自然语言处理研究分析肖维霖(中国藏学研究中心,北京100101)摘要:人工智能时代,随着汉语、英语领域对语言文字信息处理研究技术的不断迭代和更新,藏文信息处理技术也从文字信息处理逐步向语言语音信息处理拓展。
文章通过以中国知网为数据源,下载了所有与藏语自然语言处理相关的文章,用文献计量学的方法从论文数量规律、机构发展、主题研究、作者分析四个方面初步分析了我国在藏语自然语言处理方面的研究发展情况。
关键词:文献计量;自然语言处理;藏语;研究发展近几年,谷歌研发的AlphaGo 机器人先后战胜棋士李世乭和柯杰,掀起了人工智能的浪潮,也深深吸引了世人对人工智能、机器学习以及自然语言处理的关注。
我国民族文化绚烂多彩,博大精深,而其中的藏文化更是源远流长,值得后世研究者研究、继承和弘扬。
现如今人类社会已经迈入信息时代,藏学作为一门历史悠久的学问、藏语作为一门古老的语言,更应该适应时代的发展,使用先进的技术来挖掘和展示藏文化的魅力。
随着人们在汉语、英语领域对语言文字信息处理研究技术的不断迭代和更新,藏文信息处理技术也从文字信息处理逐步向语言语音信息处理拓展[1]。
本文旨在以文献计量学的方法,初步分析我国在藏语自然语言处理方面的研究情况。
一、数据来源与研究方法本文研究所用的数据是来自中国知网cnki 数据库,同方知网收集的刊物全面,是开展国内文献计量研究比较权威的文献资源库[2]。
由于自然语言处理为新兴技术,而藏语领域开展研究的门槛较高,考虑到尽可能全面收集论文数据信息,本文下载的时候没有对时间做限制,经过与专家探讨,确定检索式为SU=(′藏语′+′藏文′)*(′语音识别′+′自然语言处理′),检索时间为2017年12月22日,共下载数据205条,经过数据清洗和去重处理,最终留下199条可分析数据。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
面 分 析 方 法 。首 先 ,将 藏 文 历 史 文 献 图像 进 行 超 像 素 聚类 获得 超 像 素 块 ;然 后 ,利 用 卷 积 降 噪 自编 码 器 提 取 超 像 素
块 的 特 征 ;最后 ,使 用 SVM 分 类 器 对 藏 文 历 史 文 献 的 超 像 素 块 进 行 分 类预 测 ,从 而提 取 出藏 文 历 史 文 献 版 面 的 各
文 献 标 识 码 :A
Layout Analysis for H istorical Tibetan D ocum ents Based on C0nVOlutiOnal Denoising A utoencoder
ZH A NG Xiqun ,M A Longlong ,DU A N ua n 。。, IAU Zeyu , W U Jian (1. Faculty of Information Technology Beijing University of Technology,Beijing 100124,China;
第 32卷 第 7期 2O18年 7月
中文 信息 学报
J OU RNAI ()F CHINESE INF()RM ATI()N PR()CESSING
文 章 编 号 :1003—0077(2018)07—0067—07
V oI_ 32, No. 7 July,2018
基 于 卷 积 降 噪 自编 码 器 的 藏 文 历 史 文 献 版 面 分 析 方 法
摘 要 :近 年 来 ,随 着 -&4F]对 历 史和 传 统 文化 的保 护 和 传 承 越 来 越 重视 ,研 究人 员对 历 史 文 献数 字 化 的 兴趣 也 越 来
越 高 涨 。版 面 分 析 是 历 史文 献 数 字化 的 重要 基 础 步 骤 ,该 文提 出 了一种 基 于 卷 积 降噪 自编 码 器 的 藏 文 历 史 文 献 版
2.Beijing Key Laboratory of Trusted Computing , Beijing 100124,China; 3. Chinese Inform ation Processing I aboratory, Institute of Softw are, Chinese Academy of Sciences,Beijing 10019O,China;
个部 分 。 在 藏 文 历 史文 献 数 据 集 上 的 实验 表 明 ,该 方 法 能 够 对 藏 文历 史 文献 的 不 同版 面 元 素进 行 有 效 的 分 离 。
关 键 词 :藏 文 历 史 文献 ;版 面分 析 ;卷 积 降 噪 自编码 器 ;超 像 素
中 图 分 类 号 :TP391
0 引 言
近 年 来 ,人 trJ-x ̄传 统 历 史 文化 的保 护 和传 承 越 来越 重 视 ,研 究人 员 对 历 史 文 献数 字化 的兴 趣 也 越 来 越 高 涨 。
藏族 是 一 个 拥有 丰 富 传 统 文化 的 民族 ,是 中华 灿 烂 文 明 不 可 或 缺 的 重 要 组 成 部 分 。 藏 文 历 史 文 献 是 藏族 传统 文 化宝 库 中一 颗 璀璨 的 明珠 ,其 作 为 承 载藏 族古 老 文 明 的 载体 ,受 到 了 历 史 学 家 、语 言 学 家 、佛 学 家 、文 献 学 家 的广 泛 关 注 。一 直 以来 ,中 央 政 府 非常重 视 藏文 历 史 文 献 及 文 物 的保 护 及 发 掘 ,
张西 群 。,马龙 龙 。,段 立 娟 ,刘 泽 宇 。,吴 健 。
(1_北 京 下 业 大 学 信 息 学 部 ,北 京 100124; 2.可 信 计 算 北 京 市 重 点 实 验 室 ,北 京 100124; 3.中 国科 学 院 软 件 研 究 所 中 文信 息 处 理 实 验 室 ,北 京 1001 90; 4.大 规 模 流数 据集 成 与 分 析 北 京 市 重 点 实 验 室 ,北 京 ,100124)
4.பைடு நூலகம்eijing Key I ahoratory on Integration and Analysis of I.arge—scale Stream Data,Beijing l001 24,China)
A bstract:The digitalization of historical docum ents attract increasing research interests in recent years. Focusing on layout analysis, the essential step in digitizing historical docum ents, this paper proposes a convolutional denoising auto encoder approach to historical T ibetan docum ents. Firstly, the docum ent im ages are clustered into superpixel blocks. Then,w e use the convolutional autoencoder to extract features from these blocks. Finally, the superpixel blocks are classified by the SV M classifier,thus the different parts of the T ibetan historica1 docum ent are identified. Experim ents on the dataset of historical T ibetan docum ents show that our m ethod can effectively separate the differ ent layout elem ents of Tibetan historica1 docum ents. Key words:historical Tibetan docum ents;layout analysis;convolutional denoising autoencoder;superpixel