基于编码的甲骨文识别技术研究
基于SVM的甲骨文字识别

基于SVM的甲骨文字识别刘永革;刘国英【摘要】甲骨文作为古文字还没有进入国家标准也没有进入国际标准,所以甲骨文字在出版物上是以图片出现,这给检索带来了困难;同时使用大数据进行甲骨文考释的过程中,需要大量的已标注的甲骨图像数据库,而人工标注耗时耗力,且只有甲骨文专家能够完成这项任务,基于以上两个原因,甲骨文字图片的识别变得越来越重要,本文采用支持向量机分类技术研究甲骨文字图片的识别技术,通过试验证明达到88%的准确率.【期刊名称】《安阳师范学院学报》【年(卷),期】2017(000)002【总页数】3页(P54-56)【关键词】甲骨文;支持向量机;识别【作者】刘永革;刘国英【作者单位】安阳师范学院计算机与信息工程学院,河南安阳455000;安阳师范学院计算机与信息工程学院,河南安阳455000【正文语种】中文【中图分类】TP317.1甲骨文作为古文字还没有进入国家标准也没有进入国际标准,所以甲骨文字在出版物上是以图片出现,这给检索带来了困难;同时使用大数据进行甲骨文考释的过程中,需要大量的已标注的甲骨图像数据库,而人工标注耗时耗力,且只有甲骨文专家能够完成这项任务,基于以上两个原因,甲骨文字图片的识别变得越来越重要,国内外研究文字识别的成果很多,但是研究甲骨文图像识别的不多,一是因为甲骨文是古文字,二是甲骨拓片上文字背景噪声比较大,三是甲骨文异体字比较多,所以甲骨文的图像识别有一定难度。
支撑向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。
甲骨文字存在大量的异形体,且有很多甲骨字在已出土的甲骨片中只出现几次,因此甲骨文字的识别需要一个满足小样本的识别方法。
因此,在项目执行过程中,我们采用支撑向量机进行甲骨文字识别。
在我们的前期研究中已经建立了甲骨文图文资料库,该库中包含6199个已经经过甲骨文专家标示过的甲骨文字。
甲骨文信息处理导论

甲骨文信息处理导论甲骨文是中国历史上最早的文字,它记录了商代的政治、经济、社会和文化方面的丰富信息。
随着时代的变迁,甲骨文成为了人们研究古代文化和历史的重要资料。
针对甲骨文的特点和研究需求,已经逐渐发展出了许多甲骨文信息处理技术,本文将围绕甲骨文信息处理导论进行分步骤阐述甲骨文信息处理相关知识。
1、甲骨文基础知识甲骨文是中国历史上最早的文字,用于商代的政治、经济、社会和文化的记录。
它包括6000多个句子,涵盖了丰富的信息。
随着时间的推移,甲骨文编码也经历了多种变化。
甲骨文的编码方式较为特殊,通常由由龟甲、兽骨刻写而成,刻文较小且含义繁多,需要进行识别、分类、翻译等处理方式。
2、甲骨文信息处理技术甲骨文信息处理技术包括图像处理、文字识别、语言翻译等方面。
其中,最关键的是文字识别技术,它可以将甲骨文刻文转换为数字或文字,从而便于后续的数据处理、存储和分析。
甲骨文的识别具有以下特点:比较难识别,因为每个刻文都有不同的形状和位置,且古代的书写方式较为固定;以及需要对分形结构的概念有一定的了解,因为甲骨文的每个字符都是由块状结构组成的,因此需要进行逐层分析。
3、甲骨文信息处理的应用随着信息技术的不断发展,甲骨文信息处理的应用范围也在不断扩展。
首先,它可以用于文化遗产及历史文本的数字化保护。
甲骨文是中国文化的重要组成部分,进行数字化保护可以避免遗失和文物破坏带来的影响;其次,它可以用于历史文献的数字化处理。
甲骨文是中国历史的重要文物,可以作为历史文献材料进行研究;再次,它可以用于汉字的演化研究。
甲骨文是汉字的前身,因此对于汉字的历史演化研究具有重要的价值。
综上所述,甲骨文信息处理导论是从事甲骨文研究和信息处理的重要参考书,它具有重要的指导意义。
甲骨文信息处理技术在文化遗产保护、历史史料数字化、汉字演化研究等方面起着重要作用,值得广泛应用和推广。
基于字形拓扑结构的甲骨文输入编码研究

第 2 2卷 第 4期 20 0 8年 7月
中文信 息学 报
J OURNAL OF CH I NES NFORM ATI EI ON ROCE S NG P
J 1 ,2 0 u. 0 8
形 和 一个 符号 串 或 一个 数 字 串对 应 起 来 , 而 把 甲 从
1 引 言
甲骨文 信息 化处 理是 古 文字信 息 化处 理 的一个 重 要研 究领 域 , 甲骨文 信息 化处 理 的过 程 中 , 在 甲骨 文 字库 的建设 是 一个 核心 的 问题 。在 实现 了将 甲骨
文 章 编 号 :1 0 — 0 7 2 O ) 40 2 — 6 0 30 7 ( O 8 0 — 1 30
基 于 字 形 拓 扑 结 构 的 甲 骨 文 输 入 编 码 研 究
顾绍通h , 马小 虎 , 亦 鸣 h 杨 。
( .徐 州 师 范 大 学 语 言研 究 所 ,江 苏 徐 州 2 l 1 ; .语 言 科 学 与神 经 认 知 工 程 江 苏 省 重 点 实 验 室 , 苏 徐 州 2 l 1 ; 1 2 16 2 江 2 1 6
问题 。
关键 词 : 算 机 应 用 ; 计 中文 信 息 处 理 ;拓 扑 结 构 ;甲 骨 文 ;输 入 ;编 码
中 图分 类 号 :TP3 1 9 文 献 标 识 码 :A
To o o i a a s d I u e h d Co n fJ a u n p l g c lFr me Ba e np tM t o di g o i g we
vd s t y O i p t igu n:( )Gl p o i g i p tme h d ( ) Ha z S e l g c d n n u t o . i e wo wa s t n u a we J 1 y h c dn n u t o ; 2 n i p l n o i g i p tme h d i Ke r s o u e p l a in y wo d :c mp tra pi t ;C ie e i f r t n p o e sn c o h n s n o ma i r c s ig;t p lg c l rme i u n;ip tmeh d o i g o o oo ia fa ;Ja we g n u to ;c dn
机器学习技术在甲骨文破译中的应用与探索

机器学习技术在甲骨文破译中的应用与探索甲骨文作为一种古老的文字形式,具有极高的历史和文化价值,对于了解古代的政治、宗教、社会等方面提供了重要的线索。
然而,由于甲骨文的文字形状独特、多样,加之文字本身的累赘复杂,传统的甲骨文破译工作一直以来都面临着巨大的挑战。
近年来,随着机器学习技术的发展与智能化工具的应用,探索利用机器学习技术在甲骨文破译中的应用已成为研究的热点之一。
本文将就机器学习技术在甲骨文破译方面的应用与探索进行讨论。
一、机器学习算法介绍机器学习算法是指通过计算机从大量数据中学习和提取规律,进而进行预测、分类、聚类等任务的一种算法。
在甲骨文破译中,机器学习算法可以被用于自动识别甲骨文中的字形、编码、文字之间的关系等,从而辅助破译工作的进行。
常见的机器学习算法有支持向量机(Support Vector Machine, SVM)、卷积神经网络(Convolutional Neural Network, CNN)、递归神经网络(Recurrent Neural Network, RNN)等。
这些算法通过训练模型,从而能够根据已有的数据进行自动识别和预测。
二、机器学习技术在甲骨文破译中的应用1. 字形识别甲骨文中的字形千姿百态,因此识别和分类字形一直是传统甲骨文破译的难点之一。
而利用机器学习技术,可以通过对大量的甲骨文数据进行训练,构建字形模型,从而实现自动识别和分类。
例如,研究人员可以收集大量甲骨文图像数据,对这些数据进行预处理,并使用卷积神经网络等算法进行训练。
通过训练后的模型,可以自动识别出甲骨文中的不同字形,从而为破译工作提供有力的支持。
2. 文字编码识别甲骨文的编码方式多种多样,每种编码方式都代表着不同的含义和语义。
传统的甲骨文破译工作需要依靠专家根据经验进行编码的解读,这既费时费力,也容易出错。
利用机器学习技术,可以通过训练模型,使其自动识别甲骨文中的编码方式,并提供相应的解读。
例如,通过对已有甲骨文数据进行编码和标注,利用递归神经网络等算法训练模型,可以自动识别并解读甲骨文中的编码方式,减少破译工作的主观性和随意性。
甲骨文数字化处理研究进展

甲骨文数字化处理研究进展顾绍通【摘要】甲骨文数字化处理是当前古文字信息化处理的重要方面.文章首先阐述了甲骨文数字化处理研究的现实意义,接着介绍了甲骨文数字处理研究中字形拟合、字形编码以及甲骨文字体艺术变形等方面所取得的研究成果,分析了当前研究中的存在的问题,最后结合已有的研究成果,对未来的研究方向做了展望.【期刊名称】《广西民族大学学报(自然科学版)》【年(卷),期】2008(014)001【总页数】3页(P80-82)【关键词】甲骨文;数字处理;拟合;编码;变形【作者】顾绍通【作者单位】徐州师范大学,语言研究所,江苏,徐州,221116【正文语种】中文【中图分类】TP391自1899年金石学家王懿荣发现甲骨文至今已经有一百多年的历史了,甲骨文以其自身独特的魅力引起了众多学者的研究兴趣,现在已发展成为一门与历史学、考古学、文字学、文献学等学科有密切关系的一门学科——甲骨学.一百多年来,先后有十万余片甲骨文出土,经过几代学者的搜集、整理,绝大部分已经公布于世.经过几代学者的共同努力,认识或基本认识的甲骨文字约占总数的2/5,并在此基础上编纂出版了一批工具书.百年之中,人才辈出,专著数以百计,论文数以千计[1].这些著录书籍对于甲骨文的研究、传播起了很大作用.作为我国迄今发现的最早的一种成熟文字系统,甲骨文具有极其重要的学术价值和文化遗产保护价值.如何借助先进的计算机技术对其进行数字化,以有效保护、展示和方便使用,具有重要的现实意义.甲骨文的数字化处理包括3个方面:(1)将甲骨文点阵字形转化为计算机可以识别和处理的轮廓字形;(2)对甲骨文字形进行编码,使得甲骨文字形可以像现代汉字一样在计算机屏幕上显示出来;(3)甲骨文字体和其他字体风格融合的艺术变形.1 甲骨文字形的数字化拟合技术将甲骨文点阵字形转化为曲线轮廓字形,实现甲骨文字形的数字化,首先面临的问题是选择何种字形描述技术.在甲骨文字形拟合方面,1994年郑芳林等人[2]采取三次B样条曲线来拟合还原甲骨文字符,开发了一个造字系统.在MS-DOS环境下,该系统可以对包括ASCII字符、汉字和甲骨文字形进行处理.但是,这种曲线拟合方法与Windows环境下的TrueType字形描述方法有所不同,二者不能相互兼容.2003年肖明等人[3]利用HIGH-LOGIC公司的TrueType曲线轮廓造字软件,按照直线和二次B样条曲线拟合算法,自动将扫描的点阵图形抽成尽可能接近原稿的数字化信息(曲线轮廓),生成一个独立的可运行于Windows、Linux环境下的TTF格式字库.但是,HIGH-LOGIC公司的TrueType曲线轮廓造字软件主要是针对只有较少字符的西方文字设计的,对数目巨大的中文字库支持还存在许多局限,如存在生成字形速度不快,生成的字形容易变形等缺点.2003年,李胜明、谭支鹏[4]采用三次样条B-spline 曲线拟合还原字符轮廓技术对甲骨文字形进行处理.但这种方法无法对甲骨文字形进行前期预处理.2004年马小虎等人[5]开发出了一个针对甲骨文字形特点的字形处理系统.在算法上,该系统采取顺序对曲线上的每个点与它左右两边相邻点的夹角求平均值的方法,来增加特征点提取的精确度,以及使用对缓慢弯曲的较长曲线插入一个额外特征点的方法,提高了字形拟合的精度.该系统可以通过移动控制点、导引点来修改字形的形状,对字形拟合可以进行精确的控制.不仅可以对点阵字形进行拟合,还可以对点阵字形进行适当的预处理,提高了字形质量.2 甲骨文字形的编码将甲骨文点阵字形转化为曲线轮廓字形并制作甲骨文字库后,随之而来的问题是,如何将甲骨文字形从字库中调出来,这就要对甲骨文字形进行编码.甲骨文的编码包括甲骨文字形的内码和甲骨文字形的外码.甲骨文字形的内码,即甲骨文字形的机内码,在计算机系统内部存储、处理甲骨文字形时所用的代码.甲骨文字形的外码,即甲骨文字形的输入码,是为了通过键盘字符把甲骨文字形输入计算机而设计的一种编码,它按照某种规则将每一个甲骨文字形和一个符号串或一个数字串对应起来,从而把甲骨文字形输入计算机中.2.1 甲骨文字形的内码Unicode发布以后,使用Unicode字符集对甲骨文字形进行编码成了首选.Unicode是一种双字节编码机制的字符集,包含符号6811个,汉字20902个,韩文拼音11172个,造字区6400个,保留20249个,共计65534个. Unicode同现在流行的代码页最显著不同点在于:Unicode是两字节的全编码,对于ASCII字符它也使用两字节表示.代码页是通过高字节的取值范围来确定是ASCII字符,还是汉字的高字节.如果发生数据损坏,某处内容破坏,则会引起其后汉字的混乱.Unicode则一律使用两个字节表示一个字符,最明显的好处是它简化了汉字的处理过程.Unicode使用平面来描述编码空间,每个平面分为256行,256列,相对于两字节编码的高低两个字节.Unicode的第一个平面,称为Basic MultilingualPlane(基本多文种平面),简称BMP,由于BMP仅用两个字节表示,所以倍受青睐.其中 A-ZONE为拼音文字编码区,拉丁文、阿拉伯文、日文的平假名及片假名等都在此区编码.CJK Extension A 和CJK为汉字区域共计27487个汉字.Y1即彝文,位于O-ZONE保留待将来使用.Hangul即韩文.EUDC为用户私有区,用户可以根据需要自己定义此区的编码.R-ZONE为限制使用区,一些兼容字符、特殊字符均放在此区.UNICODE定义BMP中的D800-DFFF为代理区(Surrogate Zone),其中D800-D8FF为高半代理(high surrogate), DC00-DFFF为低半代理(low surrogate).从两个区域分别取一个编码,组成一个4字节的代理对来表示一个编码字符,此即为UTF-16.利用UTF-16机制,UNICODE扩充了1024*1024个字符,相应于OO-OF平面,并且将02平面分配给了CJK Extension B.Microsoft在Windows 2000已实现了 UTF-16.2.2 甲骨文字形的外码通常根据提取汉字特征的类别不同,将编码方案划分为3类:(1)按照字形特征进行编码,称为形码,如五笔字型编码.1996年李继明[6]提出了甲骨文象形编码方案,该编码方案利用甲骨文构字部件象形的特点,利用26个英文字母以及10个数字对甲骨文字形进行编码.1999年,肖明等人[7]运用模糊数学和面向对象Petri 网方法研究甲骨文的部件(字根)形成和码元的确定规则,使用25个英文字母和7个阿拉伯数字作为码元,与甲骨文中的五百多个字根相对应,实现一字一码的编码方案.2003、2004年肖明等人[3,8]对甲骨文象形码的编码方法进行了研究,认为甲骨文编码的最佳码长大致接近于3.形码从甲骨文构字部件象形的角度出发对甲骨文进行编码,并没有利用音方面的属性,存在重码较多的问题.(2)按照汉字的字音特征进行编码,称为音码,例如智能ABC编码方案.(3)将汉字的形、音特征结合起来进行编码,称为形音码.2002年尚君[9]通过对1056个甲骨文字头,2602个字形进行部件拆分,统计归纳出341个基本部件.采取以形码拆分为基础,以成字部件为依据的形音码结合的设计方案.2003年,周晓文[10]利用小篆造字软件拟合甲骨文字形,设计了甲骨文字库,并对其进行了编码,对2600余字形拆码分析而归纳出341个常用基本部件.但是,上述方案所归纳出的构字部件均是针对部分甲骨文字形分析得出,并不全面.2006年马小虎等人[11]通过对《殷墟甲骨刻辞类纂》[12]甲骨文字形进行分析和整理,从中整理出了569个甲骨文字根,将其分别编置在标准键盘的26个键位上.将这些字根与键盘上的字母联系起来,通过26个字母就可以输入《殷墟甲骨刻辞类纂》中3673个甲骨文(含异体字合文).但是,这种方法会带来很大的记忆负担.3 甲骨文字体的艺术变形甲骨文本身作为最古老的文字体系,在殷商时代它的艺术价值只是处于从属地位,受当时书写工作的制约,其风格和特征表现出一种波动性.作为汉字书法艺术的一种形式,其风格也应该是多样化的,因而后来出现了使用纸笔创作的现代甲骨文书法.到了数字时代,甲骨文也加入到数字书法的家族中,表现出了独特的艺术魅力.2007年马小虎等人[13]针对甲骨文字形特殊的几何特征和拓朴结构,提出了一种基于曲线轮廓描述的甲骨文笔段提取和字体变形方法.首先使用二次Bezier曲线拟合甲骨文字形轮廓,然后利用拟合曲线提取轮廓特征点,找出甲骨文笔段,根据笔段特征将其进行分类,再提取各种不同风格书体的笔段轮廓生成模板,最后按照轮廓模板变形甲骨文笔段从而生成新的字形.该方法使用轮廓提取笔段,避免了传统的细化方法容易造成畸变的问题.同时,该方法将甲骨文笔画拆解为笔段,这些最基本的笔段在现代汉字中同样存在.既保持了字体的书法特征,又解决了甲骨文和现代汉字结构差异大而无法合成的问题.该文是基于字形笔段的字体变形,对于图画性强的文字,变形的效果不再明显.另外,该变形方法只解决了笔画变形,并没有涉及到甲骨文字形间架结构的变形,使得该变形方法存在一定的局限性.4 发展方向目前问世的甲骨文字库只是通用甲骨文字库,所收录字形只是出土甲骨的一部分,还不能完全解决甲骨文信息化处理的所有问题.如果要实现对甲骨文学术研究的全面支持,全面、彻底地实现甲骨文的信息化处理,研究对象将扩大到所有出土甲骨的字形,全甲骨文字库的建设将是一个必须解决的问题.在全甲骨文字库建设过程中,字形的确定以及编码也是一个需要深入研究的问题.甲骨文字形风格独特,如何将甲骨文字形特点与其他更多的字体风格相融合,开发出具有全新的字体风格的甲骨文艺术字形,也是一个值得研究的领域.5 结语目前,古文字信息处理的研究方兴未艾,甲骨文作为我国最古老的成熟文字系统,它的信息化处理研究开始受到人们的重视.在甲骨文信息化处理的研究中,甲骨文的基础理论研究有待加强,特别是要加强对甲骨文字形考释、分期、整理的研究,为甲骨文的信息化奠定基础.当然,反过来甲骨文信息化处理研究对甲骨文基础理论研究也将起到很大的促进作用.总之,甲骨文字形的数字化及编码,是甲骨文信息化处理的基础研究工作,这一问题的解决必将为甲骨学的发展以及信息时代甲骨文知识的传播起到很好的促进作用.[参考文献]【相关文献】[1]陈炜湛.近二十年来的甲骨文研究[J].汕头大学学报,2001,(1).[2]郑芳林,鱼滨.一个通用造字系统及在甲骨文中的应用[C]∥中国青年计算机研究新进展.西安:西北工业大学出版社,1994.[3]肖明,赵慧,甘仲惟.甲骨文象形码编码方法研究[J]. 中文信息学报,2003,(5):60-65.[4]李胜明,谭支鹏.建立甲骨文字库中的字处理技术[J].微机发展,2003,(6):104-106.[5]马小虎,黄文帆,顾绍通,等.甲骨文点阵字形转换为甲骨文轮廓字形的方法[J].语言科学,2004,(3):3-11.[6]李继明.计算机文字信息处理技术新探——甲骨文象形码设计方案[J].中文信息学报,1996,(3):18-29.[7]肖明,胡金柱,赵慧.面向对象的Petri网方法及其在甲骨文编码中的应用[J].华中师范大学学报(自然科学版),1999,(4):495-499.[8]肖明,赵慧,甘仲惟.甲骨文象形码编码的模糊数学模型研究[J].计算机工程与设计,2004,(3):358-361.[9]尚君.甲骨文编码研究[D].硕士毕业论文,2002.[10]周晓文.古文字字库的设计与实现[J].民俗典籍文字研究,2003,第1辑,375-380.[11]Xiaohu MA, Shaotong GU, Yiming YANG. Digitization Processing And Input Method Coding Of JIAGUWEN[J].Journal of Computational Information Systems, Volume 2, Number 2, 2006.[12]Xiaohu MA, Xuexue Fan. Study on Automatic Generating New Style Jiaguwen Basedon Outline Description[J].Journal of Computational Information Systems, Volume 3, Number 3, 2007.[13]姚孝遂,肖丁.殷墟甲骨刻辞类纂[M].北京:中华书局,1989.。
基于构件的甲骨文字编码器设计与实现

及 显示 , 由 于 甲骨 文 年 代久 远 , 以对 于 中具 体所 处 的 相对 位 置 。 为 早 期文 字 , 但 所 作 由
甲骨文 无 论 从 音或 是 义 上 人 们都 很 难 完 全 于 时 代 较 早 的 关 系 , 上 书 写 物 质 条 件 等 个 “ 一 个 ” 钮 来 选 择 待 编 码 的 甲骨 加 和 下 按
文构 件 的形 成 , . E 平 台 下 实现 了可视 构件 为2 1 , 级 构 件 为 6 个 , 级 构 件 在 N T 9个 三 1 四
一
化的 甲骨 文数 字化 编码 , 实现 了对5 0 多 为6 。 并 00 个 甲骨 文 字 的 有效 编码 。
码 的 从 属 层次 关 系 。 于 构 件 方位 编辑 视 对 图, 功能 非 常 明 确 , 来 添加 、 除 、 改 构 用 删 修 件 位 名 和 方 位 编 码 。
视 图 窗 口由2 T b 成 。 户 可 以 选择 不 介 a组 用
人 们开 始 高 度 重 视 甲骨 文 的 计 算 机处 理 方 2 2构件 方位 .
同 的Ta 进 入 编 码 视 图和 构 建 方位 编辑 视 b 构 件 方 位 就是 指 某 一 构 件 在 整 个 字 形 图 。 在 编 码 视 图 中 , 户 可 以 点 击 “ 一 用 上
2 1 N 0 0 O 1 5 a d Te h o o y In v to r l n c n l g n o a i n He ad
基 于 构件 的 甲骨 文 字编码 器 设 计 与 实现 ① 技术 创新
李东琦 刘永革 ( 阳师范 学院计 算机 与信 息工 程学 院 甲骨文信 息处 理重点 实验 室 安
把 握 , 年 来 一 直 没 能 对 甲骨 文 进 行 有 效 限 制 , 多 甲骨 文 的 构 件方 位 多 种 多样 , 目前 研 文 字 。 选择 某 一 个 甲骨 文 字后 , 图右 半 当 视 地 编 码 。 实 上 , 何 一 种 文 字 都 自成 体 究 得 出 大 体2 种 甲骨 文 字 构 件 方 位 。 事 任 5 部 分 的 两 个 列 表 框 中就 会 显 示 出 该 甲骨 字 系 , 一 套 确定 的构 成规 律 , 们 的构 形 部 2 3构件 层级 有 它 . 的构 成 部 件 。 户通 过 选择 一个 构 件 , 后 用 然 件尤 其 如 此 。 甲骨 文 也不 例 外 , 它的 构 件 亦
基于分形几何的甲骨文字形识别方法

0 引 言
甲骨 文 是 书 写 在 龟 甲和兽 骨 上 的文 字 ,是 我 国 迄 今 发 现 的 最 早 的 一 种 成 熟 文 字 系 统 。
甲骨 文字 形 的输 入可 以采用 编码 输 入或 者识 别 输 入 的 方 法 。 目前 对 甲骨 文 字 形 采 用 编 码 输 人 的 方 案 已有 多 种 ,如基 于 甲骨 文 字 形 动 态 描 述 库 的输 入 方 法口]、可 视化 甲骨文 输入 法 l2]、基 于 拓扑 结构 的输
顾 绍 通
(江 苏 师 范 大 学 语 言 科 学 与 艺 术 学 院 ,江 苏 徐 州 221009) 摘 要 :甲骨 文 是 流行 于 我 国古 代 商朝 的成 熟 文 字 系统 ,本 质 上 是 一 种 平 面 图形 ,笔 画 和 结 构 不 是 非 常 稳 定 。很 多 字 形 具 有 图 画性 质 ,难 以 区 分 明 显 的 结 构 ,难 写 难 记 。 已 有 的 编 码 输 入 方 法 受 众 面 小 ,效 率 很 低 ,使 用 受 限 。该 文 分 析 了 甲骨 文 字 形 的 分 形 性 质 ,在 此 基 础 上 ,通 过 字 形 的 重 心 建 立 二 维 平 面 直 角 坐标 系 ,将 甲骨 文 字 形 的 平 面 图 形 划 分 为 四 个 象 限 。利 用分 形 几何 的 原 理 ,通 过 计 算 字形 以 及 各 个 象 限 的 分 形 维 数 ,将 甲 骨 文 字 形 形 式 化 为 一 组 分 形 描 述 码 。再 通 过 与 甲骨 文 字形 的 分 形 特 征 库 进 行 配 准 ,从 而 识 别 甲 骨 文 字 形 。 实 验 结 果 显 示 ,利 用 分 形 几 何 可 以 较 好 地 识 别 甲骨 文 字形 。 关 键 词 :甲骨 文 ;分 形 几 何 ;分 形 维 数 ;识 别 中 图 分 类 号 :TP391 文 献 标 识 码 :A
基于语义构件的甲骨文模糊字形的识别方法

基于语义构件的甲骨文模糊字形的识别方法
高峰;吴琴霞;刘永革;熊晶
【期刊名称】《科学技术与工程》
【年(卷),期】2014(014)030
【摘要】针对殷墟甲骨文字整理过程中大量模糊字形难以识别的问题,提出了一种基于语境的统计分析和Hopfield网络相结合的模糊匹配识别方法.该方法利用语境分析生成的候选字库得到对应的甲骨文语义构件向量,然后结合基于Hopfield网络的识别结果计算待识别的甲骨文模糊字的匹配度,根据匹配度确定目标甲骨字.实验表明,该方法对部分甲骨拓片的模糊甲骨字识别效果较好.
【总页数】5页(P67-70,86)
【作者】高峰;吴琴霞;刘永革;熊晶
【作者单位】安阳师范学院计算机与信息工程学院甲骨文信息处理重点实验室,安阳455002;安阳师范学院计算机与信息工程学院甲骨文信息处理重点实验室,安阳455002;安阳师范学院计算机与信息工程学院甲骨文信息处理重点实验室,安阳455002;安阳师范学院计算机与信息工程学院甲骨文信息处理重点实验室,安阳455002
【正文语种】中文
【中图分类】TP391.41
【相关文献】
1.基于拓扑配准的甲骨文字形识别方法 [J], 顾绍通
2.基于甲骨文字形动态描述库的甲骨文输入方法 [J], 栗青生;吴琴霞;王蕾
3.基于Capsule网络的甲骨文构件识别方法 [J], 鲁绪正;蔡恒进;林莉
4.基于分形几何的甲骨文字形识别方法 [J], 顾绍通
5.基于语义构件的甲骨文字库自动生成技术研究 [J], 吴琴霞;栗青生;高峰
因版权原因,仅展示原文概要,查看原文内容请购买。
甲骨文象形编制方法研究

摘要随着科技的发展,甲骨学乃至古文献研究方法面临着一场由手工操作到自动化处理的变革。
这场变革的瓶颈则在于古文字学,特别是甲骨文字学的信息化革命,而这一切又有赖于文字的编码。
作为汉字最早而成系统的殷商甲骨文字,其编码方法的生成取决于甲骨文字形体结构特征与编码方法的有机结合。
本文在演绎与归纳的基础上结合现代汉字的编码原理,综合出一套新的甲骨文字编码方法——象形码法。
这一方法由字形学出发,通过非线性到线性转换把甲骨文字的信息(结构要素)特征与电子信号的信息处理方式结合起来,最后使二者达成一致,从而达到甲骨文字可以电子化信息处理的目标。
关键字甲骨文、象形码、编制方法AbstractInputmethodisregardedasabottleneck,whichistheorganicpartwhenawords--processing--systemforms.asfarasInscriptionsonBonesorTortoiseareconcerned,thatisthemostcomprehensiveproblem.ThePictographicCode,beingakindofinputmethod,hasmappedoutandpreparedhere.Thespecificpropertyonconfigrationandstructureaboutinscriptionshasbeenstudiedcarefullythatisbasedonthefullyconsiderationwiththeregularityofpartssysteminwordsprocessing.Thentherulesofthees—tablishmentbetweencharacterrootswithencodingunitshavebeenacquiredbyreferringtOthecontempararyencod—ingregularpatterns,andthecoexisfenceofgrapheticallyvaluewhichisagainstwiththeportableoperationhasmani—festeditself,whilethecompleteencodingunits、characterroots、pertinentexamplesaswellasexhaustiveinstructionsonruleshavebeinggiven·KeywordsInscriptionsOnBonesorTortoiseShells、PictographicCode、HowtOcodeⅡ一、引言rFn骨文字乃至整个古文字的研究与传承,多少年来一直处于手工作业状态。
计算机甲骨文操作系统在我校正式研制成功——第一次在世界上用电脑处理古文字信息

作者: 史版
出版物刊名: 河南大学学报:社会科学版
页码: 105-105页
主题词: 甲骨文;河南大学;计算机系统;操作系统;古文字;输入编码;南京大学;混合处理;国际性;电脑
摘要: <正> 甲骨文是中国目前已发现的古代文字中体系比较完整、时代最早的文字。
甲骨文研究日益为国内外学者重视,并逐步成为国际性学科。
长期以来,中国在甲骨文的检索、著述、编排等方面都靠手工。
南京大学、河南大学有关单位人员,根据甲骨文的字形、字义设计出可用于计算机系统的输入编码和输出字形。
在此基础上,河南大学和苏州大学两个计算机系经过共同努力,最终将计算机甲骨文操作系统在我校研制成功,把已发现的甲骨文全部输入了电脑。
它可同时对甲骨文、汉文、西文进行混合处理。
1987年12月26日,。
甲骨学的研究报告总结

甲骨学的研究报告总结甲骨学是一门研究甲骨文化和甲骨文字的学科,其研究对象主要为中国古代商代和西周时期的甲骨文石器。
甲骨学的研究目的是通过对甲骨文的解读和分析,了解古代社会的历史背景、政治制度、宗教文化、语言文字等方面的内容。
该学科的研究方法主要包括“谋索、刻考、辞材和比较”。
谋索是指研究者通过阅读和分析甲骨文石器的铭文和内容,探索其中的线索和信息。
刻考则是对于甲骨文的形态和文字的学科研究,通过对甲骨文的编码和解析,识别出文字的含义和用途。
辞材则是指研究者对甲骨文石器中的词汇和术语进行整理和分类,以便于研究者之间的交流和参考。
最后,比较是指将甲骨文与其他古代文献和文字作比较研究,以便于进一步理解和探索其中的含义和内涵。
甲骨学研究的目标是揭示古代的历史和文化,对于我们了解中国古代社会和文明的发展起到了至关重要的作用。
在甲骨学的研究过程中,研究者们通过对甲骨文的解读和分析,逐渐认识到甲骨文是中国古代最早的文字之一,它不仅仅是用来纪录祭祀活动和刻写巫觋卜筮的工具,更反映了当时社会的政治、经济、宗教、文化等方面的内容。
甲骨学的研究成果对于了解中国古代文明的历史进程和特点有着重要的意义。
通过甲骨文的研究,我们可以了解商周时期的社会制度和政治体制是怎样的,诸侯国家的地位和角色如何分工,官僚制度和分封制度是如何运行的,这些信息对于我们了解古代社会的政治和制度发展起到了重要的作用。
此外,通过对甲骨文的研究,我们还可以了解当时的文化和宗教信仰,了解巫觋的角色和影响,了解古代社会的宗教信仰和祭祀方式,这对于我们了解古代社会的信仰和文化有着重要的意义。
总之,甲骨学的研究成果对于我们了解中国古代文明的发展起到了重要的作用,通过对甲骨文的解读和分析,我们可以了解当时社会的政治、经济、宗教、文化等方面的内容,揭示古代的历史和文化,对于中国历史和文化的研究有着重要的意义。
甲骨文六位数字码输入法

甲骨文六位数字码输入法全文共四篇示例,供读者参考第一篇示例:甲骨文六位数字码输入法是一种以甲骨文符号为基础的数字输入法,它将传统的数字输入法与甲骨文元素相结合,用独特的方式实现输入数字的功能。
甲骨文符号是古代中国商代至西周时期使用的一种文字,是中国最早的文字之一,具有浓厚的历史文化底蕴。
甲骨文六位数字码输入法的推出,旨在传承和弘扬中华传统文化,同时提供一种新颖有趣的数字输入方式。
甲骨文六位数字码输入法的基本原理是将0-9共10个数字与对应的甲骨文符号进行匹配,形成一个完整的编码表。
使用者只需根据输入的数字,对应按键输入相应的甲骨文符号,即可完成数字输入的操作。
通过这种方式,用户可以在输入数字的同时感受到古代文字的神秘与韵味,增强了学习和使用甲骨文的兴趣。
甲骨文六位数字码输入法的应用范围非常广泛,可以用于各类数字输入场景,如计算器、电脑键盘、手机输入法等。
在数字键盘上,设有专门的甲骨文符号按键,用户只需按下对应的按键,即可实现甲骨文数字的输入。
这种输入法不仅实用方便,还充分展示了甲骨文的独特魅力,吸引了许多用户的喜爱。
甲骨文六位数字码输入法的推出,也为甲骨文的传承和保护做出了积极的贡献。
作为中国传统文化的重要组成部分,甲骨文在当今社会仍具有重要意义,但由于使用范围有限,正逐渐被遗忘。
通过数字输入法的创新应用,可以让更多人接触和了解甲骨文,激发大众对文化传统的兴趣,促进文化遗产的传承和传播。
在数字输入领域,甲骨文六位数字码输入法也展现出了独特的竞争优势。
与传统数字输入法相比,甲骨文六位数字码输入法不仅具有艺术性和文化内涵,还能为用户带来全新的输入体验。
在数字输入的同时,用户还可以感受到古代文字的魅力和历史厚重感,增加了输入的趣味性和吸引力。
总的来说,甲骨文六位数字码输入法是一种结合了数字输入和甲骨文元素的创新输入方式,不仅实用便捷,还能传承和弘扬中华传统文化。
它为数字输入领域注入了新的活力与魅力,展现了中华文化的丰富内涵和魅力。
基于跨模态深度度量学习的甲骨文字识别

基于跨模态深度度量学习的甲骨文字识别张颐康 1, 2张 恒 1刘永革 4刘成林1, 2, 3摘 要 甲骨文字图像可以分为拓片甲骨文字与临摹甲骨文字两类. 拓片甲骨文字图像是从龟甲、兽骨等载体上获取的原始拓片图像, 临摹甲骨文字图像是经过专家手工书写得到的高清图像. 拓片甲骨文字样本难以获得, 而临摹文字样本相对容易获得. 为了提高拓片甲骨文字识别的性能, 本文提出一种基于跨模态深度度量学习的甲骨文字识别方法, 通过对临摹甲骨文字和拓片甲骨文字进行共享特征空间建模和最近邻分类, 实现了拓片甲骨文字的跨模态识别. 实验结果表明, 在拓片甲骨文字识别任务上, 本文提出的跨模态学习方法比单模态方法有明显的提升, 同时对新类别拓片甲骨文字也能增量识别.关键词 甲骨文字识别, 深度度量学习, 最近邻分类, 跨模态学习引用格式 张颐康, 张恒, 刘永革, 刘成林. 基于跨模态深度度量学习的甲骨文字识别. 自动化学报, 2021, 47(4): 791−800DOI 10.16383/j.aas.c200443Oracle Character Recognition Based on Cross-Modal Deep Metric LearningZHANG Yi-Kang 1, 2 ZHANG Heng 1 LIU Yong-Ge 4 LIU Cheng-Lin 1, 2, 3Abstract There are two types of oracle character images: handprinted ones that are clean, and ones scanned from bones and shells that are noised. The collection of handprinted samples is easier than that of scanned images. There-fore, to improve the recognition of scanned oracle characters, we propose a method based on cross-modal deep met-ric learning to take advantage of the handprinted samples. Via shared feature space learning using cross-modal handprinted and scanned samples, scanned characters can be recognized by nearest neighbor classification in the shared space. Experimental results demonstrate that the proposed method not only achieves better performance in oracle character recognition but also can recognize new categories incrementally.Key words Oracle character recognition, deep metric learning, nearest neighbor classification, cross-modal learning Citation Zhang Yi-Kang, Zhang Heng, Liu Yong-Ge, Liu Cheng-Lin. Oracle character recognition based on cross-modal deep metric learning. Acta Automatica Sinica , 2021, 47(4): 791−800甲骨文字是早在中国商朝时期就出现的文字,是世界上最古老的文字之一, 同时也是中国及东亚已知的最早成体系的一种文字形式. 自动识别甲骨文字对考古学、古文字学以及历史年代学等多个领域都有着非常重要的应用价值. 目前甲骨文字标注基本只能依靠甲骨文专家手动处理, 计算机自动检测与识别技术刚刚起步, 性能远不能达到实用化水平. 随着人工智能技术的发展, 如何让计算机像处理现代文字一样处理甲骨文字, 成为计算机学者和文字与语言学者共同关注的课题.如图1所示, 甲骨文字图像可以分为临摹甲骨文字图像与拓片甲骨文字图像两类. 拓片甲骨文字图像是从龟甲、兽骨等载体上获取的原始拓片图像,临摹甲骨文字图像是专家临摹拓片甲骨文字后得到的高清图像, 修复了拓片甲骨文字图像的残缺和噪声等问题. 临摹甲骨文字图像可以通过临摹、手绘得到大量样本, 而拓片甲骨文字因为客观条件的限制难以获取. 由于缺少训练样本, 拓片甲骨文字识别很难取得较高的识别精度[1]. 因此, 本文研究如何用临摹甲骨文字样本辅助训练分类器进行拓片甲骨文字识别. 同时, 由于一些拓扑甲骨文字类别没有训练样本, 甲骨文字的增量识别也是辅助甲骨文字专家进行语言研究的重要手段.由于甲骨文字本身具有噪声严重、图像残缺(如图2所示)、类内样本少、类间样本不均衡等问题, 文字识别领域性能优异的深度学习方法[2−4]由于收稿日期 2020-06-22 录用日期 2020-10-19Manuscript received June 22, 2020; accepted October 19, 2020新一代人工智能重大项目(2018AAA0100400), 国家自然科学基金(61936003, 61721004), 安阳师范学院甲骨文信息处理教育部重点实验室开放课题(KFKT2018001)资助Supported by Major Project for New Generation AI (2018AAA0100400), National Natural Science Foundation of China (61936003, 61721004), Open Project from Key Laboratory of Oracle Information Processing in Anyang Normal University (KFKT2018001)本文责任编委 张军平Recommended by Associate Editor ZHANG Jun-Ping1. 中国科学院自动化研究所模式识别国家重点实验室 北京1001902. 中科院大学人工智能学院 北京 1000493. 中国科学院脑科学与智能技术卓越创新中心 北京 1001904. 安阳师范学院 安阳 4550991. National Laboratory of Pattern Recognition, Institute of Automation of Chinese Academy of Sciences, Beijing 1001902. Sch-ool of Artificial Intelligence, University of Chinese Academy of Sciences, Beijing 1000493. Chinese Academy of Sciences Cen-ter for Excellence of Brain Science and Intelligence Technology,Beijing 1001904. Anyang Normal University, Anyang 455099第 47 卷 第 4 期自 动 化 学 报Vol. 47, No. 42021 年 4 月ACTA AUTOMATICA SINICAApril, 2021依赖大量样本训练而难以得到满意的识别性能.Guo 等[5]提出了一种基于卷积神经网络(Convolu-tional neural network, CNN)的甲骨文字分类方法, 他们在基于Gabor 算子的低层特征和基于稀疏自编码器[6]的中层特征表示基础上, 设计了一种多特征融合的层次化特征表示方法, 继而通过CNN [7]实现了更好的识别效果. 这种方法依然是基于常规分类任务的CNN 框架, 并没有充分利用甲骨文字自身的特点, 所以对样本极少的类别很难取得良好的识别性能.为了充分利用临摹甲骨文字训练样本以提高拓片甲骨文字的识别性能, 我们提出一种基于深度度量学习的跨模态甲骨文字识别方法. 基于CNN 和深度度量学习分别将拓片甲骨文字与临摹甲骨文字映射到相同维度的特征空间, 并通过对抗学习算法使相同类别的拓片甲骨文字和临摹甲骨文字具有相似的特征分布, 再使用深度度量学习对拓片甲骨文字特征进行修正, 以增大拓片字符样本与异类临摹甲骨文字特征的距离, 同时减小与同类临摹甲骨文字特征的距离, 实现甲骨文字的跨模态特征空间建模. 在跨模态特征学习的基础上, 我们以临摹甲骨文字特征作为原型, 使用最近邻分类方法对拓片甲骨文进行识别, 不仅可以提高已知(已训练)类别的识别性能, 还可以对没有训练样本的拓片甲骨文字进行增量识别(使用临摹甲骨文字原型). 根据已有资料来看, 本文工作首先在甲骨文字识别中提出跨模态学习方法, 通过利用临摹甲骨文字明显提高了拓片甲骨文字的识别精度, 并且可以实现对无训练样本的新类别拓片甲骨文字增量识别.本文接下来的组织结构如下: 第1节主要介绍与本文研究相关的甲骨文字识别和草图识别, 以及深度度量学习和跨模态特征学习; 第2节介绍本文提出的跨模态甲骨文字识别方法; 第3节介绍实验设置和实验结果及分析; 第4节给出全文总结.1 相关工作1.1 基于深度学习的甲骨文字识别和草图识别甲骨文字带有明显的图画痕迹, 因而也可以被看作是一种草图. 早期的草图识别工作, 一般都是先提取一些人工设计的特征, 例如形状上下文特征(Shape context, SC)[8]、方位形状直方图(Histo-gram of orientation shape context, HOOSC)[9] 等;然后将这些特征送入支撑向量机(Support vector machine, SVM)[10] 等分类器进行识别.随着深度学习的发展, 研究者们开始采用深度学习方法进行草图识别. Yu 等[11]提出了一种多尺度、多架构的CNN 框架以及两种新颖的数据增强策略, 通过基于联合贝叶斯的方案对多个子网络进行融合后, 得到了较高识别性能. Creswell 等[12]提出了一种基于生成对抗神经网络(Generative ad-versarial networks, GAN)[13] 的CNN 特征提取器.其采取了一种无监督的方式来训练生成对抗神经网络, 使之能够生成可以以假乱真的数据, 然后把去掉最后一层全连接层的网络作为特征提取器. 该方法在一个商业图标数据集上进行草图检索实验, 取得了不错的效果.相对而言, 基于深度学习的甲骨文字识别的工作目前十分稀缺. Guo 等[5]提出了一种基于CNN 的甲骨文字分类方法, 他们设计了一种多层次特征融合的表示方法, 继而通过结合CNN 提高了识别精度. 然而, 他们在实验中丢掉了小样本量的类别,仅仅在一个样本量类间分布均衡且类别数较小的数据集上进行了相关实验.1.2 深度度量学习度量学习的目标是学习一个可以衡量样本间相(a) 临摹甲骨文字图像(a) Handprinted oracle character images(b) 拓片甲骨文字图像(b) Oracle character images scanned from bones and shells图 1 不同模态的甲骨文字图像Fig. 1 Oracle character images with different modals字形残缺噪声大图 2 拓片甲骨文中的字形残缺、大量噪声问题Fig. 2 Incomplete and noisy oracle character images792自 动 化 学 报47 卷似性的度量方法[14−16]. 深度度量学习是指用一个深度神经网络(如CNN)来建模上述度量函数或特征空间. 早期的深度度量学习是应用于已经人工设计好的特征上的, 而近年来的工作主要用CNN 来建模从特征提取到度量函数的整个流程. Schroff 等[17]提出了一个框架FaceNet, 基于CNN直接将人脸数据映射到一个欧氏距离度量空间. 在该度量空间内, 人脸验证或者聚类等问题便可以基于距离度量的方法较为简单地实现. 在训练过程中, FaceNet 基于两个对应同一人的人脸图像与一个他人的人脸图像构建三元组来对CNN 进行训练, 并提出了一个动态的三元组选择方法.1.3 基于领域自适应的共享特征空间学习计算机视觉和模式识别任务中经常遇到一类跨领域问题: 有两类数据, 一类数据有标签信息, 而另一类没有标签信息或者标签信息较少. 已知这两类数据非常相关的情况下, 如何利用有标签的数据学习得到一个可以应用于无/少标签数据的模型. 这就是典型的领域自适应问题[18−20], 其中有标签的数据与无标签的数据对应的域分别称为 “源域”与“目标域”. 领域自适应方法是解决跨模态共享特征空间学习、实现跨模态识别的一种有效方法.如果直接在源域训练模型并将其应用于目标域, 效果往往不好. 这是因为尽管两个域具有较强相关性, 但两者的特征分布还是会存在一定的差别.为了消除这个差别, 近年来的主流方法大多是基于对抗学习的方法[21−23], 即通过对抗训练的方式使得两个域上学到的特征服从相同的分布. 通过该方式,实现了源域上训练得到的模型在目标域上应用的目的. 本文提出的跨模态甲骨文字识别方法中, 同样基于对抗训练的思路, 将拓片甲骨文字映射到与临摹甲骨文字相同的特征空间中, 并约束二者服从尽可能相似的分布. 为了令对抗训练的过程更加稳定,我们采用了Wasserstein GAN[24]的框架与训练技巧[25].2 基于跨模态学习的甲骨文字识别图3为本文方法的总体框架图. 该框架包括一个基于CNN的临摹甲骨文字特征编码器、一个拓片甲骨文字特征编码器. 通过学习共享特征空间,实现跨模态分类. 由于临摹甲骨文字有更多样本和类别, 本方法首先基于单模态度量学习的方式对临摹甲骨文字编码器进行训练, 将临摹甲骨文字图像映射到一个特征空间. 然后, 基于领域自适应与度量学习算法训练拓片甲骨文字编码器(网络结构和临摹甲骨文字编码器相同, 而参数不同), 将拓片甲骨文字映射到同样的共享特征空间. 由于拓片甲骨文字样本的特点(类别数大、类内样本不均衡、噪声严重···), 采用Softmax输出的神经网络由于输出概率的闭集特性, 难以推广到新类别进行增类识别.因此, 我们采用扩展性更强、更接近人类模式识别方式的原型分类器. 在上述深度神经网络(CNN)学习得到的特征空间内, 用最近邻分类得到识别结果. 最近邻分类所使用的原型来自于与待识别输入(拓片甲骨文字)不同的模态(临摹甲骨文字), 故而称为 “跨模态最近邻分类”. 此外, 通过跨模态最近邻分类与Softmax分类进行结合的方式, 可以进一甲骨文图像拓片甲骨文图像拓片甲骨文编码器拓片甲骨文特征临摹甲骨文图像临摹甲骨文编码器临摹甲骨文特征跨模态最近邻已知类识别新类别识别度量学习度量学习领域自适应图 3 基于跨模态深度度量学习的拓片甲骨文字识别Fig. 3 Oracle character recognition based on cross-modal deep metric learning4 期张颐康等: 基于跨模态深度度量学习的甲骨文字识别793步提升拓片甲骨文字的识别性能. 同时, 只要提供相应的临摹甲骨文字样本, 便可以基于跨模态最近邻分类识别新增类别的拓片甲骨文字.下面对临摹甲骨文字编码器的训练算法、拓片甲骨文字编码器的训练算法和跨模态识别方法进行详细阐述.2.1 临摹甲骨文字编码器训练2.1.1 临摹甲骨文字编码器考虑识别性能, 我们采用视觉识别中常用且性能优良的DenseNet 作为甲骨文字识别的编码器[26],如图4所示. 编码器的输入是一个64×64的单通道图像, 输入图像先经过一个卷积层, 再先后经过4个Dense block, 相邻的Dense block 之间会基于Transition 对特征进行下采样. Transition 由Batch Normalization 层、输入输出通道数相等的1×1卷积层以及一个2×2的平均池化层组成. 最后一个Transition 的输出经过Dropout 层[26]后作为全连接层的输入. 全连接层的输出为128维的向量, 经过L2范数归一化后便是整个网络的输出特征.Dense block 1Dense block 4E m b e d d i n gL 2 n o r mL i n e a rD r o p o u tT r a n s i t i o nT r a n s i t i o nC o n v o l u t i o n图 4 甲骨文字编码器结构Fig. 4 Embedding of oracle character images上述每一个Dense block 内, 各个层之间的特征会采用稠密连接的方式, 即第l 层的输入就是前l − 1层的输出, 每个Dense block 包含9个卷积层,且每层的输出特征通道数均为6, 第l 层的输出O l 可以形式化表达为:H l 其中, [·] 表示特征的连接操作, 表示由Batch normalization (BN)[27]、ReLu [28]以及一个3×3 卷积层组成的复合函数.2.1.2 训练算法||f (x )||2=1x i a x i p x in 给定一个临摹甲骨文字图像x , 它会由临摹甲骨文字编码器映射到特征空间f (x ), 特征间的欧氏距离衡量了临摹甲骨文字图像间的差异. 由于临摹甲骨文字编码器(图4)的输出经过了L2范数归一化, 故而f (x ) 满足 . 在距离度量学习框架下, 本文使用三元组损失函数[17]来优化特征表示,具体来说, 第i 个三元组包括一个锚点 , 一个与锚点同类的正样本 , 一个与锚点异类的负样本 .我们的编码器优化目标是同类样本更近、异类样本更远(如图5所示):其中, α为超参, 表示三元组中锚点与正样本、负样本特征距离的间隔, 本文中α设定为0.2 (与Schroff 等[17]的设置保持一致), τ表示容量为N 的三元组集合, 故而i = 1, 2, ···, N .锚点锚点正样本正样本负样本负样本Learning图 5 三元组损失函数的学习目标Fig. 5 Learning objective of triple loss function由于训练的过程中, 大部分三元组很快就会满足式(2), 不会再对编码器参数的更新产生影响, 故而为了使得训练更加高效, 在训练过程中会动态选择难以区分的三元组, 即不满足式(2)的三元组.在整个训练过程中, 三元组的构建分为两个阶段:阶段 1. 由于网络参数随机初始化后, 大部分三元组仍然不满足式(2), 所以在第一阶段三元组采用完全随机的策略进行构建.x i a x ip x i n x ia x i p x in 阶段 2. 阶段一的训练收敛后, 已经有大量的三元组不再影响网络参数的更新, 此时开始动态地选择难以区分正负样本的三元组来训练网络. 具体来说, 由于网络基于批优化进行训练, 所以我们可以令每批(Mini-batch)都由来自不同类别的若干锚点-正样本对( , )组成, 并选择和锚点距离最近的异类样本作为负样本 , 继而构成三元组( ,, ).2.2 拓片甲骨文字编码器训练拓片甲骨文字编码器的网络结构与临摹甲骨文字编码器(见第2.1.1节)完全一致. 其训练过程分为两个步骤: 先基于跨模态对抗训练进行领域自适应, 使同类的不同模态文字具有相似的特征分布;然后基于度量学习对特征进行修正, 使不同模态的文字特征可以更好的度量欧氏距离.2.2.1 基于对抗训练的领域自适应D c (x )如图6所示, 对每个类别c 均引入一个判别器与拓片甲骨文字编码器进行对抗训练, 各个794自 动 化 学 报47 卷D c (x )类别的判别器共享最后一层之前的网络参数. 网络输入为128 维的多模态甲骨文字特征, 经过两层以LeakReLU 为激活函数的全连接层后, 再基于全连接回归对应各个类别的 .Linear Linear LinearLeakReLU LeakReLU D 1(x ), D 2(x ), D 3(x ), ..., D c (x )图 6 判别器的网络结构Fig. 6 Network structure of discriminatorP c g P cr D c (x )P c g P cr P c g P c r P cg P crD c (x )对于第c 个类别, 记对应该类别的拓片甲骨文字和临摹甲骨文字的后验概率分别为 和 . 对抗训练过程中, 判别器 的目标是将 与 进行区分, 而甲骨文字编码器的目标是令判别器无法区分 与 . 通过两者的博弈最终达到 与 服从相同分布的目标. 我们采用Wasserstein GAN [24−25]的训练框架可以令上述对抗训练过程更加稳定, 对应的损失函数为:P cˆx ∇ˆx D c(ˆx )D c (x )ˆx 其中, 表示第c 个类别的临摹甲骨文字与拓片甲骨文字在特征空间的插值所对应的概率分布,表示 对于输入 的梯度向量.D c (x )E ˜x ∼P c g[D c (˜x )]E x ∼P c r [D c (x )]Eˆx ∼P c ˆx [(∥∇ˆx D c(ˆx )∥2−1)2]D c (x )E ˜x ∼P c g [D c (˜x )]P c g P cr D c (x )基于损失函数(3), 判别器 经过训练后会使得相比于 更小, 且在正则化项 的约束下, 在特征空间会平滑地变化. 故而, 以增大 为目标训练拓片甲骨文字编码器可以令 向 “靠拢”. 因而在训练判别器 后, 拓片甲骨文字编码器基于以下损失函数进行优化:P c g P cr 基于损失函数(3)与(4)的迭代对抗训练, 可以令 与 服从近似相同的分布.2.2.2 基于度量学习的特征修正第2.2.1节的领域自适应可以使得拓片甲骨文字与临摹甲骨文字在每个类内都有着相似的特征分布.然而该方法并不能保证拓片甲骨文字与异类临摹甲骨文字具有足够的特征分布差异, 直接使用上述特征进行跨模态最近邻分类不一定能得到正确分类. 举例说明如下.图7(a)表示未经训练的甲骨文字特征分布, 其中每个点代表一个样本, 包括属于A 、B 两类的临摹甲骨文字和拓片甲骨文字. 此时拓片甲骨文字编码器尚未训练, 故而拓片甲骨文字特征近似随机分布. 图7(b)表示经过对抗训练后的特征分布, 每个类别的拓片甲骨文字样本会服从以同类临摹甲骨文字为中心的类高斯分布. 然而此时由于没有利用异类临摹甲骨文字样本进行判别学习, 部分样本会越过最近邻分类的 “分类面”落入其他类别所在的区域. 我们在本文采用度量学习的方式, 可以使拓片甲骨文字的特征与同类临摹甲骨文字特征更近、与临摹 A 类临摹 B 类拓片 A 类拓片 B 类临摹 A 类临摹 B 类拓片 A 类拓片 B 类临摹 A 类临摹 B 类拓片 A 类拓片 B 类(a) 初始特征分布(a) Initial feature distribution(b) 对抗训练后的特征分布(b) Feature distribution after adversarial training(c) 经过度量学习修正后的特征分布(c) Feature distribution after metric learning correction图 7 不同阶段特征分布示意图Fig. 7 Feature distributions in different stages4 期张颐康等: 基于跨模态深度度量学习的甲骨文字识别795异类临摹甲骨文字特征更远, 如图7(c)所示, 此时基于跨模态最近邻分类可以达到更好的效果.此处的度量学习方法与第2.1.2节类似, 同样是基于三元组式(2). 三元组包含一个拓片甲骨文字样本(锚点样本)、一个与锚点同类的临摹甲骨文字样本(正样本)以及一个与锚点异类的临摹甲骨文字样本(负样本). 以式(2)为目标对拓片甲骨文字编码器进行训练, 以减小正样本与锚点的距离、同时增大负样本与锚点的距离. 与第2.1.2节不同,由于拓片甲骨文字编码器已经进行过对抗训练, 多数三元组都满足式(2), 故而度量学习的训练过程略过阶段1, 仅包括阶段2.我们利用反卷积方法对临摹甲骨文和拓片甲骨文特征进行可视化, 如图8所示. 对于128维特征的每个维度, 我们均可获得一个与输入图像同尺寸的特征图, 为了更清晰的观察特征的分布区域, 我们将128个特征图通过在每个空间位置求和的方式融合为一个特征图. 可以看出, 无论是临摹甲骨文还是拓片甲骨文, 学到的共享特征均集中于文字区域(而不是背景区域), 反映了文字本质结构特点.临摹甲骨文字特征可视化拓片甲骨文字特征可视化图 8 不同模态的甲骨文特征可视化Fig. 8 Visualization of oracle character features withdifferent modals2.3 基于跨模态最近邻分类的拓片甲骨文字识别以临摹甲骨文字的特征为原型, 检索待识别的拓片甲骨文字特征, 距离最近的临摹甲骨文字的类别就是拓片甲骨文字的识别结果. 只要存在对应类别的临摹甲骨文字, 就可以对拓片甲骨文字进行识别, 所以可以实现新类拓片甲骨文字的增量识别(即使拓片甲骨文字没有训练过).针对已知类识别, 为了进一步提高识别性能,我们可以采用单模态CNN 模型和跨模态最近邻分类相结合的方法. 单模态CNN 的网络结构与甲骨文字编码器基本一致(仅将图4最后的全连接层输出维度设置为与类别数相等, 并且将L2归一化层替换为Softmax 层). 这里分两步分类: 当单模态CNN 的分类置信度较高时(类别置信度最大值高于一个阈值), 直接输出CNN 的分类结果; 否则, 通过跨模态最近邻分类给出识别结果. 这样很好地利用了两个分类器的互补性. 为了提高最近邻分类器的计算效率, 原型检索仅仅在单模态CNN 输出置信度最高的若干类别中进行.3 实验3.1 数据集介绍本文使用的甲骨文字数据集由安阳师范学院甲骨文信息处理实验室提供. 拓片甲骨文字[1]包含样本数较多的241个类别, 共295 466个样本, 其中每个类别最少16个、最多25 898个、平均1 226个样本. 样本量的类间分布不均衡, 如图9 所示. 本实验会对图像进行缩放使得长边为64像素, 然后将其置于一个大小为64×64的黑色背景图像的中心. 临摹甲骨文字数据集[26]包含2 583个类别, 共39 062个样本, 其中每个类别最少2个、最多287个、平均16个样本. 我们使用了其中241个对应于拓片甲骨文字的类别进行实验. 其余类别的样本可用于拓片甲骨文字增量识别(也就是只要有临摹文字样本的类别, 就可以识别对应的拓片甲骨文字), 但由于这些类别没有拓片甲骨文字测试样本, 我们没有进行评测, 而是用241类拓片甲骨文字样本中的41类进行新类的增量识别评测(详见第3.4节), 已知类别识别的数据是全部241类拓片甲骨文字样本(详见第3.2节、第3.3节).302520151050类别图 9 拓片甲骨文字中241个类别的样本个数分布Fig. 9 Sample distribution of oracle characters scannedfrom bones and shells3.2 基于对抗训练的领域自适应如图10 所示, 对于拓片甲骨文字, 每一类内往796自 动 化 学 报47 卷往包含了多种字形. 如果在特征空间, 某拓片甲骨文字与某临摹甲骨文字的特征距离十分相近, 他们对应的图像应该不仅仅属于同一类, 更应该对应相近的字形. 由于我们只有拓片甲骨文字与临摹甲骨文字的类别信息, 而没有类别下具体的字形标签,故而在构建三元组的时候无法选择合适的锚点与正样本. 如果锚点与正样本来自同一类下的两个不同字形, 通过优化令二者在度量空间相近是难以做到的. 基于上述分析, 在利用度量学习的方式训练拓片甲骨文字编码器前, 先对拓片甲骨文字特征进行基于对抗训练的领域自适应学习.图 10 拓片甲骨文字类内样本示例, 每一列属于同一类Fig. 10 Oracle images with the same characters ineach array实验设置 训练集的构建方式为(241类):1) 对于样本量小于900 的类别, 随机调取2/3的样本加入训练集.2) 对于样本量大于等于900的类别, 随机调取600个样本加入训练集.其余样本作为后续已知类识别实验的测试集.图11展示了领域自适应后的五组最近邻对, 观察数据可以发现, 进行领域自适应之后, 同一类内不同模态的最近邻对已经在字形上非常相似. 可以看到尽管拓片甲骨文字图像被噪声污染严重, 其字形结构与最近邻的临摹甲骨文字是一致的. 故而可以基于对抗训练的结果, 以上述最近邻对作为三元组中的锚点与正样本进行深度度量学习.3.3 拓片甲骨文字已知类别识别这里比较4个分类方法的性能: 单模态最近邻分类器[26]、单模态CNN 、跨模态最近邻分类器、融合跨模态信息的CNN. 单模态最近邻分类和单模态CNN 的训练集构建与第3.2节一致, 训练样本之外的拓片甲骨文字样本为测试集. 单模态最近邻分类中, 拓片甲骨文字编码器训练方法与第2.1.2节临摹甲骨文字编码器的训练方法一致. 单模态CNN 的网络结构与甲骨文字编码器基本一致(如第2.3节所述). 跨模态最近邻分类的原型来自临摹甲骨文字特征, 临摹甲骨文字特征编码器的相关设置和文献[26]相同. 融合跨模态信息的CNN 是指CNN 分类置信度(输出类别置信度最大值)低于给定阈值τ时采用跨模态最近邻分类, 并在CNN 置信度最高的K 个类别上搜索最近邻原型. 下面我们首先分别研究阈值τ和参数K 对融合跨模态信息的CNN 分类性能的影响. 再对4种不同的甲骨文识别方法进行比较.图12 反映了阈值τ对融合跨模态信息的CNN 分类性能的影响. 当阈值τ过小时, 主要由CNN 分类模块发挥作用. 由于甲骨文字的特点, 即使本实验中数据充足(每个类平均1 226个样本), 单凭该模块也难以达到较高的识别性能. 当置信度阈值过大时, 主要由跨模态最近邻分类发挥作用. 由于对应较高置信度的CNN 分类结果往往比较可靠,如果没有利用该信息, 同样会降低识别性能. 通过曲线可以看到, 本文所采用的阈值0.66 是一个相对较好的平衡点, 后续实验的τ值固定为0.66.%%%%%%%0.30.40.50.60.70.80.9本文方法基于 SoftMax 分类图 12 置信度阈值与识别精度关系曲线图Fig. 12 Relationship between confidence threshold andrecognition accuracy图13 展示了参数K 对融合跨模态信息的CNN分类性能的影响. 可以看到, 当K 小于4时, 由于考虑的类别数太小, 识别精度会很低. 当K 大于4时, 不仅仅最近邻检索效率变低, 算法精度也会逐渐变低. 这说明考虑置信度过低的类别不仅仅会增加最近邻检索的计算量, 同时这些类别会对最近邻临摹拓片图 11 领域自适应后的最近邻对示例Fig. 11 Nearest neighbor pairs after domain adaption4 期张颐康等: 基于跨模态深度度量学习的甲骨文字识别797。
基-T- Unicode的甲骨文字库及共家月乡码扮夕、翻卜的VF究

T it s a a o e d cs n r l s h t y n oe s s sm w r poe i p b m i t s d o U i d- h h i i t s e m o r s g e n u n c o e B s J G W n t i u m t d J G W n m o cd, pt a d o f ad t h o i u s bl e ad s e i a e o n n n p e o f a e y o n u f w r sl i . ea p : o G W n ta e aa z g dt r o a o t n Fr m l a t J u f , r l i t o m tx r d u o o x e s i a e o f n y n h n t e a i f t h vc r ad f t cbd aotg v otn t hi esc o , e o f t t o ds i b dpn cr u i e n u, nt e t o n h n e re y i u e le q uh n e c
吸取现代编码思想,运用模糊信息分析理论,建
文信 息 处 理 的模糊 数 学 模
啥文我古文的征是们族化年最远最整最 国代明象,我民文中代久、完、 骨是
型。 利用模型分析甲骨文的部件 ( 字根) 和码元的确定规则, 使用 3 个字符 (5 2 2 个英文字母和 7 个阿拉伯数字) 作为码元,与甲 骨文中的50 0 多个字根相对应, 实现一字一码的编码方案,首次对甲骨文进行了有效地编码。运用信息论中的嫡 理论,分析了这种编码的效率和科学性,得出甲骨文编码的最佳码长大致接近于 3 ,从而为50 多个甲骨文字进行科学编码提供理论基础。最后结合面向对象技 0。 术和 Pt 网理论,建立甲骨文信息处理的面向对象 Pt 网模型,论述了甲骨文 ei r ei r 字根、甲骨文码元和字符之间属性继承的层次关系,甲骨文字根和甲骨文字之间 的聚合关系。
王国维对甲骨文研究的贡献

王国维对甲骨文研究的贡献汉字能够追溯到几千年前,而且影响了几千年来中国历史文化的发展和进程。
其中,甲骨文文字具有独特的意义和重要性,它是一种具有悠久历史的古文字系统,曾经长期在中国使用。
甲骨文的发现让研究者们进行深入的研究和讨论,并进一步揭示了中国古代文化的特色。
其中,王国维(Guo Wei)先生对甲骨文的研究为我们提供了重要的贡献。
王国维先生分别于1926年至1935年,以及1957年至1960年期间,连续在国内外发表了一系列重要的学术论文,探讨了甲骨文字的演变及其历史意义等方面的问题。
他的研究成果影响了当时的学术界,引起了深远的影响,并为后续的甲骨文研究奠定了基础。
王国维的大部分论文专注于揭示中国古代社会的特性,这些研究成果有助于探讨古代中国文明的进化和发展史,是研究古代中国文化的重要资料。
例如,王国维1926年发表的论文《关于甲骨文图腾符号的研究》,阐述了甲骨文图腾符号的历史演变及其在古代中国社会中的意义。
此外,王国维在甲骨文字研究中还做出了很大的贡献,他更多的研究涉及甲骨文字编码历史发展的不同阶段。
例如,他在1929年撰写的论文《甲骨文发展史》探讨了甲骨文字在汉代之前发展的历史和特征,在讨论中,他还提出了甲骨文字在不同阶段的特点。
另外,王国维在甲骨文文字标准方面也有一些重要贡献。
他曾经在1957年发表了一篇论文,介绍了根据甲骨文字编码进行编号的方法。
1959年,他又撰写了一篇论文,总结了甲骨文字编码的内容,并绘制了一系列甲骨文字简表,为后世学者提供了很多参考资料。
总之,甲骨文研究起源于古代,但直到二十世纪,才真正得到深入研究和发展。
在这一历史进程中,王国维先生对甲骨文研究取得了重大贡献,他的论文不仅阐明了甲骨文的历史演变和发展,还解释了甲骨文的文化内涵,为我们保存和研究甲骨文字提供了深刻的见解和理论支撑,为中国文化的发展做出了重要贡献。
甲骨文六位数字码检索字库

甲骨文六位数字码检索字库
在中国古代的甲骨文研究领域,为了更加方便地对甲骨文进行检索和研究,学者们开发了甲骨文六位数字码检索字库。
这个字库是基于甲骨文的形状和结构特点,通过对每个字进行编码,从而实现对甲骨文的快速检索和分类。
首先,我们需要明确的是,甲骨文是中国古代商周时期使用的一种文字。
它以刻在龟甲和兽骨上的文字形式存在,记录了古代社会的许多重要信息,包括祭祀、祈福、官职任命等。
由于甲骨文的内容繁杂,字形独特,学者们发现了一种基于字形特征的编码方式,以便更好地进行分类和研究。
甲骨文六位数字码的编码方式基于甲骨文中字的形状特征。
每个字的编码由六位数字组成,其中前三位代表字的上半部分的形状特征,后三位代表字的下半部分的形状特征。
通过这种编码方式,学者们可以根据字的形状特征快速定位和检索所需的甲骨文。
这个甲骨文六位数字码检索字库的建立,对于甲骨文的研究和保护起到了重要的作用。
它不仅方便了学者们对甲骨文进行分类和整理,还为甲骨文的研究提供了更加高效和准确的工具。
通过对甲骨文的编码和检索,我们可以更加系统地掌握和理解这一古代文字的特点和内涵。
总结起来,甲骨文六位数字码检索字库是一种基于甲骨文字形特征的编码方式,通过这种方式可以对甲骨文进行快速检索和分类。
它的建立为甲骨文的研究和保护提供了重要的技术支持,也为我们更好地理解和传承中华文明提供了有力的工具。
在未来的研究中,我们相信这个字库的应用会越来越广泛,为甲骨文的研究开辟更加广阔的道路。
甲骨文数字化处理研究进展

8 0
维普资讯
20 0 8年 第 1 期
●顾 绍 通/ 甲骨文数 字 化处 理研 究进 展
但是 , GH—L HI OGI C公 司 的 Tre p u Ty e曲线 轮廓 造
字软 件 主要是 针对 只有较 少 字符 的西 方文 字设 计 的 , 对 数 目巨大 的 中文字 库支 持 还存 在许 多局 限 , 如存 在 生成 字 形 速 度 不 快 , 成 的 字 形 容 易 变 形 等 缺 点. 生
T uT p r e y e曲线 轮廓 造字 软件 , 照 直线 和二 次 B样 按
条 曲线拟 合算法 , 自动 将 扫 描 的点 阵 图 形 抽 成 尽 可 能
接近 原稿 的数字 化信 息 ( 曲线 轮廓 ) 生 成一个 独立 的 ,
可运 行于 Wid wsL n x环境 下 的 T n o 、 iu TF格 式字库 .
Vo.1 .1 1 4 NO
Fe . 2 08 b 0
甲 骨 文 数 字 化 处 理 研 究 进 展
顾 绍 通
( 州 师 范大 学 语 言 研 究所 ,江 苏 徐 州 2 t t ) 徐 2 t 6
摘 要 :甲骨文数 字化 处理是 当前 古文 字信息化处理的重要 方面. 文章 首先 阐述 了甲骨文数字化 处理研
维普资讯
广 西 民族 大 学 学 报 ( 自然 科 学 版 )
基于深度学习的甲骨文偏旁的检测与识别方法[发明专利]
![基于深度学习的甲骨文偏旁的检测与识别方法[发明专利]](https://img.taocdn.com/s3/m/ebb27d9527284b73f3425086.png)
专利名称:基于深度学习的甲骨文偏旁的检测与识别方法专利类型:发明专利
发明人:林小渝,陈善雄,李然康,高未泽,邱小刚
申请号:CN202010344366.6
申请日:20200427
公开号:CN111539437A
公开日:
20200814
专利内容由知识产权出版社提供
摘要:本发明公开了一种基于深度学习的甲骨文偏旁的检测与识别方法,主要涉及甲骨文识别技术领域。
按照以下步骤进行:S1:对甲骨文拓片进行扫描或拍照,获得甲骨文图像;S2:采用最大极值稳定区域算法来筛选甲骨文图像中的甲骨文单偏旁区域;S3:对选定的甲骨文单偏旁区域进行椭圆拟合;S4:采用非极大值抑制算法去除对同一个甲骨文单偏旁多余重复或错误的检测结果,完成甲骨文单偏旁的检测,获得甲骨文单偏旁数据;S5:利用BN‑Lenet网络模型识别甲骨文单偏旁数据。
本发明的有益效果在于:能够获得较高的识别精度,同时将甲骨文视为偏旁组合而非整字识别,能够识别未考释的甲骨文新字,即零样本学习,对甲骨文研究有着重要的应用意义。
申请人:西南大学
地址:400715 重庆市北碚区天生路2号
国籍:CN
代理机构:济南鼎信专利商标代理事务所(普通合伙)
代理人:贾国浩
更多信息请下载全文后查看。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
甲骨文识别技术可以定义为一种视觉识别技术,它是基于甲骨文的特征信息进行搜索定位的一 种视觉识别技术。用户使用手机或相机等带有摄像头的工具采集含有甲骨文字的图像,随后系统自 动在该图像上进行检测,进而对检测到的甲骨文进行识别,最后提供该甲骨文的原始拓片或近似拓片 信息以及相关研究成果。这一系列相关技术,包括程序和具体甲骨材料,有机地构成了甲骨文识别技 术。该技术的智能性体现在基于图像搜索而非基于文本搜索,因此不需过多依赖用户的甲骨文已有 知识。同时,在识别时不受用户拍摄时可能产生的个体行为或客观外在因素的影响,如甲骨文拓片的 p旋oi转nt、)缩,或放光、平照移影(响RS(iTll:urmoitnaatitioonn、)s,ca或lin杂g物an场dt景ra(nclsluatttieorn))与,或噪用声户,甚视至点于即甲图骨像文仿射字/本投身影被变部换分(vi遮ew挡 (occlusion)等等。
1
Байду номын сангаас
中国文字研究·第二十九辑
Machine,SVM①)的理论建立知识库,实现简单的甲骨文字形相似性分析分类和识别,主要代表有: 史小松《基于支持向量机的甲骨文字结构分析研究》(2010)②、孙莹莹《基于混合核LSSVM 的古汉字 图像识别》(2015)③、刘永革等《基于SVM 的甲骨文字识别》(2017)④。不过,甲骨文虽然是成熟的文 字系统,但毕竟处于汉字早期阶段,除了异体字众多,低频字高度集中外,还有很多甲骨文字属于未考释 字。该方法主要适用于模式识别领域,在解决图画特征明显,结构不清晰的甲骨文字上还有困难。另外, 该方法对甲骨文字的旋转、缩放、平移、遮挡等识别率不高,算法处理尚有空间,同时在存储和计算时耗费 大量的机器内存和运算时间,运行效率较低。(5)还有的学者尝试深度学习(核心算法是卷积神经网 络)技术,辅以草图识别技术,建立甲骨文文字数据库。主要代表有:高峰等《RecognitionofFuzzy CharactersonOracleboneInscriptions》(2015)⑤、王长虎《BuildingHierarchicalRepresentationsfor OracleCharacterandSketchRecognition》(2016)⑥、微软亚洲研究院(2017)⑦采用 MindFinder(草图 识别技术)系统,建立起一个拥有包括260类、2万甲骨文文字的数据库。不过,该方法适合大数据,简 单的应用神经网络无法在甲骨文识别上取得较好的效果,模型的过拟合严重,无法泛化。数据集中分 类数目过多,且在分类的类目下面仍然存在大量的异体字,能够为网络提供特征提取的样本过少。因 此,目前甲骨文识别研究尚无法完全提取甲骨文字的主要特征,尚未得出完全符合甲骨文字实际情况 的算法,且使用范围受到一定的限制。高速、精确及立体化、智能化应该是未来甲骨文识别技术发展 的重要方向。
③ 王晓丽:《高精度曲线轮廓甲骨文字形生成系统的研究与实现》,硕士学位论文,苏州大学,2010年。
④ 67页⑤。
⑥
吴栗青琴生霞、、吴栗琴青霞生、:杨《基玉于星有:《向甲笔骨段文甲字骨形文动输态入描方述法库的及设其计字与形实生现成》,技《计术算研机究应》,用《北》20京12大年学,学第报23(7自4—然2科377学页版。)》2013年,第61— 栗青生、杨玉星、王爱民:《甲骨文识别的图同构方法》,《计算机工程与应用》2011年,第112—114页。
基金项目:该项目获得教育部重点研究基地重大项目古文字专题数据库系列(课题编号:18JJD740004)、2018年度孔子学院建
设课①②题(课李周题锋新编伦、周号、:新李CI伦锋K:、T华《0甲1星6骨)城支文等持自:。动《甲识骨别文的计图算论机方识法别》,方《电法子研科究》学,《学复刊旦》1学99报6(年自,然第科41学—版47)》页19。96年第5期,第481—486页。
[古文字研究]
基于编码的甲骨文识别技术研究
陈婷珠 吴少腾 吴 江 李 淋
【摘 要】随着 AI领域的崛起,如何利用机器视觉高效、准确地识别图像目标,近年来已成为国内外学者研 究的重点。目前,国内外学者对甲骨文的图像识别进行了大量研究,但在识别精度、识别时间和抗干扰能力 等方面仍有发展空间,尤其是现有甲骨文识别技术对专家的依赖性高而甲骨文信息共享普及率则相对较 低。针对上述问题,本文以殷墟小屯村中村南甲骨为实验基础,提出基于编码的甲骨文识别技术,即在图像 预处理计算过程中,把甲骨文图像转换为编码,并在此基础上提出甲骨文识别系统的设计与实现方法。 【关键词】编码;甲骨文;图像识别技术 【作者简介】陈婷珠,女,上海交通大学人文学院副研究员,研究方向为甲骨文字学。吴少腾、吴江和李淋为 上海机械与动力工程学院本科生和研究生,研究方向为视觉与图像识别。(上海 200030)
一 问 题 的 提 出
甲骨文作为一种古老文字,对于它的识别处理与研究常常遇到种种困难和挑战。目前,国内外学 者对甲骨文识别技术的研究主要有以下几类。(1)有的学者从字形出发,利用笔画方向和长度等字形 特征,采用无向或有向笔段和笔元技术以描述甲骨文字形,主要代表有李锋等《甲骨文自动识别的图 论方法》(1996)①、《甲骨文计算机识别方法研究》(1996)②,王晓丽《高精度曲线轮廓甲骨文字形生成 系统的研究与实现》(2010)③,栗青生等《基于有向笔段甲骨文输入方法的设计与实现》(2012)④、《甲 骨文字形动态描述库及其字形生成技术研究》(2013)⑤、《甲骨文识别的图同构方法》(2011)⑥。这种 方法将甲骨文字形进行矢量描述,建立了甲骨文字形描述库,为古文字的数字化编辑提供了一个新 思路。不过,由于甲骨文字形线条极其复杂,不存在现代汉字一般意义上的笔画概念,人类在识别 甲骨文上往往是整体输入方式,而非一个个笔画。因此,采用这种方法的分类率并不高,尚无法真 正意义上为甲骨文进行机器识别分类。(2)有的学者利用拓扑结构或图形分类进行分析,如顾绍通 《基于拓扑配准的甲骨文字形识别方法》(2016)⑦、吕肖庆等《一种基于图形识别的甲骨文分类方法》 (2010)⑧。(3)有的学者基于语义进行分类,如高峰等《基于语义构件的甲骨文模糊字形的识别方法》 (2014)⑨。(4)有 的 学 者 利 用 甲 骨 文 字 结 构 等 特 征,采 用 语 料 库 和 支 持 向 量 机 (SupportVector
⑦ 96页⑧。
顾吕肖绍庆通、:李《基沫于楠拓、蔡扑凯配伟准等的:甲《一骨种文基字于形图识形别识方别法的》,甲《计骨算文机分与类数方字法工》,程《北》20京16信年息,科第技20大01学—学20报06(自页然。科学版)》2010年,第92—
⑨ 高峰、吴琴霞、刘永革等:《基于语义构件的甲骨文模糊字形的识别方法》,《科学技术与工程》2014年,第67—70、86页。