融合藏族人名音节特征的性别自动识别
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第38卷总第107期 2017年9月西北民族大学学报(自然科学版)
Journal ofNorthwestM inzu University (Natural Science)
V ol.38,No.3
Sep,2017
融合藏族人名音节特征的性别自动识别
夏吾吉!"华却才让,色差,贡保才让!,扎西
青海师范大学藏文信息处理教育部重点实验室,青海西宁810008;
2.青海师范大学民族师范学院,青海西宁810008)
[摘要]藏族人名的性别自动识别是自然语言处理中非常重要的基础性问题之一.文章中提出了融合音节特征的
S V M模型藏族人名性别识别方法,采用支持向量机(S V M)模型为基本枢架,依据藏族人名的构词特征和统计分析,设 计了特征模板,使支持向量机模型有效地处理藏族人名性别识别问题.实验结果表明,在包含18 821个藏族人名的103 974个句子中,随机抽取3 764个藏族人名作为测试语料,对S V M的高斯核、线性核、多项式核和S型核等4个常用核函数做了实验,性别自动识别的准确率分别达到99.98%、98.81 %、96.98%和95.45%.
[关键词]藏族人名;性别识别;音节特征;支持向量机(SVM)
[中图分类号]TP391 [文献标识码]A[文章编号]1009-2102(2017)03-0001-05
〇引言
性别识别研究起始于20世纪90年代,起初由心理学家提出1,其研究目的是如何分辨人类男、女性别. 随着计算机技术的发展,对性别识别有不少学者从语音识别、模式识别、图像处理技术的角度进行了研究,其 方面得到了很好的 25.藏文信息处理在计算机信息技术领域也有30多年的发展历程,同样令人瞩目的 .但由于基础性 处理的不 ,藏文语 ,其研究进展较为缓.藏族人名性别识别是藏文信息处理的一项基础性 ,是在藏文文本中 男、女性别的过程,其识别效着藏文信息处理的发展,并对藏文词性标注、机 、信息检索、指代 分析等研究有很大.藏族人名性别识别不仅是自然语言处理领域中的 技术,也是目前在藏语自然语言处理中需要解决的 要.藏文是一种典型的具有语法体系的拼音文字6,中音节(字)作为最基本的单元,一个或多个音节构成一个词.同样常见的藏族人名按照音节的长度由2个音节、3个音节和4个音节组 ,还有个别藏族人名(比如:作家笔名 人 名等)由2个音节和6个及其以上音节再加上维持藏族古代的庄园名、部落名、家族名 名等26个音节组成7.
藏族人名性别识别模块是藏文词性标注和藏文指代消解中不可缺少的重要组成部分,国内外对其 研究很少,马宁等首次提到了基于S V M的藏语说话人性别识别.此外,目前还未见到藏族人名性别识 别方面的相关研究和报道.为此,本文在藏文命名实体识别的基础上,利用融合音节特征S V M模型和 码方法,探讨了安多藏区 的藏族人名性别自动识别.
[收稿日期]2017-06-02
[基金项目]青海省科技计划项目(2017—GX—146);青海师范大学中青年科研基金项目(17ZR11).
[通讯作者]!
[作者简介]夏吾吉(1982— "女(藏族)青海尖扎人,讲师,CCF会员(会员号&4265G),主要研究方向:藏文智能信息处理.
1
1藏族人名音节识别及特征模板
!1藏族人名音节及识别
藏语中组成人名的音节结构非常复杂,从最少2个音节到6个以上音节不等,比如:“,哪T、成|”、“〒「叫’喷和,f安多地区常用人名一般都由2个音节到4个音节组成,但也有少部分人名由4个以上的音节组成,最常见的有宗教人士法名.在藏语人名中,由2个音节 组成的人名,一般可以从字面上明确化分出男女性另IJ,例如年等都是典型的男性名字,而 等都是典型的女性名字;而由3个音节组成的人名,男女性别的判断和划分,一般都取决 于人名最末端的音节,例如末端音节为等是男性名字,末端音节为“,齣”是女性名字.如果在3 个音节组成的人名中,末端音节出现“⑥I曰,等音节,就无法单纯的从末端音节中判断和划分出具体 男女性别,需要进一步借助前两个音节进行判断,如果前两个音节中出现,等是典型的男 性名字,即可推定为男性,如果出现“巧女性名字,即可推定为女性;由4个音节组成的人名,男女性别的划分一般由后两个音节决定,如果后两个音节中出现“^^’〒^|1^’¥|^^1”等,通常都是男性名 字.如果后两个音节中出现等,一般都是女性名字.如果后两个音节中出现等音节,具体性别的判断就要取决于前两个音节,是男即男,是女就女.
1"特征模板
藏文音节作为藏文词语的构件,同时也是藏族人名的基本构件,它不仅有自身的结构特征(比如:藏 族人名结构成份最少是2个音节"而且藏族人名还有音节间前后音节的搭配等特征.本文所采用的 S V M模型在识别任务中能否成功地选择这些独有的特征[8].给定(S,m或2,定义好的特征所包含的信 息以能够正确地帮助识别标注m或2对于构成藏族人名的每一个音节,都使用表1所示的特征.
表!藏族人名音节特征模板表
音节特征说明实例性别识别标注
2S〇Si当前两个音节
男性m 芎帝|赛帝|驾帝1女性f
3
s2后一个音节
哪1男性m
1^|女性f
丨,間不知性别m或f S0S IS2
当前两个音节与
后一个音节组合
男性m
女性f
4
S2Ss后两个音节
男性m
女性f
不知性别m或f S Q S1S2S3
当前两个音节与
后两个音节组合
男性m
女性f
表1说明2个音节组成的藏族人名,通过其特征,可以直接识别出其性别,而3个音节的藏族人名 在识别过程中如果最后音节为^1”等时,由前两个音节来确定性别,同样由4个音节组成 的人名中后两个音节为时,由前两个音节进行识别其性别.
2模型及特征向量化
2.1 模型
支持向量机(S u p p o rt V e c to r M a c h in e,S V M)模型是一个相对较先进和较新的机器学习方法,最初
为了解决二类分类由V a p m k等人于20世纪90年代中期提出,现在被广泛应用于模式识别、回归计 算 多维非线性分类问题,它具有结构风险最小化的 特点.对于分类 ,S V M模型学习 -间中的一类样本通 非线性 特征空间中,将两类样 :此特征空间中 线性分类,并在此特征空间中寻找最优样本的线性分类超¥面[3],使得分类间隔最大化,可形式化地描 凸二次规划问题.其判别函数为:
k_
3^ #s g n($ • % &') =sgn(x t%})+b(1)
i-i
其中,$是权重向量、%是特征向量、b是参数、((%,,%,)为核函数,核函数是SV"M的核心问题之一,目前选择 的方 般都是从大量实 中.
的 有[1'] &
线性核函数&(%",%))=(2)
多项式核函数:k(%i,%)
]/
%)) &11(3 )
高斯核函数:k(%i,%))=-e x p(-$%i 一%)$ 2\
2")
⑷
S型核函数:k(%i,%))-=ta n/'(%.%))+1.(5)其中W、、b、为核参数,在本文中上述核函数中的高斯核函数泛化性能很好,线性核函数为其次,多项式核函数和S的泛化性能相对 .
藏族人名性别识别中,性别是识别视作S V M的一个分类问题,即从藏族人名中分类出男
女性别.如图1所示.
图1表明,两类样本集合通过S V M模型能够被超不面:?进行完全分开,使得直线H i和H"之间的 几何距离最大.在藏族人名性别识别过程中,把男性和女性分别作为两类样本类(图中用“令”表示)和f类(图中用“+”表示).在决策分析中,将对待识别的藏族人名音节参数进行特征向量化后,通过判 别函数式(1)进行判断其性别.如果其结果为正,则认为待识别的藏族人名是属于男性姓名;否则,就属 于女性 名.
2.2 音节特征向量化
如表1所示,藏族人名音节主要可分为3个特征、S2S3;因此,藏族人名可用三维向量1-(S。
S i,S#,S#S3)表示,其中S。
S:只有男性或女性两种结果,结果为男性用1表示,而女性结果用一 1表 示;S2、S#S3具有男性、女性和不知性别 结果,其中男性、女性的表示方 S。
^特征的表示方法相同,而不知性别的结 2表示;如果无特征,则用。
表示.具体向量化结果如表2所示.
一j一
3
表2
音节特征向量化说明表
音节
人名
特征
向量
性别(m 或f)
标注
2—气|
(1,0,0)m 1(-1,0,0)
f -13
*^〇*^1,*^2,*^2友3
(1, 1,0)m 1,喻1
s 0s i9 s 2,s 2s 3
(_1, ~l , 0)f -1,夕2,沒2*^3
(-1, 1,0)m 1(1, -1,0)
f -15〇5! , 52,5253(1,2,0)m 15〇5! , 52,5253
(-1,2,0)f -14
C N s 0s i9 s 2,s 2s 3(1,0, 1)m 1—*N C N ,
*^〇*^1,*^2,*^2友3(-1,0, -1)f -1s 0s l 9s 2,s 2s 3(-1,0,1)m 1s 0s l , 52,5253
(1,0, -1)f -1%T j 3;,較「,|
(1,0,2)m 1(-1,0,2)
f -1*^〇*^1,*^2,*^2友3(2, 0, 1)m 1s 0s i9 s 2,s 2s 3
(2,0, -1)
f
-1
3实验结果分析
3. 1 语料
本文的训练和测试语料取材于藏文网站上相关各个领域的藏族人名,包括小说、新闻、法律、童话 等.对这些 分词、标注词性和命名实体后,经手动
其中切分 的藏族人名.本文语包含18 821个藏族人名,其中
有15 057个,
语料的80%$ 有3 764个,占整体
语料的20 %;并且
语料从
语料中随机抽取.表3
的语料统计信息.
表3
预料详细统计
句子数包含人名数男性姓名数女性姓名数
训练集
测试集
11 227
7 594103 974
18 821
2个音节 3 个音节4个音节 2个音节 3 个音节4个音节15 057
3 764
1 011
4 591
5 625 422 2 258
4 914
表4
实验结果
核函数循环次数
实验次数
准确率%
—
平均准确率%
第一次第^次第二次高斯核1599.9799.9610099&98线性核10 00098.7398.9498&7598.81多项式核100$96.8997.2696&7896&98S 型核
15 000
95.45
95.43
95&46
95&45
3.2 实验
利用训练语料抽取了融合藏族人名的特征,并训练了支持向量机(S V M )模型,见表3所示,然后在 测试语料上,分别对S
V M
中 的4
复实验,实验结果见表4.从实验结果来看,,
语料从
语料中随机
,但对S V M 每
复实验的结
—4 —
4
果都比较稳定,而且效果良好.此外,在本实验中发现高斯核函数泛化性能很好,线性核函数为其次,多项式核 函数和S型核函数的泛化性能相对较差.虽然每个核函数对一般藏文文本中出现的藏族人名的性别识别获得 了较高的准确率,但仍然未能达到100%准确率,原因在于像嘀”等常用藏族人名在不同的实 际语料中出现时,以不同性别的形式出现,导致在识别过程中出现歧义,影响了实验结果.
4总结与展望
本文主要研究了基于S V M模型融合藏族人名音节特征的人名性别自动识别方法.根据藏族人名
的构词规律和形态特征,重点探讨了人名音节特征的选择和特征向量化,并采用支持向量机方法训练了 藏族人名性别标注语料,结合训练模型获得藏族人名性别识别的最佳结果.经实验,S V M模型完全可以 自动识别文本中的藏族人名的性别.后续工作中,将借助藏文人称代词的指代消解方法,研究存在男女 性别归类有歧义的藏族人名以及藏文转写其他民族人名的性别自动识别方法,以完善藏文文献中人名 的性别自动识别任务.
参考文献:
[l] COTTREL,L G W,METCALFE J.EMPATH:Face,emotion and gender recognition using holons [J]. Advances in Neural Information Processing Systems,1991(2) :564-77!
[]白雪,田启川,郝梦琳.基于神经网络的性别识别方法[].电子科技,2013,26(9):151-154.
[]张建明,杨忠,李巍.改进LN N-S V M的性别识别[].计算机工程与应用,2009,45(4):177 - 179.
[4]邓英,欧贵文.基于H M M的性别识别[].计算机工程与应用,2004(15)74-75.
[]马宁,于洪志,武光利等.基于S V M的藏语说话人性别识别[].西北民族大学学报(自然科学版),2011(4):35%9.
[]孙萌,刘群.基于判别式分类和重排序技术的藏文分词[C].第十二届全国少数民族语言文字信息处理学术研讨会论文集,201
[7]华却才让,姜文斌,赵海兴等.基于感知机模型藏文命名实体识别[].计算机工程与应用,2014,50(15):172-176.
[]华却才让,姜文斌,赵海兴等.基于词对依存分类的藏语树库半自动构建研究[].中文信息学报,201%,27(5).
[9] Chau A L,Li X,Yu W.Suppost vector machine classification for large datasets using decision tree and Fisher linear dis-
criminant^J] .Future Generation Computer Systems,2014,36(36) :57-65 .
[0]李航.统计学习方法(第1版)[M].北京:清华大学出版社,2012,95-13%
Automatic Gender Identification of the Syllabic Characteristics
Fused of Tibetan Peoples Name
XIA Wu-ji1 2,HUAQUE Cairang1*,SE Cha-jia1,
GONGBAO Cairang1,ZHAXI Ji1
1Tibetan Information Processing key laboratory of ministry of education,Qinghai Normal University,Xining 810008, China;2. Normal College for Nationalities,Qinghai Normal University,Xining 810008, China.) [Abstract]T h e a u to m a tic id e n tific a tio n o f T ib e ta n peoplt^s na m e is one o f th e fu n d a m e n ta l a n d im p o r
ta n t issu es in n a tu r a l la n g u a g e p ro c e s s in g.T h is p a p e r p re s e n ts a s y lla b ic c id e n tific a tio n m e th o d o f T ib e ta n p e o p le’s n a m e.T h is m e th o d used s u p p o rt v e c to r m a c h in e(S V M)
m o d e l as th e ba sic fr a m e w o r k a n d d e s ig n e d c h a ra c te ris tic te m p la te a c c o rd in g to t o f T ib e ta n na m e a n d s ta tis tic a l a n a ly s is.T h e n th e s u p p o rt v e c to r m a c h in e (S V M)m o d e l can e ffe c tiv e
ly deal w it h th e g e n d e r id e n tific a tio n p ro b le m o f T ib e ta n n a m e.E x p e r im e n ta l re s u lts s h o w th a t de
p e n d on a ra n d o m s a m p le o f3764 T ib e ta n nam es as te s t c o rp u s in18821 T ib e ta n n s e n te n c e s,w e te s te d f o u r c o m m o n ly fu n c tio n s w h ic h in c lu d e th e gauss k e r n e l,lin e a r k e r n e l,p o ly n o
m ia l k e rn e l a n d S ty p e n u c le a r.T h e a u to m a tic g e n d e r id e n tific a tio n a c c u ra c y re s p e c tiv e ly re a c h e d99. 98%,98.81%,98.81%a n d99. 98%.
[Key w ords]T ib e ta n p e o p le’s n a m e s;G e n d e r id e n tific a t io n;S y lla b le c h a ra c te ris tic;S u p p o rt v e c to r m a c h in e (S V M)
5。