基于统计方法的中文姓名识别
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
民(Ⅳ)=jlo丌g(W丽。+2) 定义3.1对于V WE Unigram,定义W的构词可信度为
其中,w。为词w在语料库中出现的频度。 记:常规切分出的标点符号的集合为Punctuation。 定义3.2对于V WEPunctuation.定义Ⅳ的构词可信度为
其中,|u"辔m优I表示单词^词(典w)的2词e×条数型,,节因墨赢此魄,(赢%正i+音厂2拦) 为单词词典中各词的平均
m㈣.It dentify CKnese
establishes rewards-ptmishment mechanism and supervised-learning
mechanism.and presents the reliability for the word segmentation in the model.nⅪexperiments
定义5在按姓名切分中对任一潜在姓名∞"”=LF,L∈LastName,F=Fl或F= F1Fz,Fl'F2∈FirstName,定义name的构词可信度为
心(name)=叫×[心(%一1)P7w(%)凡(%十1)]“3+
(1一叫)×[Pb(<vck一1,姓名))Pb((姓名,wj+1>)]1/2
nc咿{G×高掣x。帆Pf(F,嗍)助,零乏=;F2)
字(一部分)出现的总次数,‰,F1h初值均取0。
2.2构词可信度与接续可信度 为了评价分词效果,我们先引入构词可信度与接续可信度的概念。先从1998年《人民日 报》上抽取200万字的语料,作为基础语料库,通过统计语料库中的各词与各对相邻词的出现 频率,建立单词词典(Unigram)与双词词典(Bigram)。
32
万方数据
定义2对于VFEFirstName.定义名字用字可信度P(F)如下:
P,(F)=lPro(PFm)可
vn(咖{州剐y 2’黑翟≥
(X(F)=Fk十c_而×Fk—CepFT=) FP柙为建立名字用字字表时汉字F作为名字(一部分)出现的次数,凡b为训练时,汉字F
作为正确名字(一部分)出现的次数,而Rh为训练时,汉字F误认为名字(一部分)出现的次 数。ck,ck∈[1,20]分别为名奖励和惩罚系数。在建立FirstName字表时,F‰取F作为名
第15卷第2期
中文信息学报
JOURNAL OF a肛NE观INFORMATION PROCESSING
V01.15 No.2
基于统计方法的中文姓名识别
黄德根1,2杨元生1 王省1张艳丽1钟万勰2
(1.大连理工大学计算机科学与工程系大连116024;2.大连理工大学工程力学研究所大连116024)
摘要:专有名词的识别对自动分词有重要意义。本文针对如何识别中文姓名做了有益的 尝试,主要采用基于统计方法,进行中文姓名识剐。本文建立了有监督学习机制,提出了句子 切分结果可信度等概念,并在此基础上建立了较好的统计模型,系统闭式精确率和召回率分别 迭95.97%和95.52%,开式精确率和召回率分别达92.37%和髓.62%。
34
万方数据
J
开式
I识别中文姓名精确率 识别中文姓名召圊率
92 wk.baidu.com7%
88.62%
闭式
识别中文姓名精确率 识别中文姓名召圊率
95.97%
95.52%
我们随机从1999年人民日报上抽取lO篇文章共18KB,(其中,中文姓名占整篇文章的 0.86%)分别按常规切分与按本系统的基于统计的包含中文姓名识别的自动切分,其结果如 下:
l词典包含未登录词否 l不包含 l包含(除中文姓名外)
常规切分分词精确率
97.31% 98 08%
基于统计包含中文姓名识别自动切分精确率
98.19% 98.96%
以下给出部分测试结果,供参考。一一符号之间表示姓名的识别结果,黑体表示正确姓名 ①在两次测试中,均正确识别的部分结果
可信度。e∈[0.1,10]为标点符号相对于平均单词可信度的调整系数。 定义3.3对于Vw告UnigramUPunctuation,定义w的构词可信度为
匕(w)=c卅×Min(,№(‰十2))
其中,Cm∈[0,1]为未登录单词可信度相对于最小单词可信度的调整系数。
定义4对于V(W1,w2)∈Bigram,定义有序对(w1,w2)的接续可信度为
关麓词:双词同现频度;单诃频度;学习机制;中文姓名识别 中圈分类号:11P391.1
Identification of Chinese Names Based on Statistics
HUANG De-geml,2 YANG Ytmn-shengI
WANG xiJlgl ZHANG Yah.1i1 ZHONG Wan-xie2
2.3句子切分正确可信度 设句子S有x个不同的切分序列咿(1≤i≤z),记:其集合为s。。
定义6对于V w’∈s。,定义w江W1w皇..·彬的切分正确可信度为
只(卵)2^“。累。民(喇))liti+(卜^)(.苫£。R((喇,叼+1)))““t。1’
其中^∈[0,I]为构词可信度与接续可信度比例的调整系数。 2.4含中文姓名识别的切分模型 记w1为常规切分序列,W2为按姓名切分序列,对只(W1)与只(w2)进行比较,以决定 是否采用按姓名切分。令
31
万方数据
间除了标点外没有其他界限标志。因而,汉语处理的首要问题就是自动分词问题。 目前,汉语分词主要有三大类方法【1 J,即基于词典与规则的方法、基于统计的方法和混合
方法。但由于歧义切分与专用名词识别的困难,分词效果还有待进一步提高。 本文主要讨论专有名词中的中文姓名识别问题。由于中文姓名常用字本身往往又是汉语
show that the precision and recall rate respectively reach 95.97%and 95.52%by dose test,
while the precision and recall rate ale 92.37%and 88.62%by open test.
(1.Department of Ccmlputer Science and Engineering, Do/ian University of Technology lMlian 116024;2.Research Institute of Engineering Mechanics,Dalian University of Technology DaLian
Ⅳ2)%取W1Ⅳ2在语料库中接续出现的次数。(Wl,耽)%,(WI,w2)瞄的初值为0。不同
于一般的双词词典,Bigram中有一些包含’中文姓名’的记录,用于表示中文姓名的前后接续
万方数据
可信度。建库时,(W1,姓名)Pm取语料库中WI后面跟着中文姓名的次数,(姓名,w2>尸二取 语料库中中文姓名后跟着W2的次数。在训练中,由于本文是识别中文姓名,因而对双词词典 的奖罚都是针对于与中文姓名接续的双词记录。
其中,w^=m"”,W^一1与Wk十1分别为mme左边与右边的词,当wⅢ在句首(句尾)
时,w^一1(w^+I)按标点符号对待。“为平衡潜在姓名可信度与单词频度和双词频度可比性
系数。P乞,(wk)是指不考虑上下文时,只依赖于姓氏字表和名字用字字表计算出来的mm
的可信度,G为单双名调整系数。参照文献[2]单双名之比约为37,2%:62.8%,我们取G 为0,844。G为潜在姓名调整系数,由于姓名字表尺度与单词字表尺度不一样,为使它们之间 可信度可比,设G为调整系数。
116024)
Abstract:ldentification of Chinese nml∞is one of important techniques to improve the accuracy
of automatic word segmentation.T11is paper胛0pos∞an effective model based oil statistics to i—
州%喇5意w警∞犏 (..W,)∈&"
’
蹦cⅣ-,喇=P则∽“1%"+2¨翟焉篇篇
(x((Wl,%))=(W1,%)m十‰×<w1,w2)‰一%×(W1,%)研)
(W1,Ⅳ2)Pm为建立双词词典时,单词对WlW2接续出现的次数。(Wl,Ⅳ2)%为训练
时W1W2正确接续出现的次数,而<w1'Ⅳ2)k为训练时错误切分造成Wlw2接续出现的次 数。cm,Cm∈[1,20]分别为双词接续奖励和惩罚系数。在建立Bigram词典时,<W1,
Keyma也..bi-gram fl-equmcy;utfi-grmn hHlLlel呵;leⅢldng nzdm/ma;d/nese WIl∞identification
一、引言
词是自然语言中有意义的、可以独立运用的最小单位,而汉语文本是基于字的,词与词之
收辅El期:2000-06—01;惨政藕收■日■:2001一01—05 作者黄■枉.男,1965年生,尉教授,博士研究生.研究方向为自然语言理■与机嚣矗译.餐元生,男,1946年生t教授, 研兜方向为算法分析、自然语言理■.王省.女,1974年生,疆士。研究方向为自然语育理解.张艳膏,女.1977年生,硬 士研究生.研究方向为自然语言理解,钟万■,男.1934年生.教授,博士生导师,中目科学院院士.
.:旦f竖!二曼!里12
。rain(只(W2),只(w1)) 当a≥B。>O时,取按姓名切分序列。当口<Bl时,取按常规切分序列。Bl为确认中文姓名 正确出现的阈值。B,增加时有利于提高识别中文姓名精确率,Bl减少时有利于提高识别中 文姓名的召回率。
三、算法描述
3.I自动分词 (1)对输人文本按常规切分得到单词序列w1。 (2)依据LaxtName和FirstNarne宇表,建立潜在姓名链(注意:一个句子可能不只包含一 个中文姓名。且随着中文姓名边界(如单名或双名)的取法不同,可存在多个可能互相交叉的潜 在姓名)并且依据LastName镕tIFirstName字表中姓和名的可信度计算每一个潜在姓名的P乞 (naT/'te)。 (3)扫描潜在姓名链,当P7。(一””)<B2时,删除此潜在姓名。(这里的B2为潜在姓名 的阈值)
n(L)2忑Pvo∈rLoⅢ(№L而。一)’
Plo(L)-{吲烈,L卜2’潍出
(x(L)=LR。+l:L×L如) Lm为建立姓氏字表时汉字串L(L可以为单姓,也可以为复姓)作为姓出现的次数,Lm 为训练时,汉字串L作为正确姓出现的次数。cL∈[1,203为姓奖励系数。在建立LastName 字表时,L‰取姓为L的学生数,L‰初值取O。
句子中的常用单字词,现在的中文姓名识别系统的召回率虽较高,但精确率偏低【2.3 J。本文提 出了按姓名切分可信度的概念,较好地解决了中文姓名识别中的召回率与精确率这一对矛盾, 有效地提高了自动分词的精确率。
本文采用自动分词常用指标:
分词精确率
n=
×100%
识别中文姓名精确率
B=
x100%
识别中文姓名召回率
本识别模型的主要特点在于在训练过程中加入了奖惩机制。所谓奖惩机制,就是指在训 练过程中,对正确识别出的姓名,分别对其姓用字和名用字及其同现词进行奖励,而对于识90 错误的姓名,则要进行相应的惩罚。实践证明,此方法对提高识别中文姓名的召回率和精确率 是行之有效的。
2.1姓名用字可信度 为了在句子中找到姓名,首先要构造姓氏字表与名字用字字表。为此我们对大连理工大 学1999年在校生9986人的名字进行了统计,建立了姓氏字表(LastName)和名字用字字表 (FirstName)。 其次。根据统计的数字,分别对姓氏字表和名字用字字表中的每一个姓L及名用字F计 算其可信度,公式定义如下: 定义1对于VL∈LastName,定义其姓氏用字可信度R(L)如下:
V=
×100%
二、基于统计的包含中文姓名识别的自动分词模型
我们称不考虑识别姓名的分词方式为常规切分,称考虑识别姓名的分词方式为按姓名切 分。以下介绍本识别模型的基本思想:首先扫描常规切分后得到的汉语句子,根据姓氏字表 (LastName)和名字用字字表(FirstName)建立潜在姓名链;其次计算每一个潜在姓名的可信 度,再根据可信度处理潜在姓名链;最后,比较按姓名切分和常规切分两种情况下旬子的可信 度的大小来决定取哪一种分词结果。
其中,w。为词w在语料库中出现的频度。 记:常规切分出的标点符号的集合为Punctuation。 定义3.2对于V WEPunctuation.定义Ⅳ的构词可信度为
其中,|u"辔m优I表示单词^词(典w)的2词e×条数型,,节因墨赢此魄,(赢%正i+音厂2拦) 为单词词典中各词的平均
m㈣.It dentify CKnese
establishes rewards-ptmishment mechanism and supervised-learning
mechanism.and presents the reliability for the word segmentation in the model.nⅪexperiments
定义5在按姓名切分中对任一潜在姓名∞"”=LF,L∈LastName,F=Fl或F= F1Fz,Fl'F2∈FirstName,定义name的构词可信度为
心(name)=叫×[心(%一1)P7w(%)凡(%十1)]“3+
(1一叫)×[Pb(<vck一1,姓名))Pb((姓名,wj+1>)]1/2
nc咿{G×高掣x。帆Pf(F,嗍)助,零乏=;F2)
字(一部分)出现的总次数,‰,F1h初值均取0。
2.2构词可信度与接续可信度 为了评价分词效果,我们先引入构词可信度与接续可信度的概念。先从1998年《人民日 报》上抽取200万字的语料,作为基础语料库,通过统计语料库中的各词与各对相邻词的出现 频率,建立单词词典(Unigram)与双词词典(Bigram)。
32
万方数据
定义2对于VFEFirstName.定义名字用字可信度P(F)如下:
P,(F)=lPro(PFm)可
vn(咖{州剐y 2’黑翟≥
(X(F)=Fk十c_而×Fk—CepFT=) FP柙为建立名字用字字表时汉字F作为名字(一部分)出现的次数,凡b为训练时,汉字F
作为正确名字(一部分)出现的次数,而Rh为训练时,汉字F误认为名字(一部分)出现的次 数。ck,ck∈[1,20]分别为名奖励和惩罚系数。在建立FirstName字表时,F‰取F作为名
第15卷第2期
中文信息学报
JOURNAL OF a肛NE观INFORMATION PROCESSING
V01.15 No.2
基于统计方法的中文姓名识别
黄德根1,2杨元生1 王省1张艳丽1钟万勰2
(1.大连理工大学计算机科学与工程系大连116024;2.大连理工大学工程力学研究所大连116024)
摘要:专有名词的识别对自动分词有重要意义。本文针对如何识别中文姓名做了有益的 尝试,主要采用基于统计方法,进行中文姓名识剐。本文建立了有监督学习机制,提出了句子 切分结果可信度等概念,并在此基础上建立了较好的统计模型,系统闭式精确率和召回率分别 迭95.97%和95.52%,开式精确率和召回率分别达92.37%和髓.62%。
34
万方数据
J
开式
I识别中文姓名精确率 识别中文姓名召圊率
92 wk.baidu.com7%
88.62%
闭式
识别中文姓名精确率 识别中文姓名召圊率
95.97%
95.52%
我们随机从1999年人民日报上抽取lO篇文章共18KB,(其中,中文姓名占整篇文章的 0.86%)分别按常规切分与按本系统的基于统计的包含中文姓名识别的自动切分,其结果如 下:
l词典包含未登录词否 l不包含 l包含(除中文姓名外)
常规切分分词精确率
97.31% 98 08%
基于统计包含中文姓名识别自动切分精确率
98.19% 98.96%
以下给出部分测试结果,供参考。一一符号之间表示姓名的识别结果,黑体表示正确姓名 ①在两次测试中,均正确识别的部分结果
可信度。e∈[0.1,10]为标点符号相对于平均单词可信度的调整系数。 定义3.3对于Vw告UnigramUPunctuation,定义w的构词可信度为
匕(w)=c卅×Min(,№(‰十2))
其中,Cm∈[0,1]为未登录单词可信度相对于最小单词可信度的调整系数。
定义4对于V(W1,w2)∈Bigram,定义有序对(w1,w2)的接续可信度为
关麓词:双词同现频度;单诃频度;学习机制;中文姓名识别 中圈分类号:11P391.1
Identification of Chinese Names Based on Statistics
HUANG De-geml,2 YANG Ytmn-shengI
WANG xiJlgl ZHANG Yah.1i1 ZHONG Wan-xie2
2.3句子切分正确可信度 设句子S有x个不同的切分序列咿(1≤i≤z),记:其集合为s。。
定义6对于V w’∈s。,定义w江W1w皇..·彬的切分正确可信度为
只(卵)2^“。累。民(喇))liti+(卜^)(.苫£。R((喇,叼+1)))““t。1’
其中^∈[0,I]为构词可信度与接续可信度比例的调整系数。 2.4含中文姓名识别的切分模型 记w1为常规切分序列,W2为按姓名切分序列,对只(W1)与只(w2)进行比较,以决定 是否采用按姓名切分。令
31
万方数据
间除了标点外没有其他界限标志。因而,汉语处理的首要问题就是自动分词问题。 目前,汉语分词主要有三大类方法【1 J,即基于词典与规则的方法、基于统计的方法和混合
方法。但由于歧义切分与专用名词识别的困难,分词效果还有待进一步提高。 本文主要讨论专有名词中的中文姓名识别问题。由于中文姓名常用字本身往往又是汉语
show that the precision and recall rate respectively reach 95.97%and 95.52%by dose test,
while the precision and recall rate ale 92.37%and 88.62%by open test.
(1.Department of Ccmlputer Science and Engineering, Do/ian University of Technology lMlian 116024;2.Research Institute of Engineering Mechanics,Dalian University of Technology DaLian
Ⅳ2)%取W1Ⅳ2在语料库中接续出现的次数。(Wl,耽)%,(WI,w2)瞄的初值为0。不同
于一般的双词词典,Bigram中有一些包含’中文姓名’的记录,用于表示中文姓名的前后接续
万方数据
可信度。建库时,(W1,姓名)Pm取语料库中WI后面跟着中文姓名的次数,(姓名,w2>尸二取 语料库中中文姓名后跟着W2的次数。在训练中,由于本文是识别中文姓名,因而对双词词典 的奖罚都是针对于与中文姓名接续的双词记录。
其中,w^=m"”,W^一1与Wk十1分别为mme左边与右边的词,当wⅢ在句首(句尾)
时,w^一1(w^+I)按标点符号对待。“为平衡潜在姓名可信度与单词频度和双词频度可比性
系数。P乞,(wk)是指不考虑上下文时,只依赖于姓氏字表和名字用字字表计算出来的mm
的可信度,G为单双名调整系数。参照文献[2]单双名之比约为37,2%:62.8%,我们取G 为0,844。G为潜在姓名调整系数,由于姓名字表尺度与单词字表尺度不一样,为使它们之间 可信度可比,设G为调整系数。
116024)
Abstract:ldentification of Chinese nml∞is one of important techniques to improve the accuracy
of automatic word segmentation.T11is paper胛0pos∞an effective model based oil statistics to i—
州%喇5意w警∞犏 (..W,)∈&"
’
蹦cⅣ-,喇=P则∽“1%"+2¨翟焉篇篇
(x((Wl,%))=(W1,%)m十‰×<w1,w2)‰一%×(W1,%)研)
(W1,Ⅳ2)Pm为建立双词词典时,单词对WlW2接续出现的次数。(Wl,Ⅳ2)%为训练
时W1W2正确接续出现的次数,而<w1'Ⅳ2)k为训练时错误切分造成Wlw2接续出现的次 数。cm,Cm∈[1,20]分别为双词接续奖励和惩罚系数。在建立Bigram词典时,<W1,
Keyma也..bi-gram fl-equmcy;utfi-grmn hHlLlel呵;leⅢldng nzdm/ma;d/nese WIl∞identification
一、引言
词是自然语言中有意义的、可以独立运用的最小单位,而汉语文本是基于字的,词与词之
收辅El期:2000-06—01;惨政藕收■日■:2001一01—05 作者黄■枉.男,1965年生,尉教授,博士研究生.研究方向为自然语言理■与机嚣矗译.餐元生,男,1946年生t教授, 研兜方向为算法分析、自然语言理■.王省.女,1974年生,疆士。研究方向为自然语育理解.张艳膏,女.1977年生,硬 士研究生.研究方向为自然语言理解,钟万■,男.1934年生.教授,博士生导师,中目科学院院士.
.:旦f竖!二曼!里12
。rain(只(W2),只(w1)) 当a≥B。>O时,取按姓名切分序列。当口<Bl时,取按常规切分序列。Bl为确认中文姓名 正确出现的阈值。B,增加时有利于提高识别中文姓名精确率,Bl减少时有利于提高识别中 文姓名的召回率。
三、算法描述
3.I自动分词 (1)对输人文本按常规切分得到单词序列w1。 (2)依据LaxtName和FirstNarne宇表,建立潜在姓名链(注意:一个句子可能不只包含一 个中文姓名。且随着中文姓名边界(如单名或双名)的取法不同,可存在多个可能互相交叉的潜 在姓名)并且依据LastName镕tIFirstName字表中姓和名的可信度计算每一个潜在姓名的P乞 (naT/'te)。 (3)扫描潜在姓名链,当P7。(一””)<B2时,删除此潜在姓名。(这里的B2为潜在姓名 的阈值)
n(L)2忑Pvo∈rLoⅢ(№L而。一)’
Plo(L)-{吲烈,L卜2’潍出
(x(L)=LR。+l:L×L如) Lm为建立姓氏字表时汉字串L(L可以为单姓,也可以为复姓)作为姓出现的次数,Lm 为训练时,汉字串L作为正确姓出现的次数。cL∈[1,203为姓奖励系数。在建立LastName 字表时,L‰取姓为L的学生数,L‰初值取O。
句子中的常用单字词,现在的中文姓名识别系统的召回率虽较高,但精确率偏低【2.3 J。本文提 出了按姓名切分可信度的概念,较好地解决了中文姓名识别中的召回率与精确率这一对矛盾, 有效地提高了自动分词的精确率。
本文采用自动分词常用指标:
分词精确率
n=
×100%
识别中文姓名精确率
B=
x100%
识别中文姓名召回率
本识别模型的主要特点在于在训练过程中加入了奖惩机制。所谓奖惩机制,就是指在训 练过程中,对正确识别出的姓名,分别对其姓用字和名用字及其同现词进行奖励,而对于识90 错误的姓名,则要进行相应的惩罚。实践证明,此方法对提高识别中文姓名的召回率和精确率 是行之有效的。
2.1姓名用字可信度 为了在句子中找到姓名,首先要构造姓氏字表与名字用字字表。为此我们对大连理工大 学1999年在校生9986人的名字进行了统计,建立了姓氏字表(LastName)和名字用字字表 (FirstName)。 其次。根据统计的数字,分别对姓氏字表和名字用字字表中的每一个姓L及名用字F计 算其可信度,公式定义如下: 定义1对于VL∈LastName,定义其姓氏用字可信度R(L)如下:
V=
×100%
二、基于统计的包含中文姓名识别的自动分词模型
我们称不考虑识别姓名的分词方式为常规切分,称考虑识别姓名的分词方式为按姓名切 分。以下介绍本识别模型的基本思想:首先扫描常规切分后得到的汉语句子,根据姓氏字表 (LastName)和名字用字字表(FirstName)建立潜在姓名链;其次计算每一个潜在姓名的可信 度,再根据可信度处理潜在姓名链;最后,比较按姓名切分和常规切分两种情况下旬子的可信 度的大小来决定取哪一种分词结果。