基于统计方法的中文姓名识别

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

民（Ⅳ）＝ｊｌｏ丌ｇ（Ｗ丽。＋２）定义３．１对于ＶＷＥＵｎｉｇｒａｍ，定义Ｗ的构词可信度为
其中，ｗ。为词ｗ在语料库中出现的频度。记：常规切分出的标点符号的集合为Ｐｕｎｃｔｕａｔｉｏｎ。定义３．２对于ＶＷＥＰｕｎｃｔｕａｔｉｏｎ．定义Ⅳ的构词可信度为
其中，｜ｕ＂辔ｍ优Ｉ表示单词＾词（典ｗ）的２词ｅ×条数型，，节因墨赢此魄，（赢％正ｉ＋音厂２拦）为单词词典中各词的平均
ｍ㈣．ＩｔｄｅｎｔｉｆｙＣＫｎｅｓｅ
ｅｓｔａｂｌｉｓｈｅｓｒｅｗａｒｄｓ－ｐｔｍｉｓｈｍｅｎｔｍｅｃｈａｎｉｓｍａｎｄｓｕｐｅｒｖｉｓｅｄ－ｌｅａｒｎｉｎｇ
ｍｅｃｈａｎｉｓｍ．ａｎｄｐｒｅｓｅｎｔｓｔｈｅｒｅｌｉａｂｉｌｉｔｙｆｏｒｔｈｅｗｏｒｄｓｅｇｍｅｎｔａｔｉｏｎｉｎｔｈｅｍｏｄｅｌ．ｎⅪｅｘｐｅｒｉｍｅｎｔｓ
定义５在按姓名切分中对任一潜在姓名∞＂”＝ＬＦ，Ｌ∈ＬａｓｔＮａｍｅ，Ｆ＝Ｆｌ或Ｆ＝Ｆ１Ｆｚ，Ｆｌ＇Ｆ２∈ＦｉｒｓｔＮａｍｅ，定义ｎａｍｅ的构词可信度为
心（ｎａｍｅ）＝叫×［心（％一１）Ｐ７ｗ（％）凡（％十１）］“３＋
（１一叫）×［Ｐｂ（＜ｖｃｋ一１，姓名））Ｐｂ（（姓名，ｗｊ＋１＞）］１／２
ｎｃ咿｛Ｇ×高掣ｘ。帆Ｐｆ（Ｆ，嗍）助，零乏＝；Ｆ２）
字（一部分）出现的总次数，‰，Ｆ１ｈ初值均取０。
２．２构词可信度与接续可信度为了评价分词效果，我们先引入构词可信度与接续可信度的概念。先从１９９８年《人民日报》上抽取２００万字的语料，作为基础语料库，通过统计语料库中的各词与各对相邻词的出现频率，建立单词词典（Ｕｎｉｇｒａｍ）与双词词典（Ｂｉｇｒａｍ）。
３２
万方数据
定义２对于ＶＦＥＦｉｒｓｔＮａｍｅ．定义名字用字可信度Ｐ（Ｆ）如下：
Ｐ，（Ｆ）＝ｌＰｒｏ（ＰＦｍ）可
ｖｎ（咖｛州剐ｙ２’黑翟≥
（Ｘ（Ｆ）＝Ｆｋ十ｃ＿而×Ｆｋ—ＣｅｐＦＴ＝）ＦＰ柙为建立名字用字字表时汉字Ｆ作为名字（一部分）出现的次数，凡ｂ为训练时，汉字Ｆ
作为正确名字（一部分）出现的次数，而Ｒｈ为训练时，汉字Ｆ误认为名字（一部分）出现的次数。ｃｋ，ｃｋ∈［１，２０］分别为名奖励和惩罚系数。在建立ＦｉｒｓｔＮａｍｅ字表时，Ｆ‰取Ｆ作为名
第１５卷第２期
中文信息学报
ＪＯＵＲＮＡＬＯＦａ肛ＮＥ观ＩＮＦＯＲＭＡＴＩＯＮＰＲＯＣＥＳＳＩＮＧ
Ｖ０１．１５Ｎｏ．２
基于统计方法的中文姓名识别
黄德根１，２杨元生１王省１张艳丽１钟万勰２
（１．大连理工大学计算机科学与工程系大连１１６０２４；２．大连理工大学工程力学研究所大连１１６０２４）
摘要：专有名词的识别对自动分词有重要意义。本文针对如何识别中文姓名做了有益的尝试，主要采用基于统计方法，进行中文姓名识剐。本文建立了有监督学习机制，提出了句子切分结果可信度等概念，并在此基础上建立了较好的统计模型，系统闭式精确率和召回率分别迭９５．９７％和９５．５２％，开式精确率和召回率分别达９２．３７％和髓．６２％。
３４
万方数据
Ｊ
开式
Ｉ识别中文姓名精确率识别中文姓名召圊率
９２ wk.baidu.com７％
８８．６２％
闭式
识别中文姓名精确率识别中文姓名召圊率
９５．９７％
９５．５２％
我们随机从１９９９年人民日报上抽取ｌＯ篇文章共１８ＫＢ，（其中，中文姓名占整篇文章的０．８６％）分别按常规切分与按本系统的基于统计的包含中文姓名识别的自动切分，其结果如下：
ｌ词典包含未登录词否ｌ不包含ｌ包含（除中文姓名外）
常规切分分词精确率
９７．３１％９８０８％
基于统计包含中文姓名识别自动切分精确率
９８．１９％９８．９６％
以下给出部分测试结果，供参考。一一符号之间表示姓名的识别结果，黑体表示正确姓名 ①在两次测试中，均正确识别的部分结果
可信度。ｅ∈［０．１，１０］为标点符号相对于平均单词可信度的调整系数。定义３．３对于Ｖｗ告ＵｎｉｇｒａｍＵＰｕｎｃｔｕａｔｉｏｎ，定义ｗ的构词可信度为
匕（ｗ）＝ｃ卅×Ｍｉｎ（，№（‰十２））
其中，Ｃｍ∈［０，１］为未登录单词可信度相对于最小单词可信度的调整系数。
定义４对于Ｖ（Ｗ１，ｗ２）∈Ｂｉｇｒａｍ，定义有序对（ｗ１，ｗ２）的接续可信度为
关麓词：双词同现频度；单诃频度；学习机制；中文姓名识别中圈分类号：１１Ｐ３９１．１
ＩｄｅｎｔｉｆｉｃａｔｉｏｎｏｆＣｈｉｎｅｓｅＮａｍｅｓＢａｓｅｄｏｎＳｔａｔｉｓｔｉｃｓ
ＨＵＡＮＧＤｅ－ｇｅｍｌ，２ＹＡＮＧＹｔｍｎ－ｓｈｅｎｇＩ
ＷＡＮＧｘｉＪｌｇｌＺＨＡＮＧＹａｈ．１ｉ１ＺＨＯＮＧＷａｎ－ｘｉｅ２
２．３句子切分正确可信度设句子Ｓ有ｘ个不同的切分序列咿（１≤ｉ≤ｚ），记：其集合为ｓ。。
定义６对于Ｖｗ’∈ｓ。，定义ｗ江Ｗ１ｗ皇．．·彬的切分正确可信度为
只（卵）２＾“。累。民（喇））ｌｉｔｉ＋（卜＾）（．苫￡。Ｒ（（喇，叼＋１）））““ｔ。１’
其中＾∈［０，Ｉ］为构词可信度与接续可信度比例的调整系数。２．４含中文姓名识别的切分模型记ｗ１为常规切分序列，Ｗ２为按姓名切分序列，对只（Ｗ１）与只（ｗ２）进行比较，以决定是否采用按姓名切分。令
３１
万方数据
间除了标点外没有其他界限标志。因而，汉语处理的首要问题就是自动分词问题。目前，汉语分词主要有三大类方法【１Ｊ，即基于词典与规则的方法、基于统计的方法和混合
方法。但由于歧义切分与专用名词识别的困难，分词效果还有待进一步提高。本文主要讨论专有名词中的中文姓名识别问题。由于中文姓名常用字本身往往又是汉语
ｓｈｏｗｔｈａｔｔｈｅｐｒｅｃｉｓｉｏｎａｎｄｒｅｃａｌｌｒａｔｅｒｅｓｐｅｃｔｉｖｅｌｙｒｅａｃｈ９５．９７％ａｎｄ９５．５２％ｂｙｄｏｓｅｔｅｓｔ，
ｗｈｉｌｅｔｈｅｐｒｅｃｉｓｉｏｎａｎｄｒｅｃａｌｌｒａｔｅａｌｅ９２．３７％ａｎｄ８８．６２％ｂｙｏｐｅｎｔｅｓｔ．
（１．ＤｅｐａｒｔｍｅｎｔｏｆＣｃｍｌｐｕｔｅｒＳｃｉｅｎｃｅａｎｄＥｎｇｉｎｅｅｒｉｎｇ，Ｄｏ／ｉａｎＵｎｉｖｅｒｓｉｔｙｏｆＴｅｃｈｎｏｌｏｇｙｌＭｌｉａｎ１１６０２４；２．ＲｅｓｅａｒｃｈＩｎｓｔｉｔｕｔｅｏｆＥｎｇｉｎｅｅｒｉｎｇＭｅｃｈａｎｉｃｓ，ＤａｌｉａｎＵｎｉｖｅｒｓｉｔｙｏｆＴｅｃｈｎｏｌｏｇｙＤａＬｉａｎ
Ⅳ２）％取Ｗ１Ⅳ２在语料库中接续出现的次数。（Ｗｌ，耽）％，（ＷＩ，ｗ２）瞄的初值为０。不同
于一般的双词词典，Ｂｉｇｒａｍ中有一些包含’中文姓名’的记录，用于表示中文姓名的前后接续
万方数据
可信度。建库时，（Ｗ１，姓名）Ｐｍ取语料库中ＷＩ后面跟着中文姓名的次数，（姓名，ｗ２＞尸二取语料库中中文姓名后跟着Ｗ２的次数。在训练中，由于本文是识别中文姓名，因而对双词词典的奖罚都是针对于与中文姓名接续的双词记录。
其中，ｗ＾＝ｍ＂”，Ｗ＾一１与Ｗｋ十１分别为ｍｍｅ左边与右边的词，当ｗⅢ在句首（句尾）
时，ｗ＾一１（ｗ＾＋Ｉ）按标点符号对待。“为平衡潜在姓名可信度与单词频度和双词频度可比性
系数。Ｐ乞，（ｗｋ）是指不考虑上下文时，只依赖于姓氏字表和名字用字字表计算出来的ｍｍ
的可信度，Ｇ为单双名调整系数。参照文献［２］单双名之比约为３７，２％：６２．８％，我们取Ｇ为０，８４４。Ｇ为潜在姓名调整系数，由于姓名字表尺度与单词字表尺度不一样，为使它们之间可信度可比，设Ｇ为调整系数。
１１６０２４）
Ａｂｓｔｒａｃｔ：ｌｄｅｎｔｉｆｉｃａｔｉｏｎｏｆＣｈｉｎｅｓｅｎｍｌ∞ｉｓｏｎｅｏｆｉｍｐｏｒｔａｎｔｔｅｃｈｎｉｑｕｅｓｔｏｉｍｐｒｏｖｅｔｈｅａｃｃｕｒａｃｙ
ｏｆａｕｔｏｍａｔｉｃｗｏｒｄｓｅｇｍｅｎｔａｔｉｏｎ．Ｔ１１ｉｓｐａｐｅｒ胛０ｐｏｓ∞ａｎｅｆｆｅｃｔｉｖｅｍｏｄｅｌｂａｓｅｄｏｉｌｓｔａｔｉｓｔｉｃｓｔｏｉ—
州％喇５意ｗ警∞犏（．．Ｗ，）∈＆＂
’
蹦ｃⅣ－，喇＝Ｐ则∽“１％＂＋２¨翟焉篇篇
（ｘ（（Ｗｌ，％））＝（Ｗ１，％）ｍ十‰×＜ｗ１，ｗ２）‰一％×（Ｗ１，％）研）
（Ｗ１，Ⅳ２）Ｐｍ为建立双词词典时，单词对ＷｌＷ２接续出现的次数。（Ｗｌ，Ⅳ２）％为训练
时Ｗ１Ｗ２正确接续出现的次数，而＜ｗ１＇Ⅳ２）ｋ为训练时错误切分造成Ｗｌｗ２接续出现的次数。ｃｍ，Ｃｍ∈［１，２０］分别为双词接续奖励和惩罚系数。在建立Ｂｉｇｒａｍ词典时，＜Ｗ１，
Ｋｅｙｍａ也．．ｂｉ－ｇｒａｍｆｌ－ｅｑｕｍｃｙ；ｕｔｆｉ－ｇｒｍｎｈＨｌＬｌｅｌ呵；ｌｅⅢｌｄｎｇｎｚｄｍ／ｍａ；ｄ／ｎｅｓｅＷＩｌ∞ｉｄｅｎｔｉｆｉｃａｔｉｏｎ
一、引言
词是自然语言中有意义的、可以独立运用的最小单位，而汉语文本是基于字的，词与词之
收辅Ｅｌ期：２０００－０６—０１；惨政藕收■日■：２００１一０１—０５作者黄■枉．男，１９６５年生，尉教授，博士研究生．研究方向为自然语言理■与机嚣矗译．餐元生，男，１９４６年生ｔ教授，研兜方向为算法分析、自然语言理■．王省．女，１９７４年生，疆士。研究方向为自然语育理解．张艳膏，女．１９７７年生，硬士研究生．研究方向为自然语言理解，钟万■，男．１９３４年生．教授，博士生导师，中目科学院院士．
．：旦ｆ竖！二曼！里１２
。ｒａｉｎ（只（Ｗ２），只（ｗ１））当ａ≥Ｂ。＞Ｏ时，取按姓名切分序列。当口＜Ｂｌ时，取按常规切分序列。Ｂｌ为确认中文姓名正确出现的阈值。Ｂ，增加时有利于提高识别中文姓名精确率，Ｂｌ减少时有利于提高识别中文姓名的召回率。
三、算法描述
３．Ｉ自动分词（１）对输人文本按常规切分得到单词序列ｗ１。（２）依据ＬａｘｔＮａｍｅ和ＦｉｒｓｔＮａｒｎｅ宇表，建立潜在姓名链（注意：一个句子可能不只包含一个中文姓名。且随着中文姓名边界（如单名或双名）的取法不同，可存在多个可能互相交叉的潜在姓名）并且依据ＬａｓｔＮａｍｅ镕ｔＩＦｉｒｓｔＮａｍｅ字表中姓和名的可信度计算每一个潜在姓名的Ｐ乞（ｎａＴ／＇ｔｅ）。（３）扫描潜在姓名链，当Ｐ７。（一””）＜Ｂ２时，删除此潜在姓名。（这里的Ｂ２为潜在姓名的阈值）
ｎ（Ｌ）２忑Ｐｖｏ∈ｒＬｏⅢ（№Ｌ而。一）’
Ｐｌｏ（Ｌ）－｛吲烈，Ｌ卜２’潍出
（ｘ（Ｌ）＝ＬＲ。＋ｌ：Ｌ×Ｌ如）Ｌｍ为建立姓氏字表时汉字串Ｌ（Ｌ可以为单姓，也可以为复姓）作为姓出现的次数，Ｌｍ为训练时，汉字串Ｌ作为正确姓出现的次数。ｃＬ∈［１，２０３为姓奖励系数。在建立ＬａｓｔＮａｍｅ字表时，Ｌ‰取姓为Ｌ的学生数，Ｌ‰初值取Ｏ。
句子中的常用单字词，现在的中文姓名识别系统的召回率虽较高，但精确率偏低【２．３Ｊ。本文提出了按姓名切分可信度的概念，较好地解决了中文姓名识别中的召回率与精确率这一对矛盾，有效地提高了自动分词的精确率。
本文采用自动分词常用指标：
分词精确率
ｎ＝
×１００％
识别中文姓名精确率
Ｂ＝
ｘ１００％
识别中文姓名召回率
本识别模型的主要特点在于在训练过程中加入了奖惩机制。所谓奖惩机制，就是指在训练过程中，对正确识别出的姓名，分别对其姓用字和名用字及其同现词进行奖励，而对于识９０错误的姓名，则要进行相应的惩罚。实践证明，此方法对提高识别中文姓名的召回率和精确率是行之有效的。
２．１姓名用字可信度为了在句子中找到姓名，首先要构造姓氏字表与名字用字字表。为此我们对大连理工大学１９９９年在校生９９８６人的名字进行了统计，建立了姓氏字表（ＬａｓｔＮａｍｅ）和名字用字字表（ＦｉｒｓｔＮａｍｅ）。其次。根据统计的数字，分别对姓氏字表和名字用字字表中的每一个姓Ｌ及名用字Ｆ计算其可信度，公式定义如下：定义１对于ＶＬ∈ＬａｓｔＮａｍｅ，定义其姓氏用字可信度Ｒ（Ｌ）如下：
Ｖ＝
×１００％
二、基于统计的包含中文姓名识别的自动分词模型
我们称不考虑识别姓名的分词方式为常规切分，称考虑识别姓名的分词方式为按姓名切分。以下介绍本识别模型的基本思想：首先扫描常规切分后得到的汉语句子，根据姓氏字表（ＬａｓｔＮａｍｅ）和名字用字字表（ＦｉｒｓｔＮａｍｅ）建立潜在姓名链；其次计算每一个潜在姓名的可信度，再根据可信度处理潜在姓名链；最后，比较按姓名切分和常规切分两种情况下旬子的可信度的大小来决定取哪一种分词结果。