基于感知机模型藏文命名实体识别(华却才让)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

藏文命名实体识别 (Named Entity Recognition, NER) 是确定藏文文本中人名、 地名、 机构名和数词等名词短 语的过程。它是藏文分词、 机器翻译、 跨语言检索和文 档摘要等自然语言处理中应用的关键技术, 也是目前藏 文自然语言处理中亟待解决的问题。藏文作为典型的 逻辑格语法体系的复杂拼音文字之一 , 首先句子中最 基本的单元为音节 (字) , 一个或多个音节构成词语, 词 与词之间没有明显标记; 其次, 具有严格的格词接续规 则, 部分格词与前一个词存在粘着和形态变化等关系 ,
华却才让, 姜文斌, 赵海兴, 等: 基于感知机模型藏文命名实体识别
2014, 50 (15)
173
有2个 (1 个词) 、 3个 (1 个或 2 个词) 和 4 个音节 (2 个词) , 个别有 1 个和 6 个音节, 加上姓和封号后甚至有 26 个音 节长度的姓名。而藏文地名、 机构名同汉语类似, 都有一 些开头和结尾特征, 但用词特点不同 。此外藏文中汉族 以及外国人名、 地名和机构名均类似汉语中的命名实体。 藏文命名实体识别模块是藏文分词和藏汉翻译系统 中不可或缺的组成部分, 然而国内外对其研究很少, 文献[5] 中首次提出了基于规则和 HMM 模型藏语命名实体识别 方案。文献 [6]中研究了藏族人名汉译后的识别方法, 提 取藏族人名用字 (串) 特征和命名规则, 结合词典 (3 千条) 采用串频统计和频率对比策略, 以及人名前后一个词为 单位共现概率作为可信度的藏族人名识别模型, 需给出 预先定义的阈值。在新华网藏族频道文本和 《人民日报》 (2000-01) 上实验的召回率分别为 85.54%和 81.73%。 本文只讨论藏文人名、 地名和机构名的识别方法, 提出的基于音节的藏文命名实体识别方案, 采用基于音 节特征训练模型, 准确识别藏文人名、 地名和机构名, 识 别综合性能达到 86.03% 。
3
命wenku.baidu.com实体的序列标注规范
在应用机器学习算法之前, 首先将语料中标注好的
命名实体的单词序列转换成音节标注序列。根据音节
174
2014, 50 (15)
Computer Engineering and Applications 计算机工程与应用
与命名实体的关系, 将音节标注为 13 个标注规范中的 一个。标注详细信息见表 2。比如, 可以将词级别人工 标注好的命名实体句子 (1) 转换为命名实体音节序列标 注句子 (2) 。 (1) 的话。 ) (2) 如果在识别过程中发生歧义, 则句子中的某些音节 会有多个可能的标注。比如, 对于上述句子 (1) 中的组 成人名的每个音节可能存在多个标注 (3) , 下面只给出 了前三个词的标注结果: (3) 这和词性标记相似, 一个音节的标注会受前面音节 的标注影响。比如, 当 标注为 LR 时, 则其后面的音 被标注为 OW 时, 其 节只能被标注为 MR 或 RR; 而当 (意 为 : 端智听了白玛
1
总体框架
由于藏文句子中词与词之间没有明显的分隔符, 使
音节 ( ) 和一个黏着格 ( ) , 或者可能为一个单音节名 ) 问题。为获得藏文实 际拼写时的上下文音节特征, 本文没有按照严格分词方 法处理。当用非紧缩音节表 1 和紧缩词, 判断一个音节 为紧缩准音节后根据格助词直接分隔即可, 譬如: ( 确定为紧缩关系, 则划分为 ) 形式, 中间加个空格来
172
2014, 50 (15)
Computer Engineering and Applications 计算机工程与应用
基于感知机模型藏文命名实体识别
2 华却才让 1, , 姜文斌 3, 赵海兴 1, 刘
群3
2 HUA Quecairang1, , JIANG Wenbin3, ZHAO Haixing1, LIU Qun3
1.3 万句标注好的训练语料中训练得到感知机在线平均 权重训练模型, 以对新出现的句子进行自动标注。
4 模型及特征训练 4.1 模型
感知机方法是利用错误分类对决策权向量进行修 正至收敛的方法。基于感知机文本序列标注方法在句 法分析 [9]中取得了比较好的效果, 具有容易定义特征、 训 练速度快和分类效果好等特性。此方法同样在 Unicode 编码藏文文本自动分词和词性标注中得到了验证 [1]。设 输入句子 xi Î X , 输出标注序列 yi Î Y , X 表示训练语料 中的所有句子, Y 表示对应标注命名实体标记的音节序 列。本文采用项目组制订的命名实体音节标注规范见 表 2, 其中藏文音节标注代码包括 13 个。那么最佳命名 实体音节标注序列为:
行分析, 提出基于音节特征感知机训练模型的藏文命名实体识别方案。重点研究了利用藏文紧缩格识别音节的方 法, 命名实体内部和边界音节的模型训练特征模板, 训练模型, 以及命名实体分类识别方法。提出的藏文命名实体 识别方法在测试集上获得 86.03% 的 F 值, 相对基于分词的基线系统高出 10.5% 个点。 关键词: 藏文音节; 命名实体; 藏文命名实体; 感知机模型 文献标志码: A 中图分类号: TP391 doi: 10.3778/j.issn.1002-8331.1308-0196
得自动分词中难免存在分词错误, 使命名实体开头、 结 尾音节或词与上下文词语的切分歧义, 影响分词基础上 识别命名实体的正确率。况且组成词语的音节具有自 身的特征, 特别是其字母组合上有很多拼写规则和规 律, 3/4 的藏文音节是依据藏文文法规则来拼写的 [7]。而 音节间关系不仅反映了词的内部结构特征, 还反映了词 语的接续特征。采用基于音节的藏文命名实体识别方 案, 即音节识别、 再用感知机模型和词典解码获得 n-best 结果, 最后利用知识库获得最佳 (权重最大) 识别结果。 整体数据流程及框架见图 1。
[4]
组成音节的字根、 前置字、 后置字等字母构件集和字母 拼写规则, 识别实际拼写音节, 校对音节 [8]。本文考虑到 有效获取音节间实际上下文特征, 只要将黏着紧缩音节 划分为两个音节, 能准确判断出黏着紧缩关系即可。图 2 中实际拼写切分为本文采用的方法。
原句子: 黏着紧缩还原切分: 实际拼写切分: 译为: 才航南夸说西宁市的气温要降 4 度左右。
图2
紧缩词还原切分和实际拼写切分比较
本文首先按藏语音节分隔符 “·” 分隔为准音节, 准 音节分为紧缩准音节和非紧缩准音节, 而紧缩准音节包 括三种, 分别为直接分隔紧缩准音节、 可还原紧缩准音 节和歧义紧缩准音节; 其中非紧缩准音节 (譬如: 节, 其中直接分隔紧缩准音节 (譬如: (譬如: ) 可直接划分为一个音节; 紧缩准音节可划分为两个音 ) 可直接分隔 ) 和一个 为一个音节 ( ) 和可分黏着格 ( ) ; 可还原紧缩准音节 ) 可直接还原为一个还原音节 ( (还原) 黏着格 ( ) ; 歧义紧缩准音节 ( 词 ( ) , 同时可能存在还原 ( ) 可能为一个
[2] [1]
导致与音节的后置字符及又后置字符间存在歧义; 第三 动词在时态上具有屈折变化。这些复杂性使得藏文分 词已成为藏文信息处理中的一个难题 [3], 而藏文命名实 体的识别更为困难, 也是必须要解决的问题。 藏文中命名实体类似中文命名实体没有区分标记, 其基本单元一个音节类似中文的一个字, 没有英文中的 大小写特征, 它们和非命名实体没有形态上的区别。大 部分藏族都有姓, 包括古代庄园名、 家族名、 部落名和地 名等, 也有寺院和封号名。常见的藏族人名按音节长度
1.陕西师范大学 计算机学院, 西安 710062 2.青海师范大学 藏文信息研究中心, 西宁 810008 3.中国科学院 计算技术研究所, 北京 100190 1.Computer Science School of Shaanxi Normal University, Xi’ an 710062, China 2.Tibetan Information Research Center, Qinghai Normal University, Xining 810008, China 3.Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190, China HUA Quecairang, JIANG Wenbin, ZHAO Haixing, et al. Tibetan name entity recognition with perceptron model. Computer Engineering and Applications, 2014, 50 (15) : 172-176. Abstract:Tibetan name entity recognition is essential for Tibetan text segmentation and the part of speech tagging. This paper proposes a syllable features perceptron training model to identify Tibetan name entity with detail analysis NE structure rule and word segmentation ambiguity. It focuses on Tibetan syllable segmentation, training features templates of inner and boundary of NE, training model and NE classification method. The F-score of NE identification is 86.03% for the test set, and 10.5% higher than the Tibetan segmentation baseline system. Key words: Tibetan syllable; Name Entity (NE) ; Tibetan NE; perceptron model 摘 要: 藏文命名实体识别是藏文分词和标注系统中必须要解决的问题。通过对命名实体构词规律及分词歧义进
基金项目: 国家自然科学基金 (No.61363055, No.61063033, No.61163018) ; 教育部 “春晖计划” 合作科研项目 (No.Z2012102) 。 作者简介: 华却才让 (1976—) , 男, 博士生, 副教授, 主要研究领域为藏语词法分析、 句法分析和机器翻译; 姜文斌 (1984—) , 男, 博士, 主要研究领域为词法分析、 句法分析和机器翻译; 赵海兴 (1969 —) , 男, 博士, 教授, 博士生导师, CCF 会员, 主要研究 领域为图理论、 复杂网络、 理论计算机科学和自然语言处理; 刘群 (1966—) , 男, 博士, 研究员, 博士生导师, CCF 会员, 主要研究领域为机器翻译、 自然语言处理。 E-mail: cairanghuaque@aliyun.com 收稿日期: 2013-08-15 修回日期: 2013-09-30 文章编号: 1002-8331 (2014) 15-0172-05 CNKI 网络优先出版: 2013-12-19, http://www.cnki.net/kcms/doi/10.3778/j.issn.1002-8331.1308-0196.html
命名实体 知识库 特征集 基本构件表 n-best 识别 解码 音节识别 藏文句子 训练语料 词典库
划分。歧义紧缩准音节根据建立的排歧词表 1 来划分, 当前歧义紧缩准音节与第一个左部或右部出现的音节 同时出现在歧义词表时将其直接划分为一个音节, 否则 划分为两个音节。经测试, 在 25 MB 藏文语料中紧缩词 的识别准确率达 99.91% 。此外, 当抽取命名实体词典 时对特殊紧缩边界作还原, 譬如, “ 还原为 “
表1
” 抽取并
” 。
非紧缩音节和排歧词表
歧义紧缩音节 排歧词
感知机训练模型 音节规则模型
非紧缩音节

图1
藏文命名实体识别流程图
… … … … …
2
藏文音节及识别
藏语文本中绝大部分音节可由音节分隔符 “ · ” 划分, ) ,
但由于藏语文法中存在的六种紧缩格 (
导致这六种格与其前的音节间存在黏着关系, 甚至存在 紧缩关系。文献 [8] 提出了藏文紧缩词及还原法, 利用 藏文紧缩词的添接规则还原分词后的藏文原文。利用
相关文档
最新文档