中文姓名自动识别系统的设计与实现

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
This
mainly work is as follows.
paper anal),zes the difficulty
of
Chinese personal name recognition,makes
these
introduction to existing build some
approaches,and makes comparison among
corpus
III
中文姓名自动识别系统的设计与实现
“People’s Daily'’1 998,January 8 1.1 6%respectively.
26虬3 l武The
average recall rate and precision is
79.06%and
Key
Words:Chinese
Information Processing;Statistical Language Model:Local Bi.Statistics
resourc.’七such as personal name statistical
approaches.Then
we
linguistics
sample
set,SUlTlame
set and personal
name
corpus.After making
analysis
on
them,we also build personal
作者签名:么阻日期:出塑:≤!f。
大连理工大学硕士研究生学位ห้องสมุดไป่ตู้文
大连理工大学学位论文版权使用授权书 本学位论文作者及指导教师完全了解“大连理工大学硕士、博士学位 论文版权使用规定’’,同意大连理工大学保留并向国家有关部门或机构送 交学位论文的复印件和电子版,允许论文被查阅和借阅。本人授权大连理 工大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,也 可采用影印、缩印或扫描等复制手段保存和汇编学位论文.
name
words
list,probability list of
surnames,segmentation lexicon,context
name,context surnames etc,which are necessary for the process of we classify SI.IFn锄es by tlleir priorities,and build threshold set of priority by 30'-rule.Besides, we build model for personal name recognition using local bi-statistics model,and give some recognition rules of each priority.Finally,we design and implement all automatic recognition
作者签名:
导师签名:
a雄年厶月业日
大连理工大学硕士学位论文

绪论
研究背景
近几年,中国的信息产业得到了长足的发展。随着计算机的普及以及互联网技术的
1.1
迅猛发展,各种中文电子出版物、中文数字图书馆得到迅速普及,中文网页的数目也急 剧膨胀,大量信息以数字化的形式出现在人们面前,我们的社会也在以一个前所未有的 速度实现着各行各业的信息化。于是以非受限文本为主要研究对象的中文信息处理研究 的重要性日益显著。要充分利用这些信息资源,就必须依靠计算机的信息处理能力。 中文自然语言处理技术,即中文信息处理技术是我国少数的几项具有国际领先水平 的信息技术【l】。国务院制定的国家中长期科技发展纲领中也明确指出:“中文信息处理技 术是高新技术发展的重点”。另据统计,在信息领域中80%以上的信息是以语言文字为 载体。这表明语言信息的自动输入和输出,信息的提取和检索,文本的校勘和分类,以 及语言的自动翻译等语言工程已成为国民经济和国防信息化建设的重要组成部分。 中文信息处理涵盖了字、词、短语、句子、篇章等多层面的信息NI处理任务。当 前,中文信息处理的研究己经从“字处理”阶段进入“词处理”阶段,即汉语的词法分析。 对汉语词法分析,首先遇到的问题是词的切分问题,这是能够正确处理中文文本的必要 条件。在中文信息处理的广泛应用中,迫切要求实现汉语词典和语料库等中文资源的共 享和复用,对自动分词的要求也越来越高。在信息产业需求的强大动力驱动下,分词成 为中文信息处理的一个重要的基础课题。正如陈力为院士所说:“汉语书面语的分词技 术已经悄悄地形成--19新兴的富有挑战性的学问【2】。"是所有中文信息处理课题的前提 和基础,如文本理解、文本校对、文本自动分类、文本主题自动抽取、信息检索、机器 翻译等。 但当处理文本中含有大量未登录词,如人名、地名、机构名时,在分词过程中,这 些未登录词常被切分成单个的字,其分词效果很难达到实际要求,从而严重地影响句子 中语法和语义信息的获取。中文人名的自动识别是未登录词识别的一项子课题,据统计 【3】:中文姓名在待处理文本中一般只占1%.2%,但姓名的切分错误却高达50%以上,而 对所有分词错误进行统计,姓名错误占了将近90%。可见中文姓名问题的解决是提高中 文文本自动分词精度的先决条件。 本文的主要工作就是研究中文人名自动识别的方法,并在此基础上建立一个基于局 部二元统计的中文人名自动识别系统。
大连理工大学硕士学位论文
Design and Implementation of Automatical Recognition of Chinese
Personal Name
Abstract
Chinese unknown word
identification(uwo
from
texts
or
named entity recognition(NER)is
processing
and
location.It is the key technique in many Chinese
information
applications,such舔text
text
understanding,text
proofing,text topic extraction,text clustering,
大连理工大学 硕士学位论文 中文姓名自动识别系统的设计与实现 姓名:余祖波 申请学位级别:硕士 专业:计算机应用技术 指导教师:高庆狮 20080601
大连理工大学硕士学位论文


中文命名实体或未登录词识别是中文信息处理的基础研究课题,是文本理解、文本 校对、文本主题自动抽取、文本聚类、文本挖掘、文本过滤、信息抽取、机器翻译等多 种自然语言处理技术的重要基础。因此,研究中文命名实体识别对提高词法分析、句法 分析、语义分析乃至中文信息处理的质量有很重要的意义。 本文针对现代汉语文本,主要研究人名的自动识别问题,我们在对大规模姓名样本 库、姓名语料库进行统计的基础上,将姓氏按其在真实文本中成为真姓氏的概率对姓氏 进行优先级划分,并重点研究了前300个姓氏作普通单字时其上下文用字规律及姓氏的 词性规律,将局部二元统计语言模型作为基本框架,设计并实现了一个中文人名自动识 别系统。具体地,本文的主要内容如下: 本文首先分析了中文人名识别的困难,并对现有的人名识别方法进行了简单介绍和 比较;然后建立了人名样本库、姓氏库、人名语料库等在人名识别前所需的语言学资源, 并对这些资源进行统计分析的基础上,建立了各种人名用字表、姓氏概率表、分词词典、 人名上下文信息表、姓氏用作普通单字时的上下文信息表、姓氏前缀、后缀表等人名识 别过程中所需的数据资源。然后对姓氏按优先级进行分类,并通过3盯法则建立优先级 阈值库;利用局部二元统计语言模型对人名识别问题进行建模,并给出各个优先级的姓 氏的识别规则。最后,我们设计并实现了一个基于局部二元统计模型的中文人名自动识
information
processing to
make researches
Chinese named entity recognition.
This paper is
concerned primarily with Chinese personal name recognition automatically
Chinese language.After making statistical analysis
on
in allusion
to
contemporary
set
personal
name sample
its
and personal name corpus,we assign a priority to each surname according to probability of being a true sumame in text.Besides,we study emphasisly the statistical and the
nouns

foundational task in Chinese information processing,in which proper
and numerical
information
organization
are
extracted
and
classified
into
categories
such勰person,
Model;Chinese Personal Name Recognition
—IV—
独创性说明
作者郑重声明:本硕士学位论文是我个人在导师指导下进行的研究工 作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得大连理 工大学或者其他单位的学位或证书所使用过的材料.与我一同工作的同志 对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。
mining,text
filtering,information
on
extraction
and machine translation.Therefore,it
analysis
or
is
important
for lexical analysis,syntax
analysis,semantic
Chinese
information list of sBrname being single system of Chinese personal name based
on
list of personal and suffix list of word,prefix recognizing personal name in text.Then
中文姓名自动识别系统的设诗与实现
{.2研究意义
中文命名实体或末登录词识别就是把专有名词和数字信息从文本中抽出并进行分 类,是现代汉语词法分析的一项基础性研究工作。它是谗多中文信患处理应用的关键技 术,例如:文本自动分类、文本理解、文本校对、文本主题自动抽取、文本聚类、文本 挖掘、文本过滤、信息抽取、机器翻译等。 所谓未登录词主要是指分词系统的词典中未收录的词【4】,如中国入名、地名、组织 机构名、公司名、音译名、商龋名、事件名、股票名、品牌名、艺术作品名、重叠词、 缩略语、货币名、派生词、各种专业术语以及不断发震和约定俗成的一些新词语等。 由于这些未登录词构词规律各异,数量众多,不可能全部收入词典中。但是如果文 本中存在未被识别的未登录词,除造成该处被割裂之外,还会造成难以用其健技术手段 弥补的分词错误,直接影响到汉语分词及整个句法分析的正确率【41。由此可见,在中文 信息处理中,未登录词自动识别是影响囱动分词精度的主要因素。若在分词阶段未能把 人名和地名、机构名等未登录词识别出来,则会对以后的词法、语法、语义等的分析造 成不可逾越的障碍。对于机器翻译而言,分词阶段的错误率在翻译的过程中将会被放大, 放大的倍数约等于句予的平均长度,这严重影响翻译的质量猹】。 中国人名在未登录词中的比重很大,例如1998年1月的《人民日报》语料库,共 计2305896字,l 104276词次,含有未登录词17370个,其中人名8830个,占总数的 50.83%,这些未登录词共出现55995次,其中人名出现20089次,占出现总次数的35.88%。 国家“863”高技术研究发展计划306智能接口技术专家组1998年对囡内自动分词软件的 评测结果表魄网:中国人名识剃的召回率仅为68.77%,其切分错误高达50孵7】以上。对 所有分词错误进行统计,姓名错误占了将近90%【21。因此,中国人名的自动识别又是未 登录诵识别鲶重点和关键,中嚣入名自动识别阉题的解决对提高未登录词识羽、词法分 析、句法分析乃至中文信息处理的质量都有着很重要的意义。
part—of-speech laws of
laws of the context of the first 300 SUlTlames as single word each we
surname.And local bi—statistical model is considered as foundation framework.Finally, design and implement all automatic recognition system of Chinese personal name.The
别系统。
实验结果表明,本文提出的人名识别模型能够获得较为满意的结果。对98年1月 《人民日报》26日~31日的语料进行的开放测试,在调整阈值参数c的情况下,获得了 平均召回率和准确率分别为79.06%、81.16%,部分解决了人名的识别问题。 关键词:中文信息处理;统计语言模型;局部二元统计模型;中文人名识别
information
local bi—statistics model.
The
experiment results show that we can get satisfactory result using local bi-statistics
on
model.To evaluate the performance of the system,we make some open tests
相关文档
最新文档