中文命名实体识别方法研究及其在文本分类中的应用

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

中文命名实体识别方法研究及其在文本分类中的应用Chinese Named Entity Recognition Study and Application in Text

Categorization

(申请清华大学工程硕士专业学位论文)

培 养 单 位 : 软件学院

工 程 领 域 : 软件工程

申 请 人 : 刘彬

指 导 教 师 : 李 春 平 副教授

二○○九年五月

中文命名实体识别方法研究及其在文本分类中的应用

刘彬

关于学位论文使用授权的说明

本人完全了解清华大学有关保留、使用学位论文的规定,即: 清华大学拥有在著作权法规定范围内学位论文的使用权,其中包括:(1)已获学位的研究生必须按学校规定提交学位论文,学校可以采用影印、缩印或其他复制手段保存研究生上交的学位论文;(2)为教学和科研目的,学校可以将公开的学位论文作为资料在图书馆、资料室等场所供校内师生阅读,或在校园网上供校内师生浏览部分内容;(3)根据《中华人民共和国学位条例暂行实施办法》,向国家图书馆报送可以公开的学位论文。

本人保证遵守上述规定。

(保密的论文在解密后遵守此规定)

作者签名:导师签名:

日期:日期:

摘要

命名实体是一篇文章的基本信息元素,是正确理解文本的基础。命名实体识别就是判断文本中的一个字符串是否代表实体并确定实体的类别。由于中文自身的特点,中文命名实体识别相比于英文命名实体识别具有更大的难度。哪些措施可以尽可能的提高中文命名实体识别的效果?如何减少分词的确定性切分误差导致的命名实体识别的错误?命名实体识别技术如何有效的用到其他自然语言处理技术当中?本文将围绕这些问题展开研究。

本文首先采用一种针对不同实体使用不同标注策略的中文命名实体识别方法并基于链式条件随机场实现了此方法。在此基础上,对利用中文语言学特点提高中文命名实体识别效果,动态随机场模型用于组织机构名识别,中文命名实体识别技术用于文本分类等问题做了研究。本文的主要贡献包括:

采用一种针对不同实体使用不同标注策略的中文命名实体识别方法并基于链式条件随机场实现了此方法。同时,收集整理了若干语言学资料,以字典和词典的形式加入到链式条件随机场的特征模板当中,丰富了此方法的特征模板。通过和同类方法的比较,证明了我们的方法能够得到较好的识别效果。

提出了一种基于动态条件随机场的识别方法用于中文组织机构名的识别。此方法将中文分词和组织机构名识别融合到一个统一的过程当中,与同类方法相比能够取得更高的召回率,此方法尽可能的避免了分词的确定性切分的误差导致的命名实体识别的错误。

将中文命名实体识别技术用于中文文本分类任务。考虑到现有的特征选择方法都是基于概率统计模型,没有考虑到文章本身的语义信息,我们提出了一种引入命名实体识别技术的文本分类特征选择方法,并针对命名实体提出了对应的特征加权方法。通过和文本分类中常用的特征选择及特征加权方法比较,证明我们的方法是有效的。

关键词:中文命名实体识别 链式条件随机场 动态条件随机场 文本分类

I

Abstract

Named Entity, as the basic information unit of text, is important to the correct understanding of a text. Named Entity Recognition is to identify the words in a document belonging to Named Entities and further classify them into some predefined categories. Chinese Named Entity Recognition is more difficult than English Named Entity Recognition because of the special characteristics of Chinese language. How to gain better recognition effect of the Chinese Named Entity Recognition? How to reduce the Named Entity Recognition error which caused by the uncertainty error of segmentation? How to use Named Entity Recognition technology on other natural language processing tasks? We will research on these problems in the paper.

We design a Chinese Named Entity Recognition method and implement it at first. And then, we research the application of Dynamic Conditional Random Fields in organization names recognition and the application of Chinese named entity recognition in Chinese text categorization. In this paper, the main work and contribution include:

Design a Chinese Named Entity Recognition method and implement it based on linear-chain conditional random fields. We propose a new labeling solution which using different strategy for simply entities and complex entities. At the same time, we collect some Chinese language material and build some dictionaries for person names, location names and organization names. These dictionaries are helpful us building our feature templates and these feature templates are useful through experiments. Comparing with other named entity recognition mehtod, our method can get better performance in experiments. Propose a new organization name recognition method based on Dynamic Conditional Random Fields. The method merges word segmentation and Name Entity Recognition into one process. It can get higher recall than similar methods and reduce the Named Entity Recognition error which caused by the uncertainty error of segmentation as fully as possible.

Use Chinese Named Entity Recognition technology in text categorization. Considering existing feature selection methods are all based on statistical probability model, we propose a feature selection method which uses Named Entity Recognition technology. At the same time, we design a term weighting method for Named Entity. Comparing with other common feature selection methods in text categorization, our method is effective.

Keywords:Chinese Named Entity Recognition

Linear-chain Conditional Random Fields

Dynamic Conditional Random Fields Text Categorization

II

相关文档
最新文档