大规模中文文本语料库分词与词性标注一致性检验技术研究-山西大学

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

大规模中文文本语料库分词与词性标注一致性检验技术研究

基本信息

批准号60473139

项目名称大规模中文文本语料库分词与词性标注一致性检验技术研究

项目类别面上项目

申请代码F020603

项目负责人郑家恒

负责人职称教授

依托单位山西大学

研究期限2005-01-01 到 2007-12-31

资助经费23(万元)

项目摘要

中文摘要

目前,在机器翻译、语音识别、信息检索等应用系统的开发中,广泛地使用语料库。建设高质量的大规模语料库是中文信息处理领域的基础性工程。由于自动分词和词性标注的正确率达不到百分之百;人工校对语料时,校对者对分词单位和词性标注认识上存在着差异,造成语料加工结果不一致现象的存在。因此,研究语料库一致性检验技术是十分必要的,它不仅可以保证语料库加工的质量,也可以提高语料库加工的自动化程度,减轻人工校对的工作量。课题研究的内容有:研究语料库加工规范的分词模式、词性标注模式的形式和生成;一致性检验模式库的构建、维护、优化策略,模式的选择,模式匹配条件的确定;建立组合型歧义字段语言环境和兼类词语言环境模型;应用基于范例推理、粗糙集、分类、聚类和模式识别技术,获取分词与词性标注一致性检验知识库,研究一致性检验算法;开发分词与词性标注一致性检验软件,为建设高质量的大规模语料库提供有力的保证。

中文主题词分词一致性;词性标注一致性;语言环境模型;语料加工规范模式

英文摘要

英文主题词consistency of segmentation;co

结题摘要

建设高质量的大规模语料库是中文信息处理领域的基础性工程,也是很多相关应用领域进行更深层次研究的根本保证。由于自动分词和词性标注的正确率达不到百分之百;人工校对语料时,校对者对分词单位和词性标注认识上存在着差异,造成语料加工结果不一致现象的存在。因此,研究语料库一致性检验技术是十分必要的,它不仅可以保证语料库加工的质量,也可以提高语料库加工的自动化程度,减轻人工校对的工作量。本课题主要研究了:语料库加工规范的分词模式、词性标注模式的形式和生成;一致性检验模式库的构建、维护、优化策略;组合型歧义字段语言环境和兼类词语言环境模型;分词与词性标注一致性检验知识库和一致性检验算法;开发了自动分词与词性标注一致性检验软件。在国内外学术期刊和学术会议共发表论文20余篇,其中1篇被SCI检索,2篇被EI检索;开发的词性标注一致性软件等2个软件进行了软件著作登记;开发的自动分词软件参加了2007年bakeoff的评测,其中对词表词的分词评测取得了最好的成绩;同时,研究团队还为本次评测提供了分词训练语料和测试语料。

成果

1

基于规则的中文语料库分词一致性会议苗玺、郑家恒

2

一种改进的句子相似度计算方法会议菅小艳、郑家恒

3

一种基于实例学习的人名识别方法会议朱丽丽、郑家恒

4

基于模式匹配的中文专有名词识别会议郑家恒、谭红叶、王兴义

5

基于HMM的农作物信息抽取会议菅小艳、郑家恒

6

A Classification-based Algorit会议张虎、郑家恒、赵颖

7

基于小句相似度计算的专有名词识期刊朱丽丽、郑家恒

8

利用支持向量机实现动词—动词搭期刊白妙青、郑家恒

9

汉语语料库词性标注自动校对方法期刊张虎、郑家恒、刘江

10

规则与统计相结合的分词一致性检期刊刘博、郑家恒、张虎

11

A Study on Pattern Generalizat期刊Tan Hongye, Zhao Tiejun, Yao

J

12

中文文本语料库分词一致性检验技期刊刘江、郑家恒、张虎

13

基于分类的汉语语料库词性标注一期刊张虎、郑家恒

14

基于改进的隐马尔科夫汉语词性标期刊王敏、郑家恒

15

一种基于软模式的语义类发现方法期刊谭红叶,赵铁军

16

中文分词中歧义切分处理策略期刊郑家恒、张剑锋、谭红叶

17

语料库词性标注一致性检查方法研期刊张虎、郑家恒、刘江

18

中文语料库分词不一致的分类处理期刊苗玺、郑家恒

19

农作物信息抽取系统的设计与实现期刊郑家恒、菅小艳

相关文档
最新文档