词性标注系统的设计与实现
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
4 总体性能测试结果及分析
4. 1 词性标注性能影响因素分析 对于词性标注系统而 言 ,其标注性能主要依赖于以下几个因素 :a. 可以获得的训练 语料库规模 ,通常是越大越好 ,所包含的主题越全面越好 ; b. 训练语料库和词典与应用语料库之间的差别 。如果应用语料
库和训练语料库来自于同一个语料集合 ,那么标注准确率将 会很高 ,通常所说的封闭测试就是这种情况 ;c. 词性标注集的 大小 。一般来说 ,标注集越大 ,产生词性歧义的可能性就会越 大 ;d. 未登录词的数量 。如果应用文本中出现大量的未登录 词 ,将会对标注效果产生较大的影响 ,尤其对于一些专业领域 的文本 ,未登录词的比例会很高 。 4. 2 测试结果 为了更好地评价词性标注系统的性能 ,我 们采用了两个评价标准[5 ] ,定义如下 :
词典分 为 兼 类 词 典 和 非 兼 类 词 典 , 分 别 存 储 在 multi2 posvoc. txt 和 SinglePosVoc. txt 两个文件中 。其格式为 :
WORD POS1 …… POSn
Word - > Pos , Frequency 该信息表示语料库中词 Word 共有 Frequency 次被标记 为 Pos 词性 。 3. 3 词性标注集 系统使用的词性标注集借鉴了《人民日 报》语料库加工标记集来制定词性标记集 。因为系统不需要 对词的语法类别区分过于细致 ,所以对该标注集语法功能相 近的词类进行适当合并 ,一共有 34 个标记 。
J o ur n al of Inf o r m a ti o n N o . 11 ,2008 情报杂志 2008 年第 11 期
词性标注系统的设计与实现
The Design and Implementation of the Chinese Part - of - speech Tagging System
式选择性代价估计是核心问题 , 可将其视为一棵树 , 其中一
个分支为从起点到目标点的主路径 , 其余分支为约束主支
的谓词条件 ,表示为 :
P = t1 [ p1 ]/ t 2 [ p2 ]/ ……/ t n [ pn ] 其中 : ti 为结点名 ; pi 为谓词 , 默认存在量词布尔表达 式 。路径表达式的选择性估计是对满足分支条件的主支数
1 系统功能与整体架构
在对输入的中文文本进行中文分词处理后 ,文本由汉字 串变为词串 ,词性标注程序首先利用非兼类词典和兼类词典 对文本进行初步词性标注 ,接下来对未登录词进行词性标注 , 最后对已标注文本中的兼类词进行词性歧义识别和消除 ,选 择最合适的一种词性 ,并输出所有的词及其词性 。具体的系 统结构流程图如图 1 所示 。
据个数的估计 。对 XML 路径表达式的估计需要数据结构的
统计信息与分布在结构内部的值的统计信息的结合 , 以计
算路径的选择性 。
6 XQO 查询优化试验
基于 XQuery 查询语言 ,本文对不同大小的 XML 文件 进行查询 ,得出查询响应时间 。然后 , 采用本文所设计的 XQO 查询优化模型 ,进行优化后的 XML 文件查询 ,两者查 询结果如图 6 所示 。测试平台为 P4 2. 8 GHz 处理器 、512 Mbytes 内存 、Windows2000 系统 ,JD K1. 5 编程 。
当 n = 1 时 ,词典为非兼类词典 , n > 1 时词典为兼类词 典。
为了提高词典的查找效率 ,程序中将两个词典分别存储 在两个 Hashtable (哈希表) 中 。 3. 2 所需统计数据 本系统利用隐马尔可夫模型进行词 性自动标注 ,需要用到从语料库中统计的数据 ,主要包括 :词 性转移概率 、词汇概率和词性出现频度表等信息 ,这些信息均 在系统初始化时一次性读入内存 。
张 卫
(南京师范大学国际文化教育学院 南京 210097)
摘 要 介绍了词性标注系统的设计与实现 ,描述了该系统的功能和总体结构 ,系统的各模块及其功能 ,系统所使用 的兼类词典 、非兼类词典 、词性标注集 ,最后对系统的总体性能进行测试并对测试结果进行了分析 。 关键词 词性标注系统 结构 模块 词典 中图分类号 TP391. 12
定义 1 ,词性标注正确率 :
PT
=
NT N all
×100 %
(1)
该公式是对词性标注系统的整体评价 , 其中 N all 表示用
来测试的语料库中词的总数量 , 而 N T 则是测试时标注正确
的词的数量 。
定义 2 ,兼类词歧义排除正确率 :
PQ
=
NQT N Qnum
×100 %
(2)
此函数专门针对兼类词的歧义排除正确率进行评测 , 其
收益 , 它的定义如下 :
bf
i ind
(
S
)
Βιβλιοθήκη Baidu
=
∑ db.
cos
t
(
Q
j mat
)
j
Qmat
是
Qj的一部分
Q
j mat
是指为查询
Qi
中的任一路径查询构建路径索引的
SQL
语句
,db.
cost
(
Q
j mat
)
是指执行
Q
所需的查询代价 ,
该
代价由 RDBM S 的优化器估算 (大多数商业化 RDBM S都提
作者简介 :张 卫 ,男 ,1982 年生 ,硕士研究生 ,助教 ,研究方向为现代教育技术 、搜索引擎 。
81
情报杂志 2008 年第 11 期 J o u r n al of Inf o r m a ti o n N o . 11 ,2008
最佳词性 。 2. 2 系统逻辑单元设计 系统程序逻辑单元部分主要由 WordSeg、PosGeterFromVoc 、PosMatrix 、PosTagger 、PosVocabu2 lary、ProbabilityComputer 等主要类组成 ,各类的具体信息及相 互关系如图 2 所示 。
词性标注是实现自然语言处理目标 ———分析和理解语言 的一个中间环节 ,其任务是为文本中的每一个词都标记上一 个合适的标记 ,也就是说我们要确定每个词是名词 、动词 、形 容词 或 其 他 词 性[1 ] 。在 信 息 检 索 领 域 引 入 自 然 语 言 处 理 (NL P) ,是信息检索领域一个很重要的趋势 。中文文本词性 标注作为自然语言处理中较为成熟的技术 ,其对于信息检索 的意义主要有[2 ] :a. 实现词义消歧 ,减少查询模糊 ,提高信息 检索检索效果 ;b. 利用词性标注去除停用词 ,减少索引量 ,提 升信息检索系统的检索效率 ;c. 为信息检索系统向智能化方 向发展提供基础 。
图 2 系统逻辑单元关系图 (UML 图) a. PosTagger 类 。PosTagger 类负责调用其他的类完成整 个词性标注工作 ,也是词性标注程序的对外接口 ,如果系统作 为一个 DLL 动态链接库被其他程序调用 ,只需要使用该类中 的 tagging () 方法 。 b. WordSeg 类 。WordSeg 类用于实现中文分词功能 ,直 接调用中文分词组件 WordSegmentor. dll 进行分词 ,可返回字 符串 (string) 结果和数组列表 (ArrayList) 结果 。 c. PosGeterFromVoc 类 。PosGeterFromVoc 类的功能是利 用兼类词典和非兼类词词典对分词后的词进行词性标记 ,并 标记未登录词的词性为系统预设的五类开放词性 (名词 、动 词 、区别词 、形容词和副词) 。 d. PosVocabulary 类 。 PosGeterFromVoc 类 需 要 使 用 PosVocabulary 类 ,该类是用来在内存中存储兼类词典和非兼 类词典 ,以方便查找某个词的词性 。 e. ProbabilityComputer 类 。该类用来在进行兼类词处理 时计算词性概率 ,以确定最佳词性 。 f . PosMatrix 类 。PosMatrix 类构造词性转移概率矩阵 、词 汇概率矩阵和词性出现频度表 ,并提供给 Probabilit yComputer 类使用 。
本文所设计实现的词性标注系统是基础教育搜索引擎系 统中的一个子系统 ,本文将主要探讨词性标注系统的设计与 实现的具体问题 。首先从整体介绍系统的功能 、架构和处理 流程 ,然后介绍了系统各个模块单元的功能及其设计 ,接下来 描述了词性标注系统所需词典 、统计数据和词性标注集的格 式等具体信息 ,最后对系统的总体性能进行了测试 ,并对测试 结果进行分析 。
选取不同大小的 XML 文档分次查询 ,在给定代价参数 后 ,比较采用 XQO 优化模型和只采用 XQuery 查询语言查
图 1 词性标注系统结构流程图 b. 词性匹配模块 。本模块作为词性标注的第一步 ,需要 用到兼类词典和非兼类词典 。对于每一个词 ,其处理过程为 : 首先查非兼类词典 ,若匹配成功则标注唯一的词性 。因为在 汉语文本中 ,兼类词的数量毕竟是少数 ,如本系统所使用词典 中兼类词只占到所有词的 9. 3 %左右 。否则 ,查兼类词词典 , 标记该词所有的词性 。若非兼类词词典和兼类词词典中都不 存在该词 ,则将其作为未登录词 ,交由未登录词处理模块进行 词性识别 。 c. 未登录词处理模块 。本模块所采用未登录词的词性标 注策略中的思想为 :将未登录词标记为名词 ( n) 、动词 (v) 、区 别词 (b) 、形容词 (a) 、副词 (d) 、量词 (q) 和时间词 (t) 等五种词 性[4 ] ,这样未登录词就作为兼类词处理 ,其词性选择将由模块 (4) 完成 。 d. 兼类词处理模块 。该模块主要对前两个模块处理后带 有多个词性标记的词进行词性歧义排除 ,需要用到的数据包 括词汇概率矩阵 、词性出现频度表和词性转移概率矩阵 。其 中主要运用 Viterbi 算法和参数平滑算法进行计算 ,选择词的
中 N Qnum 是测试语料库中兼类词的数量 , N Q T 是经过词性标
注系统标注后兼类词被正确标注的次数 。
在实验中 ,我们从训练语料库《( 人民日
(下转第 86 页)
82
情报杂志 2008 年第 11 期 J o u r n al of Inf o r m a ti o n N o . 11 ,2008
2 系统逻辑单元设计
2. 1 系统各模块及其功能 从图 1 中可以看出 ,本系统使 用了多级处理策略[3 ] ,主要包括四个部分 :中文分词模块 、词 性匹配模块 、未登录词处理模块以及兼类词处理模块 。
a. 中文分词模块 。中文分词模块采用基础教育搜索引擎
的中文分词组件 。待处理的文本经过中文分词后 ,由字串变 成词串 ,再由以下的 b. 至 d. 模块进行处理 。
供对此统计功能的支持 , 如 DB2) 。d b- siz e ( Q ) 表示执行 查询 Q 所得结果所占的存储空间 。这样在执行查询 Q 时 ,
就可用路径索引取代原来的
Q
j mat
部分的查询 ,
降低
Q
的查
询代价 。
通过以上公式计算路径索引的代价 , 进行设计基于代
价的路径索引选择构建算法[6] 。XML 代价估计中 ,路径表达
3 词典 、统计数据和词性标注集
3. 1 兼类词典和非兼类词典 本系统所使用的词典共包 含词 114 741 个 ,其中单字词 6 795 个 ,双字词 5 8210 个 ,三 字词 34 324 个 ,四字词 15 412 个 。兼类词 10 688 个 ,约占总 词数的 9. 31 % ,非兼类词 104 053 个 。
a. 词性转移概率矩阵 。该矩阵用于存放训练语料库中所 有词性之间同现的关系特征 ,其格式如下 :
Pos1 - > Pos2 , Frequency Pos1 、Pos2 是语料库中相邻出现的两个词性标记 , Fre2 quency 是它们同现的频度 。 b. 词汇概率矩阵 。该矩阵用来存储训练语料库中词汇与 词性同现的频度 ,其格式如下 :