一种基于互信息的串扫描中文文本分词方法

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

在进行分词计算之前首先对文档进行预处理, 利用显式和隐式的切分标记, 如标点符号、数字、ASCII 字符以及出现频率高、构词能力差的单字词、数词 + 单字常用量词模式等将训练文本切分成短的汉字串, 这大大地减少了需要统计的无效字串的数量和高频单字或量词边界串。
与基于词典的方法相比较, 基于统计的分词方法具有一些难得的优点, 如不受待处理文本的领域限制、不需要一个机器可读的词典、能够有效地自动排除歧义、能够识别新词怪词等。基于统计的中文分词方法主要思想是: 词是稳定的字的组合, 因此在上下文中, 相邻的字同时出现的次数越多, 就越有可能构成一个词。因此字与字相邻出现的概率或频率能较好反映成词的可信度。最常用的基于统计的分词方法原理有三种: 互信息原理、n- gram 原理及 t 测试原理。基于 n - gram 原理的分词方法是一种常用的基于统计的分
第 29 卷第 7 期 2010 年 7 月
情报杂志
JOU R NA L O F IN T ELL IG EN CE
Vol. 29 N o. 7 Jul. 2010
一种基于互信息的串扫描中文文本分词方法
A Method of String- Scanning Chinese Word Segmentation Based on Mutual Information
3. 6 增强网络的互动功能利用多种网络互动方式, 如论坛、留言板等交流工具, 搭建用户与专家、市场咨询人员之间的桥梁, 解决农民生产中遇到的实际问题, 政府及相关部门也可通过互动交流了解农民与农村企业的信息, 提高政府的服务质量和效率, 从而缩短信息传播的时空距离。
4小结
1 互信息原理
定义 1: 对有序汉字串 A B 中汉字 A 、B 之间的互信息定义为:
I( A, B)
=
log2
P
P( A (A )
, P
B) (B
)
( 2)
其中, P( A , B) 为汉字串 A B 出现的概率, P( A )
Biblioteka Baidu
为汉字 A 出现的概率, P( B) 为汉字 B 出现的概率。假
B) > 0, 即 P( A , B ) > P ( A ) P ( B) , 则 A B 间是正相关的, 随着 I ( A , B) 值的增加则 A 、B 间的相关度增加,
如果 I ( A , B ) 大于某个给定的阈值, 可以认为 AB 基本成词; b. 如果 I ( A , B ) # 0, 即 P( A , B ) #
在竞争日益激烈的网络世界, 星火网站能够在多大范围内传播, 能够真正服务多少农村用户, 不仅取决于它的可用性 , 还决定于它的易用性。只有着重于网站的无障碍建设, 提高易用性, 才能使星火网站发挥其为三农服务的作用, 确保农民能够在网络时代分享网络文明。
i= 1
从计算上看, 基于 n- gram 原理的方法太复杂了,
且其中的概率参数需要通过大规模的语料库来计算。
鉴于此, 本文提出了一个统计的基于互信息原理的串
扫描中文文本分词方法, 该方法较 n- gram 方法降低
了词频统计的工作量, 且算法的计算复杂度也较低。
词方法, 其基本思想是: 一个单词的出现与其上下文环
境中出现的单词密切相关, 第 n 个词的出现与其前 n-
1 个词相关。设 w 1 w 2 !w n 是长度为 n 的字串, 则字串
w 的似然度用方程表示为:
n
∀ P( W ) =
P ( w i | w i- n+ 1w i- n+ 2 !w i- 1 ( 1)
词结果的准确率。阈值可由统计数据得出, 也可由领域专家给出。
2 2 分词模块算法伪代码
w hile( 文本串没有读入完) { 读入一个新文本串; pointer= 1; w hile ( 第 point er 个字符不是文本串结束符) * { m= lengt h; / / length 为中文文本中最长词的长度
2 基于互信息的串扫描中文文本分词算法
2 1 算法思想基于互信息的串扫描中文文本分词方法对训练文本中相邻出现的各个字的组合频度进行统计, 通过计算长为 m 的字串中相邻字之间的互信息来判断是否构成 m 字词, m 的初值为中文文本中最大长度字串的长度, 记为 length。本方法中对 m 字词的判断基于如下的假设, 对 m 字串中的任意相邻的字 w i 及 w i+ 1( i > = 1 且 i < = m- 1) , 均有 I ( w i, w i+ 1) > 阈值 1。
{ 构成两字词, 将 m 中的两字词入库; point er+ = 2; m= - 1; }
else { m- - ; } } e lse
{ 构成一字词, 将 m 中的一字词入库; point er+ = 1; m= 1; }
}* * }* }
3 算法分析与实验
本算法的基本操作是互信息 I ( A , B) 的计算, 设 n 为预处理之后的文本串数, L 为 n 个串的最大串长, k 为词的最大长度, 则算法的最坏时间复杂度为 O ( nLk2) 。在衡量文本分词算法的性能时通常采用召回率( Recall) 以及准确度 ( Precision ) , 若系统输出的切分词数为 n1, 正确切分应得出的词数为 n2, c 为两者共有的词数, 即分词结果中切分正确的总词数, 则召回率 Recall 为 c/ n2, 准确度 Precision 为 c/ n1。本算法通过在一个 100MB 的纯文本语料库上训练, 测试用的机器内存为 1G, 主频为 1. 86GHz, 操作系统为 Windows
w hile ( i< = m- 1) * * * { 计算互信息 I( w i, w i+ 1) ;
If I( w i, wi+ 1) > 阈值 1> 0 i+ + ; else { m- - ; flag= 0; break ; } }* * * if ( flag= 1) { m 个字成词, 将 w 中的串入库; pointer+ = m; m= - 1; } } else if ( m= 2) { 计算互信息 I(w 1, w 2) ; if I( w 1, w 2) > 阈值 2> 0
w hile( m> = 1) * * { if ( 第 pointer+ m 个字符不是串结尾符)
{ 从 point er 位置开始取长为 lengt h 的串∃ w ; } else { 将从 pointer 起始到串尾的字串 ∃ w ; w 的长度 ∃ m; } if ( m> 2) { i= 1; f lag= 1;
切分模块逐一对经过预处理之后的字串进行处理, 对每一串首先从第一个字符开始计算长为 m 的串中所有相邻的两个字 A B 的互信息 I( A , B) , 这样的任意相邻两个字组合共有 m - 1 组, 若这所有的 m - 1个两字词均有 I ( A , B ) > 阈值 1( 阈值 1 > 0) , 则该长为 m 的串构成 m 字词, 将其入库, 继续判断下一个长为 m 的字串是否成词。若长为 m 的字串不构成 m 字词, 则丢弃尾部的一个字, 判断长为 m - 1 的字串是否构成 m - 1 字词, 依次判断。若 m 的长度递减成 2 时, 只需计算这两个字的互信息 I ( A , B) , 若 I ( A , B) > 阈值 2( 阈值 2 > 0) , 则构成两字词, 将其入库。否则将 m 的长度减去 1, 将该一字词入库。如此反复, 直至串处理完为止。
定它们在语料库中出现的次数分别计为 n( A)、 n( B) 、n ( AB) , n 是统计语料库中的词频总数。则有:
P( A , B) = n( AB) n, P( A ) = n( A ) / n, P ( B) =
n( B) / n 。互信息 I ( A , B ) 具有如下的性质: a. 如果 I ( A ,
P( A ) P( B) , 则 A B 间是不相关的; c. 如果 I ( A , B) < 0, 即 P( A B) < P( A ) P( B) , 则 A B 间是互斥的, 这时 A B 间基本不会结合成词。
互信息反映的是字与字之间的静态结合, 汉字之间的互信息体现了汉字之间结合关系的紧密程度, 当某一字串结合的紧密程度高于给定的阈值时, 便可认为此字串可能构成了一个词。对训练文本中相邻出现的各个字之间组合的频度进行统计, 计算出相邻字出现的频率, 用这个频率与字单独出现的频率进行比较, 计算出汉字之间的互信息, 进而判断该字串是否组成词语。
在上述的计算中, 在对互信息 I ( A , B) 进行衡量时, 分别用到了不同的阈值即阈值 1 及阈值 2, 而阈值 2 的值要高于阈值 1。由于两字词出现的频度要高于多字词, 故在互信息阈值的设置上, 用于两字词判断的阈值 2 的值要高于用于多字词判断的阈值 1。在本分词方法中关于互信息阈值的选择至关重要, 直接决定了分
关键词中文分词词频互信息
中图分类号 T P391
文献标识码 A
文章编号 1002- 1965( 2010) 07- 0161- 02
0引言
中文分词技术是中文信息处理的基础环节, 中文分词的主要任务是通过计算机自动完成对中文句子的切分, 识别出独立的词。由于中文词的划分无法像西方语系那样凭借空格来实现, 而且同一个字在不同上下文中, 没有非常规范的语言结构来划分出词的组合, 因此, 如何正确有效的识别出一个有实际意义的词是中文分词研究的基础问题[ 2] 。国内外对中文分词技术的研究已经进行了几十年, 中文分词技术大体可以总结为三大类: 基于词典的方法、基于语义的方法及基于统计的方法[ 3] 。其中基于语义的中文分词受限于汉语语言知识的局限, 还未取得明显的进展, 而针对另外两种分词算法的研究己经取得了一定的成果。由于每种算法都有其自身的优缺点, 因此在很多研究和应用中, 都是结合了基于词典和基于统计的分词算法的优势进行进一步的研究[ 4] 。
( 下转第 172 页)
% 172 %
情报杂志
第 29 卷
确的信息。要保证信息服务的及时性, 力争在第一时间为用户提供第一手信息。
3. 5 设立特色栏目, 突出地方特色各地各级星火网站的内容, 不仅要有综合信息, 同时要有各地的具体信息和各部门分门别类的信息, 突出地方特色, 在创建一个星火网站之前, 要多浏览同类的网站, 根据各地实际, 设立一些特色栏目, 以适应农业生产多元化和特色化的需要, 增强网站对农业生产实际的指导意义。
赵秦怡
王丽珍
( 大理学院数学与计算机学院昆明 671000) ( 云南大学信息学院昆明 650091)
摘要中文分词技术是中文信息处理的基础环节, 在互信息原理的基础上提出了一个基于统计的中文文本分词
方法。该方法对经过预处理之后每一个串中的任意可能长度串均判断其成词的可能性, 实验结果说明该算法简单且具有良好的精度及查全率。
收稿日期: 2010- 01- 08
修回日期: 2010- 04- 01
作者简介: 赵秦怡( 1973- ) , 女, 硕士, 副教授, 研究方向为数据挖掘; 王丽珍( 1962- ) , 女, 博士, 教授, 硕士生导师, 研究方向为数据挖掘及数
据仓库算法。
% 162 %
情报杂志
第 29 卷