一种基于互信息的串扫描中文文本分词方法

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
在进行分词计 算之前 首先 对文档 进行 预处 理, 利 用显式 和隐 式 的切 分标 记, 如 标点 符 号、数 字、ASCII 字符以及出现频率高、构词能力差的单字词、数词 + 单 字常用量词模式 等将 训练文 本切分 成短 的汉字 串, 这 大大地减少了需要统计的无效字串的数量和高频单字 或量词边界串。
与基于词典 的方法 相比 较, 基于 统计 的分词 方法 具有一些难得的优点, 如不受待处理文 本的领域限制、 不需要一个机 器可读 的词 典、能够 有效 地自动 排除歧 义、能够识别 新词怪 词等。基 于统计 的中 文分词 方法 主要思想是: 词是稳 定的字 的组 合, 因此 在上 下文中, 相邻的字同时 出现的 次数 越多, 就 越有 可能构 成一个 词。因此字与字相邻出现的概率或频率 能较好反映成 词的可信度。最常用的基于统计的分词 方法原理有三 种: 互信息 原理、n- gram 原理 及 t 测试 原 理。基于 n - gram 原理的 分词 方法是 一种 常用 的 基于 统计 的分
第 29 卷 第 7 期 2010 年 7 月
情报杂志
JOU R NA L O F IN T ELL IG EN CE
Vol. 29 N o. 7 Jul. 2010
一种基于互信息的串扫描中文文本分词方法
A Method of String- Scanning Chinese Word Segmentation Based on Mutual Information
3. 6 增强网络的互动功能 利用多 种网络互动方 式, 如论坛、留言板等交流工具, 搭建用户与专家、市场 咨询人员之间的桥梁, 解决 农民生 产中 遇到的 实际问 题, 政府及相关部门也可通 过互动 交流 了解农 民与农 村企业的信息, 提高政府的服务质量和效率, 从而缩短 信息传播的时空距离。
4小 结
1 互信息原理
定义 1: 对有序汉字 串 A B 中汉 字 A 、B 之 间的互 信息定义为:
I( A, B)
=
log2
P
P( A (A )
, P
B) (B
)
( 2)
其 中, P( A , B) 为 汉字串 A B 出现的 概率, P( A )
Biblioteka Baidu
为 汉字 A 出现的概率, P( B) 为汉字 B 出现的概率。假
B) > 0, 即 P( A , B ) > P ( A ) P ( B) , 则 A B 间是正相关 的, 随着 I ( A , B) 值的增加则 A 、B 间的相 关度增加,
如果 I ( A , B ) 大 于某个给 定的阈 值, 可以 认为 AB 基 本 成 词; b. 如 果 I ( A , B ) # 0, 即 P( A , B ) #
在竞争日益激烈 的网 络世界, 星火 网站能 够在多 大范围内传播, 能够真正服务多少农村用户, 不仅取决 于它的 可用性 , 还决定 于它的 易 用性 。只 有着重 于网站的无障碍建设, 提高易用性, 才能使星火网站发 挥其为三农服务的作用, 确 保农民 能够 在网络 时代分 享网络文明。
i= 1
从计算上看, 基于 n- gram 原理的方 法太复杂了,
且其中的概率 参数需 要通 过大规 模的语 料库 来计算。
鉴于此, 本文提 出了一 个统 计的基 于互信 息原 理的串
扫描 中文文本 分词方 法, 该方法 较 n- gram 方 法降低
了词频统计的工作量, 且算法的计算复杂度也较低。
词方法, 其基本思想是: 一个单词的出现与 其上下文环
境 中出现的单词密切相关, 第 n 个词的出现与其前 n-
1 个词相关。设 w 1 w 2 !w n 是长度为 n 的字串, 则字串
w 的似然度用方程表示为:
n
∀ P( W ) =
P ( w i | w i- n+ 1w i- n+ 2 !w i- 1 ( 1)
词结果的准确率。阈值可由统计数据得出, 也可由领域 专家给出。
2 2 分词模块算法伪代码
w hile( 文本串没有读入完) { 读入一个新文本串; pointer= 1; w hile ( 第 point er 个字符不是文本串结束符) * { m= lengt h; / / length 为中文文本中最长词的长度
2 基于互信息的串扫描中文文本分词算法
2 1 算法 思想 基于互 信息的串 扫描中 文文本分 词方法对训练文本中相邻出现的各个字的组合频度进 行统计, 通过计算长为 m 的字串中相邻 字之间的互信 息来判断是否构成 m 字词, m 的初值为 中文文本中最 大长度字串的长度, 记为 length。本方法中对 m 字词的 判断基于如下的假设, 对 m 字串中的任意相邻的字 w i 及 w i+ 1( i > = 1 且 i < = m- 1) , 均有 I ( w i, w i+ 1) > 阈值 1。
{ 构成两字词, 将 m 中 的两字词入库; point er+ = 2; m= - 1; }
else { m- - ; } } e lse
{ 构成一字词, 将 m 中的一字词入库; point er+ = 1; m= 1; }
}* * }* }
3 算法分析与实验
本算法的基本操 作是 互信息 I ( A , B) 的计 算, 设 n 为预处理之后的文本串数, L 为 n 个串 的最大串长, k 为词 的 最 大 长 度, 则 算 法 的 最 坏 时 间 复 杂 度 为 O ( nLk2) 。在衡量文本分词算法的性能时通 常采用召回 率( Recall) 以及准 确度 ( Precision ) , 若 系统 输 出的 切分 词数为 n1, 正确切分应得出的词数为 n2, c 为两者共有 的词数, 即 分词 结 果中 切 分正 确 的总 词 数, 则 召 回率 Recall 为 c/ n2, 准 确 度 Precision 为 c/ n1。 本算 法 通过 在一个 100MB 的纯文本语料库上训练, 测 试用的机器 内 存 为 1G, 主 频 为 1. 86GHz, 操 作 系 统 为 Windows
w hile ( i< = m- 1) * * * { 计算互信息 I( w i, w i+ 1) ;
If I( w i, wi+ 1) > 阈值 1> 0 i+ + ; else { m- - ; flag= 0; break ; } }* * * if ( flag= 1) { m 个字成词, 将 w 中的串入库; pointer+ = m; m= - 1; } } else if ( m= 2) { 计算互信息 I(w 1, w 2) ; if I( w 1, w 2) > 阈值 2> 0
w hile( m> = 1) * * { if ( 第 pointer+ m 个字符不是串结尾符)
{ 从 point er 位置开始取长为 lengt h 的串∃ w ; } else { 将从 pointer 起始到串尾的字串 ∃ w ; w 的长度 ∃ m; } if ( m> 2) { i= 1; f lag= 1;
切分模 块逐 一 对经 过 预处 理 之后 的 字串 进 行处 理, 对每一串首先从第一个字符开 始计算长为 m 的串 中所有相邻的两个字 A B 的互信息 I( A , B) , 这样的任 意相邻两个字组合共有 m - 1 组, 若这所有的 m - 1个 两字词均有 I ( A , B ) > 阈值 1( 阈值 1 > 0) , 则该长为 m 的串构成 m 字 词, 将 其入库, 继续判 断下一 个长为 m 的字串是否成词。若长为 m 的字 串不构成 m 字词, 则丢弃尾 部的一个字, 判断长为 m - 1 的 字串是否构 成 m - 1 字词, 依次判断。若 m 的长度递减成 2 时, 只 需计算这 两个字的互 信息 I ( A , B) , 若 I ( A , B) > 阈 值 2( 阈值 2 > 0) , 则构成两字词, 将其入库。否则将 m 的长度减去 1, 将该 一字 词入 库。如此 反复, 直至 串处 理完为止。
定 它们 在 语料 库 中出 现 的次 数分 别 计为 n( A)、 n( B) 、n ( AB) , n 是统计 语料 库中的 词频 总数。则有:
P( A , B) = n( AB) n, P( A ) = n( A ) / n, P ( B) =
n( B) / n 。 互信 息 I ( A , B ) 具有 如 下的 性 质: a. 如 果 I ( A ,
P( A ) P( B) , 则 A B 间是不相关的; c. 如果 I ( A , B) < 0, 即 P( A B) < P( A ) P( B) , 则 A B 间是 互斥的, 这时 A B 间基本不会结合成词。
互信息反映 的是字 与字 之间的 静态 结合, 汉 字之 间的互信息体 现了汉 字之 间结合 关系的 紧密 程度, 当 某一字串结合 的紧密 程度 高于给 定的阈 值时, 便可认 为此字串可能构成了一个词。对训练文 本中相邻出现 的各个字之间 组合的 频度 进行统 计, 计 算出相 邻字出 现的频率, 用这个频率与字单独出现的 频率进行比较, 计算出汉字之 间的互 信息, 进而判 断该 字串是 否组成 词语。
在上述的计算中, 在 对互信 息 I ( A , B) 进 行衡量 时, 分别用到了不同的阈值即阈值 1 及阈值 2, 而阈值 2 的值 要高于 阈值 1。由于 两字 词出现 的频 度要高 于多 字词, 故在互信息阈值的设置上, 用于两 字词判断的阈 值 2 的值要高于用于多字词判断的阈值 1。在本分词方 法中关于互信息 阈值 的选择 至关重 要, 直接决 定了分
关键词 中文分词 词频 互信息
中图分类号 T P391
文献标识码 A
文章编号 1002- 1965( 2010) 07- 0161- 02
0引 言
中文分词技 术是中 文信 息处理 的基 础环 节, 中文 分词的主要任务是通过计算机自动完成对中文句子的 切分, 识别出 独立的 词。由于 中文词 的划 分无法 像西 方语系那样凭 借空格 来实 现, 而且 同一 个字在 不同上 下文中, 没有非常规范的语言结构来划 分出词的组合, 因此, 如何正确 有效的 识别 出一个 有实 际意义 的词是 中文分词研究的基础问题[ 2] 。国内外对 中文分词技术 的研究已经进 行了几 十年, 中文分 词技 术大体 可以总 结为三大类: 基于词典的方法、基于语义 的方法及基于 统计的方法[ 3] 。其中基于语义的中文分 词受限于汉语 语言知识的局限, 还未取得明显的进展, 而针对另外两 种分词算法的研究己经取得了一定的 成果。由于每种 算法都有其自身的优缺点, 因此在很多 研究和应用中, 都是结合了 基于词典 和 基于统计 的 分词算法的优 势进行进一步的研究[ 4] 。
( 下转第 172 页)
% 172 %
情报杂志
第 29 卷
确的信息。要保证信 息服 务的及 时性, 力争在 第一时 间为用户提供第一手信息。
3. 5 设立 特色栏 目, 突 出地方 特色 各地 各级星 火网站的内容, 不仅要有综合信息, 同时要有各地的具 体信息和各部门分门别类的信息, 突出地方特色, 在创 建一个星火网站之前, 要多浏览同类的网站, 根据各地 实际, 设立一些特色栏目, 以适应农业生产多元化和特 色化的需要, 增强网站对农业生产实际的指导意义。
赵秦怡
王丽珍
( 大理学院数学与计 算机学院 昆明 671000) ( 云南大 学信息学院 昆明 650091)
摘 要 中文分词技术是中文信息处理的基础环节, 在互信息原理 的基础上 提出了一 个基于 统计的 中文文 本分词
方法。该方法对经过预处理之后每一个串中的任意可能长度 串均判断其 成词的 可能性, 实验 结果说 明该算 法简单 且具有良好的精度及查全率。
收稿日期: 2010- 01- 08
修回日期: 2010- 04- 01
作者简介: 赵秦怡( 1973- ) , 女, 硕士, 副教授, 研究方向为数据挖掘; 王丽 珍( 1962- ) , 女, 博士, 教授, 硕士生导 师, 研究方 向为数据 挖掘及数
据仓库算法。
% 162 %
情报杂志
第 29 卷
相关文档
最新文档