基于改进最大匹配算法的中文分词粗分方法
一种改进的中文分词正向最大匹配算法
21 0 1年 3月
计 算机 应 用与软 件
Co utr Ap lc to sa d S f r mp e p i ai n n o wae t
V0 _ l28 No. 3
M a . 01 r2 l
一
种 改 进 的 中 文 分 词 正 向 最 大 匹 配 算 法
t e s e d a d e ce c fC ie e W o e me tt n ag r h h v e n o vo sy i r v d h p e n f in y o h n s r s g n ai lo i m a e b e b iu l mp o e . i d o t Ke wo d y rs C i e e w r e me tt n W o a k F r r n x mu mac i g ag rt m h n s o d s g n ai o d r b n o wa d la i m t hn l o i h
p t fr a d a d a f ri r vn MM lo i m h ti o a sg h xmu tx 一 n t o b ra e y a c l a e n t e w r - u s o r n i e o mp o i g F w ag r h t a s t s in t e ma i m e t1 g h t e t td d n mi al b s d o 同 的 统 计 , 8—1 因 3字 的 词 所 占 比 例 较 小
0 引 言
中文 自动 分 词 是 中文 信 息 处 理 中 最 为 基 础 、 为重 要 的 问 最 题 , 汉语 文 本 自动 标 注 、 索 引擎 、 器 翻 译 等工 作 中 的 关 键 是 搜 机
一种改进的基于Hash的中文分词算法研究
福
建 电
脑
6 9
一
种改进的基于 H s ah的中文分词算法研究
蔡 蕊
(山 东 大 学计 算机 科 学 与技 术 学 院 山 东 济 南 2 0 0 5 1 1)
【 要】 摘 :在分析 已有的 中文分词算法的基础上, 用改进 的词典 结构, 出一种新的基 于 H s 利 提 ah的 中文分词算 法。 理论 和 实验 证 明 , 进 的 算 法 可 以进 一 步 提 高分 词 的效 率 。 改 【 关键词 】 中文分词 哈希算法 :
泛 而 深入 的研 究 一
分词 是 中 文 信 息处 理 的 基础 一 环 .分 词 方 法 的 性 能 直 接 影
表 1 词 条 分布 情 况表
由汉 语 的词 频 统 计 得 出 结 论 .在 汉语 中.9 的词 集 中在 四 9% 响 到 中文 信息 搜 索 的实 时 性 及 准 确 性 。考 虑 到 中文 分 词 算 法 的 应 用 领域 大多 对 实 时 性 和 准 确 性 两 方 面有 很 高 的 要 求 。因 此 . 实 字 以下 的 词 语 . 其 以双 字 词 为 数 最 多 。 尤 如果 能 在 词 典 中实 现 对 那 现 较 简 单 的基 于 H s ah算 法 中 的 正 向最 大 匹 配 法 仍 然 是 应 用 最 四字 以 内的 词 的 快 速查 找, 么 系统 的效 率 会 明显 提 高 我 们 利
所 示
搜 7
l
I
索
库 结 构
其 中 . 果 有 以词 条 为 首 的 词 条 . 么词 条 的 属 性 为 以该 词 如 那 条 为首 的词 条 的开 始 位 置 和 结 束 位 置, 则 为 0 否 。 32分 词 算 法 . 分词算法首先 由 H s 计 算的首字的地址. ah 然后 利 用 二 分 查 找是 否 有 以前 两 字 为 首 的 词 条 。如 果 没 有则 作为 单 字 词输 出: 否
正向最大匹配分词算法的分析与改进
正向最大匹配分词算法的分析与改进摘要:本文主要通过对影响正向最大匹配算法效率的因素的分析,提出对该算法的一点改进,以及设计了相应的词典结构,以期在匹配过程中尽可能的减少比较次数,提高分词效率。
关键词:中文分词;最大匹配算法;词典机制0引言在自然语言处理中,“词是最小的能够独立活动的有意义的语言成分”[1],而汉语和英语等其它西文比起来,有着自身的特点。
英语、法语等欧美语言在书写时就以词为基本构成单位,以空格作为分词的依据;而汉语在书写时是一大串汉字的字符串,从形式上根本没有词的概念。
中文分词指的就是将一个汉字序列切分成一个一个单独的具有实际意义的词,它是中文信息处理的基础。
中文自动分词的现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法[2]。
在基于字符串匹配的分词算法中,词典的设计往往对分词算法的效率有很大的影响。
本文通过对影响正向最大匹配算法效率因素的分析,设计一种带词长信息的分词词典,同时在该词典基础上,对正向最大匹配算法做出一些改进,以提高分词的效率。
1正向最大匹配分词算法介绍和分析1.1 正向最大匹配分词算法介绍最大匹配算法是最基本的字符串匹配算法之一,它能够保证将词典中存在的最长复合词切分出来。
传统的正向最大匹配分词算法(Maximum Matching,简称MM算法)的算法流程如图1所示。
图1 MM 算法流程图假设分词词典中的最长词的字数为M,令其作为最大匹配系数。
假设读取的汉字序列字数为L,判断L是否小于最大匹配系数M。
如果L大于最大匹配系数M,则截取前M个汉字作为待匹配字段进行匹配,否则取整个汉字序列作为待匹配字段直接在分词词典中进行匹配。
若字典中存在这样一个字数为M的词,则匹配成功,匹配字段被作为一个词切分出来;若词典中找不到这样的词,则匹配失败,将待匹配字段中的最后一个字去掉,将剩下的汉字序列作为待匹配字段重新在字典中进行匹配处理……如此进行下去,直到匹配成功,即切分出一个词,或者直到剩余字串的长度为1为止,即为一个单字。
中文分词相关技术简介
中文分词相关技术简介目前对汉语分词方法的研究主要有三个方面:基于规则的分词方法、基于统计的分词方法和基于理解的分词方法。
基于规则的分词方法基于规则的分词方法,这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个"充分大的"机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。
常用的方法:最小匹配算法(Minimum Matching),正向(逆向)最大匹配法(Maximum Matching),逐字匹配算法,神经网络法、联想一回溯法,基于N-最短路径分词算法,以及可以相互组合,例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法等。
目前机械式分词占主流地位的是正向最大匹配法和逆向最大匹配法。
◆最小匹配算法在所有的分词算法中,最早研究的是最小匹配算法(Minimum Matching),该算法从待比较字符串左边开始比较,先取前两个字符组成的字段与词典中的词进行比较,如果词典中有该词,则分出此词,继续从第三个字符开始取两个字符组成的字段进行比较,如果没有匹配到,则取前3个字符串组成的字段进行比较,依次类推,直到取的字符串的长度等于预先设定的阈值,如果还没有匹配成功,则从待处理字串的第二个字符开始比较,如此循环。
例如,"如果还没有匹配成功",取出左边两个字组成的字段与词典进行比较,分出"如果";再从"还"开始,取"还没",字典中没有此词,继续取"还没有",依次取到字段"还没有匹配"(假设阈值为5),然后从"没"开始,取"没有",如此循环直到字符串末尾为止。
这种方法的优点是速度快,但是准确率却不是很高,比如待处理字符串为"中华人民共和国",此匹配算法分出的结果为:中华、人民、共和国,因此该方法基本上已经不被采用。
改进的正向最大匹配分词算法
(n-1,2),将 term3 与词表进行匹配: ①如果分词词典不包含 term3,将 term1 从待切元句子
中 切 分 出 去 ,继 续 步 骤 (1); ②如果分词词典包含 term3,转入交集型歧义处理模块。
2.3.3 交 集 型 歧 义 处 理 模块 比 如 对 如 下 例 子 “中 国 人 / 口 / 众 多”:Term1= 中 国 人 ;
本 文 提 出 改 进 的 最 大 匹 配 算 法 解 决 上 述 两 个 问 题 :通 过 互 信 息 的 比 较 ,来 提 高 未 登 录 词 识 别 ;通 过 回 溯 的 过 程 来 解 决 交集型歧义。 2.2 Improved- MM 算 法的 主 要 流 程
(1) 分词预处理; (2) 用正向最大匹配算法进行分词; (3) 通过回溯的过程,结合互信息消除交集型歧义; (4) 碎片检查。 2.3 算 法 详 细 步 骤 2.3.1 分 词 预 处 理 第 一 扫 描 首 先 将“,”、“;”、“!”等 标 点 符 号 用 标 签 隔 开 如“/”,第 二 遍 扫 描 在 比 如 英 文 字 符 ,标 点 符 号 ,数 字 ,其 它 非 汉 字 符 号 等 左 右 两 侧 插 入“/”,称 得 到 的 两 个 斜 杠 之 间 最 小 的 切分单元为元句子。 2.3.2 分 词 与 词 典 的 匹 配 机 制 取 决 于 词 典 本 身 的 数 据 结 构 、索 引 机 制 以 及 查 询 策 略 ,本 算 法 不 展 开 讨 论 。可 以 参 考 文 献 [4-6]。扫 描词典,读取最长词条的字符数设为 n。 (1)对当前处理元句子 Sentence,从一个字符起依次读取 n 个字符 ,若当 前 Sentence.length<n, 则取整 个元句 子,记 作 term1,term1=Sentence.substring(0,min(n, Sentence.length))。 (2) 如果分词词典不包含 term1,取 term1 的前 n-1 个字串 term2,用 term2 与词典进行匹配,若匹配成功,转入步骤(4);若
基于改进的正向最大匹配中文分词算法研究
基 于 理解 的分 词 方法 不 仅 要求 有 很好 的分 词 词典 , 而且还 需要 加进 语义 和句 法 的分 析 。通过 获
文文本 中词与词之间却没有很明显的标记 , 都是连 续 的字符串, 因而中文信息处理的首要解决的问题 就是 怎样进 行 中 文分 词 。 正 向最 大 匹 配 法是 一 种
文章编号
10 5 6 (0 10 0 1 0 0 0— 2 9 2 1 )5— 12— 4
基 于 改进 的 正 向最 大 匹配 中文 分 词 算 法研 究
王 惠仙 , 龙 华
( 昆明理工大学信息工程与 自动化学 院 , 云南 昆明 6 05 ) 50 1
摘
要: 中文 自动 分词技 术在 中文信 息 处 理 、 b文 档 挖 掘 等 处理 文 档 类研 究 中是 一 项 关键 技 We
第 5期
王惠仙 等 : 于改进 的正向最大匹配 中文分词算法研究 基
文本 进行 分 词操作 , 到准 确有 效 的切分 中文 文档 达
的 目标 。
的词 时 , 只能 取 出其 中 的 5个 字去 词 典 里 匹 配 , 例 如“ 共产 主 义 接 ” 显 然 词典 里 不 可 能 存 在 像 这 样 , 的词 。因此 就 无 法 准 确 的 划 分 出 像 “ 产 主 义 接 共 班人 ” 这样 长 度大 于 5的 词 。如果 词 长 过 长 , 率 效
词 方法 ¨ 。 J 1 1 基于词 典 的分词方 法 . 基 于 词典 的分 词 法是 广 泛 应用 的一 种 的机 械
基 于统 计 的 分词 方 法 主要 是 用来 消 除 分词 过 程 中产生 的歧 义现 象 , 即消歧 。此方 法 主要靠 一个 或者 多个 具有 代表 性 的规 模 相对 小 的训 练语 料 库
一种改进的最大匹配分词算法研究
c a i p t[ 6 ] / 文 件 的 相 对 路 径 hrfe ah 2 0 ;/ l
端 连 接 到 升 级 服 务 器 以 后 , 先 将 客 户 端 升 级 信 息 发 送 到 首 服 务 器 端 , 服 务 器 端 的版 本 信 息 进 行 比较 , 后 分 析 出 当 与 然
前版本是 否需要升 级 。
义 进 行 处 理 。 同 时 词 是 最 小 的 能 够 独 立 活 动 的 有 意 义 的 语
个相 对好 的粗 分结 果 , 后 进 行 排歧 , 登 录 词识 别 , 然 未 最
后标 注词性 。在实际 的系统 中 , 三个 过程 可 能相 互交 叉 , 这 反复融 合 , 可 能不存在 明显的先 后次序 。 也
文 章 编 号 :6 23 9 (0 0 0— 2 70 1 7— 1 8 2 1 ) 90 9 —2 采 取 最 大 匹 配 , 短 路 径 , 率 统 计 或 全 切 分 等 方 法 , 到 最 概 得
一
1 引 言
汉语 的 中文 信 息 处 理 就 是 要 用 计 算 机 对 汉 语 的 音 , , 形
客 户 端 发 送 的 升 级 信 息 。本 程 序 将 系 统 当 前 版 本 的信 息 以
一
定 的格 式 写 入 文 件 , 放 于 升 级 服 务 器 中 。 同 时 客 户 端 存
{
也 存 在 相 同 类 型 的 文 件 以 记 录 客 户 端 的 版 本 信 息 。 当 客 户
实用 , 比较 容 易 实 现 , 而 精 度 不 高 ; 二 类系 统 , 中 文 词 语 分 析 一 般 都 需 要 包 括 3 性 , 则 在 后 续 过 程 中很 难 对 错 误 的 粗 分 结 果 进 行 补 救 , 而 否 导 个 过 程 : 处 理 过 程 的 词 语 粗 切 分 , 分 排 歧 与 未 登 录 词 识 致 切 分 精 度 的 下 降 。 预 切 别 和 词 性 标 注 。 目前 中 文 词 语 分 析 采 取 的 主 要 步 骤 是 : 先 本 文 提 出 一 种 旨 在 保 证 分 词 效 率 的 同 时 兼 顾 分 词 准 确
改进的正向最大匹配分词算法
情况 ,分别 计算 该尾 字和 不含 该字 的 当前处 理词 条 的互信 息 与尾 字 和下 一字 的互信 息 ,通过 比较 两者 的互信 息 大小来 决定 切分, 最后 对 分词碎 片进 行 了处 理。 通过对 随机 抽取 的语 料 进行 测试 , 结果表 明 该方法 是有 效 的。 关键 词 : 正向 最 大 匹配 算法 ; 交集型 歧 义;预 处 理; 互信 息 ;分词 碎 片 中 图法分 类号 : P 9 T31 文献标 识码 : A 文章 编号 : 0072 2 1) 1 550 10 .0 4(0 0 1— 9 。3 2
i l si c e s d. Fisl , t e ste td r — u , b n t em a m u a c ngi heta ton lp oc s , c os i m biuiy fe d fe di n r a e r ty hetxti ae p e c t r eig h xi m m t hi nt r dii a r e s r snga g t l i
I p o e o wa d ag rt m o a m u ac n r e m e tto m r v df r r l o i h f rm xi m m thig wo d s g n ai n
Z HAN G iq n YUAN i n Ca — i , Ja
摘 要 : 了降低 正 向最 大 匹配 分词 算 法 的切 分错 误 率 , 为 分析 了产生 这 个错 误率 的 原 因 , 出了一种 改 进 的正 向最 大匹配 提
分 词 算 法 , 增 加 一 个 交 集 型 歧 义 字 段 处 理 模 块 。该 方 法 对 待 切 文 本 进 行 预 处 理 , 传 统 正 向 最 大 匹配 的 过 程 中 , 用 交 集 即 在 调 型 歧 义 字 段 处 理 模 块 ,该 模 块 主 要 是 在 每 一 次 正 向 匹 配 后 进 行 回 溯 匹配 ,即 通 过 检 测 当 前 处 理 词 条 的 尾 字 和 下 一 字 的 成 词
自然语言处理中的中文分词技术研究及改进
自然语言处理中的中文分词技术研究及改进自然语言处理(Natural Language Processing, NLP)是计算机科学领域中研究人类语言处理的领域。
作为NLP的重要组成部分,中文分词技术是将连续的中文字符序列分割成离散且有独立含义的词语序列的过程。
中文分词是中文信息处理的基础,对于提高语义理解、信息检索和机器翻译等任务的性能至关重要。
本文对自然语言处理中的中文分词技术进行了深入研究,并提出了改进方法,旨在提高中文分词技术在实际应用中的精度和效率。
一、基于规则的中文分词方法基于规则的中文分词方法是最早也是最基础的方法之一。
它依赖预先定义的语法规则和词典来进行分词操作。
规则可以是基于词频统计或者基于语法结构的。
虽然该方法在某些场景下能够取得很好的效果,但它容易受到语法规则的限制,无法处理新词、歧义词等问题。
二、基于统计的中文分词方法基于统计的中文分词方法通过对大规模的文本语料进行统计分析,学习词语的频率和上下文信息,从而进行分词操作。
这种方法通过建立统计模型,如隐马尔科夫模型(Hidden Markov Model, HMM)、条件随机场(Conditional Random Field, CRF)等,来解决分词中的歧义问题。
与基于规则的方法相比,基于统计的方法更加灵活,能够处理未登录词和歧义词等情况。
三、基于深度学习的中文分词方法近年来,深度学习技术在自然语言处理领域取得了巨大的进展,也为中文分词技术带来了新的突破。
基于深度学习的中文分词方法主要包括卷积神经网络(Convolutional Neural Network, CNN)和长短期记忆网络(Long Short-Term Memory, LSTM)等。
这些方法通过构建深度神经网络模型,自动学习中文分词的特征表示和规律,并取得了较好的分词效果。
四、改进方法虽然基于统计和深度学习的中文分词方法在一定程度上提高了分词的精度和效率,但仍存在一些问题亟待改进。
一种改进的基于二元统计的HMM分词算法
计 算 机 与 数 字 工 程
C mp tr& Diia En iern o ue gtl gn eig
Vo _ 9 No 1 l3 .
1 4
一
种 改进 的 基 于 二 元 统 计 的 HMM 分 词 算 法
田思虑 D 李德 华 潘 莹" ’
( n o ma in Ne wo k Ce t r I f r t t r n e ,Gu n x ie st 2 ,Na n n 5 0 0 ) o a g Un v r iy i n ig 3 0 4
Ab ta t s rc Chn s r e me tt n i a b scwo k frChn s no mainp o e sn .2Grm ie ewo ds g na i s a i o r o ie eif r t rc sig - a HMM lo i m o o ag rt f r h
最短路径法求出分词结果 。实验结果表明 , 该算法有效 的解决 了过分拆分的问题 , 分词效果 良好 。
关键词 中 文分 词 ;逆 向最 大 匹 配 ; 元 统 计 模 型 ;HMM 模 型 二 TP 1 31 中 图分 类 号
I p o e 一 r m m r v d 2 G a HM M g r t o Al o ihm f r Chi s o d S g e t to ne e W r e m n a i n
a oi m du t te ihs yte r n t dwod re a do tis h r emett nrs lw t e h r s l r h ajss h g t dl gha rs dr n ba e g t we b h wo e n o n t wodsg nai eut i t ot t o hh s e
基于改进的CRF算法的中文分词研究
基于改进的CRF算法的中文分词研究随着人工智能的发展,自然语言处理技术也越来越成熟,其中中文分词技术作为最基础的自然语言处理任务之一,显得尤为重要。
中文分词是将一段中文文本按照词的语义和句法结构进行切分,并进行词性标注。
而中文分词的难点在于,中文文本中不存在像英文单词之间有空格的分割符,因此会遇到歧义问题,例如:“我爱北京天安门”,“爱”既可以是动词也可以是名词,如何区分就需要中文分词算法来处理这一问题。
目前,基于条件随机场(CRF)的中文分词算法已经成为主流,CRF是一种基于判别模型的统计学习方法,在序列标注任务中,与隐藏马尔科夫模型(HMM)相比,CRF具有更好的泛化能力和鲁棒性。
但是,在实际应用中,CRF算法也存在一些问题,如训练时间过长,模型规模较大等,因此改进CRF算法一直是中文分词研究的一个热点领域。
一、CRF算法原理CRF是一种基于条件概率模型的判别式模型,它能够学习输入序列和输出序列之间的关系,从而对新的输入序列进行预测。
CRF模型基于给定输入序列,预测输出序列的条件概率。
它的数学表述如下:P(Y|X) = 1/Z exp(∑f(y, x) * λ)其中,Y表示目标输出序列,X表示输入序列,λ是模型参数,f(y, x)是定义在特征函数上的加权函数,它是CRF模型的核心组成部分。
f(y, x)函数通常包含了关于输入序列和输出序列的各种特征,如单词本身、上下文信息、词性等内容。
而在训练CRF模型中,需要最大化目标输出序列Y的条件概率,即最大似然估计。
在预测时,根据输入序列X,通过条件概率公式计算所有可能的输出序列,选择概率最大的序列作为预测结果。
二、CRF算法改进1.特征选择CRF算法中的特征函数通常会包含很多关于输入序列和输出序列的各种特征,特征数目过多会导致模型的计算量和复杂度过大,影响模型性能。
因此,在特征构造时需要注意选择更为重要的特征,对于不重要的特征可以进行筛选和剪枝,以达到减少特征数量、提高模型效率、加速训练过程的目的。
一种改进的中文分词正向最大匹配算法
第28卷第3期 计算机应用与软件Vo l 28No .32011年3月 Co m puter Applicati o ns and Soft w are M ar .2011一种改进的中文分词正向最大匹配算法王瑞雷 栾 静 潘晓花 卢修配(新疆师范大学计算机科学技术学院 新疆乌鲁木齐830054)收稿日期:2010-04-01。
新疆师范大学研究生科技创新活动基金(20091208)。
王瑞雷,硕士生,主研领域:信息技术,数据挖掘。
摘 要 正向最大匹配分词FMM (F orwardM ax i m u m M atchi ng)算法存在设定的最大词长初始值固定不变的问题,带来长词丢失或匹配次数较多的弊端。
针对此问题提出了根据中文分词词典中的词条长度动态确定截取待处理文本长度的思想,改进了FMM 算法。
与此相配合,设计了一种词典结构,使之能够有效地支持改进的算法。
改进的算法与一般正向最大匹配算法相比大大减少了匹配次数,分析表明中文分词的速度和效率有了很大提高。
关键词 中文分词 分词词典 正向最大匹配算法AN I M PROVED FOR WARD M AXI M UM M ATCH I NG ALGORI THM FORCH I NES E WORD S EGM ENTATI ONW ang Ru ile i Luan Ji n g Pan X iaohua Lu X i u pei(Colle g e of Compu ter S cience and Technology,X inji ang N or ma l Un i v e rsit y,Urumqi 830054,X inji ang,China )Abstrac t T here i s a proble m in for w ard m ax i m u m m atch i ng (FMM )a l gor it h m tha t the i n itia l va l ue o f the m ax i m u m w ord length i s i m movable ,this m i ght l ead to the l onger w ords cannot be segm ented correctl y and be ma tched repeatedly .A i m i ng at this prob l em ,this paperputs for w ard an i dea for i m prov i ng F MM a l go rith m t ha t is to ass i gn t he m ax i m u m text leng t h to be treated dyna m icall y based on the wo rd length i n Ch i nese w ord seg m en tati on word bank .T o fit this ,i n the pape r w e design a w ord bank struc t ure to enab l e the effecti ve support on the i m prove m ent o f F pared w ith no r m al F MM,the i m proved F MM sharp l y reduces m atch i ng ti m es .A na lysis in th i s paper show s tha t the speed and e fficiency of Ch i nese W ord segm en tati on algor it h m have been obv iously i m proved .K eywords Chi nese w ord segm enta ti on W o rd bank F or w ard m ax i m u m m a tch i ng algor i th m0 引 言中文自动分词是中文信息处理中最为基础、最为重要的问题,是汉语文本自动标注、搜索引擎、机器翻译等工作中的关键步骤。
一种改进的最大匹配分词算法研究
一种改进的最大匹配分词算法研究通过对最大匹配分词算法做出改进,解决了最大匹配分词算法所不能解决的一些问题,并得出较准确的粗分结果。
标签:MMSEG;最大匹配;分词1 引言汉语的中文信息处理就是要用计算机对汉语的音,形,義进行处理。
同时词是最小的能够独立活动的有意义的语言成分。
然而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文自动分词是中文信息处理的基础与关键。
目前,中文自动分词方法主要分为三类:第一类主要是基于字典,词库的字符串匹配方法,这类方法简单实用,比较容易实现,然而精度不高;第二类主要是利用词的频度统计信息进行分词的方法,这类方法能够识别生词,但对常用词的识别精度不高;第三类主要是基于句法语法分析,并结合语义分析,根据上下文信息来分词,这类方法原理比较复杂,难于实现。
单靠某一类分词方法很难实现满意实用的分词系统,而中文词语分析一般都需要包括3个过程:预处理过程的词语粗切分,切分排歧与未登录词识别和词性标注。
目前中文词语分析采取的主要步骤是:先采取最大匹配,最短路径,概率统计或全切分等方法,得到一个相对好的粗分结果,然后进行排歧,未登录词识别,最后标注词性。
在实际的系统中,这三个过程可能相互交叉,反复融合,也可能不存在明显的先后次序。
衡量自动分词系统的两个主要指标是:切分精度和切分速度。
对于处理海量数据的中文分词系统来说,切分速度无疑是最重要的指标。
因此,在处理海量数据的中文分词系统中为了提高切分速度,通常使用基于基本分词词典(常用词词典)的串匹配分词方法作为粗分手段,并在后续的处理过程中利用词的频度统计信息或汉语规则提高切分精度。
预处理过程的粗分结果是后续过程的处理对象,因此在要求粗分效率的前提下必须尽量提高粗分结果的准确性,否则在后续过程中很难对错误的粗分结果进行补救,导致切分精度的下降。
本文提出一种旨在保证分词效率的同时兼顾分词准确率的词语粗分模型,基于最大匹配分词算法的中文词语粗分模型。
基于最大匹配算法的似然导向中文分词方法
候选字串,记:
犽= max{犺犐((狊1,狊2,…,狊犺)∈ 犇)} 犺
其中
(1)
{ 犐((狊1,狊2,…,狊犺)∈ 犇)=
1,(狊1,狊2,…,狊犺)∈ 犇 0,(狊1,狊2,…,狊犺) 犇
(2)
则狊1,狊2,…,狊犽 与通用词典匹配成功,将狊1,狊2,…,狊犽
作为一 个 词 切 分 出 来;再 继 续 对 汉 字 串狊犽+1,狊犽+2,
强,经常会错误地切分歧义字段,分词效果仍有待提 高,目前已经出现了一些改进的最大匹配算法。莫建 文等在传统分词词典构造的基础上,结合双字哈希结 构,利用改进的前向最大匹配分词算法进行中文分 词[7],而该算法没有针对词汇粘连现象进行特殊处 理,无法避免由于词典颗粒度过大导致的歧义切分问 题;张劲松等利用前向匹配、回溯匹配和尾词匹配有 效发现了歧义字段[8];周俊等将最长词条优先原则改 为最长广义词条优先原则以解决歧义问题,得到了比 传统最长词条优先原则更好的效果[9]。从研究方法 可以看出,传统的基于规则的分词方法单纯依赖词典 信息,并未有效利用分词语料中词与词之间的共现关 系,导致其分词效果不够理想。
目前,常用的中文分词方法可以划分为两类:基 于规则的分词方法和基于统计的分词方法[5],其中最 大匹配算法(Maximum Match)是最常用的基于规则 分词方法之一。该方法利用词典作为分词依据,以长 词优先为基本原则,不需要考虑领域自适应性问题, 只需要具有相关领域的高质量词典即可[6],因而分词 速度较快。也正因为如此,该类方法歧义处理能力不
二、最大匹配算法和ngram 语言模型
(一)基于规则的最大匹配算法
基于规则的最大匹配算法主要包括前向最大匹
配、后向最大匹配和双向匹配算法等。假设将包含
一种改进的中文分词正向最大匹配算法
一种改进的中文分词正向最大匹配算法改进的中文分词正向最大匹配算法可以通过以下几个步骤来实现:
1.预处理文本:对待分词的文本进行预处理,包括去除换行符、标点
符号等。
2.构建词典:将用于分词的词汇整理成一个词典,可以使用常见的词
库或者根据具体需求自定义词典。
3.正向最大匹配算法:首先确定最大匹配的长度,可以根据预设的最
大词长或者根据词典中最长词的长度来确定。
从文本的首字开始,依次向
后匹配,每次匹配到一个词时就将它作为一个词组输出。
如果当前位置未
匹配到词,则将该字作为单字输出。
4.逆向扫描策略:在正向最大匹配算法的基础上,加入逆向扫描策略。
当正向匹配结束后,再对未匹配的部分进行逆向匹配。
逆向匹配时,从文
本的末尾开始,依次向前匹配,可以将匹配到的词组或单字插入到正向匹
配的结果中。
5.歧义消解:在进行正向和逆向匹配时,可能会出现多个匹配结果的
情况。
例如,对于词组"中央大街",在正向匹配时可以匹配到"中央"和"
大街",在逆向匹配时可以匹配到"中央大"和"街"。
可以通过一些启发式
规则来进行歧义消解,例如根据词频信息以及语法规则进行判断。
以上是一种改进的中文分词正向最大匹配算法的基本步骤。
具体实现
时可以根据需要进行优化,例如引入其他的匹配策略或者结合统计模型进
行分词,以提高分词效果。
基于最大匹配法的中文分词技术改进
基于最大匹配法的中文分词技术改进
郭玲;孟祥逢;张峰
【期刊名称】《舰船电子工程》
【年(卷),期】2009(029)012
【摘要】在简介最大匹配法(MM)分词算法的基础上,指出了MM算法存在的不足,分析了MM改进分词算法的需求及过程设计,研究了MM改进分词算法以及过程处理原则,研究了改进算法过程中的歧义检测与切分、未登录词识别等问题,提出了消除策略和处理原则.
【总页数】5页(P159-163)
【作者】郭玲;孟祥逢;张峰
【作者单位】空军雷达学院研究生管理大队,武汉,430019;空军雷达学院研究生管理大队,武汉,430019;94826部队,上海,200000
【正文语种】中文
【中图分类】TP311
【相关文献】
1.正向最大匹配法在中文分词技术中的应用 [J], 胡锡衡
2.首字词最大匹配法与最大匹配法的复杂性比较 [J], 李红斌;方连众
3.尾字词最大匹配法与逆向最大匹配法的复杂性比较 [J], 李红斌;张海义;方连众;王开铸
4.一种结合正向最大匹配法和互信息的中文分词算法 [J], 桑书娟;王庆喜
5.警务应用中基于双向最大匹配法的中文分词算法实现 [J], 陶伟;
因版权原因,仅展示原文概要,查看原文内容请购买。
基于Lucene的中文分词器的改进与实现
基于Lucene的中文分词器的改进与实现罗惠峰;郭淑琴【摘要】Lucene是一个高效的全文检索工具包,本文主要研究了Lucene的体系架构及其在中文检索上的应用.通过对基于最大匹配算法的中文分词器的设计与改进,并引入文本解析器与构建同义词词库引擎,使得Lucene对中文的检索更加个性化.通过检索结果的对比表明,改进后的中文分词器对检索功能的扩展有了极大的提高.并最终构建出了一个高效的中文全文检索系统.【期刊名称】《微型机与应用》【年(卷),期】2015(034)011【总页数】4页(P76-78,82)【关键词】全文检索;中文分词器;文本解析器;最大匹配算法(MMSEG)【作者】罗惠峰;郭淑琴【作者单位】浙江工业大学信息工程学院,浙江杭州310023;浙江工业大学信息工程学院,浙江杭州310023【正文语种】中文【中图分类】TP390 引言随着网络的发展和数据存储技术的成熟,如何在大量的数据中快速、准确地获取到我们所需要的信息成为一个亟待解决的问题,也是信息检索技术的核心问题。
信息检索的核心是全文检索技术,全文检索是指以各种计算机数据诸如文字、声音、图像等为处理对象,提供按照数据资料的内容而不是外在特征来实现的信息检索手段。
当前对全文数据的检索主要有两种方法:顺序扫描法(Serial Scanning)和倒排索引法(Inverted Index)。
前者较为原始,对于小数量的数据是最直接和最方便的方法;但随着数据量的增多,倒排索引法具有更快的检索速度和更全的应用范围[1]。
Lucene并不是一个完整的搜索引擎应用,而是一个开放源代码的高性能、可伸缩的信息搜索库,可以方便地嵌入到各种应用中,实现针对应用的全文索引/检索功能,并且已经在许多搜索项目中得到了广泛的应用[2]。
中文分词技术作为信息检索的核心技术之一,它的研究与发展促进了全文检索技术的应用。
本文主要研究了中文分词的最大匹配算法,并通过该算法对原始中文分词器进行了改进,改进后的分词器更加适用于中文条件下的搜索。
中文分词改进算法
收稿日期:2007-04-10作者简介:祁文青(1968— ),女,湖北省黄石人,副教授,硕士。
文章编号:1008-8245(2007)04-0023-03一种改进的中文分词算法祁文青(黄石理工学院计算机学院,湖北黄石435003)摘 要:汉语自动分词是汉语信息处理的前提,词库是汉语自动分词的基础。
文章提出了一种在对词库进行改造的基础上改进的匹配算法,突破了最大匹配分词算法分词的长度限制,提高了中文分词的速度和效率。
关键词:中文信息处理;中文分词;最大匹配法分词算法中图分类号:TP30116 文献标识码:AAn I mproved Maxi m u m Matchi n g M ethod forChi n ese W ord Seg ment ati onQ i W enqing(School of Co mputer Science,Huangshi I nstitute of Technol ogy,Huangshi Hubei 435003)Abstract:Chinese word seg mentati on is the p reparati on for Chinese inf or mati on p r ocessing .The dicti onarymechanis m is a basic co mponent of Chinese word seg mentati on syste m s .I n this paper,the author puts for ward an i m p r oved Maxi m u m Matching Method f or ChineseWord Seg mentati on on a ne w dicti onary mechanis m co mpared with existing ty p ical dicti on 2ary mechanis m s,which i m p r oves the s peed and efficiency of Chinese word seg mentati on syste m s .Key words:Chinese inf or mati on p r ocessing;Chinese word seg mentati on;Maxi m u m MatchingMethod for Chinese Word Seg mentati on0 引 言中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。
一种改进的最大匹配中文分词算法
一种改进的最大匹配中文分词算法闻玉彪;贾时银;邓世昆;李远方【期刊名称】《计算机技术与发展》【年(卷),期】2011(021)010【摘要】最大匹配算法包括正向最大匹配和逆向最大匹配两种算法,是中文分词领域的基础性算法,目前被广泛应用于众多领域.文中在详细分析了最大匹配算法的优缺点的基础上,提出了一种改进的最大匹配分词算法.改进算法在分词前先对词库进行了规范化预处理,分词时由汉字检索到该字开头的词组,再按词组长度由长到短的顺序使用传统最大匹配算法检索词库.目的是解决传统方法匹配效率低下和不能切分长词的问题.经算法分析结果表明,改进的算法较传统的最大匹配算法高效,分词能力更强.%Maximum matching algorithm includes two, they are forward and reverse maximum matching algorithm. It is a fundamental algorithm in the field of Chinese word, is widely used in many fields. In this paper,get a detailed analysis of advantages and disadvantages of the maximum matching algorithm, based on it, proposed an improved algorithm for maximum matching of word segmentation. In improved algorithm deal thesaurus with some rules at fust, when doing Chinese word segmentation it searches the relative Chinese phrases with the beginning character of the word, then matches word with the traditional maximum matching algorithm from long to short of the order of phrases' length. The aim is to reduce the inefficiencies of traditional methods and solve the problem that the long word can not split well. The algorithm results show that theimproved algorithm is better than the traditional maximum matching algorithm in efficiency, and more powerful.【总页数】4页(P92-94,98)【作者】闻玉彪;贾时银;邓世昆;李远方【作者单位】云南大学信息学院,云南昆明650091;云南大学信息学院,云南昆明650091;云南大学信息学院,云南昆明650091;云南大学信息学院,云南昆明650091【正文语种】中文【中图分类】TP391.1【相关文献】1.一种改进的统计与后串最大匹配的中文分词算法研究 [J], 吴涛;张毛迪;陈传波2.基于改进最大匹配算法的中文分词粗分方法 [J], 周俊;郑中华;张炜3.一种改进的中文分词正向最大匹配算法 [J], 王瑞雷;栾静;潘晓花;卢修配4.基于改进型正反向最大匹配中文分词算法的研究 [J], 李霞婷5.一种基于改进最大匹配快速中文分词算法 [J], 林浩;韩冰;杨乐华因版权原因,仅展示原文概要,查看原文内容请购买。
基于最大匹配分词算法的中文词语粗分模型
基于最大匹配分词算法的中文词语粗分模型
蔡勇智
【期刊名称】《福建电脑》
【年(卷),期】2005(000)009
【摘要】提出一种基于最大匹配分词算法的中文词语粗分模型,通过对最大匹配分词算法做出改进,解决了最大匹配分词算法所不能解决的一些问题,并得出较准确的粗分结果.该模型在重点考虑切分速度的同时兼顾了切分精度,是中文分词比较有效的词语粗分手段之一,适用于处理海量数据的中文分词系统.
【总页数】2页(P39-40)
【作者】蔡勇智
【作者单位】福州大学计算机系,福建,福州,350002
【正文语种】中文
【中图分类】TP3
【相关文献】
1.基于改进最大匹配算法的中文分词粗分方法 [J], 周俊;郑中华;张炜
2.综合最大匹配和歧义检测的中文分词粗分方法 [J], 李国和;刘光胜;秦波波;吴卫江;李洪奇
3.警务应用中基于双向最大匹配法的中文分词算法实现 [J], 陶伟;
4.基于最大匹配算法的似然导向中文分词方法 [J], 杨贵军;徐雪;凤丽洲;徐玉慧
5.基于最大匹配和歧义检测的中文分词粗分方法 [J], 李国和;刘光胜;吴卫江;孙红军;唐先明;韩宝东
因版权原因,仅展示原文概要,查看原文内容请购买。