一种改进的最大匹配中文分词算法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第2 1卷 第 1 O期 21年 1 01 0月
计 算 机 技 术 与 发 展
C 0MP ER ECHNOL UT T 0GY AND DEVEL MENT 0P
Vo . 1 N . 0 12 o 1 0c . 2 1 t 01
一
种 改 进 的最 大 匹配 中文 分 词 算 法
闻玉彪 , 贾时银 , 邓世 昆, 李远 方
( 云南大学 信息学院, 云南 昆明 60 9 ) 50 1
摘
要 : 大 匹配算 法包 括正 向最 大匹配 和逆 向最 大 匹配两 种算 法 , 中文 分词 领域 的基础 性 算 法 , 最 是 目前 被广 泛 应用 于 众
多领 域 。文 中在 详细 分析 了最 大 匹配算 法的 优缺点 的基 础上 , 出 了一种改 进 的最 大 匹 配分 词算 法 。改 进算 法 在 分词 前 提
W o d Se m e a i n r g nt to
W EN Yu-b a JA h -y n, io,I S i i DENG hi un, a f ng S -k LI Yu n- a
( o eeo fr t n Y n a nvr t-K n n 50 1C ia C H g f nomao 。 u nnU iesy umig6 0 9 - hn ) I i i
先对 词库 进行 了规 范化 预处 理 , 分词 时 由汉 字检索 到该 字开 头 的 词组 , 按 词 组长 度 由长 到短 的 顺 序使 用 传 统最 大 匹 配 再
算法 检索 词库 。 目的是解 决传 统方 法 匹配效 率低 下和不 能切 分长 词 的问题 。经 算法 分 析结 果 表 明 , 进 的算 法 较传 统 的 改
o e fp r s s e g .Th i i o r d c e i e c e c e fta i o a t o sa d s l e t e p o l m a h 0 g wo d c o d r r o h a e ’l n t h e a m st e u e t n f i n i so r d t n me h d o v r b e t tt e l n r a n t h i i l n h h n s i we 1 pl l.Th g rt m e ul h w a e i r v g rtm e t rt a e ta i o a t e a o h r s t s o t t mp o e a o h i b t n t r d t n lm ̄ i m t h n l o t m fi in l i s h t h d l i s e h h i mu m c g ag rh i e c e — a i i n
wihteb gn ig c aa troftewo d。te t h e inn h rce h r h nmac e th swod wi teta io a ma i m mac n ag rtm fo ln t h r fte r h t h rdt n i l xmu th g l o i i h rm o g o so to h
Ab t a t M a i m th n l o t m n l d st s r c : x mu ma c i g a g r h i cu e i wo.t e r o wa d a d r v r e ma i l ac n l o ih . t sa f n a n a - h y a e f r r n e e s x n m m t h g ag rt m I u d me tla i i l g rt m i t efed o i n s oi h nh il fCh e ewo d。i r swi e y u e i d l sd nma y f l s nt i a e - e ea ld a ay n i d .I h sp p r g tad tie n  ̄so d a t g sa d d s d a t g s e l fa v a e n i v a e n a n o e m a i m ac i g ag rtm ,b s d o ,p o o e n i r e g rtm f rma i u l a th n fwo d s g n a i n.I i ft x mu m th n l o h h i a e n i r p s d a mp ov a o h o t d l i xl l n lm c i g o r me t t e o n m- p o e a g rt m e t e a r swi o u e tf s ,wh n d i g Ch n s wo d s g n t n i s a c e h e ai eCh n s h a e r v d l o h d a h su u i l t s me r l s a i t h r e on i e e r e me t i a o t e r h st e r l tv ie ep rss
最大 匹配 算法 高效 , 分词 能力 更强 。 关键 词 : 大 匹配 ; 引 ; 最 索 词库 ; 分词 中图分类 号 :P9 . T 3 11 文献 标识 码 : A 文章编 号 ;63 69 (0 1 1- 02 0 17 - 2 X 2 1 )0 09 - 3
Байду номын сангаас
An I p o e g rt m o a i u M a c i g o i n s m r v d Alo i h f r M x m m th n fCh e e
计 算 机 技 术 与 发 展
C 0MP ER ECHNOL UT T 0GY AND DEVEL MENT 0P
Vo . 1 N . 0 12 o 1 0c . 2 1 t 01
一
种 改 进 的最 大 匹配 中文 分 词 算 法
闻玉彪 , 贾时银 , 邓世 昆, 李远 方
( 云南大学 信息学院, 云南 昆明 60 9 ) 50 1
摘
要 : 大 匹配算 法包 括正 向最 大匹配 和逆 向最 大 匹配两 种算 法 , 中文 分词 领域 的基础 性 算 法 , 最 是 目前 被广 泛 应用 于 众
多领 域 。文 中在 详细 分析 了最 大 匹配算 法的 优缺点 的基 础上 , 出 了一种改 进 的最 大 匹 配分 词算 法 。改 进算 法 在 分词 前 提
W o d Se m e a i n r g nt to
W EN Yu-b a JA h -y n, io,I S i i DENG hi un, a f ng S -k LI Yu n- a
( o eeo fr t n Y n a nvr t-K n n 50 1C ia C H g f nomao 。 u nnU iesy umig6 0 9 - hn ) I i i
先对 词库 进行 了规 范化 预处 理 , 分词 时 由汉 字检索 到该 字开 头 的 词组 , 按 词 组长 度 由长 到短 的 顺 序使 用 传 统最 大 匹 配 再
算法 检索 词库 。 目的是解 决传 统方 法 匹配效 率低 下和不 能切 分长 词 的问题 。经 算法 分 析结 果 表 明 , 进 的算 法 较传 统 的 改
o e fp r s s e g .Th i i o r d c e i e c e c e fta i o a t o sa d s l e t e p o l m a h 0 g wo d c o d r r o h a e ’l n t h e a m st e u e t n f i n i so r d t n me h d o v r b e t tt e l n r a n t h i i l n h h n s i we 1 pl l.Th g rt m e ul h w a e i r v g rtm e t rt a e ta i o a t e a o h r s t s o t t mp o e a o h i b t n t r d t n lm ̄ i m t h n l o t m fi in l i s h t h d l i s e h h i mu m c g ag rh i e c e — a i i n
wihteb gn ig c aa troftewo d。te t h e inn h rce h r h nmac e th swod wi teta io a ma i m mac n ag rtm fo ln t h r fte r h t h rdt n i l xmu th g l o i i h rm o g o so to h
Ab t a t M a i m th n l o t m n l d st s r c : x mu ma c i g a g r h i cu e i wo.t e r o wa d a d r v r e ma i l ac n l o ih . t sa f n a n a - h y a e f r r n e e s x n m m t h g ag rt m I u d me tla i i l g rt m i t efed o i n s oi h nh il fCh e ewo d。i r swi e y u e i d l sd nma y f l s nt i a e - e ea ld a ay n i d .I h sp p r g tad tie n  ̄so d a t g sa d d s d a t g s e l fa v a e n i v a e n a n o e m a i m ac i g ag rtm ,b s d o ,p o o e n i r e g rtm f rma i u l a th n fwo d s g n a i n.I i ft x mu m th n l o h h i a e n i r p s d a mp ov a o h o t d l i xl l n lm c i g o r me t t e o n m- p o e a g rt m e t e a r swi o u e tf s ,wh n d i g Ch n s wo d s g n t n i s a c e h e ai eCh n s h a e r v d l o h d a h su u i l t s me r l s a i t h r e on i e e r e me t i a o t e r h st e r l tv ie ep rss
最大 匹配 算法 高效 , 分词 能力 更强 。 关键 词 : 大 匹配 ; 引 ; 最 索 词库 ; 分词 中图分类 号 :P9 . T 3 11 文献 标识 码 : A 文章编 号 ;63 69 (0 1 1- 02 0 17 - 2 X 2 1 )0 09 - 3
Байду номын сангаас
An I p o e g rt m o a i u M a c i g o i n s m r v d Alo i h f r M x m m th n fCh e e