一种与分词一体化的中文人名识别方法
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
s o t eme ho c ive a i f i g a c r c . h w h t d a h e ss t y n c u a y s
[ yw rs hn s esnl a c g io ; k o od c g io ; ieew r e mett n S o et a Ke o d ]C iee ro a nmer o nt n Unn wnw rs eo nt nChn s odsg na o ; h r sp t p e i r i i t h
n me r e e a e c o d n o t e ri t r a h r c e s a d t o t i h c n d n e a e a e n o t e s g ntto i r p sv rie l n a sa eg n r td a c r i g t i n e n l a a tr n h s wi h g o f e c r dd d i t e me a i n d g a h a e t s ao g h c e h i h c
文献标识码{ A
中图分类号:T 31 P9. 1
种 与分词 一体化 的 中文人名 识别 方法
高 红 .黄德根 .杨元 生
( 大连理工大学计算机科学与工程系 ,大连 16 2 ) 04 1
摘 要 : 出了一种 与分词一体化 的人名识别 方法 ,根据中文人名内部J字产生潜在人名 , 提 } j 可信度较高 的潜在人名与其它候选切分词共同
“ 词是最小 的能够独立活动 的有意义的语言成分” 但是 , 在汉语文本 中词语之间没有明显 的区分标记 ,因此 ,汉语 自
若最长词 为 “ 中国”,则次长词为 “ 中”; 若最长词 为 “ 布”,
则没有次长词 。图 1 不包含潜在人名的切分有向图。 是
动分词是 中文信息处理 的基础和关键。 由于 大量未登录人名
的存在严重影响 了分词的正确性 ,因此中文人名识别也是汉
< 田
的产 生参见 1 . 2节。
。 一 ;
语词语分析 中的重要研究 内容 。识别中文人名不仅可 以增强
分词系统处理未登录词的能力 ,提高分词的正确率 ,而且在
圈 1不包含潜在人名 的忉 分有向圈实仞
网络搜索 引擎 ,信息抽取等领域也有很重要的应用。
A e h d o i e ePe s n l m eRe o n to y c r n z d wi M t o fCh n s r o a Na c g ii n S n h o ie t h Ch n s o d S g e t t n i e eW r e m n a i o
wi e i a r a d d t s h t l x c lwo d c n i a e Bi r d Tr r m e u e o e a u t a h p t fs g e t t n di r p , h st e s o e t a o s o d o t e g a a i a a s d t v l a e e c a o m n a i g a h t u h r s t c  ̄e p n st m n g r h e o h t p h h
[ src]T i p prpeet amehdo hn s esn l a eo nt nsnho i dwi ieew r emett n P sil p r n Ab ta t hs ae rsns to fC ieepro a nmercg io yc rnz t Chn s odsg nai . o s e es i e h o b o
组成分词有 向图的节点 。利用 Bga 和 Tirm给有 向边赋值 ,使有向图的最短 路径对 应句子 的正确切 分,确定 了句子 的切分路径即可识 irm r a g 别 出句子 中的人名 。实验结果表 明,该 方法取得 了较好 的人名识别正确率 。
关t词 :中文 人名识别 ;未登录词识别 ;汉语 自动分词 ;最短路径
GAO n , Ho g HUANG g n YANG u n h n De e , Y aseg
( p r n f o u e ce c dE gn e n , ainUnv ri f e h oo y Dai 1 0 4 De at t mp t S in ea n ie r g D a ies yo c n lg , l a 1 6 2 ) me o C r n i l t T n
维普资讯
9 第3 2卷 第 1 期
VL2 o3
・
计算机ຫໍສະໝຸດ 工程 20 0 6年 1 O月
Oc o r20 6 t be 0
№
1 9
Co p t rEn i e r n m u e gn e ig
博 士‘ 论文 ・
一
文章编号:1 o 32( o) — 09一2 o — 48 o6 9 oo_ 】 0 2 1
人名识别可 以作 为独 立的词语分析过程在分词之前…或 分词之后 进行。通过对实 际应 用系统 的分析 ,发现将人名 识别与分词 同步进行可 以避免未登录人名对 分词 的影响,也 可 以减少不正确分词结果 给人名识别带来 的困难 。 例如 , 李 “
o t l e me tto f eChi e e t n e Pe s n l a e a e r c g ie n e t e o t l e me tto ss lc e . ee p rme tl e u t p i g n i n o n s s n e c . r o a m s n b e o n z d o c p i g n i n i e e t d T x i ma s a h t e n c h ma s a h e n a s l r s
[ yw rs hn s esnl a c g io ; k o od c g io ; ieew r e mett n S o et a Ke o d ]C iee ro a nmer o nt n Unn wnw rs eo nt nChn s odsg na o ; h r sp t p e i r i i t h
n me r e e a e c o d n o t e ri t r a h r c e s a d t o t i h c n d n e a e a e n o t e s g ntto i r p sv rie l n a sa eg n r td a c r i g t i n e n l a a tr n h s wi h g o f e c r dd d i t e me a i n d g a h a e t s ao g h c e h i h c
文献标识码{ A
中图分类号:T 31 P9. 1
种 与分词 一体化 的 中文人名 识别 方法
高 红 .黄德根 .杨元 生
( 大连理工大学计算机科学与工程系 ,大连 16 2 ) 04 1
摘 要 : 出了一种 与分词一体化 的人名识别 方法 ,根据中文人名内部J字产生潜在人名 , 提 } j 可信度较高 的潜在人名与其它候选切分词共同
“ 词是最小 的能够独立活动 的有意义的语言成分” 但是 , 在汉语文本 中词语之间没有明显 的区分标记 ,因此 ,汉语 自
若最长词 为 “ 中国”,则次长词为 “ 中”; 若最长词 为 “ 布”,
则没有次长词 。图 1 不包含潜在人名的切分有向图。 是
动分词是 中文信息处理 的基础和关键。 由于 大量未登录人名
的存在严重影响 了分词的正确性 ,因此中文人名识别也是汉
< 田
的产 生参见 1 . 2节。
。 一 ;
语词语分析 中的重要研究 内容 。识别中文人名不仅可 以增强
分词系统处理未登录词的能力 ,提高分词的正确率 ,而且在
圈 1不包含潜在人名 的忉 分有向圈实仞
网络搜索 引擎 ,信息抽取等领域也有很重要的应用。
A e h d o i e ePe s n l m eRe o n to y c r n z d wi M t o fCh n s r o a Na c g ii n S n h o ie t h Ch n s o d S g e t t n i e eW r e m n a i o
wi e i a r a d d t s h t l x c lwo d c n i a e Bi r d Tr r m e u e o e a u t a h p t fs g e t t n di r p , h st e s o e t a o s o d o t e g a a i a a s d t v l a e e c a o m n a i g a h t u h r s t c  ̄e p n st m n g r h e o h t p h h
[ src]T i p prpeet amehdo hn s esn l a eo nt nsnho i dwi ieew r emett n P sil p r n Ab ta t hs ae rsns to fC ieepro a nmercg io yc rnz t Chn s odsg nai . o s e es i e h o b o
组成分词有 向图的节点 。利用 Bga 和 Tirm给有 向边赋值 ,使有向图的最短 路径对 应句子 的正确切 分,确定 了句子 的切分路径即可识 irm r a g 别 出句子 中的人名 。实验结果表 明,该 方法取得 了较好 的人名识别正确率 。
关t词 :中文 人名识别 ;未登录词识别 ;汉语 自动分词 ;最短路径
GAO n , Ho g HUANG g n YANG u n h n De e , Y aseg
( p r n f o u e ce c dE gn e n , ainUnv ri f e h oo y Dai 1 0 4 De at t mp t S in ea n ie r g D a ies yo c n lg , l a 1 6 2 ) me o C r n i l t T n
维普资讯
9 第3 2卷 第 1 期
VL2 o3
・
计算机ຫໍສະໝຸດ 工程 20 0 6年 1 O月
Oc o r20 6 t be 0
№
1 9
Co p t rEn i e r n m u e gn e ig
博 士‘ 论文 ・
一
文章编号:1 o 32( o) — 09一2 o — 48 o6 9 oo_ 】 0 2 1
人名识别可 以作 为独 立的词语分析过程在分词之前…或 分词之后 进行。通过对实 际应 用系统 的分析 ,发现将人名 识别与分词 同步进行可 以避免未登录人名对 分词 的影响,也 可 以减少不正确分词结果 给人名识别带来 的困难 。 例如 , 李 “
o t l e me tto f eChi e e t n e Pe s n l a e a e r c g ie n e t e o t l e me tto ss lc e . ee p rme tl e u t p i g n i n o n s s n e c . r o a m s n b e o n z d o c p i g n i n i e e t d T x i ma s a h t e n c h ma s a h e n a s l r s