基于统计的中文地名自动识别研究

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2 I s tt f I f r t n,Yu n n Unv ri . n t e o o mai i u n o n a i e s y,Ku mi g 6 0 91 t n n 5 0 ,Ch n ; ia
3 Istt o o ue c neT c ooy F dnU iesy S a ga 2 10 ,C ia .nt e f mp t S i c eh lg , u a nvr t, hn hi 0 23 hn ) i C u r e n i
中文地 名识别 是命 名实体 识别 的主要任 务之一 ,
其 目标是 在 中文 文 本 序 列 中提 取 地 理 名 称 , “ 如 中 国” “ 海 市 ” “ 家村 ’ 。 目的是通 过任 务 的实 、上 、李 ’ 等
现 , 以在 中文文本 中有效识别未登 录词 , 可 提升文本 自
收稿 日期 :0 l o — O; 回 日期 :0 l 0 一 3 2l—4 3 修 2 1 一 8 O
Ke ywo' : hns oao  ̄ l rcg io ;odt nl adm f ls C F ) fa r e le l8 C eelct nnae eo nt n cn io a rn o i d( R s ; t etmpa d i i - T i i e eu t
O 引 言
多年来 的研究 表明 , 由于现在 大规模 标注语 料可 获得 , 使统计模 型的训练成 为可能 , 以基于统计模型 所 的命 名实体识别任务完成 情况较 为理想 , 国内外 的各 种 自然语 言处理任 务评测 中 , 在命 名实体 识别任 务 中
成绩较好的基本是采用基于统计 的模 型。 目前 常用 的 统 计 模 型 主 要 有 隐 马尔 可 夫 模 型 ( M ) 及 其 一 些 变 形 J 最 大 熵 马 尔 可 夫 模 型 H Ms 、
特 征函数所代表定输 入上 的所有可 能 的标 记序 列 的
概率 和为 1 其定义 为 : ,
(E s、 M MM ) 支持 向量机模 型( V ) 和条 件随机 场 S Ms ( R s - 及 其一些 变 形 ] C F) 7 ] 。隐 马尔 可夫 模 型是产 生式模型 , 为保证推导正确 , 必须作出严 格的独立性假 设, 假设 中心词只与它的前 n个词有关 , 而与其后 的词
动分词 的准确率 , 而 为 自然语 言处 理研 究提供 有效 从
的文本基础。
基金项 目: 云南省教育科研资助项 目(9 0 4 ) 昆明学 院科研课题 0 Y07 ;
基金 (0 9 0 2 20 G 1)
文中基 于 目前主要使 用的统计模 型之一——条件 随机 场( odt nl adm Fe sC F ) 引用了丰富 C nio a R n o i d ,R s , i l
作者简介 : 邱
莎 (9 4 ) 女 , 17 一 , 云南曲靖人 , 硕士 , 讲师 , 旦大学访 复
问学者 , 研究方 向为 自然语言处理。
的特征 , 大规模 已标 注语 料库 ( 利用 北大富 士通《 民 人

3 6.
计算 机技 术与发展
第 2 卷 l ep ∑ A x(
k= l
日报) 9 8年 1 、 19 月 2月标注语料和 山西大学语料 ) 实 , 现 中文地名识别任务 , 经多次闭合与开放测试 , 识别效
果 良好 。
P( A

) () 2
其中 , s , o t 特征 函数 , 。 , , L( )是 一般 表达 形式
1 条 件随机场
良好 。
关 键词 : 中文地 名 识别 ; 条件 随机 场 ; 征模 板 特 中图分 类号 :P 1 T 3 文献 标识 码 : A 文章 编号 :63 69 2 1) 1 03 — 4 17 — 2X(0 1 1—0 5 0
S u y o t m a i c g iin o i e e Lo a in t d n Au o tc Re o n t f Ch n s c t o o
第2 1卷 第 1 期 1 21年 1 01 1月
计 算 机 技 术 与 发 展
COMP I R U E TEC ' HNOI GY AND DEVEL OPMEN T
V0. 1 No 1 12 .1 NO . 2 1 V 01
基 于 统 计 的 中文 地 名 自动 识别 研 究
命名 实 体 识别 ( a e ni eon i ,N R) N m dE tyR cgio t tn E 是许多 自然语 言处 理任务的基本要求 , 如信息抽取 、 机 器 翻译 、 搜索 引擎 、 自动文摘 、 主题 发现等 , 目标是从文 本 中准确识别 出命 名实体 文本 片段并 确 定其类 型 , 如 数量 、 时间 、 人名 、 地名 、 机构 名等。 数量 、 间实体识别 易于完成 , 时 故命 名实体识别任
2 1 任务分析 .
中文地理名称 的命 名具 有很 强的 随意性 , 名 中 地 经常会嵌套人名 、 数字等其他实体名称 , 甚至与其他实 体名称混 淆 , 如 : 例 由于“ ” 赵 是一 个很 常用 的人 名姓 氏, 在人名识别 中作 为人名首字特征 的权值较高 , 在综 合命 名实体识别 时 , 易将 “ 就极 赵家 屯” 这一地名 误识 为人名 ; 位于” “ “ 、 坐落 于” 这样 的通常作 为地名 的前 缀 , 于” 为地名识别 的一元 t e “ 作 o n特征在训 练后 , k 会 具有较高 权值 , 命 名 实体 综 合识 别 时 , 将 “ 对 会 于长 春” 这一人 名中的“ 长春” 识为地 名。还有很 多少数 误 民族地区和国外的地名 , 本是其 本地语 言音译 过来 基
务主要集 中在较难 实现 的人 名 、 地名 、 机构 名 的识别 。
其 中 , 中文人名的识别起 步较早 , 获得 了不错 的 对 已经 效果 , 而地名 的命名 一直具 有很 强的随意性 , 大大弱化 了本 身具有 的一些命名 规律 , 使得 对其 的识别 较为不
易 , 而也影 响到对 未登录词的识 别 , 从 以及 文本分词 的 效果 和对文 本的理解。
Ab t a t C ne e l c t n n me r c g i o so eo e d f c l ts so i e e n me n i e o n t n t ts sa t m a c e ta — s r c : hi s o a i a e o n t n i n ft i u t a k fCh n s a d e t y r c g i o .Is a k i u o t x r c o i h i t i i r g g o r p y s e iln u r m i e e tx s a c r tl i e g a h p c a o nsfo Ch n s e t c u a ey.Ba e n o e o h ttsia d l ,t e c n i o a a d m ed , i — n s d o n f t e s i tc l mo e s h o d t n lr n o f l s d s a i i c se h s fa t mai e o n t n o i e e lc t n n me o h h r ce e e .To tk d a tg f t b l y o sn r i u s d te t k o u o tc r c g ii fCh s o a i a n t e c a a tr lv 1 a o n o a e a v n e o a he a i t fu i g ab — i ta y f au e s i p t r r e t r s a n u CRFs o n y r a o a l n i ,n t l e s n b e ̄a e mp a ssr c u e o mr t e lt wa tu t rd,b tas h a g c l o p swa s d i a n n e u lo t e l r e s ae c r u su e n t i i g. r Th o d t n lp o a i t iti u i n o b ls q e c s Wa o u e sn t t t s e c n ii a r b b l y d srb to fl e e u n e s c mp td u i g s i i .By s q e c a ei g,i i lme e e a o o i a a sc u n elb l e n t mp e ntd t ut- h ma e r c g i o f i e e l c t n n m e t b a n d pr mii g r s l n d fe e t l s d a d o e e e tc r u t eF1 l e s r — i r e o n t n o n s o a i a .I t i e o sn e u t o if r n o e p n d ts o p swi t n a n e i h C o o s c n hh me tv l e o b u O% . n au fa o t 9
无关 。该假设显然与现实情况不符 。最大熵 马尔可夫
z() ^o=∑e ( ∑A x ∑ p
,,, ) () so ) £ 5
模型属于判别式模型 , 以充分利用词的 上下文信息 , 可 但存在着标注偏置 的问题 。
条件随机场是一种优秀 的统计机器学习方法 。与
2 基于 C F 的中文地名识别 R s
邱 莎 , 阿 圆 王 付 艳 丁 海 燕 , ,
(. 1 昆明学院 信息技术学院, 云南 昆明 60 1 ; 524 2 云南大学 信息学院 , . 云南 昆明 609 ; 50 1 3 复旦大学 计算机科学技术学院, . 上海 2 10 ) 0 23
摘 要: 中文地名的 自动识别是命名实体识别任务中难度较大的任务之~, 目的是从中文文本中 自动准确提取地理专用
名词。文中使用统计模型中的条件随机场对 中文地名的 自动识别在字一级粒度进行 了研究。在研究中利用条件随机场 能任意添加特征的优点 , 合理引用 了丰富的特征组合 , 在大规模语料』进行训练, : 统计获得标注序列基于特征集的条件概
率 分布 , 采用 序 列标 注的 方式 , 中文 地名 的 自动 识别 。多次 闭合 测 试 和开 放测 试结 果 F 值 为 9 % 左 右 , 并 实现 l 0 识别 效 果
Na e s d o t t t a e h d m sBa e n S a i i lM t o sc
QI h , un , A u yn , I iy n U S a A Y a W NG F — a ’D NG Ha— a
( .ntueo In a o eh oo y umigU iesy K nnn 5 24, h a 1Istt f nb n t nT cn lg ,K n n nvri , u ri 60 1 C i ; i I i t g n
如下例 :
, s 1s O = ( , , ,) 一 l
f o) = n b ,, 朋a (ti d
L 0, oh r s t e wie
0 wd ( t ot 3 =r )
() 4
bot : ( ,)
w t
t oh r ie O, t e w s
A 是通过训练得到的特征 的权重 , 其值反 映 了
相关文档
最新文档