命名实体翻译分析与研究

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
C i =1
m
几种情况: FC SC TC,FC TC,SC TC,TC
三、组织机构名的翻译研究
翻译模型步骤二: 采用同步上下文无关文法(Synchronous CFG grammar)重写规则,最终要实现:
< OChi ,O Eng > ⇒ < 中国国际对外交流中心, China International Center for Exchanges with Foreign Countries >
三、组织机构名的翻译研究
行政管理机构名对位结果分析
Society(1) for(2) the(3) Study(4) of(5) Mao(6) Zedong‘s(7) Philosophical(8) Ideas (9) 毛泽东 ({ 6 7 }) 哲学 ({ 8 }) 思想 ({ 9 }) 研究 ({ 3 4 5}) 会 ({ 1 2 })
整个语块在翻译中的位置:与SC相邻 语块内部翻译特点:连续,词按顺序翻译
三、组织机构名的翻译研究
基于语块的机构名翻译方法: 基于语块的机构名翻译方法:
借鉴Chunk-based model (Watanabe, 2003)
切分语块模型(chunking model) 步骤一 每个语块内词的排序和翻译 步骤二 语块的调序 (chunk reordering) 将语块内部调序翻译和外部调序同时进行。
闽台新闻交流联谊会
BNF形式: ON {[location name] [organization name] [ordinal number] [person name] [organization type] [other modifier]}* <the organization appellation>
一、NE翻译概述
采用NE对齐建立词典进行NE翻译的缺陷: 不够灵活 覆盖面取决于双语语料库的大小
二、NE对齐
二、NE对齐
NE对齐与 识别的关系 对齐与NE识别的关系 对齐与
1.
通常NE对齐先要分别在两种语言中进行NE识别, 然后在识别结果的基础上产生候选翻译对,再 过滤得到对齐结果; 2. 识别和对齐结合在一起进行,或只进行单语识 别; 3. 两个过程交替迭代进行的,以得到较好的对齐 结果和较高的识别精度。
三、组织机构名的翻译研究
行政管理机构名
主要是从属于国家或地方级别的公共机构,例如国家部 门、省市政府、大学和协会等。这类机构名的组成比较 规则,并且它的组成词大部分是已登录词。
企业机构名
主要是私有的带有盈利性质的机构,例如酒店、银行、 公司等,这类机构名多以地名开头,中间加以企业字号, 例如“吉百利”等,大部分是未登录词。
二、NE对齐
NE对齐和短语对齐的关系 对齐和短语对齐的关系
NE有具体,严格的边界,和NE识别的关系 2. NE对齐一般是完整,不间断 共同问题: 如何从词对位实现NE或短语的对位
1.
二、NE对齐
NE对齐和分词的关系 对齐和分词的关系
1.
对于汉语来说,识别和对齐之前往往需要进行 词切分; 2. 不进行切分,通过窗口移动直接在句子中得到 候选翻译项
三、组织机构名的翻译研究
对3000多个机构名对位处理后得到的结果:
每个ON包 含的phrase 数量
1
2 502
3 541
4 78
5 15
6 1
NE NE数 2105
可以看出ON翻译以顺序翻译占大比例,多个phrase的情况: Beijing association for international exchange of personnel NULL ({ 3 6 }) 北京 ({ 1 }) 国际 ({ 4 }) 人才 ({ 7 }) 交流 ({ 5 }) 协会 ({ 2 }) 用pharse-based等机器翻译方法? 用词典直接翻译?
三、组织机构名的翻译研究
根据标准,打分结果:
三、组织机构名的翻译研究
加入到SMT系统的测试
测试语料:2004年863测试语料,共308个句子,通过 命名实体识别后,对其中的机构名进行翻译,再运行 phrase-based MT系统,BLEU打分由0.1217提高到 0.1400
2005 NIST集上的结果
例如
X →< 中国国际 X, China International X >
X → < X 中 心 , en ter fo r X > C
这些CFG规则,由语料库(ON对)训练后得到
三、组织机构名的翻译研究
翻译模型步骤二:
根据三类语块的特性,为重写过程规定三个步骤: Step1: 确定第一语块(FC)位置和翻译 Step2: 确定第三语块(TC)位置和翻译 Step3: 确定第二语块(SC)的翻译
二、NE对齐
NE对齐的两个过程: 对齐的两个过程: 对齐的两个过程 (单语或双语)进行NE识别后,从平行 双语句子对中抽取NE候选翻译对 将候选翻译对进行过滤,得到最优的NE 对齐
1. 2.
二、NE对齐
在过程1中分词和 识别可能引入的错误 在过程 中分词和NE识别可能引入的错误 中分词和 识别可能引入的错误:
三、组织机构名的翻译研究
双语NE语料库
NE (中文)
NE翻译
SMT
双语平行文档的 NE对齐
四、参考文献
David Chiang. (2005). A Hierarchical Phrase-Based Model for Statistical Machine Translation. In Proceedings of the 43rd Annual Meeting of the ACL, pages 263-270. F. Huang. S. Vogel and A. Waibel. (2004). Improving Named Entity Translation Combining Phonetic and Semantic Similarities. In Proceedings of the HLT/NAACL2004. Boston, MA, May,2004. Feng, Donghui, Yajuan Lv, and Ming Zhou. 2004. A new approach for English-Chinese named entity alignment. In Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP 2004), pages 372-379. Lee, Chun-Jen, Jason S. Chang and Jyh-Shing Roger Jang. 2003. A statistical approach to Chinese-to-English back-transliteration. In Proceedings of the 17th Pacific Asia Conference on Language, Infor-mation, and Computation (PACLIC), Singapore, pages 310-318. Lee, Chun-Jen, Jason S. Chang and Jyh-Shing Roger Jang. 2004a. Bilingual named-entity pairs extrac-tion from parallel corpora. In Proceedings of IJCNLP-04 Workshop on Named Entity Recognition for Natural Language Processing Applications, Hainan Island, China, pages 9-16. Franz Josef Och and Hermann Ney. (2002). Discriminative training and maximum entropy models for statistical machine translation. In Proceedings of the 40th Annual Meeting of the ACL, pages 295-302. Philipp Koehn, Franz Josef Och, and Daniel Marcu. 2003. Statistical phrase-based translation. In Proceedings of HLT-NAACL 2003, pages 127-133. Taro Watanabe, Eiichiro Sumita and Hiroshi G. Okuno. (2003). Chunk-based Statistical Translation. In Proceedings of the 41st Annual Meeting of the Association for Computational Linguistics, July 2003, pp. 303 - 310. ……
三、组织机构名的翻译研究
ON对位结果中很强的语块信息
三、组织机构名的翻译研究
基于语块的机构名翻译方法: 基于语块的机构名翻译方法:
定义每个ON中包含三类语块:
1. 第一类语块(FC)例如:“北京第一”
“国际”等,作为最高级的修饰词。
整个语块在翻译中的位置:前置或后置于后续语块 语块内部翻译特点:连续的,顺序
(n ≥ 1 )
三、组织机构名的翻译研究
Chunking model: C * = arg max p(C | O)
C
(1)
= arg max( p (O | C ) p (C ))
C
= arg max( p (o1o2 ...on | c1c2 ...cm ) p(c1c2 ...cm ))
C
≈ arg max[∏ p (oi1...oij | ci ) p(ci | ci −1 )]
rewrite
三、组织机构名的翻译研究
翻译模型步骤二:
Hierarchical Phrase-based model 的格式(Chiang, 2005)-synchronous CFG方法: X → ( γ ,α , ~ ) 在我们的翻译模型中,包含一个非终结符和终结符, 这个终结符和非终结符分别是一个语块的单位
1. 2.
二、NE对齐
过滤候选翻译对(过程 ): 过滤候选翻译对(过程2):
采用多特征融合的方法,所以一般利用多特征 对齐模型或者最大熵模型等 可用的特征模型: 可用的特征模型:
Translation Model Transliteration Model Tagging Model Co-occurrence Model Distortion Model Abbreviation handling ……
Segmentation error 2. Untagged 3. Partially tagged 4. Tagged with other words as one NE
1.
二、NE对齐
解决方法: 解决方法
用单语NE识别代替双语NE识别 滑动窗(An open-end NE alignment window) 基于双语NE识别:将已标注为NE的词作为中心,窗口 向两边扩展 基于单语NE识别:利用IBM模型得到的翻译词表来确 定“锚点”。然后以这些“锚点”为中心,在一定长 度的词窗范围内选取词或词组作为候选命名实体。
三、组织机构名的翻译研究
行政管理机构名和企业机构名比较( 行政管理机构名和企业机构名比较(LDC2005T34) )
统计 类别
总数
30800
分词结果 1~21个词
包含1~7个词 的NE占95.6%
翻译次 音 序结构 译
34%有 次序的 调整 94%顺 序翻译 5%
结尾 信息 825 类
行政 管理 机构 企业 机构
三、组织机构名的翻译研究
基于语块的机构名翻译方法: 基于语块的机构名翻译方法: 2. 第二类语块(SC)例如:“对外科技交 流”等,作为次高级的修饰词
整个语块在翻译中的位置:与TC相邻,前置 TC 或后置于它 语块内部翻译特点:词的次序需要调整,
三、组织机构名的翻译研究
基于语块的机构名翻译方法: 基于语块的机构名翻译方法: 3. 第三类语块(TC)例如:“国家实验 室”, “筹建委员会”,“研究所”等。 每个机构名必有的块结构。
54747
1~21个词
包含2~7个词 的NE占92.0%
90% 单一如 以上 银行,
公司
三、组织机构名的翻译研究
行政管理机构名和企业机构名比较:
行政管理机构名特征:1、有比较强的组成结构信息;2、 地名,人名涉及音译,通过词典可以大部分解决;翻译 的重点在结构 企业机构名特征:1、绝大部分按顺序翻译,即使有次 序调整,只是前后调换一次;例如:中国银行/bank of china/ 2、企业商标名以音译为主,约定俗成,音译缺 乏规律性,例如:吉百利/cadbury/;3、词尾信息单一: 以“公司”结尾占83%。翻译的重点在于音译。采用 NE对齐方法实现翻译可行
三、组织机构名的翻译研究
ON翻译模型测试
测试语料:集外436个机构名(每个包括2~9个词),共1521个词。 以含义完整和准确作为评估标准,定义了四个等级:
等级 1 2 3 4
标准
至少有一个词没被翻译,部分准确 或完全不准确 每个词都被翻译,但部分准确 意思准确,和标准含义相符 和标准答案完全符合
Society for the Study of Mao Zedong‘s Philosophical Ideas 毛泽东哲学思想 ({ 6 7 8 9 }) 研究 ({ 3 4 5}) 会 ({ 1 2 }) 假设每个连续部分相当于一个phrase(大于词的结构) 上面这个例子包含了3个phrase。
三、组织机构名的翻译研究
翻译模型步骤二:
例子“中国国际对外交流中心”的同步CFG文法推导过程:
< O,O > ⇒ < X, X > step1 ⇒< (中国国际)FC X , (China International)FC X > step2 ⇒< (中国国际)FC X (中心)TC, (China International)FC (Center for)TC X > step3 ⇒< (中国国际)FC(对外交流)SC (中心)TC, (China International)FC (Center for)TC (Exchanges with Foreign Countries)SC >
命名实体翻译分析与研究
报告人:陈钰枫 中科院自动化所中文信息处理组
2006.10.17
Outline
NE(Named Entity)翻译概述 NE对齐 组织机构名的翻译研究 参考文献
一、NE翻译概述
பைடு நூலகம்NE翻译
各类机器翻译方法
NE对齐
双语NE语料库
双语平行文档语料库
一、NE翻译概述
采用各种机器翻译方法的缺陷: 翻译结果不够规范 NE中的一些词义是特定的,例如: 风陵渡——Fenglingdu —— wind comb cross (×) 音译问题
三、组织机构名的翻译研究
基于语块的机构名翻译方法: 基于语块的机构名翻译方法: 翻译模型步骤一: 1、single-ON和multi-ON的切分 例如:北京医科大学/第一附属医院 2、语块的切分 O 代表一个single-ON: o1 , o 2 , ...o n
C* = c1...cm (m ≤ n, ci ∈{FC, SC, TC})
三、组织机构名的翻译研究
机构名( 机构名(ON, Organization name)特点: )特点:
1、ON的结构最复杂,其中可能包含人名,地名等; 2、通过NE对齐建立翻译词典的方法比较适合人名、地名 的翻译,而对于粒度大,结构易变 粒度大, 粒度大 结构易变的ON,还要抓住其 本质结构; 例如:中国国际对外科技交流中心
相关文档
最新文档