命名实体翻译分析与研究

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

C i =1
m
几种情况： FC SC TC，FC TC，SC TC，TC
三、组织机构名的翻译研究
翻译模型步骤二：采用同步上下文无关文法（Synchronous CFG grammar)重写规则，最终要实现：
< OChi ,O Eng > ⇒ < 中国国际对外交流中心， China International Center for Exchanges with Foreign Countries >
三、组织机构名的翻译研究
行政管理机构名对位结果分析
Society（1） for（2） the（3） Study（4） of（5） Mao（6） Zedong‘s（7） Philosophical（8) Ideas (9) 毛泽东 ({ 6 7 }) 哲学 ({ 8 }) 思想 ({ 9 }) 研究 ({ 3 4 5}) 会 ({ 1 2 })
整个语块在翻译中的位置：与SC相邻语块内部翻译特点：连续，词按顺序翻译
三、组织机构名的翻译研究
基于语块的机构名翻译方法：基于语块的机构名翻译方法：
借鉴Chunk-based model (Watanabe, 2003)
切分语块模型（chunking model) 步骤一每个语块内词的排序和翻译步骤二语块的调序（chunk reordering) 将语块内部调序翻译和外部调序同时进行。
闽台新闻交流联谊会
BNF形式： ON {[location name] [organization name] [ordinal number] [person name] [organization type] [other modifier]}* <the organization appellation>
一、NE翻译概述
采用NE对齐建立词典进行NE翻译的缺陷：不够灵活覆盖面取决于双语语料库的大小
二、NE对齐
二、NE对齐
NE对齐与识别的关系对齐与NE识别的关系对齐与
1.
通常NE对齐先要分别在两种语言中进行NE识别，然后在识别结果的基础上产生候选翻译对，再过滤得到对齐结果； 2. 识别和对齐结合在一起进行，或只进行单语识别； 3. 两个过程交替迭代进行的，以得到较好的对齐结果和较高的识别精度。
三、组织机构名的翻译研究
行政管理机构名
主要是从属于国家或地方级别的公共机构，例如国家部门、省市政府、大学和协会等。这类机构名的组成比较规则，并且它的组成词大部分是已登录词。
企业机构名
主要是私有的带有盈利性质的机构，例如酒店、银行、公司等，这类机构名多以地名开头，中间加以企业字号，例如“吉百利”等，大部分是未登录词。
二、NE对齐
NE对齐和短语对齐的关系对齐和短语对齐的关系
NE有具体，严格的边界，和NE识别的关系 2. NE对齐一般是完整，不间断共同问题: 如何从词对位实现NE或短语的对位
1.
二、NE对齐
NE对齐和分词的关系对齐和分词的关系
1.
对于汉语来说，识别和对齐之前往往需要进行词切分； 2. 不进行切分，通过窗口移动直接在句子中得到候选翻译项
三、组织机构名的翻译研究
对3000多个机构名对位处理后得到的结果：
每个ON包含的phrase 数量
1
2 502
3 541
4 78
5 15
6 1
NE NE数 2105
可以看出ON翻译以顺序翻译占大比例，多个phrase的情况： Beijing association for international exchange of personnel NULL ({ 3 6 }) 北京 ({ 1 }) 国际 ({ 4 }) 人才 ({ 7 }) 交流 ({ 5 }) 协会 ({ 2 }) 用pharse-based等机器翻译方法？用词典直接翻译？
三、组织机构名的翻译研究
根据标准，打分结果：
三、组织机构名的翻译研究
加入到SMT系统的测试
测试语料：2004年863测试语料，共308个句子，通过命名实体识别后，对其中的机构名进行翻译，再运行 phrase-based MT系统，BLEU打分由0.1217提高到 0.1400
2005 NIST集上的结果
例如
X →< 中国国际 X, China International X >
X → < X 中心， en ter fo r X > C
这些CFG规则,由语料库（ON对）训练后得到
三、组织机构名的翻译研究
翻译模型步骤二：
根据三类语块的特性，为重写过程规定三个步骤： Step1: 确定第一语块（FC）位置和翻译 Step2: 确定第三语块（TC）位置和翻译 Step3: 确定第二语块（SC）的翻译
二、NE对齐
NE对齐的两个过程：对齐的两个过程：对齐的两个过程（单语或双语）进行NE识别后，从平行双语句子对中抽取NE候选翻译对将候选翻译对进行过滤，得到最优的NE 对齐
1. 2.
二、NE对齐
在过程1中分词和识别可能引入的错误在过程中分词和NE识别可能引入的错误中分词和识别可能引入的错误:
三、组织机构名的翻译研究
双语NE语料库
NE （中文）
NE翻译
SMT
双语平行文档的 NE对齐
四、参考文献
David Chiang. (2005). A Hierarchical Phrase-Based Model for Statistical Machine Translation. In Proceedings of the 43rd Annual Meeting of the ACL, pages 263-270. F. Huang. S. Vogel and A. Waibel. (2004). Improving Named Entity Translation Combining Phonetic and Semantic Similarities. In Proceedings of the HLT/NAACL2004. Boston, MA, May,2004. Feng, Donghui, Yajuan Lv, and Ming Zhou. 2004. A new approach for English-Chinese named entity alignment. In Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP 2004), pages 372-379. Lee, Chun-Jen, Jason S. Chang and Jyh-Shing Roger Jang. 2003. A statistical approach to Chinese-to-English back-transliteration. In Proceedings of the 17th Pacific Asia Conference on Language, Infor-mation, and Computation (PACLIC), Singapore, pages 310-318. Lee, Chun-Jen, Jason S. Chang and Jyh-Shing Roger Jang. 2004a. Bilingual named-entity pairs extrac-tion from parallel corpora. In Proceedings of IJCNLP-04 Workshop on Named Entity Recognition for Natural Language Processing Applications, Hainan Island, China, pages 9-16. Franz Josef Och and Hermann Ney. (2002). Discriminative training and maximum entropy models for statistical machine translation. In Proceedings of the 40th Annual Meeting of the ACL, pages 295-302. Philipp Koehn, Franz Josef Och, and Daniel Marcu. 2003. Statistical phrase-based translation. In Proceedings of HLT-NAACL 2003, pages 127-133. Taro Watanabe, Eiichiro Sumita and Hiroshi G. Okuno. (2003). Chunk-based Statistical Translation. In Proceedings of the 41st Annual Meeting of the Association for Computational Linguistics, July 2003, pp. 303 - 310. ……
三、组织机构名的翻译研究
ON对位结果中很强的语块信息
三、组织机构名的翻译研究
基于语块的机构名翻译方法：基于语块的机构名翻译方法：
定义每个ON中包含三类语块：
1. 第一类语块（FC）例如：“北京第一”
“国际”等，作为最高级的修饰词。
整个语块在翻译中的位置：前置或后置于后续语块语块内部翻译特点：连续的，顺序
(n ≥ 1 )
三、组织机构名的翻译研究
Chunking model: C * = arg max p(C | O)
C
(1)
= arg max( p (O | C ) p (C ))
C
= arg max( p (o1o2 ...on | c1c2 ...cm ) p(c1c2 ...cm ))
C
≈ arg max[∏ p (oi1...oij | ci ) p(ci | ci −1 )]
rewrite
三、组织机构名的翻译研究
翻译模型步骤二：
Hierarchical Phrase-based model 的格式（Chiang, 2005)－synchronous CFG方法： X → ( γ ,α , ~ ) 在我们的翻译模型中，包含一个非终结符和终结符，这个终结符和非终结符分别是一个语块的单位
1. 2.
二、NE对齐
过滤候选翻译对（过程）：过滤候选翻译对（过程2）：
采用多特征融合的方法，所以一般利用多特征对齐模型或者最大熵模型等可用的特征模型：可用的特征模型：
Translation Model Transliteration Model Tagging Model Co-occurrence Model Distortion Model Abbreviation handling ……
Segmentation error 2. Untagged 3. Partially tagged 4. Tagged with other words as one NE
1.
二、NE对齐
解决方法: 解决方法
用单语NE识别代替双语NE识别滑动窗（An open-end NE alignment window）基于双语NE识别:将已标注为NE的词作为中心,窗口向两边扩展基于单语NE识别:利用IBM模型得到的翻译词表来确定“锚点”。然后以这些“锚点”为中心，在一定长度的词窗范围内选取词或词组作为候选命名实体。
三、组织机构名的翻译研究
行政管理机构名和企业机构名比较（行政管理机构名和企业机构名比较（LDC2005T34））
统计类别
总数
30800
分词结果 1～21个词
包含1～7个词的NE占95.6%
翻译次音序结构译
34％有次序的调整 94％顺序翻译 5％
结尾信息 825 类
行政管理机构企业机构
三、组织机构名的翻译研究
基于语块的机构名翻译方法：基于语块的机构名翻译方法： 2. 第二类语块（SC）例如：“对外科技交流”等，作为次高级的修饰词
整个语块在翻译中的位置：与TC相邻，前置 TC 或后置于它语块内部翻译特点：词的次序需要调整，
三、组织机构名的翻译研究
基于语块的机构名翻译方法：基于语块的机构名翻译方法： 3. 第三类语块（TC）例如：“国家实验室”， “筹建委员会”，“研究所”等。每个机构名必有的块结构。
54747
1～21个词
包含2～7个词的NE占92.0%
90％单一如以上银行，
公司
三、组织机构名的翻译研究
行政管理机构名和企业机构名比较：
行政管理机构名特征：1、有比较强的组成结构信息；2、地名，人名涉及音译，通过词典可以大部分解决；翻译的重点在结构企业机构名特征：1、绝大部分按顺序翻译，即使有次序调整，只是前后调换一次；例如：中国银行/bank of china/ 2、企业商标名以音译为主，约定俗成，音译缺乏规律性，例如：吉百利/cadbury/；3、词尾信息单一：以“公司”结尾占83％。翻译的重点在于音译。采用 NE对齐方法实现翻译可行
三、组织机构名的翻译研究
ON翻译模型测试
测试语料：集外436个机构名（每个包括2～9个词），共1521个词。以含义完整和准确作为评估标准，定义了四个等级：
等级 1 2 3 4
标准
至少有一个词没被翻译，部分准确或完全不准确每个词都被翻译，但部分准确意思准确，和标准含义相符和标准答案完全符合
Society for the Study of Mao Zedong‘s Philosophical Ideas 毛泽东哲学思想 ({ 6 7 8 9 }) 研究 ({ 3 4 5}) 会 ({ 1 2 }) 假设每个连续部分相当于一个phrase（大于词的结构）上面这个例子包含了3个phrase。
三、组织机构名的翻译研究
翻译模型步骤二：
例子“中国国际对外交流中心”的同步CFG文法推导过程：
< O,O > ⇒ < X, X > step1 ⇒< (中国国际)FC X , (China International)FC X > step2 ⇒< (中国国际)FC X (中心)TC， (China International)FC (Center for)TC X > step3 ⇒< (中国国际)FC(对外交流)SC (中心)TC， (China International)FC (Center for)TC (Exchanges with Foreign Countries)SC >
命名实体翻译分析与研究
报告人：陈钰枫中科院自动化所中文信息处理组
2006.10.17
Outline
NE（Named Entity）翻译概述 NE对齐组织机构名的翻译研究参考文献
一、NE翻译概述
பைடு நூலகம்NE翻译
各类机器翻译方法
NE对齐
双语NE语料库
双语平行文档语料库
一、NE翻译概述
采用各种机器翻译方法的缺陷：翻译结果不够规范 NE中的一些词义是特定的，例如：风陵渡——Fenglingdu —— wind comb cross （×）音译问题
三、组织机构名的翻译研究
基于语块的机构名翻译方法：基于语块的机构名翻译方法：翻译模型步骤一： 1、single-ON和multi-ON的切分例如：北京医科大学/第一附属医院 2、语块的切分 O 代表一个single-ON： o1 , o 2 , ...o n
C* = c1...cm (m ≤ n, ci ∈{FC, SC, TC})
三、组织机构名的翻译研究
机构名（机构名（ON, Organization name）特点：）特点：
1、ON的结构最复杂，其中可能包含人名，地名等； 2、通过NE对齐建立翻译词典的方法比较适合人名、地名的翻译，而对于粒度大，结构易变粒度大，粒度大结构易变的ON，还要抓住其本质结构；例如：中国国际对外科技交流中心