词对齐规范

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

• 真对齐可以进一步分为强对齐和弱对齐:
比如:
短语表:
去年 秋天 last autumn
Biblioteka Baidu
秋天 autumn 去年秋天 last autumn
去年 last
强对齐:语义完全对等 弱对齐:语义相通,为真对齐的词组而设
三. ICT-NICT规范的几种对齐标注形式 2. 伪对齐
三. ICT-NICT规范的几种对齐标注形式
• 存在的问题
A. 大都采用了粘合的对齐方式,但是没有区分粘合和被粘 合的部分:
如:张三 李四 写 的 书 。
books written by Zhang San and Li Si
二. 手工词语对齐规范的历史
• 存在的问题
A. 大都采用了粘合的对齐方式,但是没有区分粘合和被粘 合的部分:
如:张三 李四 写 的 书 。
去年 秋天 last autumn
三. ICT-NICT规范的几种对齐标注形式
• 真对齐可以进一步分为强对齐和弱对齐: 比如:
去年 秋天 ? last autumn
三. ICT-NICT规范的几种对齐标注形式
• 真对齐可以进一步分为强对齐和弱对齐: 比如:
去年 秋天 last autumn
三. ICT-NICT规范的几种对齐标注形式
books written by Zhang San and Li Si
抽提出来的词组是:张三 by Zhang San
二. 手工词语对齐规范的历史
B. 除了ARCADE规范外,其它规范都允许将指示代词对齐到 被指代物: 如: 我 买 了 张 椅子 ,椅子 很 贵 。
I bought a chair . That is very expensive .
Chinese Vice Foreign Minister on China ASEAN Relations
三I.CITC-TN-INCITC规T规范范的的几几种种对对齐齐标标注注形形式式
2. 伪对齐
2.2.语义相通之小范围内的语义对等
如:唐 家璇 谈 中国 与 东盟 关系
• 存在的问题
A. 大都采用了粘合的对齐方式,但是没有区分粘合和被粘 合的部分:
二. 手工词语对齐规范的历史
• 存在的问题
A. 大都采用了粘合的对齐方式,但是没有区分粘合和被粘 合的部分:
如:张三 李四 写 的 书 。
books written by Zhang San and Li Si
二. 手工词语对齐规范的历史
三. ICT-NICT规范的几种对齐标注形式
• 真对齐可以进一步分为强对齐和弱对齐: 比如:
三. ICT-NICT规范的几种对齐标注形式
• 真对齐可以进一步分为强对齐和弱对齐: 比如:
去年 秋天 last autumn
三. ICT-NICT规范的几种对齐标注形式
• 真对齐可以进一步分为强对齐和弱对齐: 比如:
一.词语对齐引起的机器翻译问题 • GIZA++对齐结果导致指代翻译错误: • President <─> 江泽民
• 我国 <─> China
原因:只有一种对齐方式,没有将确定性的对齐和不确定的
对齐区分开。
词语的手工对齐
二. 手工词语对齐规范的历史
• 几个知名的手工词语对齐规范
对齐规范 作者
Blinker规范
一.词语对齐引起的机器翻译问题 • GIZA++对齐结果导致指代翻译错误: • President <─> 江泽民 • 我国 <─>
一.词语对齐引起的机器翻译问题 • GIZA++对齐结果导致指代翻译错误: • President <─> 江泽民 • 我国 <─> China
一.词语对齐引起的机器翻译问题 • GIZA++对齐结果导致指代翻译错误: • President <─> 江泽民 • 我国 <─> China
一.词语对齐引起的机器翻译问题 • GIZA++对齐结果导致指代翻译错误: • President
一.词语对齐引起的机器翻译问题 • GIZA++对齐结果导致指代翻译错误: • President <─> 江泽民
一.词语对齐引起的机器翻译问题 • GIZA++对齐结果导致指代翻译错误: • President <─> 江泽民
提纲
一.词语对齐引起的机器翻译问题 二.手工词语对齐规范的历史 三. ICT-NICT规范的几种对齐标注形式 四. ICT-NICT规范对齐规则举例 五. 对齐标注一致性评价
一.词语对齐引起的机器翻译问题 • GIZA++对齐
一.词语对齐引起的机器翻译问题 • GIZA++对齐
一.词语对齐引起的机器翻译问题 • GIZA++对齐结果导致指代翻译错误:
1. 真对齐: 语义完全对等 互译具有较大的普遍性
三. ICT-NICT规范的几种对齐标注形式
1. 真对齐: 语义完全对等 互译具有较大的普遍性
正例:
大选 general election 有 麻烦 in trouble 完税 duty paid
反例: 钱其琛 认为
Qian said
三. ICT-NICT规范的几种对齐标注形式 • 真对齐可以进一步分为强对齐和弱对齐:
ARCADE规 范
Dan Melamed
Jean Véronis
年代 语种
特点
1998-2 英/法
鼻祖、粘合、全连
《圣经》 线
1998-4 法/英
特殊,指代表示不 能对齐但需要标记
GALE规范 LDC
2006-9 汉/英 2008-5
全面、粘合
二. 手工词语对齐规范的历史
• 存在的问题
二. 手工词语对齐规范的历史
2. 伪对齐
不确定的
三. ICT-NICT规范的几种对齐标注形式
2. 伪对齐:
不确定的 -----只在小范围内语义相通或语法相关
语义相通
指代 小范围内的语义对等 语义一致的省略
语法相关
三. ICT-NICT规范的几种对齐标注形式
2. 伪对齐
2.1. 语义相通之指代 如:唐 家璇 谈 中国 与 东盟 关系
抽提出来的词组是:椅子 that
三. ICT-NICT规范的几种对齐标注形式
对齐
确定的对齐--- 真对齐
强对齐 弱对齐
不确定的对齐---伪对齐
三. ICT-NICT规范的几种对齐标注形式 1. 真对齐:
三. ICT-NICT规范的几种对齐标注形式
1. 真对齐: 语义完全对等
三. ICT-NICT规范的几种对齐标注形式
相关文档
最新文档