人工智能翻译的发展
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
上文已经进行过论述过,要实现真正的机器翻译,必须依赖于 机器智能的实现,而这在短期内是不可能实现的,那么如何能 在可以预见的未来实现初步的机器翻译呢?
机器翻译分为四个层次:“词汇,语法,语义,语用。”前三
个阶段现在都已经各有发展,但是语用的机器实现却一直停滞
不前,因为语用知识包罗万象,在不同的语言,不同的背景中,
不同的文章中语用知识千差万别,在不同的对话中上下文背景
可能截然不同,面对这样的现状,我们唯有面向翻译对象本身,
才可能获得有效的信息,我认为有一种可能的途径解决语用问
题:
-
17
机器翻译的瓶颈
对语句结构进行明确的分类,形成一系列“句型公式”,直到 每一类中都可以只通过变换相同类型的单词就可以实现句意的 转化,通过分类,将每个句子的翻译都递归变化到单词的翻译 。
并同时对词语进行分类,先按照词义进行种类分类,得到每 个词语的具体分类库,这个过程类似于自然界对生物的分类, 界-门-纲-目-科-属-种,再根据词汇可充当的句子成分,(依 赖于句型公式的需要)进行分类,对于句型结构需要的每种词 汇都建立一个词汇库,(以上两种过程均可以通过对词汇附加 属性实现,实际上并不需要单独产生两个库)。还需要一个统 计同一词汇不同含义比率的库- ,这个可以通过对现有所有网页 18
-
12
基于句法的统计机器翻译方法
剪枝策略
*假设合并
—汉语词位置相同
—最后两个英语词相同
—上一次翻译的汉语短语的最后一个词的位置相同
*柱状图剪枝
若假设栈中假设的数目超过设定的最大值,将假设栈中评分
低的剪去
*阈值剪枝
设置栈中假设的最低概率值,当新假设小于阈值的时候进行
剪枝
-
来自百度文库
13
基于句法的统计机器翻译方法
付文青
14S101053
HIT
-
1
目录
1 机器翻译概述 2 机器翻译的原理及方法 3 理解语言,机器翻译的根本瓶颈
-
2
机器翻译
-
3
机器翻译的定义
机器翻译(Machine Translation),是使用电子计算机把一 种自然语言(源语言,Source Language)翻译成另外一种 自然语言(目标语言,Target Language)的一种学科。 这门新学科同时也是一门新技术,它涉及到语言学,计算机科 学,数学等许多部门,是非常典型的多边缘交叉学科。
原文译文: 强烈的感情是甜蜜的 而爱使我们脆弱 你说你珍惜你的自由 所以你拒绝丢失它
Love makes weak
You said you cherished freedom so
You refuse to let it go
机器译文: 激情是甜的 爱使弱 你说你珍惜的自由,以便 你不让它去
-
16
机器翻译的瓶颈
-
5
基于句法的统计机器翻译方法
基于统计的翻译方法是IBM的学者提出,可以归纳为三个重要 部分,分别为语言模型的建模、翻译模型的建模以及解码三个 子部分。 语言模型的建模问题是统计估计中的一个经典问题,即根据当 前词预测下一个词。它是语音识别或光学字符识别的基础,同 时也被用来进行拼写纠错、手写体识别以及统计机器翻译。
-
8
基于句法的统计机器翻译方法
基于树到串对齐模板的翻译模型
•基于树到串对齐模板(简称 TAT )的统计翻译模型是一种 在源语言进行句法分析的基于语言学句法结构的统计翻译模型
•树到串对齐模板既可以生成终结符也可以生成非终结符既 可以执行局部重排序也可以执行全局重排序
•从经过词语对齐和源语言句法分析的双语语料库上自底向 上自动抽取 TAT
谢谢观看
-
19
-
14
机器翻译的瓶颈
之前进行的机器翻译的有益的探索中,凡是取得了结果的研究, 大都努力避开理解语言这一过程。因为这一过程本身涉及到了 AI的终极目标,机器的智能化。然而,这又是一个无法回避的 问题,不能理解语言就不可能进行真正意义上的翻译。
-
15
机器翻译的瓶颈
《burning》 Passion is sweet
—在语言学中,机器翻译是计算语言学的研究领域 —在计算机科学中,机器翻译是人工智能的研究领域 —在数学中,机器翻译是数理逻辑和形式化方法的研究领 域
-
4
机器翻译的方法
按转换层面划分
—直接翻译方法 —句法转换方法 —语义转换方法 —中间语言方法
按知识表示形式划分
—基于规则的方法 —基于实例的方法 —统计的方法
•对于每一棵子树,找到所有与其根节点匹配的 TAT ,计算其
候选译文( Candidate )
•候选译文( Candidate )的数据结构:
–TAT 序列
–部分翻译结果
–累积的特征值
–累积的概率值
-
11
基于句法的统计机器翻译方法
柱搜索算法
采用宽度优先的方式构建搜索树,在搜索树的每层采用启发式 函数对扩展的状态进行评分,通过剪枝选取N个最优的状态进 行扩展
-
9
基于句法的统计机器翻译方法
解码
解码问题最重要的是如何设计合适的搜索策略来获得 最佳翻译效果,以及如何解决空间爆炸问题,为尽可 能在有限的时间内找到最优解,必须采用启发式算法。 最常用的有柱搜索算法、A*算法以及堆栈搜索算法。
-
10
基于句法的统计机器翻译方法
解码
•自底向上
•柱搜索( Beam Search )
-
6
基于句法的统计机器翻译方法
基于短语的统计翻译方法的问题
•泛化能力差 –中国大使馆、美国大使馆 →月球大使馆?
•产生的句子不符合语法 –短语的简单组合,没有句法结构
•无法表示不连续的短语搭配的翻译 –召开了一次关于…的会议 hold a meeting on …
•无法进行长距离的语序调整 •解决办法:引入句法结构!
-
7
基于句法的统计机器翻译方法
形式上基于句法的模型
–不使用任何语言学知识 –所有句法结构直接从未标注的语料库中自动学习得到
语言学上基于句法的模型
–使用语言学知识 –语言通常要从句法树库训练得到
•树到串模型:只在源语言端使用语言知识 •串到树模型:只在目标语言端使用语言知识 •树到树模型:在源语言端和目标语言端都使用语言知识