机器翻译理论和技术

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

信息抽取的结果
会 议 时 间 Time 1998年3月8日
会 议 地 点 Spot
会议召集者 / 主 持 人 Convener 会议名 / 标题 Conf-Title
北京
个人姓名 / 团体 名称 Name 机 构 、 职 位 Org/Post 蒋正华 主席,农工民主党中央
中国农工民主党第十二届中央常务委员会 第一次会议

对机器翻译、自动问答、数据挖掘(文本挖掘)等 提供支持。
信息抽取实例:会议报道(人民日报1998-03-09)
新华社北京3月8日电(记者李术峰): 中国农工民主党第十二 届中央常务委员会第一次会议今天在北京召开。 会议研究通过了贯彻落实“两会”精神的有关决定,审议通过了 中国农工民主党中央1998年工作要点(草案),并任命了中央副 秘书长。 农工民主党中央主席蒋正华主持了会议,他说,农工民主党有1 00多名党员作为代表和委员参加了今年的“两会”,各位党员要认 真履行代表和委员的职责,开好会,在1998年的工作中认真贯彻 “两会”精神,加强农工民主党的自身建设,推动事业进一步发展, 为建设有中国特色社会主义事业作出新的贡献。 会前,农工民主党中央邀请参加“两会”的来自全国各省、自治 区、直辖市的农工民主党党员进行了联谊活动。

与NLP相近的两个研究领域:

NLP技术的应用源自文库
机器翻译 自动摘要 文本分类与信息过滤 信息检索 信息抽取与文本挖掘 情感分析 自动问答 ......

机器翻译(Machine Translation)

机器翻译(Machine Translation,简称MT)是指 利用计算机实现自然语言(英语、汉语等)之间的 自动翻译。
所需的前导知识
编译技术 概率与统计

参考书籍



宗成庆,统计自然语言处理,清华大学出版社,2008 刘群等译,自然语言理解(第二版),电子工业出版社,2005 苑春法等译,统计自然语言处理基础,电子工业出版社,2005 冯志伟等译,自然语言处理综论,电子工业出版社,2005 黄昌宁等,语料库语言学,商务印书馆,2002 冯志伟,计算语言学基础,商务印书馆,2001 余士文,计算语言学概论,商务印书馆,2003 姚天顺,自然语言理解--一种让机器懂得人类语言的研究(第 2版),清华大学出版社,2002 赵铁军等,机器翻译原理,哈尔滨工业大学出版社,2000 宗成庆等译,统计机器翻译,电子工业出版社,2012 Peter F. Brown, et al., A Statistical Approach to MT, Computational Linguistics, 1990,16(2)

是最早的计算机应用之一 分为:文本机器翻译和语音机器翻译

机器辅助翻译(Machine Aided Translation或 Computer Aided Translation,简称MAT或CAT)

翻译记忆体(Translation Memory,简称TM) 双语对照的文本编辑 ...
自动摘要(Text Summarization)
利用计算机自动地从原始文档中提取全面准确地 反映该文档中心内容的简洁、连贯的短文。 指标:压缩比、...

文本分类(Text Classification)
将一篇文档归于预先给定的一个类别集合中的某一 类或某几类。 可用于


图书馆的图书分类 信息过滤 ......
(http://cs.nju.edu.cn/chenjiajun/nlp_traditional.ppt)
主要内容(3)

基于语料库的自然语言处理方法(经验方法)

语言模型(N元文法) 分词、词性标注(序列化标注模型) 句法分析(概率上下文无关模型) 文本分类(朴素贝叶斯模型、最大熵模型) 机器翻译 (IBM Model等) ......(基于神经网络的深度学习方法)
信息检索(Information Retrieval,IR)

主题相关的文本获取。

基于关键词,从某文档集合中检索出相关的文档。 关键技术:倒排索引、...

google、百度、...
信息抽取(Information Extraction,IE)

主题相关的信息获取。

基于某个主题模板,从非结构化或半结构化的自然语言文 本中提取出相关的结构化信息。
(http://cs.nju.edu.cn/chenjiajun/nlp_traditional.ppt)
主要内容(2)

基于规则的自然语言处理方法(理性方法,传统 方法)

基于词典和规则的形态还原(英语)、词性标注以及 分词(汉语、日语) 基于CFG(上下文无关文法)和扩充的CFG(复杂特 征集、合一运算)的句法表示及其分析技术 基于逻辑形式和格语法的句义分析 基于规则的机器翻译
课程考核

Projects

提交报告(说明基本做法)和源程序及可运行的程序
期末笔试
自然语言处理概述
什么是自然语言处理
充分利用信息将会给人们带来巨大的收益,而大 量的信息以自然语言(英语、汉语等)形式存在。 如何有效地获取和利用以自然语言形式出现的信 息?


自然语言处理(Natural Language Processing,简 称NLP)是指用计算机对语言信息进行处理的方法和技 术。 自然语言理解(Natural Language Understanding, NLU):强调对语言含义和意图的深层次解释 计算语言学(Computational Linguistics, CL):强调 可计算的语言理论
自然语言处理
Natural Language Processing(NLP)
陈家骏,戴新宇 chenjj@nlp.nju.edu.cn dxy@nlp.nju.edu.cn
主要内容(1)

自然语言处理概述

什么是自然语言处理 自然语言处理技术的应用 自然语言处理的基本策略和实现方法 自然语言处理的难点 自然语言处理所涉及的学科
相关文档
最新文档