计算语言学
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
语音合成: 语音合成:将可视的文本信息转化为可听的 语音信息。 语音信息。 现在语音识别技术还在发展, 现在语音识别技术还在发展,据说可以哑人 手语识别系统借助数据手套, 手语识别系统借助数据手套,将哑人在会话过 程中的手的运动信息提取出来进行识别, 程中的手的运动信息提取出来进行识别 , 提 取其中的语义,并通过语音合成, 取其中的语义,并通过语音合成,最终将他们 的手语信息翻译成语音并输出, 的手语信息翻译成语音并输出 , 便于听力健 全人理解。 全人理解。
印刷汉字识别技术主要包括:
(1) 扫描输入文本图象。 扫描输入文本图象 输入文本图象。 (2) 图象的预处理,包括倾斜校正和滤除干扰噪声等。 图象的预处理 包括倾斜校正和滤除干扰噪声等。 预处理, (3) 图象版面分析和理解。区分出文本段落及排版顺序,图象、 图象版面分析和理解。区分出文本段落及排版顺序,图象、 表格的区域;对于文本区域将进行识别处理, 表格的区域;对于文本区域将进行识别处理,对于表格区域进行 专用的表格分析及识别处理,对于图象区域进行压缩或简单存储。 专用的表格分析及识别处理,对于图象区域进行压缩或简单存储。 (4)行字切分:图象的行切分和字切分。 行字切分: 行字切分 图象的行切分和字切分。 (5)特征提取:提取单字图象统计特征或结构特征。 特征提取: 特征提取 提取单字图象统计特征或结构特征。 (6)文字识别:基于单字图象特征的模式分类。将被分类的模式 文字识别: 文字识别 基于单字图象特征的模式分类。 赋予识别结果。 赋予识别结果。 (7)后处理:识别结果的编辑修改后处理。利用词义、词频、语 后处理:识别结果的编辑修改后处理。利用词义、词频、 后处理 法规则或语料库等语言先验知识对识别结果进行校正的过程。 法规则或语料库等语言先验知识对识别结果进行校正的过程。 其中(4)、(5)和(6),是印刷汉字识别中最为核心的技术。 、 其中 和 ,是印刷汉字识别中最为核心的技术。
满足通常应用 的要求
5000词邮包校核非特定人 词邮包校核非特定人 连续语音识别系统的识别率 达到98. %。 达到 .73%。
一些用户交换机、电话机、手机已经包含了语音识别拨号功能, 一些用户交换机、电话机、手机已经包含了语音识别拨号功能,还有语 音记事本、语音智能玩具。 音记事本、语音智能玩具。人们可以通过电话网络用语音识别口语对话 系统查询有关的机票、旅游、银行信息,并且取得很好的结果。 系统查询有关的机票、旅游、银行信息,并且取得很好的结果。全球语 音识别电话软件年销售收入达上亿美元。 音识别电话软件年销售收入达上亿美元。
二、计算语言学的发展: 计算语言学的发展:
计算语言学的研究首先是从机器翻译开始的。 计算语言学的研究首先是从机器翻译开始的。 1、《圣经@创世纪》中“巴比塔”的传说。 巴比塔”的传说。 、 圣经@创世纪》 2、17世纪中叶展开的“普遍语言”的运动,旨 世纪中叶展开的“ 、 世纪中叶展开的 普遍语言”的运动, 在运用逻辑原则和图形符号的基础上,创造出一 在运用逻辑原则和图形符号的基础上, 种无歧义的语言。 种无歧义的语言。 3、20世纪 年代,法国工程师提出了用机器 世纪30年代 、 世纪 年代, 进行语言翻译的想法,并在1933年7月获得了 进行语言翻译的想法,并在 年 月获得了 一项“翻译机”的专利,叫做“机械脑” 一项“翻译机”的专利,叫做“机械脑”。
(二)具有可操作性: 具有可操作性:
语言研究的可操作性: 语言研究的可操作性 : 告诉人 们怎样从一个现成的句子( 们怎样从一个现成的句子 ( 这 时你并不懂这个句子的具体含 义 ) 变出他的句法结构乃至它 的意义。 的意义 。 其过程是先操作后理 解。
具有工程性: ( 三 ) 具有工程性 : 表现在其涉及领域 的广泛和不能停留在理论和实验阶段, 的广泛和不能停留在理论和实验阶段 , 其最终目标是达到实用化。 其最终目标是达到实用化。 注重语言研究的全局性和一般性: (四)注重语言研究的全局性和一般性: 计算语言学研究的是带有普遍性和一般 性的问题, 性的问题,而传统的语言学家往往喜欢 研究的是内在的规律。 研究的是内在的规律。
五、汉字的信息处理
(一)汉字与信息处理
甲、骨、金、木 笔
汉 字
笔、墨、纸、砚 泥、木印刷术;铅、打字机 木印刷术; 、 、 机 机 机 、 的 字 、
1050
1915 汉字机
(二)汉字输入
汉字键盘输入 汉字输入
汉字识别(OCR) 语音识别
联机手写 脱机手写 印刷体:单体、多体
1、汉字识别 、
电脑的汉字识别功能, 电脑的汉字识别功能,是指用计算机对印刷在纸上 和手写在纸上汉字的自动辨识, 和手写在纸上汉字的自动辨识,它是中文信息处理 中的一项重要功能。 中的一项重要功能。 一个实用的汉字识别系统由扫描器 计算机主机, 扫描器, 一个实用的汉字识别系统由扫描器,计算机主机, 显示器,识别软件和字库等部分组成。 显示器,识别软件和字库等部分组成。 工作过程:文稿,书刊等通过扫描器输入计算机, 工作过程:文稿,书刊等通过扫描器输入计算机, 提取识别特征后与字库进行比较, 提取识别特征后与字库进行比较,并把识别结果显 示出来。 示出来。 大陆和台湾地区的汉字识别研究都已经巧妙地解决 单字印刷体汉字识别 多体印刷体汉字识别和 汉字识别, 了单字印刷体汉字识别,多体印刷体汉字识别和特 定手写汉字识别 打印稿识别的准确率一般可达 识别。 定手写汉字识别。打印稿识别的准确率一般可达 95%。 。
汉字键盘输入
汉字形码输入Байду номын сангаас
王码五笔字型 郑码 T9笔画输入法
汉字键盘输入
全拼,双拼,智能 ABC,微软拼音, 汉字音码输入 紫光拼音,智能狂 拼 极点五笔 五码智拼输入法 音形码|形音码输入 大众形音输入法 母字全能码
字→词、词组→句子;普通话→地方拼音输入(广东拼音)
编码的优缺点(1)
形码的优点 按字型编码,重码率低,最多四码(不超过1万字,理论上 讲可以做到一码一字),适合专业录入员录入写好的文本; 无需顾及读音,对讲不好普通话的人适用; 不认识的汉字照“样”可以输入。 形码的缺点 要记忆的东西较多,难学难记 ; 对字形不同人之间都会有不同的认识,易拆错。 不同人之间都会有不同的认识,易拆错。
计算词汇学: ( 二 ) 计算词汇学 : 研究如何用计 算机处理自然语言的词汇, 算机处理自然语言的词汇 , 建立语 言词汇库, 言词汇库 , 术语数据库等机器可读 词典。 词典。 计算语法学: ( 三 ) 计算语法学 : 研究如何用计 算机来分析自然语言的语法。 算机来分析自然语言的语法 。 这种 研究在计算语言学中叫做自动语法 分析。 分析。
计算语言学
一、计算语言学的定义:是利用计算计研究和处理自 计算语言学的定义: 然语言的学科。 然语言的学科。
狭义:指的是通过建立形式化的计算模型, 狭义:指的是通过建立形式化的计算模型,用计 算机分析、处理、理解并生成自然语言的学科。 算机分析、处理、理解并生成自然语言的学科。 有意见分歧” 例:“有意见分歧” 算一算怎么切分合理 是“有意 见 分歧” 还是 : “有 意见 分 歧” ?
一般来说,完整的语音识别要经历三个步骤: 一般来说,完整的语音识别要经历三个步骤: 三个步骤 语音特征提取: ( 1 ) 语音特征提取 : 目的是从语音波形中提 取随时间变化的语音特征序列。 取随时间变化的语音特征序列。 声学模型与模式匹配( 识别算法) ( 2 ) 声学模型与模式匹配 ( 识别算法 ) : 声 学模型通常将获取的语音特征通过学习算法产 生 。 在识别时将输入的语音特征同声学模型 (模式)进行匹配与比较,得到最佳的识别结 模式) 进行匹配与比较, 果。 计算机对识别结果进行语法、语义分析。 (3)计算机对识别结果进行语法、语义分析。 明白语言的意义以便作出相应的反应。 明白语言的意义以便作出相应的反应。通常是 通过语言模型来实现。 通过语言模型来实现。
6、人们在失败中得到启发,认为要搞好自动翻译, 、人们在失败中得到启发,认为要搞好自动翻译, 必须在语言理论和计算机科学两方面下足功夫, 必须在语言理论和计算机科学两方面下足功夫,其 尤其语言处理理论的研究,人们认识到, 中尤其语言处理理论的研究,人们认识到,如果计 算机无法理解自然语言, 算机无法理解自然语言,机器翻译等只能是空中楼 阁。 7、计算语言学的进一步发展 、 音字转换:语音识别、 音字转换:语音识别、拼音输入 自动文摘: 自动文摘:自动给出一篇或多篇文章的摘要 信息检索: 信息检索:在海量的信息准确找到你所需要的信息 信息过滤:从信息流中筛选出特定的的信息( 信息过滤:从信息流中筛选出特定的的信息(信息 安全、突发事件) 安全、突发事件)…………
PDF转换文件 转换文件 拼音软件
三、计算语言学的学科分类
计算语音学 计算词汇学 计算语法学 计算语义学 语料库语言学
(一)计算语音学:研究如何用计 计算语音学: 算机对语音信息进行处理, 算机对语音信息进行处理,实现语 音的自动识别和合成。 音的自动识别和合成。 语音识别: 语音识别:机器通过识别和理解过 程把语音信号转变为相应的文本或 命令的高技术。 命令的高技术。
(四)计算语义学:如何利用计算机来分析自然 四 计算语义学: 语言的语义。 语言的语义。 语料库语言学: 语料库( corpus)亦称语库 ( 五 ) 语料库语言学 : 语料库 ( corpus) 亦称语库 或素材, 或素材 , 是收集并科学地组织起来的一套语言 材料,这种材料是某种语言中自然出现的, 材料 , 这种材料是某种语言中自然出现的 , 可 以是书面的,也可以是口头的。 以是书面的 , 也可以是口头的 。 语料库语言学 linguistics)是以语料库中的语篇 text)语 是以语料库中的语篇( (corpus linguistics)是以语料库中的语篇(text)语 料为基础对语言进行研究的一门学科。 料为基础对语言进行研究的一门学科。
广义:包括狭义的内容; 广义:包括狭义的内容;还包括 利用计算机对语言文字进行的各 种定量化和精密化的研究。 种定量化和精密化的研究。 中国《红楼梦》的作者: 例1:中国《红楼梦》的作者:前 八十回和后四十回是不是一个人。 八十回和后四十回是不是一个人 。 方言亲属关系的计量: 例2:方言亲属关系的计量:
四、计算语言学的特点
(一)元语言的形式化
对象语言、元语言: 1、 对象语言 、 元语言 : 对象语言指的是人 们要研究的那种语言, 们要研究的那种语言,元语言指的是人们描 述对象语言的那种语言。 述对象语言的那种语言。 从交际的角度来看, 从交际的角度来看,对象语言一般是人类正 在使用的自然语言,也可以是死语言, 在使用的自然语言,也可以是死语言,元语 言一般是人类正在使用的自然语言; 言一般是人类正在使用的自然语言;从人机 交流的角度讲, 交流的角度讲,对象语言一般是类正在使用 的自然语言,也可以是死语言, 的自然语言,也可以是死语言,元语言一般 是人工语言。 是人工语言。
1946年 美国研制出第一台电子计算机, 4、1946年,美国研制出第一台电子计算机, 人 们开始用计算机进行翻译的尝试, 们开始用计算机进行翻译的尝试,当时采用的是 词对词的策略,所以翻译效果不理想。 词对词的策略,所以翻译效果不理想。 5、 在 1960年代初期, 计算语言学曾因做机器 年代初期, 、 年代初期 翻译的应用研究, 翻译的应用研究,受到各国政府的大力支持而风 光一时,然而一直没有满意的成绩。 光一时,然而一直没有满意的成绩。于是美国政 府委托国家科学院评估机器翻译的计划。 府委托国家科学院评估机器翻译的计划。1966 年该评估报告指出: 年该评估报告指出:当时的研究是没有希望做好 机器翻译的。 机器翻译的。
2、语音识别 、
特定人 非特定人 语音识 别 大词汇量 小词汇量 孤立发音 连续发音
中小词汇量非特定人语音 识别系统识别精度已经大 于98% %
清华大学电子工程系,非特定人汉 清华大学电子工程系, 语连续语音识别系统的识别精度, 语连续语音识别系统的识别精度, 达到94. %, %,接近实用水平 达到 .8%,接近实用水平