语言学和当代科学技术技术
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2. 1. 2 什么是词汇本体语义学?
词汇本体(lexical ontology)是对词的意义和用法 的正规、明确的表述。即以机器可读的格式将概 念、定义、词性、关系、用法、规则、目标语翻 译、同义词、反义词、上位词等父域信息、下位 词等子域信息等有效地组织起来。如普林斯顿大 学的WordNet、董振东老师的HowNet(知网)等。 可以采用自然语言、框架、语义网络、逻辑语言 等描述形式(模型)。从而形成词汇本体语义学。 中研院的双语知识词网(Sinica BOW)。
“R(x,y)”相当于自然语言的“x叫y为 R” ,或者“y是x的R”。例如:
(1)姐姐:姐姐(x,y); (2)姐姐:[父∨母(x,x1)]∧女(x1,y)
(4)最后,计算建模。
经过计算机专家的后续处理,形成完整的词 汇语义计算知识平台,再应用到有关的自然 语言处理系统或特定领域的问题求解和内容 计算系统中;通过一定的算法处理,然后用 某种计算机语言来编程实现,形成一种可以 运转的计算机软件系统。
6. 应用实例:亲属关系自动推理
6.1 亲属关系的认知模型和情境网络 6.1.1 什么亲属关系推理? 亲属关系之间的推理(或转换),指根据
有关人物之间已知的几种亲属关系来求得 他们之中未知的一些亲属关系。比如, 已知:阿兰是张三的表妹,
海堂是张三的伯父; 提问:海堂与阿兰是什么关系?
6.1.2 “表哥”的情境网络和汉语亲属关系的认知地 图
6.2 亲属关系的逻辑模型 和语义表示
6.2.1 亲属关系的语义表达式 用一阶谓词逻辑来表示亲属关系。
语言学的词汇和语义学研究,大有可为,前途无 量。这是一种机遇,反过来说,就是一种挑战。
3. 基于关键词搜索的问题
一个小实验:用户输入查询串“三千常用英语 单词(词表)”,搜索引擎Google返回:
a. 《最有效的英语单词记忆方法》、《背英 语单词的五大捷径》、《背单词的最科学方 法》、《潜移默化学英语》等文章;
另一方面,需要有效的语义表示的理论和方法, 还有卓越的语义计算的建模思想和技术路线。
下面,我们展示一种基于认知的语义计算的路线: 一种计算语言学的认知范式,或者说是:一种认 知语言学的计算范式。
5. 基于认知的语义计算的路线
我们在研究的实践中,形成了一种基于认知的 语义计算的技术路线,分为四个步骤:
1. 语言学何为?
1.1 语言研究的价值取向和评价参照 1.2 面向当代科学技术的语言研究 1.3 语言研究的计算机和网络参照 传统语言学以本族说话人为参照物,以满足本族
语言教学的需要为目的。
描写语言学以非本族说话人为参照物,以满足外 语教学和对异文化的了解为目的。
一个时代的语言学,应该有一个时代的科学理想、 人文追求和技术目标。
教授 语言学的老师,你们准备好了吗?我们应 该教给孩子们一些什么样的语言学知识呢?我们 怎样帮助学生们应对来自网络信息处理的挑战?
4. 怎样才能让机器懂得语言的意义?
一方面,需要各种语言知识库作为资源;比如: WordNet等词义概念关系知识库 , VerbNet等动 词角色框架知识库,PropBank等命题知识库。
(1)首先,认知建模。 对有关语言现象所指谓的事件、关系或状态作
出认知假设,对它们所涉及的语义情境进行认 知建模,从而在语义概念层面上建立起对有关 事件、关系和状态进行图式性描述的情境网络。
(2)接着,逻辑建模。
对有关的情境网络进行要素分解和关系分析, 抽象出能够反映关键性的情境要素之间的关 系的逻辑表达式;并且,建立语义公理来表 示有关逻辑表达式之间的推导关系,以反映 相关场景中不同情境之间的关系;从而形成 概念层面的知识推理和语义计算的知识单元。
b. 《中国考试在线》、《中图读者俱乐部》、 《解放军报网络版》、《中企动力科技集团股 份有限公司南京分公司》等网页。
机器不理解语义的后果
因为这些文章(或网页中的文章)的句子中断断 续续地有查询串中出现过的词语。例如: 在记忆英语单词时,三千到四千这个等 级,是非常常用的单词,
基于语义的搜索已经提到议事日程上来了,语言 学应该不应该、要不要、能不能做点什么呢?
2. 语义网和本体知识
2. 1 从World Wide Web到Semantic Web WWW只是人们交换文件的媒体(media) SW则规定在每个网页上增加计算机能看懂
的信息,以便自动进行信息分类和检索。 这需要用资源描述框架(RDF)来描述网页
里的内容,更需要用本体知识(ontology) 来定义和阅读关键词,并进行逻辑推论。
2. 2 本体知识和语义研究
2. 1. 1 什么是本体知识?
本体论(ontology)本来是哲学上研究存在 (being)的性质及其内在关系的理论。
在人工智能、知识工程等计算机科学与技术领域 中,本体知识(ontology)指有关领域对共享概 念的正规、明确的表述。即以机器可读的格式来 定义概念及其关系,用概念的层级体系来反映概 念之间的关系。
1. 4 文本信息处理和语言学知识
当代社会处于计算机和网络时代。于是, 计算机和计算机理解自然语言成了语言学 知识的一个新的参照物。
现在,网络成为语言学知识的一个新的参 照物。因为在网上传输的信息很大一部分 是自然语言,所以语言学必然要在网络信 息处理中扮演重要的角色。比如,网络信 息的文本分类、快速检索、信息抽取、信 息过滤等,都需要语言学知识作支持。
ຫໍສະໝຸດ Baidu(3)然后,语言建模。
为有关语言现象建立词汇句法知识库,从词汇 语义和句法分布等方面对跟有关情境相对应的 词汇和句式进行详细的描写,特别是表示有关 事件(关系或状态)的谓词的语义结构,包括 谓词的各个论元的语义角色、谓词与其论元的 句法配置模式;这样,一方面可以在词汇-句法 知识库和情境网络之间建立联系,另一方面可 以在词汇-句法知识库和真实文本中的有关事件 (关系或状态)的描述实例(语句)之间建立 联系。