自然语言理解-词典介绍
自然语言理解-词法分析
语言根据词的形态结构分类
分析型语言
– 没有专门表示语法意义的附加成分 – 汉语,藏语
黏着型语言
– 词内有专门表示语法意义的附加成分 – 芬兰语,日语
曲折性语言
– 用词的形态变化表示语法关系 – 英语,德语,法语
什么是词?
词是语言中最小的能独立运用的单位, 是信息处理的基本单位。
关键:能否在保证无切分盲点的前提 下,给出尽可能小的解空间
分词模型
阶段二——在解空间中求解
解决切分歧义的策略,大致有三: 基于规则 基于词频 基于隐Markov模型
阶段二:在解空间中求解
基于规则
这类研究吸取了人工智能及 专家系 囿于目前汉语parser的能力,任何期望倚 重parser作为解决歧义切分之手段的设想尚缺 乏现实的基础;
汉语双字动词的重叠形式
汉语单字动词的重叠形式
汉语其他词类的重叠形式
名词
– 哥哥,人人 – 山山水水,是是非非,方方面面,头头脑脑
数词
– 一一做了回答,两两结伴而来
量词
– 个个都是好样的,回回考满分
副词
– 常常,仅仅,的的确确
汉语重叠词的特点
汉语词能否重叠具有很强的个性特点
界定词的困难所在
– 单字词与语素之间的划界 – 词与短语之间的划界
汉语自动分词
– 把没有明显分界标志的字串自动切分为词串
背景
汉语的特点: 汉语是大字符集的语言
英语有26个字母,而常用的汉字就有六七千个,总数超 过五万
书面汉语的词与词之间没有明确的分 隔标记
背景
汉语中兼类现象严重
– 研究研究√ – 工作工作×
有些词重叠后词性发生了变化
python+NLTK自然语言学习处理五:词典资源
python+NLTK⾃然语⾔学习处理五:词典资源前⾯介绍了很多NLTK中携带的词典资源,这些词典资源对于我们处理⽂本是有⼤的作⽤的,⽐如实现这样⼀个功能,寻找由egivronl⼏个字母组成的单词。
且组成的单词每个字母的次数不得超过egivronl中字母出现的次数,每个单词的长度要⼤于6.要实现这样的⼀个功能,⾸先我们要调⽤FreqDist功能。
来得到样本字母中各个字母出现的次数puzzle_letters=nltk.FreqDist('egivrvonl')for k in puzzle_letters:print(k,puzzle_letters[k])得到如下结果:可以看出puzzle_letters其实是⼀个可迭代的对象,并且是以字典形式存在的,key值为字母,item为字母出现的次数e 1g 1i 1v 2r 1o 1n 1l 1那么我们是否可以通过FreqDist来⽐较两个单词的字母是否包含呢,来看下⾯的这个例⼦:对两个FreqDist对象进⾏⽐较print(nltk.FreqDist('eg')<=puzzle_letters)print(nltk.FreqDist('ae') <= puzzle_letters)运⾏结果:如果puzzle_letters包含前⾯被⽐较的对象,则会返回true,⽐如eg都包含在'egivrvonl'中,⽽ae尽管e包含在'egivrvonl'中,但是a并不存在,因此返回False.TrueFalse介绍了FreqDist的功能,那么我们⼤致已经清楚该如何实现我们的这个功能。
我们创建两个FreqDist对象,其中⼀个由egivronl组成。
其中由nltk.corpus.words.words()中的单词组成,将两个对象进⾏⽐较得到满⾜的单词puzzle_letters=nltk.FreqDist('egivrvonl')obligatory='r'wordlist=nltk.corpus.words.words()ret=[w for w in wordlist if len(w) >=6 and obligatory in w and nltk.FreqDist(w) <= puzzle_letters]print(ret)obligatory代表单词中必须包含r,然后通过w for w in wordlist if len(w) >=6 and obligatory in w and nltk.FreqDist(w) <= puzzle_letters来得到满⾜条件的单词:1 长度⼤于6 2 r包含在单词中 3 w单词中单词都来⾃于'egivrvonl'得到的结果如下:['glover', 'gorlin', 'govern', 'grovel', 'ignore', 'involver', 'lienor', 'linger', 'longer', 'lovering', 'noiler', 'overling', 'region', 'renvoi', 'revolving', 'ringle', 'roving', 'violer', 'virole']这个功能类似⼀个词谜游戏,通过NLTK中的功能与词典资源可以很轻松的得出结果。
自然语言( natural language)
Brief History
• 20世纪30年代初,法国科学家G.B.阿尔楚尼提出了用 机器来进行翻译的想法。 • 1933年,苏联发明家П.П.特罗扬斯基设计了把一种语 言翻译成另一种语言的机器,并在同年9月5日登记了 他的发明;但是,由于30年代技术水平还很低,他的 翻译机没有制成。 • 1946 年,第一台现代电子计算机 ENIAC 诞生。 • 美国科学家 W. Weaver 和英国工程师A. D. Booth 在讨 论电子计算机的应用范围时,于1947年提出了利用计 算机进行语言自动翻译的想法。 • 1949年,W. Weaver 发表《翻译备忘录》 ,正式提出 机器翻译的思想。
• It may be enriched by review of business process and system documentation, functional or technical specifications, data dictionaries, subject matter experts, or other sources of data knowledge. 每个知识源由条件部分和动作部分 组成,前者说明何时条件适用,而后者则处理相关 的黑板元素和生成新的黑板元素。 • Each knowledge source is organized as a condition part that specifies when it is applicable and an action part that processes relevant blackboard elements and generates new ones. 通过数据挖掘技术将计算实例提炼出来,作为一种 知识源参与到设计优化过程中去,将CAE从设计验 证层次提升到设计驱动层次。
文本表示
基于代数论的模型(Algebraic models)
基于概率统计的模型(Probabilistic models)
2.1 布尔模型-Boolean Model
从所使用的数学方法上分:
基于集合论的模型(Set Theoretic models)
������ 布尔模型(1) ������ 基于模糊集的模型(3) ������ 扩展布尔模型(4) ������ ������ ������ ������ ������ 向量空间模型(2) 潜在语义索引模型(5) 回归模型(6) 二元独立概率模型(7) 语言模型建模IR模型(8)
从所使用的数学方法上分:
基于集合论的模型(Set Theoretic models)
������ 布尔模型(1) ������ 基于模糊集的模型(3) ������ 扩展布尔模型(4) ������ ������ ������ ������ ������ 向量空间模型(2) 潜在语义索引模型(5) 回归模型(6) 二元独立概率模型(7) 语言模型建模IR模型(8)
1.3 基本问题
1.3 基本问题
2 文本表示方法介绍
文本表示意义
文本表示是指将实际的文本内容变成机器内部 表示结构。 可以用字、词、短语、n-Gram等形成向量或 树等结构。 文本表示包括2个问题:表示和计算,表示特 指特征的提取,计算指权重的定义和语义相似 度的定义。 该部分以信息检索为背景介绍文本表示。
2.1 布尔模型(4)
2.1 布尔模型(5)
布尔模型是基于集合论和布尔代数上的 一种简单模型,主要用于信息检索中。 布尔模型中,文档中索引特征项的权重 (w)是二值的,即:w属于{0,1}。 一个文档表示为文档中出现的特征集合, 也可以表示为特征空间上的一个向量, 向量中的每个分量权值为0或1。
自然语言理解讲义第三讲.
CS
NP N 张三 V 是 N 县长 V 派 V’ V 来
的
de 的
自顶向下分析法(14):示例
S
NP VP NP
规则: (1) SNP VP (2) NPN (3) NPCS 的 (4) CSNP V' (5) VPV NP (6) V'V V
使用规则: NPN
CS
NP N 张三 V 是 N N 县长 V 派 V’ V 来
位置不变
自顶向下分析法(23) :一种改进方法
算法 1. 选择当前状态:从可能状态列表中选择第一个状态,并称之为 C。从可能状态表中去掉C。若表为空,在算法失败。 2. 若C的符号表为空。如果位置指向句子末尾,则算法成功;如 果位置不指向句子末尾,则goto 1(回溯)。 3. 否则(若C的符号表不为空),按下面方法产生新状态: 若C的符号表的第一个符号表示词性。如果句子的下一个词具 有该词性,则通过从C的符号表中去掉该符号并调整位置指针 来构造一新状态,然后将新状态加入可能状态列表;如果句 子的下一个词不具有该词性,则goto 1。 否则,若C的第一个符号为其他非终极符,为该符号的每条重 写规则产生一新状态,然后将所有这些新状态加入可能状态 列表。 goto 1.
使用规则: NPN
NP
N 张三 V 是 N 县长 V 派 V 来 de 的
自底向上分析法(4)
规则: (1) SNP VP (2) NPN (3) NPCS 的 (4) CSNP V' (5) VPV NP (6) V'V V
使用规则: NPN
NP
N 张三 V 是
NP N 县长 V 派 V 来 de 的
2
old
3
NLP课件(自然语言处理课件)
智能问答
根据用户提出的问题,自动检 索相关信息并生成简洁明了的 回答。
语音识别和合成
将人类语音转换成文本或将文 本转换成人类语音。
自然语言处理发展历程
早期阶段
以语言学为基础,研究 词语的形态、语法和语 义等。
统计方法阶段
引入统计学方法,利用 大规模语料库进行语言 模型的训练和应用。
深度学习阶段
借助深度学习技术,通 过神经网络模型实现更 复杂的自然语言处理任 务。
未来发展趋势预测
深度学习技术融合
随着深度学习技术的不断发展,未来 自然语言处理将更加注重与深度学习 技术的融合,利用神经网络模型提高 自然语言处理的性能。
知识图谱与语义网
随着知识图谱和语义网技术的不断发 展,未来自然语言处理将更加注重对 文本知识的表示和推理,以及对多源 异构数据的整合和分析。
多模态数据处理
问答系统定义
能自动回答用户提出的问题的系统。
问答系统原理
包括问题分析、信息检索、答案抽取与生成等步 骤。
问答系统实现技术
包括自然语言处理、机器学习、深度学习等技术。
典型案例分析
案例一
基于模板的问答系统,通过预定义模板匹配问题并返回相应答案。
案例二
基于知识图谱的问答系统,利用知识图谱中的实体和关系回答用 户问题。
案例二
基于Transformer的文本生成模型。该模型采用自注意力机 制和位置编码技术,能够生成具有丰富语义和连贯性的长 文本。
案例三
对话生成系统。该系统结合自然语言处理和深度学习技术, 能够根据用户输入的对话内容自动生成符合语境和语义规 则的回复。
08 总结与展望
自然语言处理技术总结
词汇级别处理
自然语言理解 教学大纲
自然语言理解教学大纲教材:自然语言理解赵海清华大学出版社第1章:自然语言处理概要1.概念和术语包括什么是自然语言、自然语言处理和自然语言理解的关系、以及计算语言学。
2.自然语言处理技术的挑战自然语言处理被迫需要承担两类知识一一常识知识与语言学知识的处理和解析任务。
后者属于自然语言处理这一领域独一无二的需求。
3.机器翻译4.语言处理层次形态分析、句法分析、语义分析、语用分析、篇章分析、世界知识分析5.应用型自然语言处理人机对话系统6.自然语言处理的学术出版体系国际计算语言学会(AC1)等第2章:n元语言模型1.概率论基础首先回顾概率论的基本知识,如联合概率、条件概率、贝叶斯等。
2.语言模型用于语言生成语言生成的过程称为解码。
n元语言模型给出的是n元组出现的概率,因此合理或正确的语言现象必然有更大的概率或似然,这一观察是语言模型能在预测性解码任务之中发挥作用的关键。
3.n元语言模型的工作方式n元机制、马尔可夫假设4.评价指标困惑度5.n元语言模型的平滑方法1aP1aCe平滑、Good-TUring平滑、Je1inek-MerCer平滑、KatZ平滑、KneSer-Ney平滑、Pitman-YOr平滑6.非n元机制的平滑方法缓存、跳词、聚类7.平滑方法的经验结果对比几种平滑技巧的组合效果,以及对比它们在困惑度和语音识别的单词准确率上的差异。
8.n元语言模型的建模工具介绍了一些常用的平滑工具包第3章:语言编码表示1.独热表示用独热码表示语言符号2.特征函数一个文本对象样本基于词一级的独热表示就是展示n元组本身,因此这个部分也称之为n元组特征,它也是自然语言最直接、最基本的特征。
3.通用特征模板在实际机器学习模型建立过程中,会用到成千上万维的特征向量,故而涉及成千上万个特征函数,如果这些函数要一个个定义,建模过程将会变得烦琐不堪。
因此,实际上,特征函数可以按照定义属性进行分组,这样统一定义的一组特征函数(对应于特征向量维度上的一个片段)称之为特征模板。
自然语言理解
• 书面理解的基本方法是:在计算机里贮 存一定的词汇、句法规则、语义规则、 推理规则和主题知识。语句输入后,计 算机自左至右逐词扫描,根据词典辨认 每个单词的词义和用法;根据句法规则 确定短语和句子的组合;根据语义规则和 推理规则获取输入句的含义;查询知识库, 根据主题知识和语句生成规则组织应答 输出。
2、句子分析
• 将语音转为文字或直接输入文字之后,要对句 子进行分析。 • (1)基于语法的句子分析 • “曹雪芹的代表作是三国演义吗?”计算机对 其进行自动切分,得出——“曹雪芹 的 代表作 是 三国演义 吗?”与此同时,计算机对其还 进行了自动标注。然后,计算机自左至右逐词 辨认。第一个词“曹雪芹”,查电子词典里有 没有这个词。如果没有,计算机会给出一个表 示不能分析的信号(比如打出一个“?”); 如果有,就把这个词的注解记录下来:专有名 词、人名、清代人等等,再进行下一个分析。
• 进行到第三个词,得到“名词+的+名词”, 查句法规则库,如果没有这样的结构,就不能 分析;如果有,根据句法规则,得到“名词+ 的+名词=Np”,语义规则随即加以解释。如 果解释不通,如错打成“曹雪芹的施耐庵”, 计算机又给出不能分析的信号。解释通了,继 续往下查,NP+V。。。NP十V+N,最后 得出NP十VP十0(名词短语+动词短语十疑 问词)。
• 根据句法规则,疑问词“吗”要求计算机对前面 的NP+VP作出肯定或否定的回答。理解了这个 问句的语义与要求之后,计算机就转向知识库或 数据库查询。根据语义,NP+VP的命题是: “曹舍芹的代表作”和“《三国演义》”是同一本 书,计算机要对这个命题的真假作出判断。如果 计算机在知识库或数据库查不到这方面的知识, 就只能回答“不知道”;如果查到了,得到了这 个命题为假的结果,于是计算机就在显示终端回 答: • “不是。曹雪芹的代表作是红楼梦。
自然语言理解讲义
语言分析的主要困难(1)
困难之一:大量歧义(ambiguity)现象 词法歧义
语义学—Semantics,研究符号与其所指事物 间的(深层)关系。
语用学—Pragmatics,研究交际中如何选用 符号来表达意义。
语言学基本知识:现代语法学
受符号学的影响与推动,现代语法学(表示 为Grammar2)形成三个分支:
句法学—Syntax = Grammar1(含词法与句 法)。
哲学
什么是意义?词与句子如何 获得意义?词如何识别现实 世界的对象?
计算语言学 如何识别句子结构?怎样对 知识和推理进行建模?语言 如何被用以完成特定任务?
运用关于反例的直觉知识进行 自然语言论证; 数学模型 (例如, 逻辑与模型理论)
数据结构和算法;表示与推理 的形式理论;AI技术(搜索和 知识表示方法)
语义学—Semantics,研究词意、句子的语义 结构、概念与概念结构等。
语用学—Pragmatics。
为什么要研究计算语言学?
信息时代的需要!语言是信息的载体。 提高计算机的智能:能理解和处理大量语言信息。
自然语言理解的应用
基于文本的应用 在一文本数据库中查找关于某些主题的合适文档(例如在图书 馆找相关书籍) 从关于某些主题的消息或文章中抽取信息 将文本从一种语言翻译成另一种语言 根据某种目标进行自动文摘
语言与自然语言(2)
语言的第一系统和第二系统
第一系统:语音系统—Sound System。 第二系统:文字系统(书写系统)—Writing
自然语义的元语言阐释
自然语义的元语言阐释张文彦序言一直以来,人们对语言的研究都遵循着皮尔斯的三分法模式:语法、语义、语用。
客观的讲,除了对语音和语法的研究取得一定的成果之外,语义和语用部分进展很缓慢,甚至有的语言学家认为语义研究不能看作一门科学,这是大多数语言学家都无法接受的。
然而事实情况是,不论在哲学领域、人工智能领域、还是词典学界,人们对于语义分析的需求越来越迫切。
于是出现了各种各样的语义分析理论和观点。
今天我们主要介绍的是自然语义元语言的观点。
简单说就是用元语言的办法来解释和处理语义。
(一)自然语义元语言的思想核心1、语言是用来表达意义的,因此对语言的研究应该从意义来着手。
2、不论是词项、语音、还是句法结构,都有着各自的语义,可以称之为词汇语义,语法语义,语用语义等。
甚至会有文化语义。
3、和逻辑学家不同,自然语义元语言的支持者们认为语义研究的并不是符号和现实世界的关系,而是符号和人类认知的世界之间的关系。
4、通过寻找基本义素(或者说是各个语言的共同语义最小片段)的办法,我们可以确定一些最初始的概念或词汇,以此来解释具有复杂语义的概念、词汇、或者句法结构。
(二)研究相关性这样一种寻找基本义素生成语义的思想和形式语义学中对词项和修辞关系确定中所要求的初始谓词有着理念上的异曲同工之处。
SDRT对这些初始谓词报以搁置的态度,究竟有多少初始谓词,应该以什么样的方式组合来生成新的概念,都还没有涉及。
只是在需要用到初始谓词来确定语义时才凸显一下,非常不成系统。
如果自然语义元语言能够找到足够的基本义素,那么自然语义的形式化也就有了坚实的基础。
首先我们来看什么是元语言。
一、元语言的发展历程20世纪20年代,德国数学家Hilbert创造出metamathematics一词,借助于前缀meta-而构成的新概念也不断涌现出来。
(如元科学、元理论、原问题)metalanguage也随之提出。
Meta是标志着研究层面转变的一种哲学语言,指人们的讨论对象由客体(object)转变为讨论(talk)本身。
自然语言理解
汉语词法分析 特点:找出词素简单,切分出词困难。 例如:优秀人才学人才学 1. 优秀人-才学人才学 2. 优秀人才-学人才学
9
第8章 自然语言理解及其应用
8.1自然语言理解的概念与发展历史 8.2 语音分析 8.3 词法分析
8.4 句法分析
8.5 语义分析 8.6 基于语料库的大规模真实文本的处理 8.7 机器翻译 8.8 语音识别
10
8.4 句法分析
8.4.1 乔姆斯基的形式文法
8.4.2 句法分析树
8.4.3 转移网络
8.4.4 扩充转移网络
11
8.4.1 乔姆斯基的形式文法
1950年提出,表示形式:G = (T,N,S,P) T:终结符集合 N:非终结符集合 S:起始符 P:产生式规则集
例 1 G=(T,N,S,P)
.
→ART + N + VP →The man + V + NP
→The man killed + NP
→The man killed + ART + N
→The man killed a deer.
14
8.4.2 句法分析树
句法分析树举例
15
8.4.3 转移网络
转移网络的一般结构
由结点和带有标记的弧构成,其中结点表示状态,弧对 应于符号,实现从一个状态转移到另一个状态。
词法分析算法举例:
repeat look for word in dictionary if not found then modify the word
例:importable分为 import-able或 im-port-able
Until word is found or no further modification possible
自然语言理解
例
名词短语1
动词短语
名词短语2
动词被动语态
介词短语
冠词
名词
动词
名词短语2 专用名词
专用名词 助动词 动词的过去分词 介词
名词短语1
冠词 Jack is
名词 professor
The professor trains
Jack
trained
by
the
自顶向下的分析方法
句法分析
语义分析
语用分析
词法分析
• 词法分析 主要任务是要找出词汇的各个词素,从中获得语言学信息 ,并确定单词的词义。以英语为例,其词法分析的基本算法如下:
repeat look for word in dictionary if not found then modify the word
until word is found or no further modification possible
• 语言虽然表示成一连串的文字符号或者一串声音 流,但其内部事实上是一个层次化的结构,从语 言的构成中就可以清楚的看到这种层次性。 • 用文字表达的句子: 词素 词或词形 词组或句子
• 用声音表达的句子: 音素 音节 音词 音句
语音分析 词法分析 五 个 层 次 :
在有声语言中,最小可独立的 声音单元是音素,音素是一个 或一组音,它可与其他音素相 区别。语音分析则是根据音位 规则,从语音流中区分出一个 个独立的音素,再根据音位形 态规则找出一个个音节及其对 应的词素或词。
例 利用上述上下文无关文法,给出如下语句的分析树。 The professor trains Jack. 解:
语句 句子 名词短语 冠词 名词 动词短语 动词 终标符
自然语言处理技术分享1
内容大概分为:自然语言处理的简介、关键技术、流程及应用。
首先,介绍一下什么是自然语言处理(也叫自然语言理解):语言学家刘涌泉在《大百科全书》(2002)中对自然语言处理的定义为:“自然语言处理是人工智能领域的主要内容,即利用电子计算机等工具对人类所特有的语言信息(包括口语信息和文字信息)进行各种加工,并建立各种类型的人-机-人系统,自然语言理解是其核心,其中包括语音和语符的自动识别以及语音的自动合成。
”从微观上讲,自然语言理解是指从自然语言到机器(计算机系统)内部之间的一种映射。
从宏观上看,自然语言理解是指机器能够执行人类所期望的某些语言功能。
这些功能包括:①回答有关提问;计算机正确地回答用自然语言输入的有关问题②提取材料摘要;机器能产生输入文本的摘要③同词语叙述;机器能用不同的词语和句型来复述输入的自然语言信息④不同语言翻译。
机器能把一种语言翻译成另外一种语言自然语言处理的关键技术自然语言处理的关键技术包括:词法分析、句法分析、语义分析、语用分析和语句分析。
1.词法分析词法分析的主要目的是从句子中切分出单词,找出词汇的各个词素,并确定其词义。
词法分析包括词形和词汇两个方面。
一般来讲,词形主要表现在对单词的前缀、后缀等的分析,而词汇则表现在对整个词汇系统的控制。
在中文全文检索系统中,词法分析主要表现在对汉语信息进行词语切分,即汉语自动分词技术。
通过这种技术能够比较准确的分析用户输入信息的特征,从而完成准确的搜索过程。
它是中文全文检索技术的重要发展方向。
不同的语言对词法分析有不同的要求,例如英语和汉语就有较大的差距汉语中的每个字就是一个词素,所以要找出各个词素是相当容易的,但要切分出各个词就非常难。
如”我们研究所有东西“,可以是“我们——研究所——有——东西”也可是“我们——研究——所有——东西”。
英语等语言的单词之间是用空格自然分开的,很容易切分一个单词,因而很方便找出句子的每个词汇,不过英语单词有词性、数、时态、派生、变形等变化,因而要找出各个词素就复杂得多,需要对词尾和词头进行分析。
自然语言( natural language)
基于规则 ( Rule-Based )的机译系统
• 语法型 研究重点是词法和句法 以上下文无关文法为代表 研究重点是在机译过程中引入语义 特征信息 • 语义型 以Burtop提出的语义文法和 Charles Fillmore提出的格框架文 法为代表。
目标是给机器配上人类常识
• 知识型
以实现基于理解的翻译系统,以 Tomita提出的知识型机译系统为 代表。
翻译过程
原 文 译 文 转 换
原 文 分 析
译 文 生 成
文转换 建立相关独立生成系统 考虑译语的特点
译文生成(独立)
不考虑原语的特点
在搞一种语言对多种语言的翻译时
原文分析(独立) 不考虑译语的特点
原文译文转换
结合 译文生成
建立独立分析 相关生成系统
统计规律 statistical law
• From photoelectric effect, light quantum theory, Compton scattering effect and the matter wave of De Broglie and its statistical law, the teaching method on wave
自然语言处理
• 是计算机科学领域与人工智能领域中的一个重要方向。 • 它研究能实现人与计算机之间用自然语言进行有效通 信的各种理论和方法。
• 自然语言处理是一门融语言学、计算机科学、数学于 一体的科学。
• 这一领域的研究将涉及自然语言,即人们日常使用的 语言,所以它与语言学的研究有着密切的联系,但又 有重要的区别。 • 自然语言处理并不是一般地研究自然语言,而在于研 制能有效地实现自然语言通信的计算机系统,特别是 其中的软件系统。因而它是计算机科学的一部分。
自然语言的心理表征与词典释义
中国·广州 现代外语 1998年第3期(总第81期):46261自然语言的心理表征与词典释义 章宜华随着教育事业的不断发展,人们认识到传统消极型词典不能适应学习和教学的需要,着手编纂并出版了大量的积极型学习词典。
但大多数学习词典仍采用传统的“充分必要条件”进行释义,继续严格遵循“替代性”原则,使释义的质量难以得到根本的提高。
本文从自然语言语义生成的心理表征入手,对现行的释义方式和原则提出质疑,指出应采用自然语言的概念结构、语义结构和句法结构,在各种规范化规则和语用规则的制约下进行释义,从根本上改变传统的释义方法和原则,提高积极型学习词典的释义质量。
关键词: 积极型词典 释义 概念结构 优先规则 搭配11引言 自然词汇产生于一定的语言和社会环境,每一个词的出现都伴随着特定的使用语境和创造者的心理动机。
一旦这个词进入语言系统、为公众所接受,这些原始特征也作为词的意义成分,与词的所指对象和声音一道存入人的大脑,构成复合所指内容。
当人们对这些词进行释义时,必须要反映这些意义成分。
然而,传统词典和现今许多学习词典的释义,对自然语言的语义结构或概念结构以及认知语言学在这方面所取得的研究成果没有给予足够的重视,只是凭感觉来寻觅概念的“充分必要条件”,并把“替代性”作为释义原则长期严格遵循。
这种释义难以全面、准确地揭示词义,受到了许多语言学家的批评(见212,213);更重要的问题是这种释义难以适应迅速发展的教育和学习的需要。
那么,自然词汇是怎样为人所习得并贮存在大脑中的?人们是怎样根据需要调用、组织词汇来表达思想的?我们有必要对这些问题做一些探讨,以便使我们的词典释义与人们的心理表征相符合。
应当指出的是,本文并非试图论述完整的形式语义理论和心理表征结构特征,只是想探讨一下这些意义理论,特别是心理表征对词典释义有益的某些方面。
21概述在50年代末期出现了生成语法,其研究对象是内在化语言,目标就是解释和描述人们对语言的直觉或语感。
自然语言理解
1 引言自然语言理解这个概括的术语,适用于多样的电脑应用,从小型、相对简单之事,例如发给机器人的简短命令,到高度复杂的任务,例如完全读懂报纸新闻或理解一段诗。
许多真实世界的运用介于两个极端之间,例如文本分类用于自动分析电邮,并且将其转发至公司适合的部门,并不需要深切理解文本[1],但是比起结构固定的数据库之查询,要处理的词汇以及句法更广更多样。
自然语言理解系统设定的目标深度与广度,决定其复杂度(连带隐含的挑战)与处理的应用类型。
系统的广度以其词汇及文法的多寡来衡量;系统的深度以其相对于母语人士的理解程度来衡量。
“近似英语”指令的翻译程式属于最窄浅的一种,但处理的应用也少。
狭窄但深入的系统探究并模拟理解的机制[2],但应用范围仍然有限。
超越简单关键字对比的文件内容理解系统,例如判断新闻稿是否适合某读者,属于比较宽广的系统,也算复杂[3],但是仍然有些浅薄。
既广且深的系统,现今的尖端技术仍无法达成。
2 概念及主要内容自然语言处理(N LP , Natural Language Processing)是使用自然语言同计算机进行通讯的技术, 因为处理自然语言的关键是要让计算机“理解”自然语言,所以自然语言处理又叫做自然语言理解(NLU ,Natural Language Understanding), 也称为计算语言学(Computational Ling uistics)。
一方面它是语言信息处理的一个分支, 另一方面它是人工智能(AI , Artificial Intelligence)的核心课题之一。
Natural Language Understanding 俗称人机对话。
人工智能的分支学科。
研究用电子计算机模拟人的语言交际过程,使计算机能理解和运用人类社会的自然语言如汉语、英语等,实现人机之间的自然语言通信,以代替人的部分脑力劳动,包括查询资料、解答问题、摘录文献、汇编资料以及一切有关自然语言信息的加工处理。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
中古英语storie<古法语estoire<拉丁语historia n -ries (1)故事,小说;传闻;轶事
Please read us a story! 请给我们读个故事!
(2) 谎话,假话 (3)(书籍、电影、戏剧等的)情节 (4)(报刊、杂志文章的)素材,题材
机读词典的分类
新华社词语数据库· 国际组织
“2000年问题”联合委员会/joint year 2000 council/ International “4· 19”运动/movement april19/ Colombia “阿尔法66”/"alpha 66"/ Cuba “俄罗斯地区”社会联盟/regions of russiagroup/ Russia “法中-2000年”协会/france-china association for the year 2000/ France “繁荣”党/prosperity/ Russia “光明的日本”国会议员联盟/parliamentary union for a bright japan/ Japan “基地”组织/al qaeda/ Saudi Arabia 《财富》杂志/fortune/ USA 《朝日新闻》/asahishimbun/ Japan 国际献血组织联合会/international federation of blood donor organizations/ International 国际宪法学协会/international association of constitutional law/ International 国际香料集团/international spice group/ International 经济和外贸部/ministry of economy and external trade of syria/ Syria 经济和外贸部/ministry of economy and foreign trade of egypt/ Egypt
知网(Hownet)2
打017144exercise|锻练,sport|体育 男人059349human|人,family|家,male|男 高兴029542aValue|属性值,circumstances|境况,happy|福,desired|良 生日072280time|时间,day|日,@ComeToWorld|问世,$congratulate|祝贺 写信089834write|写,ContentProduct=letter|信件 北京003815place|地方,capital|国都,ProperName|专,(China|中国) 爱好者000363human|人,*FondOf|喜欢,#WhileAway|消闲 必须004932{modality|语气} 串015204NounUnit|名量,&(grape|葡萄),&(key|钥匙) 从良016251cease|停做,content=(prostitution|卖淫) 打对折017317subtract|削减,patient=price|价格,commercial|商,(range| 幅度=50%) 儿童基金会024083part|部件,%institution|机构,politics|政,#young| 幼,#fund|资金,(institution|机构=UN|联合国)
新华社词语数据库· 人名
知网(Hownet)
作者:董振东董强 网站: 概念描述举例
NO.=017144 W_C=打 G_C=V E_C=~网球,~牌,~秋千,~太极,球~得很棒 W_E=play G_E=V E_E=DEF=exercise|锻练,sport|体育 其中DEF是核心,采用特定的“知识描述语言”
机读词典与人读词典
人读词典(Human Readable Dictionary)
格式不规范 数据完整性和一致性不好 非结构化 格式规范 数据完整性和一致性较好 结构化
机读词典(Machine Readable Dictionary)
人读词典(demo)
金山词霸
story
规模:7万多词条
名词 时间词 处所词 方位词 数词 量词 区别词 代词 动词 形容词 状态词 副词 介词 连词 助词 语气词 前接成分 后接成分 成语 简 称 略语 习用语 语素 标点符号 动词代词
词性分库
汉语语法信息词典· 总库
汉语语法信息词典· 动词库
汉语语法信息词典· 谓宾动词分 库
新华社词语数据库
全库分为中文和外文两个大类,主要包 括中文新闻库、经济信息库、证券库、 人物库、组织机构库、专题资料库等中 文数据库,还包括XinhuaNews Bulletin 、 Who’s Who in China等英文数据库。共 有28个库100多个子库,数据量达80多亿 汉字,并以日均150万汉字的速度增长。
Construction of dictionaries (databases, handbooks) construction and production of dictionaries using electronic publishing
计算词典编纂学computational lexicography
按信息类型分类
语法词典 语义词典(包括同义词典) 双语词典 …… 通用词典 专业词典(术语词典) 专名词典 ……
.按领域分类
汉语语法信息词典
开发单位:北京大学计算语言学研究所 参考文献:
俞士汶等(1998)《现代汉语语法信息词典详解》,清华大 学出版社、广西科学技术出版社1998年版。 总库 词性库
词典
词典与词典编纂的研究
词典学lexicology
Theory and description of lexical information formal modeling of lexical information
计算词典学computational lexicology
词典编纂学lexicography