WordNet发展概况
WordNet介绍-服务计算汇报PPT
基于语义相似度的服务匹配
• 概念间语义相似度的计算--基于几何距离
– 是广泛采用的方法,但计算复杂度高 – 用两个概念在本体中的几何距离来衡量概念间的语义 相似度。几何距离等于路径及其权重的乘积之和。概 念间可能存在多种路径,则取最短路径。路径越短, 则语义相似度越高。 – 设每条路径的权重为1,则概念n1和n2的语义相似度
• 两个相对独立的任务
– 人工编写WordNet源文件:WordNet词库的实体
– 开发一系列计算机程序:可处理源文件,并最终产生出可以在用 户面前呈现的词典内容
WordNet词库与查询软件的设计与实施
• WorldNet系统包含四部分
– WordNet词典编纂人员的源文件(文本格式)
– 将这些源文件转成WordNet词汇数据库的软件
WordNet概述
• WordNet的对象和关系
• compound(复合词)
• phrasal verb(短语动词)
描述的对象
• collocation(搭配词) • idiomatic phrase(成语) • word(单词) • 同义反义关系(synonymy,antonymy)
对象之间的 语义关系
WordNet中的词汇组织关系
• WordNet的形容词
– 形容词的反义关系
• 描述性形容词的语义组织方式与名词完全不同,采用N维 超空间结构,而不是树形的层次结构。 • 描述性形容词的基本语义关系是反义关系。
Office系列软件的国内外发展现状和比较分析
Office系列软件的国内外发展现状和比较分
析
随着计算机技术的不断发展,办公软件的需求也不断增加。Office系列软件是一种流行的办公软件,包含诸如Word、Excel、PowerPoint等单独应用程序。本文将对Office系列软件的国内外发展现状和比较分析进行探讨。
一、Office系列软件的发展历程
Office系列软件最早可以追溯到1989年,当时由微软推出的第一个版本是Microsoft Office 1.0。随着时间的推移,Office系列软件不断升级,加入了新的功能和工具,同时也受到了竞争对手的挑战。
例如,OpenOffice是一款开源办公软件套件,由Apache、OpenOffice和LibreOffice组成,而Google也推出了Google Docs Suite,这些软件都在提供类似于Office系列软件的标准。
二、Office系列软件在国外的发展
在国外,Office系列软件已经成为商业和教育领域中不可或缺的
办公软件。随着时间的推移,Office系列软件不断升级,增加了许多
新的功能,例如数字签名、网页制作、多媒体处理等。这些附加功能
使得Office系列软件更加强大和多样化,进一步提高了其市场占有率。
Office系列软件在国际市场上的竞争对手主要是Apple的iWork、Adobe的Acrobat、Google的Docs Suite、OpenOffice和
LibreOffice等软件。这些软件的特点是开源免费、使用简便等,因此在某些领域有自己的市场份额。
三、Office系列软件在国内的发展
计算机网络的发展史及现状
计算机网络的发展史及现状
刘庆计算机一班
学号 110310122
计算机网络
连接起来,在网络操作系统,网络管理软件及网络通信协议的管理和协调下,实现资源共享和信息传递的计算机系通过通信计算机网络,是指将地理位置不同的具有独立功能的多台计算机及其外部设备,线路统。
定义:
关于计算机网络的最简单定义是:一些相互连接的、以共享资源为目的的、自治的计算机的集合。
另外,从广义上看,计算机网络是以传输信息为基础目的,用通信线路将多个计算机连接起来的计算机系统的集合。一个计算机网络组成包括传输介质和通信设备。
从用户角度看,计算机网络是这样定义的:存在着一个能为用户自动管理的网络操作系统。有它调用完成用户所调用的资源,而整个网络像一个大的计算机系统一样,对用户是透明的。
一个比较通用的定义是:利用通信线路将地理上分散的、具有独立功能的计算机系统和通信设备按不同的形式连接起来,以功能完善的网络软件及协议实现资源共享和信息传递的系统。
从整体上来说计算机网络就是把分布在不同地理区域的计算机与专门的外部设备用通信线路互联成一个规模大、功能强的系统,从而使众多的计算机可以方便地互相传递信息,共享硬件、软件、数据信息等资源。简单来说,计算机网络就是由通信线路互相连接的许多自主工作的计算机成的集合体。发展史
Internet的基础结构大体经历了三个阶段的演进,这三个阶段在时间上有部分重叠。
因特网
1:从单个网络ARPAnet向互联网发展:1969年美国国防部创建了第一个分组交换网ARPAnet只是一个单个的分组交换网,所有想连接在它上的主机都直接与就近的结点交换机相连,它规模增长很快,到70年代中期,人们认识到仅使用一个单独的网络无法满足所有的通信问题。于是ARPA开始研究很多网络互联的技术,这就导致后来的互联网的出现。1983
WordNet介绍
WordNet介绍
Tutorial: What is WordNet? A Conceptual Introduction Using Python
Edit October 26, 2014: Update imports for TextBlob>=0.8.0.
In short, WordNet is a database of English words that are linked together by their semantic relationships. It is like a supercharged dictionary/thesaurus with a graph structure.
TextBlob0.7 (changelog) now integrates NLTK's WordNet interface, making it very simple to interact with WordNet.
This tutorial is a gentle introduction to WordNet concepts, using T extBlob for the examples. To follow along with the examples, make sure you have the latest version of TextBlob.
Synsets
As you know, synonyms are words that have similar meanings. A synonym set, or synset, is a group of synonyms. A synset, therefore, corresponds to an abstract concept.
word发展历程
word发展历程
Word是Microsoft公司开发的一款文字处理软件,它的发展历程可以追溯到1981年。下面将介绍Word的发展历程。
1981年,Charles Simonyi在Microsoft公司加入并开始开发一个名为Multi-Tool Word的项目。这个软件的目的是提供一个易于使用的文字处理工具,可以在计算机上编辑、排版和打印文档。1983年,Multi-Tool Word发布,并成为首个以WYSIWYG(所见即所得)编辑方式为基础的文字处理软件。
随着计算机的普及和技术的进步,Word逐渐发展成为市场上最流行和使用最广泛的文字处理软件。1989年,Microsoft发布了Word 2.0,其中包括了完全重写的版本,提供了更多功能和改进的用户界面。
1990年代初,Microsoft开始将Word与其它办公套件的软件整合,形成了Microsoft Office套件。这使得Word成为了一个更完整的解决方案,不仅提供了文字处理功能,还包括了表格处理、演示文稿和数据库等功能。
到了1997年,Microsoft发布了Word 97,这是一个重大的改进版本,引入了许多新的特性和功能,包括自动纠错、自动修复格式错误等。此版本也是第一个支持VBA(Visual Basic for Applications)宏语言的Word版本。
随着互联网的发展,Word也逐渐与在线文档编辑和共享平台整合。2000年,Microsoft推出了Office Online,用户可以通
过浏览器访问和编辑Word文档。2001年,Word XP发布,引入了更多在线协作和远程访问功能。
WordNet简介
25个基本类别(25 unique beginners)
{act, activity} {food} {possession} {animal, fauna} {group, grouping} {process} {artifact} …
WordNet 简介
詹卫东
2003.6 zwd@pku.edu.cn http://ccl.pku.edu.cn/doubtfire/
提纲
1 WordNet概述 2 WordNet中的名词 3 WordNet中的形容词 4 WordNet中的动词 5 WordNet词库与查询软件的设计与实施 6 WordNet的应用与发展 7 小结
广泛性假设(comprehensiveness hypothesis):计算 语言学如果希望能像人那样处理自然语言,就需要像 人那样储存尽可能多的词汇知识。
4
WordNet中的核心概念(synonym set)
Lexical Matrix
Sysnet: {board plank} {board committee}
7
WordNet的规模与版本
1989年4月,WordNet中有37409个同义词集合,没有注释 1991年7月, WordNet 1.0版,包含44983个同义词集合,
WordNet简介
WordNet简介
2008-01-05
WordNet简介
· 对于WordNet来说,10年后来清点清点得失似乎是合适的。每个参与其事的研究人员都真诚地感受到它的缺点,并且他们从未觉得这是一个“完工”了的项目。事实上,WordNet仍在继续发展中。
· "WordNet: An Electronic Lexical Database"一书分三部分,16章。第一部分从第1章到第4章,前3章分别介绍WordNet中的名词,形容词,动词,第4章介绍WordNet的设计细节及相关软件的情况(这主要是由普林斯顿大学认知科学实验室的研究人员写的);第二部分和第三部分主要是由普林斯顿认知科学实验室之外的参加WordNet研究工作的研究人员撰写的。第5章和第6章描述了WordNet的改进;第7章从形式化的概念分析的角度描述了WordNet;第8到第16章讨论了WordNet的各种不同应用。
(一)计算机与词库(computers and lexicon)
· 一个人即使不接受把人脑比作计算机的隐喻,也一定同意,计算机提供了一个良好的模式演练场,通过它,人们可以测试各种关于人类认知能力的理论模型。
· 越来越多的人认识到,一个大的词库对自然语言理解,人工智能的各方面研究都具有重要的价值。
· 对大规模机器可读词典的需求同时也带来许多基础问题。首先是如何构造这样一个词库,是手工编制还是机器自动生成?第二,词典中应包含什么样的信息?第三,词典应如何设计,即信息如何组织,以及用户如何访问?实际上,这些问题涉及到词典的编纂方法,词典
wordnet介绍
)作为一般词典的WordNet (WordNet as a dictionary)
· WordNet跟传统的词典相似的地方是它给出了同义词集合的定义以及例句。在同义词集合中包含对这些同义词的定义。对一个同义词集合中的不同的词,分别给出适合的例句来加以区分。
(七)WordNet中的关系(relations in WordNet)
·不同句法词类中的语义关系类型也不同,比如尽管名词都动词都是分层级组织词语之间的语义关系,但在名词中,上下位关系是hyponymy关系,而动词中是troponymy关系;动词中的entailment(继承)关系有些类似名词中的meronymy(整体部分)关系。名词的meronymy关系下面还分出三种类型的子关系(见“WordNet 中的名词”部分)。
(八)网球问题(the tennis problem)
· WordNet是基于同义性和反义(对义)性来描述词语和概念之间的各种语义关系类型的。由于WordNet的注意力不是在文本和话语篇章水平上来描述词和概念的语义,因此WordNet中没有包含指示词语在特定的篇章话题领域的相关概念关系。例如,WordNet中没有将racquet(网球拍)、 ball(球)、net(球网)等词语以一定方式联系到一起。Roger Chaffin在一封私人信笺中,曾把这类问题称为“tennis problem”(网球问题),指的就是如何把racquet、ball、net、court game (场地比赛);或者把physician(内科医生)跟hospital(医院)联系到一起。这对电子词典来说,是一个挑战。已经有一些相关的研究工作在探索如何从WordNet 中包含的词汇和概念之间的语义关系,来推导出话题信息。Hirst和St-Onge描述了一种所谓的“词汇链”(lexical chain)的应用方法。“词汇链”是在基于名词的语义关系构成的上下文中的名词的序列。Al-Halimi和Kazman则在类似的基础上构造“词汇树”(lexical tree)来推导出话题信息。
wordnet
WordNet:概念知识库
WordNet 是美国 Princeton 大学研发的一个英语词汇语义知识库,或者概念知
识库。本 wiki 只介绍 WordNet 里的名词和动词概念,及其概念间的主要关系。
对形容词和副词概念感兴趣的读者,可以参阅 WordNet 的手册或相关论文。
WordNet 的研发历经近二十年,目前的版本是 3.0,FreeBSD 中有它的 port。
WordNet 最初的研发者是 Princeton 大学的一些心理学家。后来,由于计算语
言学(或自然语言处理)的需求,WordNet 成为语义学研究最权威的知识库之一。
概念的表达或构建要通过自然语言完成,不同的文化和历史可能导致概念的差异,进而导致不同语言的词汇语义之间不是一一对应的。例如,中文中“叔叔”、“伯父”、“姨夫”、“舅舅”等概念在英文中没有具体的对应,英文中只有 uncle。
虽然如此,人类的概念在很大程度上是共享的,那些小的差异可以忽略。加上英
语是世界语,这也是 WordNet 在全球得以流行的原因吧。
WordNet 里的概念
所谓“概念”,在 WordNet 里抽象为一个同义词集合,它是 WordNet 的基本单位,也是 WordNet 所要描述的基本对象。例如,“computer”有两个语义,分
别是“计算机”和“计算者”。
IOU@~$ wn "computer" -synsn
Synonyms/Hypernyms (Ordered by Estimated Frequency) of noun computer
WordNet简介
2.17
3.52
形容词
1.45
2.76
副词
1.24
2.41
B.7
WordNet的词汇组织结构
词汇的矩阵模型
Word Meanings
M1 M2 M3
. . . Mm
Word Forms F1 F2 F3 …… E1,1 E1,2
E2,2 E3,3 . . .
Fn Em,n
B.8
WordNet的词汇组织结构
Noun 109195
75804
134716
Verb
11088
13214
24169
Adjective 21460
18576
31184
Adverb 4607
3629
5748
Totals 146350 111223
195817
B.5
WordNet的词汇组织结构
多义词信息(1)
词 性 单义词和语义
名词
94685
WorNet 中词语间的关系
• 名词的语义元素
{living thing,organism} {thing,entity}
{non-living thing,object}
{plant, flora} {animal, fauna} {person, human being}
Internet的发展与现状
Internet的发展与现状
引言
随着人类社会的不断进步和科技的发展,互联网在过去几十年中成为了我们生活中不可或缺的一部分。作为当今世界上最重要的信息交流平台之一,它极大地改变了我们学习、工作、娱乐等方面的方式。本文将探讨Internet的发展历程以及当前的发展现状。
1. Internet的起源
Internet的起源可以追溯到20世纪60年代末期,这个时期美国国防部的一个研究项目ARPANET(先进研究计划署网)被认为是Internet的发源地。ARPANET最初是为了解决美国国防部在信息传输方面的困境而建立的,它采用分布式网络的架构,使得多个计算机之间可以进行数据的交换和共享。
2. Internet的发展进程
2.1 70年代:网络的扩张
70年代,ARPANET开始扩张,新的节点加入网络,使得网络的规模逐渐扩大。随后,一些其他的类似网络也相继出现,例如NSFNET、BITNET等。这些网络的出现使得计算机之间的联络更加密切,信息传递更加高效。
2.2 80年代:TCP/IP的诞生
80年代初,TCP/IP协议的诞生标志着Internet的现代化发展。TCP/IP是一种基于分组交换的数据传输协议,它使得不同网络之间的连接更加简单和可靠。
2.3 90年代:商业化和万维网的兴起
90年代,Internet开始向商业化发展。许多企业和组织看到了Internet的潜力,并开始利用它开展商业活动。同时,万维网的兴起也
使得Internet的普及程度进一步提高。WWW(World Wide Web)是
一种基于超文本的信息传递系统,它的出现让用户可以通过浏览器访
Internet发展史
1、什么是Internet?
Internet是计算机交互网络的简称,又称网间网。它是利用通信设备和线路将全世界上不同地理位置的功能相对独立的数以千万计的计算机系统互连起来,以功能完善的网络软件(网络通信协议、网络操作系统等)实现网络资源共享和信息交换的数据通信网。
2、Internet的起源和发展
Internet的最早起源于美国国防部高级研究计划署DARPA(Defence Advanced Research Projects Agency)的前身ARPAnet,该网于1969年投入使用。由此,ARPAnet成为现代计算机网络诞生的标志。
从六十年代起,由ARPA提供经费,联合计算机公司和大学共同研制而发展起来的ARPAnet网络。最初,ARPAnet主要是用于军事研究目的,它主要是基于这样的指导思想:网络必须经受得住故障的考验而维持正常的工作,一旦发生战争,当网络的某一部分因遭受攻击而失去工作能力时,网络的其他部分应能维持正常的通信工作。ARPAnet在技术上的另一个重大贡献是TCP/IP 协议簇的开发和利用。作为Internet的早期骨干网,ARPAnet的试验并奠定了Internet存在和发展的基础,较好地解决了异种机网络互联的一系列理论和技术问题。
1983年,ARPAnet分裂为两部分,ARPAnet和纯军事用的MILNET。同时,局域网和广域网的产生和逢勃发展对Internet的进一步发展起了重要的作用。其中最引人注目的是美国国家科学基金会ASF(National Science Foundation)建立的NSFnet。NSF在全美国建立了按地区划分的计算机广域网并将这些地区网络和超级计算机中心互联起来。NFSnet于1990年6月彻底取代了ARPAnet而成为Internet的主干网。
计算机网络技术的发展现状及趋势3篇
计算机网络技术的发展现状及趋势
第一篇:计算机网络技术的发展现状
计算机网络技术是指计算机及其他设备通过通信线路连
接起来,进行信息交流和资源共享的技术。随着互联网的崛起,计算机网络技术得到了广泛应用和发展。目前,计算机网络技术已经成为现代信息技术的核心部分之一。
计算机网络技术的发展经历了三个阶段。第一阶段是单
机时代,即计算机仅仅可以单独使用,没有联网的概念。第二阶段是局域网时代,即多台计算机组成一个局域网,实现资源共享和通信。第三个阶段是互联网时代,即在全球范围内实现数据通信和资源共享。
目前,计算机网络技术已经广泛应用于各行各业。在医
疗领域,计算机网络技术可以实现医疗数据的共享和远程会诊;在教育领域,计算机网络技术可以实现远程教育和在线学习;在金融领域,计算机网络技术可以实现在线支付和交易。
随着计算机网络技术的发展,各种新兴应用也在不断出现。例如,物联网技术利用计算机网络技术实现物件之间的信息交流和控制,可以应用于各种智能家居、智能城市等领域。另外,人工智能技术也依赖于计算机网络技术实现数据的传输和处理,可以应用于图像识别、智能机器人等领域。
总之,计算机网络技术的发展已经深刻地改变了人们的
生活和工作方式,为我们提供了更多的便利和效率。未来,计算机网络技术的发展还将继续推动各行各业的变革和创新。
第二篇:计算机网络技术的趋势
随着信息技术的快速发展,计算机网络技术的发展越来
越引人瞩目。未来,计算机网络技术的发展趋势不仅体现在传输速度、网络安全和服务质量等方面,还包括以下几个方面。
一是网络智能化。在传统的计算机网络中,路由和交换
计算机网络技术的发展现状和前景展望
计算机网络技术的发展现状和前景展望
计算机网络技术的发展现状和前景展望
计算机网络技术是现代信息技术的重要组成部分,它以互联网为代表,涵盖了很多领域,包括通信、数据传输、数据存储、安全等方面。在信息化时代,计算机网络技术的发展已经成为社会进步的重要推动力,同时也为人们的生活、工作和学习带来了很多便利,为各行各业甚至国家的发展提供了坚实的基础支持。本文将针对计算机网络技术的发展现状和前景展望进行系统分析和探讨。
一、计算机网络技术的发展现状
1. 传统计算机网络技术的发展
计算机网络技术的前身可以追溯到20世纪初的电话通信技术,当时人们利用电话线路连接两个终端,实现点对点的数据传输。但是随着计算机技术的快速发展和应用的普及,局域网、广域网等各种计算机网络技术相继出现,这些技术大幅度提高了数据传输的效率和速度,极大地推动了现代信息技术的发展。
2. 互联网的出现与发展
互联网的出现是计算机网络技术发展的一个重要节点。20世
纪70年代末到80年代初,美国国防部开始开发一种新型的计算机网络,旨在将各种计算机设备、通信设备、传感器等互相连接起来,实现数据的共享和传输。这个网络就是我们熟知的
互联网。1991年,蒂姆·伯纳斯-李发明了万维网技术,开创了
新一代互联网的时代,使得人们可以更方便地获取、分享和传递信息,给现代社会带来了巨大变革。
3. 新型计算机网络技术的涌现
近年来,随着新一代信息技术的不断涌现和应用,新型计算机网络技术不断被研发和推广,比如5G移动网络、物联网、边
缘计算、区块链等,这些技术大大优化了计算机网络的性能和安全性,推动了信息化进程的深入发展。
计算机网络的发展历程与未来趋势
计算机网络的发展历程与未来趋势计算机网络是指通过通信设备将分散在不同地理位置的计算机设备连接在一起,以实现信息传递和共享资源的系统。随着计算机技术的不断发展,计算机网络也在不断的发展和完善,成为了现代社会信息化建设的重要支撑之一。本文将从以下几个方面展开,介绍计算机网络的发展历程和未来趋势。
一、计算机网络的发展历程
1. 第一阶段:单机操作时代(1960年代-1970年代)
计算机发明之初,只有单台计算机,无法实现资源共享、远程操作和信息交流等功能,因此计算机网络还没有出现。直到1960年代,随着计算机的普及和工业化生产的需要,计算机网络开始萌芽。
在这个阶段,人们使用了串口通信、打印机共享等方式将计算机连接起来,形成了最初的“点对点”网络,用于数据传输和远程操作。但是由于网络规模小,稳定性和安全性较差,所以其功能十分有限。
2. 第二阶段:局域网时代(1980年代-1990年代)
随着计算机应用的普及和大型机的出现,局域网逐渐成为计算机网络的主要形式。1980年代,以太网、令牌环、FDDI等技术的出现,使得计算机网络的规模不断扩大。此时,计算机网络可以实现更高效的资源共享和信息交流,并可支持多种应用系统的同时运行。
3. 第三阶段:因特网时代(1990年代至今)
1989年,因特网的诞生标志着计算机网络进入了新的时代。随着因特网的普及,计算机网络开始向“广域”方向发展,人们可以通过因特网在全球范围内共享资源和信息。同时,万维网也随着Web技术的发展而兴起,使得人们可以在因特网上快速地访问各种信息资源。
Wordnet简介
Wordnet是一个WordNet是一个由普林斯顿大学认识科学实验室在心理学教授乔治·A·米勒的指导下建立和维护的英语字典。在WordNet中,名词,动词,形容词和副词各自被组织成一个同义词的网络,每个同义词集合都代表一个基本的语义概念,一个多义词将出现在它的每个意思的同义词集合中。
WordNet是按语义关系组织的,其语义关系有以下几类:
(1)同义关系。WordNet最重要的关系就是词的同义关系,因为判断词这种关系的能力是在词汇矩阵中表达词义的先决条件。Wordnet中根据替换原则定义同义词:如果两种表达方式在语言文本中相互替代而不改变其真值,则这两种表达就是同义的。因而,WordNet分成名词,动词、形容词和副词几大类。不同词类中的语义关系类型也不同。比如尽管名词都动词都是分层级组织词语之间的语义关系,但在名词中,上下位关系是hyponymy关系,而动词中是troponymy关系;动词中的entailment(继承)关系有些类似名词中的meronymy (整体部分)关系。名词的meronymy关系下面还分出三种类型的子关系(见“WordNet中的名词”部分)。
(2)反义关系。反义词是一种词形间的词汇关系,而不是词义间的语义关系。反义关系为WordNet中的形容词和副词提供了一种中心组织原则。
(3)上下位关系。上下位关系具有某种限制,且是一种不对称的关系(Lyons,1977,v01.1),由下它只有唯一的上属关系,这就产生了一种层次语义结构,其中下位词位于其上属关系的下层。下位词继承了它的上位词——更一般化概念的所有性质,并且至少增加一种属性,以区别它与它的上位词以及该上位词的其他下位词。这种方法为WordNet中的名词提供了一种核心的组织原则。在名词网络中,通过词语的上下位关系来计算词间的距离是WordNet 中简单常用的一种计算相似度方法。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一、WordNet发展概况
·关于WordNet的不成熟的想法可以追溯到20多年前,而这一想法开始逐渐具体化和清晰化则是1985年后才开始的。从85年开始,WordNet作为一个知识工程全面展开。不过,当时的WordNet和经过10多年后今天的WordNet还是很不一样的。
·这一工程最初的前提之一是“可分离性假设”(Separability hypothesis),即语言的词汇成分可以被离析出来并专门针对它加以研究。词汇编纂学的历史明确地告诉我们,在词语水平上可以得到有用的研究成果。词库(词典,lexicon)当然不是完全独立于其他语言成分的,但它的确是可以从其他成分中分离出来的。例如,尽管语音和语法知识在一个人的早年生活中就成型了,但词汇量却可以随着智力活动的不断积累而增加。这表明语言的不同成分涉及不同的认知过程。
·另一个前提是“模式假设”(patterning hypothesis):一个人不可能掌握他运用一种语言所需的所有词汇,除非他能够利用词义中存在的系统的模式和词义之间的关系。这种系统化的心智模式至少从柏拉图时代就成为一种进行推测的学问,现代语言学研究开始在自然语言的语义结构中识别这样的模式。但许多遵循这类路线的出色的研究工作在这一问题上碰到了困难。一个作者可能提出一种语义理论,并以20到50个英语单词为例来展示他的理论,而留下另外10万个单词让读者去做练习。
·第三个前提就是所谓的“广泛性假设”(comprehensiveness hypothesis):计算语言学如果希望能像人那样处理自然语言,就需要像人那样储存尽可能多的词汇知识。
·建立包含词语意义描述的大规模词库的方式之一是基于语义成分分析的词汇语义学(componential lexical semantics)的方法(也可译为义素分析法)。这种方式把一个词的意义分析为更小的概念原子的组合。不过,定义一套概念原子却非易事。事实上,WordNet主帅ler在1976年他与Philip N. Johnson-Laird合作的《Language and Perception》一书中还踌躇满志地探索义素分析的语义描写方法,但直到1985年,仍然没有能够出笼一个完整的定义清晰的清单,在上面列举出所有的概念原子。
·到1985年,许多认知心理学家和计算语言学家开始以“网”的形式来描述词语的意义。比如:“桌子”(table)和“家具”(furniture)代表两个节点(node),而这两个节点之间有一个箭头(dart)来表示这样的命题:桌子是一种家具(a table is a kind of furniture),即“Is-A-KIND-OF”这样的语义关系。随着这方面研究的增多,越来越多的人自觉地意识到:除了利用语义成分(义素分析法)表示语义,还可以利用关系来表示语义(基于关系的词汇语义学relational lexical semantics),而且后者有可能替代前者。
·在WordNet的早期阶段,研究人员主要是在考虑用关系语义来描述词义的方式是否能够大规模地广泛使用,而不是仅仅停留在玩具式的演示水平上。到了研究人员确信这是可行的的时候,他们就编制了应用软件来把想法变成现实。实际上,在早期,Miller并没有关于构建一个大词库的完整想法。初步设想是识别由字符串组成的最重要的词节点,并探索其中的语义关系模式。当时的想法是,如果得到了正确的语义关系模式,词语的定义就能从中推理出来,因此,对于一个有关词义的关系网来说,词义的定义是多余的。
·在1978年的时候,Miller描述了一种“自动化词典”(automated dictionary)的想法。不过那时候他完全不知道该如何实现这种想法。由于Sloan基金会,Spencer基金会,IBM 公司沃盛研究中心(Watson Research Center)的支持,Miller得以一直保持着他的想法,而没有中途放弃。到1984年的时候,Miller甚至在IBM PC机上做出了45个名词的小型语义网,他把这个小网叫做“word net”。Miller在IBM和Bellcore演示了这个示例成果。他在
Bellcore的一帮好友,Lance Miller,Roy Byrd,Michael Lesk,Donald Walker,Robert Amsler,以及Stephen Hanson都鼓励他继续下去,并在技术上给予许多实际指导。
·Lesk邀请Miller参加了1985年11月在加拿大沃太卢(Waterloo)大学新牛津英语词典中心的第一次会议。Miller提交了一篇论文。Miller在那篇论文中解释这样的思想:我们可以使用同义词集合(synset)来代表词汇概念,并描述词汇矩阵,即在词的形式和意义之间建立起映射关系(mapping)。实际上,这正是在WordNet的发展中指导研究工作的主要思想。
·不过,也许Miller在那次会议上的报告所介绍的思想尚在其次,报告的标题反而意义更大。那个标题是由Lesk提议的,叫做:WordNet: A Dictionary Browser。(WordNet:一个词典浏览器)。在这里,WordNet被看作(设想为)是一个词典浏览器,是一个机器可读词典的辅助工具。而这样一个机器词典不是传统地按字母排序的,是基于意义的。
·也就是在WordNet开始成形的时候,Miller和他的一些志同道合的同事在普林斯顿合作发起了一个认知研究的计划(Program for Cognitive Studies)。Richard Cullingford从1983年到1985年在普林斯顿访问,他,Gilbert Herman,加上Miller说服Provost Neil Rudenstine 提供了一台微型计算机。那台计算机也就成了普林斯顿认知科学实验室的心脏。有了设备在手,Miller又去说服海军研究办公室的Susan Chipman跟他们签合同来开发WordNet。Cullingford和Miller一起收到了军队研究所(Army Research Institute)的一个合同,开发一个词汇语义学的计算理论。1986年3月,James S.McDonnell基金向普林斯顿慷慨解囊,支持认知科学的研究工作。Marie BienKowski(Cullingford的研究生)和一个熟练的计算机专家,从1985年开始跟我们一道工作,不久就拿出了我们需要的软件。由此,WordNet真正成为普林斯顿新成立的认知科学实验室几项研究计划中的一个,并开始实际运作。
·用来创建WordNet的最重要的程序是所谓的Grinder(磨床)程序。Bienkowski在1986年用LISP语言写了Grinder的第一个版本。Dan Teibel在1987年用C语言重写了这个程序。Antonio Romero在1989年又重写了一次。Randee Tengi从1991年开始负责管理该程序的所有这些版本。
· WordNet中的词来自不同的地方。Brown语料库、Laurence Urdang的同义反义小词典(1978)、Urdang修订的Rodale同义词词典(1978)、以及Robert Chapmand的第4版罗杰斯同义词词林(1977)等。1986年下半年,Miller得到海军研究与发展中心的Fred Chang 的一个词表,Miller将Chang的词表跟WordNet已有的词表进行了比较,令人沮丧的结果是只有15%的重合词语,于是Miller把Chang的词表加入到WordNet中。1993年,Miller得到了Ralph Grishman和他在纽约大学的同事的一个词表,39143个词,这个词表实际上包含在著名的COMLEX词典中。这一次比较的结果是,WordNet中只包含了COMLEX中74%的词。于是Miller又把这个词表加入到WordNet中。
·随着词表长度的增加,组织工作的压力开始增加。第一步区分是通过句法范畴来进行的。我们创建了不同的文件用于存放名词、动词、形容词(1992年后加入副词)。但在每个句法范畴内,仍有太多的词语,如果没有进一步分类就难以把握。名词由于是开放的词类,因而问题最严重。
· 1987年春,Philip N. Johnson-Laird从英国剑桥应用心理学研究所来到普林斯顿大学访问。他发现WordNet中缺乏手段来区分形容词的意义在修饰不同名词时所发生的变化。他利用266对反义形容词(当时WordNet包含了这些反义形容词对),根据它们修饰名词的适合度来分出名词的次类。结果大约得到名词的25个次类。这些次类构成了名词的基础分类。而且这些不同次类的名词也相应地被分成不同的个别文件交给不同的研究人员去分头加工,从而从工程上推动了WordNet的进展。
·1987年夏,Christiane Fellbaum加入到研究队伍中来,承担了对动词进行次分类的工