Wordnet中的各种关系
WORDNET与HOWNET之比较

WORDNET与HOWNET之比较作者:张笛来源:《青年文学家》2011年第13期摘要:本文在对Wordnet和Hownet进行简单介绍的基础上,从理论基础,设计原理与建设方法,目的与应用这三个大方面进行了比较。
从而找出两个系统的相似之处和差异,以期对自然语言处理有所帮助。
关键词:Wordnet;Hownet ;比较;语义作者简介:张笛,临沂大学外国语学院讲师,语言学。
近年来,随着计算机本身以及信息高速公路的飞速发展,人们开始更加重视语义的研究。
各国都致力于可用于自然语言处理的大规模语义词典或大规模知识库的建设。
例如:普林斯顿大学的英语Wordnet,微软的Mindnet,欧洲有基于Wordnet的Eurowordnet,日本的日语和英语的概念词典,韩国的Koreanwordnet,中国有以Wordnet为框架而研制的现代汉语概念词典——中文概念辞书(CCD)和董振东、董强的Hownet(知网)。
Wordnet是一个在线的英语词汇数据库(词汇参照系统),而Hownet是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。
现在两者都被放在网上,供人们使用,并且可以参与他们的完善、扩展和发展。
所以,本文拟把二者放在一起进行比较研究,找出两个系统的相似之处与差异,取长补短,以期为自然语言处理寻求一个较为完善的语义关系系统。
一、理论基础首先,二者都以一种“模式假设”(patterning hypothesis)为前提和理论基础。
其次,“理解性假设”(comprehensiveness hypothesis)也是二者的理论基础。
但二者的理论基础不同之处也很多。
Wordnet的一个较主要的理论基础是“可分离性假设”(separability hypothesis)即语言的词汇成分可以被离析出来并专门针对它加以研究。
Hownet的最重要的理论基础是它的哲学。
一个在线义类词库:词网WordNet

/paper_110583811_1/论文标题:中文信息处理专题研究:语义研究一个在线义类词库:词网WordNet论文作者陈群秀(论文关键词,论文来源语言文字应用,论文单位京,点击次数184,论文页数69~104页1998年1998月论文网/paper_110583811/ 计算机的自然语言理解和处理,依赖于计算语言学的研究成果。
)与计算词汇学和计算句法学相比,计算语义学是计算语言学领域里一门比较年轻的学科。
相对而言,句法分析的理论和技术发展得比较成熟、完善,而语义分析的理论和技术起步比较晚,尚处于探索阶段,空白点较多而且难度最大。
目前,自然语言理解正处于一个关键时期,处在取得重大突破的前夜,而语义研究领域的进展和突破对全局的进展和突破有至关重要的作用。
语义包括词汇义、句义、篇章义等,其中最根本最重要的是词汇义的研究。
词汇义的研究和表示的方法有多种,很重要的一种是语义分类。
人读的义类词典几乎各国都有,机读的(即信息处理用的)义类词典在日本、美国等先进国家也都有研究或成果。
在国内外同类课题中,最著名的是普林斯顿大学Miller等人研制的英语词网数据库WordNet。
该词网旨在从心理语言学角度建立英语词汇基本语义关系的实际模型。
本文简要介绍这个在线的义类词库。
一词网WordNet的概况WordNet是一个在线词汇参照系统(在网上可机读的英语词库),是一个基于心理语言学原则的机器词典。
WordNet用大家熟悉的拼法来表示词形,用同义词集Synsets(在一定上下文中可以互换的同义词形的列表)来表示词义。
有两种关系:词汇的和语义的。
词汇关系存在于词形间,语义关系存在于词义间。
通常的人读词典或机读词典是按字母顺序组织词汇信息,将拼写相似的词放在一起,而让意思上相近的或相关的词随意地散置。
WordNet 则想为广大读者依概念而不是依字母顺序查找词典获取词汇语义知识提供帮助。
WordNet 目前包含大约95600个词条(51500个简单词和44100个复合词,它们被组织成约70100个词义或同义词集),描写了上下位、同义、反义、部分—整体等词汇语义关系。
wordnet关系词

English Chinese list of wordnet-related terms 3.3.1A 各类词网|B 词义关系|C 词类及其他术语|D 语意属性A 各类词网Bilingual Wordnet (Bi-WN) 双语词网Chinese Wordnet (CWN) 汉语词网EuroWordNet (EWN) 欧语词网WordNet (WN) 词网(特指Princeton WN)B 词义关系antonym 【反义词】antonymy反义关系autoantonymy反义多义(关系)autohyponymy下位多义(关系)hypernym【上位词】泛称词hypernymy上位关系hyponym 【下位词】特指词hyponymy 下位关系holonym整体词holonymy整体-部份关系meronym部份词meronymy部份-整体关系metonym 转指词metonymy 转指关系near-synonym 近义词near-synonymy 近义关系polysemy 【多义性】synonym 【同义词】synonymy同义关系taxonomy 分类架构troponym方式词troponymy方式关系C 词类及其他术语adjective 【形容词】adverb 【副词】agreement 【对谐】,一致性algorithm 【算法/算法】ambiguity 歧义associations 关联attributes 【属性】auxiliary verbs 助动词basic-level categories 基层范畴,底层范畴buffers 【缓冲区】case propagation 格位相沿,格位沿袭categories 范畴causative 【使动】cause relation 因果关系cause 原因change-of-state verbs 易态动词collocations 【连用语】common nouns 普通名词component-object meronyms组成部份(关系)compounds 复合词concepts概念conceptual semantic relation 概念语意关系concordances【关键词(前后文)排序】,汇编connectivity 连结性constraints 【限制】context 【语境】,上下文co-occurrence 共现count nouns 可数名词cousins in hyponyms 特指亲属,下位亲属data mining 数据挖掘database 数据库decomposition 分解derived adverbs 衍生副词descriptive adjectives 描述性形容词determiners 限定符dictionaries 辞典disambiguation 排歧distance in lexical trees 词汇树间距domain-specific knowledge 特定领域知识,领域知识encyclopedic knowledge 百科全书知识,通识知识entail 蕴涵entailment 【蕴涵】entry 词条euphemisms 委婉用法exceptions 例外factive叙实familiarity index 熟悉度索引frames 【框架】frequency 频率functional hyponymies功能性上位词functions 功能gadability具层级性gender 性别glosses 注释gradable 可分级的gradation/gradability/gradable 层级head synsets同义词集主语hierarchies 层级homographs 同形异义词,同形词idioms 【成语】intension 内涵Inter-Lingual-Index (ILI) 中介索引intransitive verbs 不及物动词IS-A relations 【IS-A关系】lexical chains 词链Lexical Conceptual Structure (LCS) 【词汇概念结构】lexical knowledge link (LKL) 词汇知识链接lexical relation 词汇关系lexical subordination 词汇从属lexical superordination词汇上属lexical tree (LexTree) 词树lexicon 【词汇库】词汇malapropism 近音误用;近音误用词markedness有标mass nouns 物质名词meaning extension 意义延伸meaning facet(s) 义面meaning 意义metaphor 【隐喻】metaphoric extension 隐喻延伸modeling 模型制作;模制models 模型morphology 构词法nano-hyponymynominalization 【名物化】noun 【名词】ontology 本体架构parsing 【剖析】;分析;解析participial adjectives 分词形容词part-of-speech (POS) 【词类】phrases 【词组】proper nouns 专有名词quantifiers 数量值questions and answers 问答repetition 重复resultative结果satellitesynsetsschema analysis 基架分析schema 基架semantic concordance (database) 语意汇编(数据库)semantic distance 语意距离semantic domain 语意范畴semantic field 【语意场】semantic opposition 对立语意semantic tags 语意标记sense disambiguation 词义厘清sense 词义subordination 【从属】stative verbs 状态/况动词synset同义词集syntactic classes 语法词类tags 【标记】thesaurus 【同义词辞典】topical clustering 主题丛聚topic 话题topic continuity话题延续training 训练;练习transitive verbs 及物动词unaccusativity非宾格;宾主格unergative verbs 唯(被)动动词;作动词verb 【动词】verb alternations 动词句型替换verbs of action 行动动词weights 加权word 【词】word association 词汇关联word distance 词义距离wordnet词网D 语意属性go topaccount 簿册addictive 嗜好物adverbial 副状affairs 事务age 年龄agent 施事agreement 条约aircraft 飞行器animal 禽兽animate 生物appearance 外观area 面积army 军队artifact 人工物aspiration 意愿attire 装束attitude 态度attribute 属性bacteria 微生物beast 走兽beneficiary 受益者bill 票据bird 禽boundary 界限building 建筑物cause 原因celestial 天体character 文字chemical 化学物classifier 单位词clothing 衣物cloud 云coagent合作施事color 颜色comment 评论community 团体component 部件computer 计算机concentration 浓度concession 让步condition 条件conjunction 并列connective 关联词content 内容contrast 对比countenance 表情crop 庄稼dampness 湿度degree 程度demeanor 风度density 密度depth 深度descriptive 描写direction 方向disease 疾病distance 距离divergence 分歧document 文书drinks 饮品duration 时段duty 责任earth 大地edible 食物electricity 电emotion 情感emphasis 强调entity 实体event 事件expenditure 费用experience 感受experiencer 经验者facilities 设施fact 事实feeling 情绪fineness 粗细fire 火fish 鱼flora 花草food 食品form 形状frequency 频率fruit 水果fund 资金furniture 家具gas 气体hardness 硬度height 高度house 房屋human 人humanized 拟人ice 冰implement 器具inanimate 无生物information 信息insect 昆虫institution 机构instrument 工具kind 类型knowledge 知识land 陆地language 语言law 律法length 长度letter 信件lights 光liquid 液体livestock 牲畜location 位置location 处所machine 机器manner 方式mark 标志material 材料means 手段measurement 量度medicine 药物mental 精神metal 金属method 方法modality 语气modifier 描述money 货币music 音乐natural 天然物negation 否定news 新闻occupation 职位organization 组织paper 纸张part 部分particle 助词partof部分patient 受事phenomena 现象place 地方plans 规划plant 植物possession 领属possessor 领有者posture 姿势price 价格problem 问题process 过程property 属性publications 书刊purpose 目的quality 质量quantity 数量range 幅度readings 读物,读数reason 道理regulation 规则relationship 关系restrictive 限定result 结果rights 权利room 房间scene 景象scope 范围sequence 次序sex 性别shape 物形ship 船situation 状况size 尺寸sky 空域slope 坡度software 软件sound 声音source 来源space 空间speed 速度state 状态static 静态stationery 文具stone 石style 风格supplement 递进symbol 符号system 系统target 目标taste 味道temperature 温度tense 时态,时式text 语文,文本thickness 厚度thing 万物thinking 思想thought 念头thunder 雷tightness 松紧time 时间tool 用具transition 转折treasure 珍宝tree 树unit 单位vegetable 蔬菜vehicle 交通工具volition 意向,意志(力)volume 容积water 水waters 水域wealth 财富weapon 武器weather 气象weight 重量whole 整体width 宽度wind 风wood 木。
WordNet2.1 功能简介

love, passion -- (any object of warm affection or devotion; "the theater was her first love"; "he has a passion for cock fighting";)
=> object -- (the focus of cognitions or feelings; "objects of thought"; "the object of my affection")
*> Somebody ----s something
*> Somebody ----s somebody
Sense 2
love, enjoy -- (get pleasure from; "I love cooking")
EX: They love him to write the letter
Sense 3
HAS PART: trait -- (a distinguishing feature of your personal nature)
HAS PART: character, fiber, fibre -- (the inherent complex of attributes that determine a persons moral and ethical actions and reactions; "education has for its object the formation of character"- Herbert Spencer)
love -- (be enamored or in love with; "She loves her husband deeply")
WordNet发展历程介绍

· 到 1985 年,许多认知心理学家和计算语言学家开始以“网”的形式来描述词语的意义。比 如:“桌子”(table)和“家具”(furniture)代表两个节点(node),而这两个节点之间有一 个箭头(dart)来表示这样的命题:桌子是一种家具(a table is a kind of furniture),即 “Is-A-KIND-OF”这样的语义关系。随着这方面研究的增多,越来越多的人自觉地意识到:
· 也就是在 WordNet 开始成形的时候,Miller 和他的一些志同道合的同事在普林斯顿合作 发起了一个认知研究的计划(Program for Cognitive Studies)。Richard Cullingford 从 1983 年到 1985 年在普林斯顿访问,他,Gilbert Herman,加上 Miller 说服 Provost Neil Rudenstine 提供了一台微型计算机。那台计算机也就成了普林斯顿认知科学实验室的心脏。 有了设备在手,Miller 又去说服海军研究办公室的 Susan Chipman 跟他们签合同来开发 WordNet。Cullingford 和 Miller 一起收到了军队研究所(Army Research Institute)的一个 合同,开发一个词汇语义学的计算理论。1986 年 3 月,James S.McDonnell 基金向普林 斯顿慷慨解囊,支持认知科学的研究工作。Marie BienKowski(Cullingford 的研究生)和
WordNet简介

39143个词,这个词表实际上包含在著名的COMLEX词典中。 WordNet当时词表与该词表重合率为74%( 1993年)。
11
WordNet中有什么
WordNet描述的对象 compound(复合词)、phrasal verb(短语动词)、collocation (搭配词)、idiomatic phrase(成语)、word(单词),其中 word是最基本的单位。
e.g. big, beautiful, interesting, possible, married, ……
关系性形容词(relational adjectives)
e.g. fraternal, electrical, sidereal, ……
说明:关系形容词因其跟名词的关系而得名,如 electrical engineer 中的 electrical 实际跟 名词electricity 相关。
WordNet 简介
詹卫东
2003.6 zwd@ /doubtfire/
提纲
1 WordNet概述 2 WordNet中的名词 3 WordNet中的形容词 4 WordNet中的动词 5 WordNet词库与查பைடு நூலகம்软件的设计与实施 6 WordNet的应用与发展 7 小结
很少有超过10到12层的语义树,通常层次比较深的情况是 由于专业词汇造成的,而不是日常语言中的用词。比如:
shetland pony @-> pony @-> horse @-> equid @-> odd-toed ungulate @-> placental mammal @-> mammal @-> vertebrate @-> chordate @-> animal @-> organism @-> entity (12 levels)
wordnet关系词

wordnet关系词English Chinese list of wordnet-related terms 3.3.1A 各类词网|B 词义关系|C 词类及其他术语|D 语意属性A 各类词网Bilingual Wordnet (Bi-WN) 双语词网Chinese Wordnet (CWN) 汉语词网EuroWordNet (EWN) 欧语词网WordNet (WN) 词网(特指Princeton WN)B 词义关系antonym 【反义词】antonymy反义关系autoantonymy反义多义(关系)autohyponymy下位多义(关系)hypernym【上位词】泛称词hypernymy上位关系hyponym 【下位词】特指词hyponymy 下位关系holonym整体词holonymy整体-部份关系meronym部份词meronymy部份-整体关系metonym 转指词metonymy 转指关系near-synonym 近义词near-synonymy 近义关系polysemy 【多义性】synonym 【同义词】synonymy同义关系taxonomy 分类架构troponym方式词troponymy方式关系C 词类及其他术语adjective 【形容词】adverb 【副词】agreement 【对谐】,一致性algorithm 【算法/算法】ambiguity 歧义associations 关联attributes 【属性】auxiliary verbs 助动词basic-level categories 基层范畴,底层范畴buffers 【缓冲区】case propagation 格位相沿,格位沿袭categories 范畴causative 【使动】cause relation 因果关系cause 原因change-of-state verbs 易态动词collocations 【连用语】common nouns 普通名词component-object meronyms组成部份(关系)compounds 复合词concepts概念conceptual semantic relation 概念语意关系concordances【关键词(前后文)排序】,汇编connectivity 连结性constraints 【限制】context 【语境】,上下文co-occurrence 共现count nouns 可数名词cousins in hyponyms 特指亲属,下位亲属data mining 数据挖掘database 数据库decomposition 分解derived adverbs 衍生副词descriptive adjectives 描述性形容词determiners 限定符dictionaries 辞典disambiguation 排歧distance in lexical trees 词汇树间距domain-specific knowledge 特定领域知识,领域知识encyclopedic knowledge 百科全书知识,通识知识entail 蕴涵entailment 【蕴涵】entry 词条euphemisms 委婉用法exceptions 例外factive叙实familiarity index 熟悉度索引frames 【框架】frequency 频率functional hyponymies功能性上位词functions 功能gadability具层级性gender 性别glosses 注释gradable 可分级的gradation/gradability/gradable 层级head synsets同义词集主语hierarchies 层级homographs 同形异义词,同形词idioms 【成语】intension 内涵Inter-Lingual-Index (ILI) 中介索引intransitive verbs 不及物动词IS-A relations 【IS-A关系】lexical chains 词链Lexical Conceptual Structure (LCS) 【词汇概念结构】lexical knowledge link (LKL) 词汇知识链接lexical relation 词汇关系lexical subordination 词汇从属lexical superordination词汇上属lexical tree (LexTree) 词树lexicon 【词汇库】词汇malapropism 近音误用;近音误用词markedness有标mass nouns 物质名词meaning extension 意义延伸meaning facet(s) 义面meaning 意义metaphor 【隐喻】metaphoric extension 隐喻延伸modeling 模型制作;模制models 模型morphology 构词法nano-hyponymynominalization 【名物化】noun 【名词】ontology 本体架构parsing 【剖析】;分析;解析participial adjectives 分词形容词part-of-speech (POS) 【词类】phrases 【词组】proper nouns 专有名词quantifiers 数量值questions and answers 问答repetition 重复resultative结果satellitesynsetsschema analysis 基架分析schema 基架semantic concordance (database) 语意汇编(数据库)semantic distance 语意距离semantic domain 语意范畴semantic field 【语意场】semantic opposition 对立语意semantic tags 语意标记sense disambiguation 词义厘清sense 词义subordination 【从属】stative verbs 状态/况动词synset同义词集syntactic classes 语法词类tags 【标记】thesaurus 【同义词辞典】topical clustering 主题丛聚topic 话题topic continuity话题延续training 训练;练习transitive verbs 及物动词unaccusativity非宾格;宾主格unergative verbs 唯(被)动动词;作动词verb 【动词】verb alternations 动词句型替换verbs of action 行动动词weights 加权word 【词】word association 词汇关联word distance 词义距离wordnet词网D 语意属性go topaccount 簿册addictive 嗜好物adverbial 副状affairs 事务age 年龄agent 施事agreement 条约aircraft 飞行器animal 禽兽animate 生物appearance 外观area 面积army 军队artifact 人工物aspiration 意愿attire 装束attitude 态度attribute 属性bacteria 微生物beast 走兽beneficiary 受益者bill 票据bird 禽boundary 界限building 建筑物cause 原因celestial 天体character 文字chemical 化学物classifier 单位词clothing 衣物cloud 云coagent合作施事color 颜色comment 评论community 团体component 部件computer 计算机concentration 浓度concession 让步condition 条件conjunction 并列connective 关联词content 内容contrast 对比countenance 表情crop 庄稼dampness 湿度degree 程度demeanor 风度density 密度depth 深度descriptive 描写direction 方向disease 疾病distance 距离divergence 分歧document 文书drinks 饮品duration 时段duty 责任earth 大地edible 食物electricity 电emotion 情感emphasis 强调entity 实体event 事件expenditure 费用experience 感受experiencer 经验者facilities 设施fact 事实feeling 情绪fineness 粗细fire 火fish 鱼flora 花草food 食品form 形状frequency 频率fruit 水果fund 资金furniture 家具gas 气体hardness 硬度height 高度house 房屋human 人humanized 拟人ice 冰implement 器具inanimate 无生物information 信息insect 昆虫institution 机构instrument 工具kind 类型knowledge 知识land 陆地language 语言law 律法length 长度letter 信件lights 光liquid 液体livestock 牲畜location 位置location 处所machine 机器manner 方式mark 标志material 材料means 手段measurement 量度medicine 药物mental 精神metal 金属method 方法modality 语气modifier 描述money 货币music 音乐natural 天然物negation 否定news 新闻occupation 职位organization 组织paper 纸张part 部分particle 助词partof部分patient 受事phenomena 现象place 地方plans 规划plant 植物possession 领属possessor 领有者posture 姿势price 价格problem 问题process 过程property 属性publications 书刊purpose 目的quality 质量quantity 数量range 幅度readings 读物,读数reason 道理regulation 规则relationship 关系restrictive 限定result 结果rights 权利room 房间scene 景象scope 范围sequence 次序sex 性别shape 物形ship 船situation 状况size 尺寸sky 空域slope 坡度software 软件sound 声音source 来源space 空间speed 速度state 状态static 静态stationery 文具stone 石style 风格supplement 递进symbol 符号system 系统target 目标taste 味道temperature 温度tense 时态,时式text 语文,文本thickness 厚度thing 万物thinking 思想thought 念头thunder 雷tightness 松紧time 时间tool 用具transition 转折treasure 珍宝tree 树unit 单位vegetable 蔬菜vehicle 交通工具volition 意向,意志(力)volume 容积water 水waters 水域wealth 财富weapon 武器weather 气象weight 重量whole 整体width 宽度wind 风wood 木。
WordNet简介

WordNet简介2008-01-05WordNet简介· 对于WordNet来说,10年后来清点清点得失似乎是合适的。
每个参与其事的研究人员都真诚地感受到它的缺点,并且他们从未觉得这是一个“完工”了的项目。
事实上,WordNet仍在继续发展中。
· "WordNet: An Electronic Lexical Database"一书分三部分,16章。
第一部分从第1章到第4章,前3章分别介绍WordNet中的名词,形容词,动词,第4章介绍WordNet的设计细节及相关软件的情况(这主要是由普林斯顿大学认知科学实验室的研究人员写的);第二部分和第三部分主要是由普林斯顿认知科学实验室之外的参加WordNet研究工作的研究人员撰写的。
第5章和第6章描述了WordNet的改进;第7章从形式化的概念分析的角度描述了WordNet;第8到第16章讨论了WordNet的各种不同应用。
(一)计算机与词库(computers and lexicon)· 一个人即使不接受把人脑比作计算机的隐喻,也一定同意,计算机提供了一个良好的模式演练场,通过它,人们可以测试各种关于人类认知能力的理论模型。
· 越来越多的人认识到,一个大的词库对自然语言理解,人工智能的各方面研究都具有重要的价值。
· 对大规模机器可读词典的需求同时也带来许多基础问题。
首先是如何构造这样一个词库,是手工编制还是机器自动生成?第二,词典中应包含什么样的信息?第三,词典应如何设计,即信息如何组织,以及用户如何访问?实际上,这些问题涉及到词典的编纂方法,词典的内容,词典的使用方式这一系列非常基础的问题。
(二)构造词库数据库(constructing the lexical database)· 构建词典的两种基本方式:自动获取 / 手工编制。
手工构建词典的优点之一是便于创建更为丰富的词条信息;其次是便于控制。
国内外重要的本体系统

国内外重要的本体系统1.WordNetWordNet是基于心理语言规则的英文词典,它以同义词集(Synsets)为单位组织信息,对查询结果的演绎比较符合人类思维定式。
WordNe是由美国普林斯顿大学的心理词汇学家和语言专家米勒(MjllerGeorge A)以及他的研究小组于1985年着手构建的英语词汇知识库。
目前已发展到WordNet3.0版,它的设计思路来源于心理语言学和人类词汇记忆的计算理论。
迄今为止,被认为是计算语义学、文本分析等相关领域研究者可获取的最为重要的资源。
WordNet根据词条的意义将它们分组,每一个具有相同意义的字条组称为一个synset(同义词集合)。
WordNet为每一个Synset提供了简短,概要的定义,并记录不同synset 之间的语义关系。
在WordNet中,名词,动词,形容词和副词各自被组织成一个同义词的网络,每个同义词集合都代表一个基本的语义概念,并且这些集合之间也由各种关系连接。
(一个多义词将出现在它的每个意思的同义词集合中)。
名词网络的主干是蕴涵关系的层次(上位/下位关系),它占据了关系中的将近80%。
层次中的最顶层是11个抽象概念,称为基本类别始点(uniquebegirmers),例如实体(entity,“有生命的或无生命的具体存在”),心理特征(psyehologiealfeature,生命有机体的精神上的特征)。
名词层次中最深的层次是16个节点。
WordNet概念层次树WordNet的顶层分类如图1所示,体现了最抽象概念间的包容关系。
每一个WordNet 类的含义,一方面由它在从抽象到具体的层次结构中的位置所决定,同时又由相关的公理来定义。
图1 wordNet顶级分类WordNet的根节点是Entity,它包括了一个领域中存在的万事万物,此概念又包括Physical和Abstract,前者包括在空间上和时间上占有一定位置的一切事物,而后者包括剩下的一切。
WordNet应用问题研究

t a b l e w  ̄ e ) , 即“ I s — A — K I N D 一 0 F ” 这样 的语义关系 . 名词 , 动词 , 形容词 和副词各 自被组织成一个同义词的网络 . 每个 同义词集合都代表一个 基 本 的语 义 概 念 . 即在 词 的形 式 和 意 义 之 间建 立 起 映 射 关 系 ( m a p p i n g ) 用于描述词汇矩 阵, 并且 这些集 合之间也 由各种关系连 接。 个多义词就有可能 出现在它 的每个意思的同义词集合 中. 对 于这样 个复杂的词库该如何创 建呢 . 是手工 编制还是机器 自动生成 . 选 择 手工构建词典 的优点之一是便于创建更为丰富的词条信息 : 其 次是便 于控制 . 下 面我们将 阐述 以非手动 的方式来设 计 wo r d N e t 。 2 . 半 自动 方 法 设计 W o r d N e t 人工编制显然工程浩 大 , 必然 时间长 , 要花 费大量的人力 、 物力 、 财力 . 而对 于机器 完全 自动生成 . 就是让机器本 身独立判断一 个个 的 概念 , 准确的定位各种关系, 这样产生 的结果往往是 准确 性不高 . 在目 前多方面受限制的前提 下可 以试着 以本体半 自 动 的设计方法 在设计方法前先讲 述“ 本体 ” 和“ 关 系” 概念 本体 : 本体 目前还没有规范 化的统一定 义 。 它是一种概 念模型 的 明确规 范说 明 , 而这个概念模 型又是共享 的 . 它主要表 达了 四个方 面 的含义 : 概念模型 、 明确、 形式化 、 共享。 概念模 型指通 过抽象 出客观世 界 中一些现象的相关概念而得到的模 型 : 明确 是指所使用 的概念及使 用这些概念 的约束都有明确的定义 :形式 化指必须是计算机可读 的 : 共享指概念模 型所 体现的是共 同认可 的知识 , 反映的是相关领域 中公
wordnet使用教程

Wordnet是一个词典。
每个词语(word)可能有多个不同的语义,对应不同的sense。
而每个不同的语义(sense)又可能对应多个词,如topic和subject在某些情况下是同义的,一个sense中的多个消除了多义性的词语叫做lemma。
例如,“publish”是一个word,它可能有多个sense:1. (39) print, publish -- (put into print; "The newspaper published the news of the royal couple's divorce"; "These news should not be printed")2. (14) publish, bring out, put out, issue, release -- (prepare and issue for public distribution or sale; "publish a magazine or newspaper")3. (4) publish, write -- (have (one's written work) issued for publication; "How many books did Georges Simenon write?"; "She published 25 books during her long career")在第一个sense中,print和publish都是lemma。
Sense 1括号内的数字39表示publish以sense 1在某外部语料中出现的次数。
显然,publish大多数时候以sense 1出现,很少以sense 3出现。
WordNet的具体用法NLTK是python的一个自然语言处理工具,其中提供了访问wordnet各种功能的函数。
Wordnet研究

词网WordNet研究1——之初始接触WordNet® is a large lexical database of English. Nouns, verbs, adjectives and adverbs are grouped into sets of cognitive synonyms (synsets), each expressing a distinct concept. Synsets are interlinked by means ofconceptual-semantic and lexical relations. The resulting network of meaningfully related words and concepts can be navigated with the browser. WordNet is also freely and publicly available for download. WordNet's structure makes it a useful tool for computational linguistics and natural language processing.WordNet是一个英语字典。
由于它包含了语义信息,所以有别于通常意义上的字典。
WordNet根据词条的意义将它们分组,每一个具有相同意义的字条组称为一个synset(同义词集合)。
WordNet为每一个synset提供了简短,概要的定义,并记录不同synset之间的语义关系。
在WordNet中,名词,动词,形容词和副词各自被组织成一个同义词的网络,每个同义词集合都代表一个基本的语义概念,并且这些集合之间也由各种关系连接。
(一个多义词将出现在它的每个意思的同义词集合中)。
在WordNet的第一版中(标记为1.x),四种不同词性的网络之间并无连接。
wordnet

WordNet:概念知识库WordNet 是美国 Princeton 大学研发的一个英语词汇语义知识库,或者概念知识库。
本 wiki 只介绍 WordNet 里的名词和动词概念,及其概念间的主要关系。
对形容词和副词概念感兴趣的读者,可以参阅 WordNet 的手册或相关论文。
WordNet 的研发历经近二十年,目前的版本是 3.0,FreeBSD 中有它的 port。
WordNet 最初的研发者是 Princeton 大学的一些心理学家。
后来,由于计算语言学(或自然语言处理)的需求,WordNet 成为语义学研究最权威的知识库之一。
概念的表达或构建要通过自然语言完成,不同的文化和历史可能导致概念的差异,进而导致不同语言的词汇语义之间不是一一对应的。
例如,中文中“叔叔”、“伯父”、“姨夫”、“舅舅”等概念在英文中没有具体的对应,英文中只有 uncle。
虽然如此,人类的概念在很大程度上是共享的,那些小的差异可以忽略。
加上英语是世界语,这也是 WordNet 在全球得以流行的原因吧。
WordNet 里的概念所谓“概念”,在 WordNet 里抽象为一个同义词集合,它是 WordNet 的基本单位,也是 WordNet 所要描述的基本对象。
例如,“computer”有两个语义,分别是“计算机”和“计算者”。
IOU@~$ wn "computer" -synsnSynonyms/Hypernyms (Ordered by Estimated Frequency) of noun computer2 senses of computerSense 1computer, computing machine, computing device, data processor,electronic computer, information processing system=> machineSense 2calculator, reckoner, figurer, estimator, computer=> expert概念的上下位关系名词和动词概念(即同义词集合)之间有两个基本的关系,上位关系和下位关系。
WordNet中基于IC的概念语义相似度算法

树 中的距离信息 ,由此提高算法性能 。 出一种计算概念 I 的新方法 , 给 c值 通过考虑概念 的子节点数及概念所处 Wo N t r e 分类树中的深度 , d 使计算结果更精确 。与其他 5 种语义相似度算法的比较结果表 明 ,该算法能够求得 更准确 的相似度 。
关健词 :信息 内容 ;Wo N t r e本体 ;语义相似度 ;子节点 ;分类树 d
并得到 。这些单词对 的选择范 围是从 同义到语义 不相 关。根
3 I . C参数 的改进 1 概念 的 I 值指 的是概念所能提供 的信息量 ,I c c表示为
一
据单词对 的相似程度 ,人工给它们打分 ,相 似度值 的打分范
围为 00 40 .~ .。
lpc 其含义 是一个概念 C的出现概率越大 , g (), 则该概念提
c n i e s t e I v l e o on e t n h i o i o n t e i a t x n my te n W o d t o sd r h C a u f c c p s a d t er p st ns i h s a o o r e i i r Ne ,wh c mp o e h e o m a c f t e mo e i h i r v s t e p r r n e o h d l f
一
基 金项 日:山东省优秀 中青年科学 家科 研奖励基金 资助项 目(S0 B 2
1 D 1) 0 X0 2
作者1介 : 时 王艳娜(96 ) , 17 - ,女 讲师、硕士 ,主研方向 : 语义相似
度算法 , 智能信息处理 , 图像处理 ; 周子 力, 副教 授、 博士 ; 何
硕士研究 生
所有领 域概念及其 关系 的知识 网络 ,其 中的概念及关系是 由
Wordnet简介

Wordnet是一个WordNet是一个由普林斯顿大学认识科学实验室在心理学教授乔治·A·米勒的指导下建立和维护的英语字典。
在WordNet中,名词,动词,形容词和副词各自被组织成一个同义词的网络,每个同义词集合都代表一个基本的语义概念,一个多义词将出现在它的每个意思的同义词集合中。
WordNet是按语义关系组织的,其语义关系有以下几类:(1)同义关系。
WordNet最重要的关系就是词的同义关系,因为判断词这种关系的能力是在词汇矩阵中表达词义的先决条件。
Wordnet中根据替换原则定义同义词:如果两种表达方式在语言文本中相互替代而不改变其真值,则这两种表达就是同义的。
因而,WordNet分成名词,动词、形容词和副词几大类。
不同词类中的语义关系类型也不同。
比如尽管名词都动词都是分层级组织词语之间的语义关系,但在名词中,上下位关系是hyponymy关系,而动词中是troponymy关系;动词中的entailment(继承)关系有些类似名词中的meronymy (整体部分)关系。
名词的meronymy关系下面还分出三种类型的子关系(见“WordNet中的名词”部分)。
(2)反义关系。
反义词是一种词形间的词汇关系,而不是词义间的语义关系。
反义关系为WordNet中的形容词和副词提供了一种中心组织原则。
(3)上下位关系。
上下位关系具有某种限制,且是一种不对称的关系(Lyons,1977,v01.1),由下它只有唯一的上属关系,这就产生了一种层次语义结构,其中下位词位于其上属关系的下层。
下位词继承了它的上位词——更一般化概念的所有性质,并且至少增加一种属性,以区别它与它的上位词以及该上位词的其他下位词。
这种方法为WordNet中的名词提供了一种核心的组织原则。
在名词网络中,通过词语的上下位关系来计算词间的距离是WordNet 中简单常用的一种计算相似度方法。
(4)部分-整体关系(HASA)。
WordNet简介

WordNet的词汇组织结构
WordNet
是一部在线词典数据库系统,采用了与传统词
典不同的方式,即按照词义而不是词形来组织 词汇信息。
1985年由普林斯顿大学认知科学实验室建立
WordNet 将成为一种国际标准,许多国家在
筹划和建立与英文WorNet兼容的本国语言
3.52
2.76 2.41
B.7
WordNet的词汇组织结构
词汇的矩阵模型
Word Meanings M1 M2 M3 . . . F1 F2 E2,2 E3,3 . . . Word Forms F3 …… Fn E1,1 E1,2
Mm
Em,n
B.8
WordNet的词汇组织结构
WorNet 中词语间的关系
B.3
WordNet的词汇组织结构
同义词集(Synsets)
Example:
地球绕着太阳转, 自然会有寒来暑往的四季交替
自然奥秘
{自然、必然、一定、必定} {自然、天然}
B.4
WordNet的词汇组织结构
词汇(Words) 、同义词集、语义(Senses)的数量
POS Unique Strings Synsets Total Word-Sense Pairs Noun 109195 75804 134716
B.18
WorNet 中词语间的关系
动词蕴涵关系(entailment) 、动词的上位关系
(hypernymmy) 、方式关系(troponymy)、因果关系 (cause relation)
• 动词之间的组织关系成为动词的蕴涵 例如: 打鼾逻辑上蕴涵睡觉,因为句子“他正在打鼾”蕴涵了句子 “他正在睡觉”;如果第一个句子成立,则第二个句子必定成 立。 • 蕴涵是一种单向关系 • 方式关系是一种特殊的蕴涵。 例如: 一个较一般化的动词V2,它的每一个方式词V1也蕴涵V2 V1是V2的一种方式。
WordNet简介

3.52
2.76 2.41
B.7
WordNet的词汇组织结构
词汇的矩阵模型
Word Meanings M1 M2 M3 . . . F1 F2 E2,2 E3,3 . . . Word Forms F3 …… Fn E1,1 E1,2
Mm
Em,n
B.8
WordNet的词汇组织结构
WorNet 中词语间的关系
verbs of
bodily care verbs functions verbs
change verbs
communication verbs consumption verbs creation verbs motion, perception verbs social interaction verbs
例如,橡树@--->树@--->植物@--->生物
• 下位词汇的词条继承了他们上位词汇的所有属性 (attributes) • 名词的语义元素 • 25个起始概念:一般性概念,作为独立的层次结构 • 各领域的名次数量不等,互不排斥 • 大体覆盖了明确的概念和词汇范围
B.16
WorNet 中词语间的关系
多义词 多义词语义
14510 5168 5479 787 40002 18221 15175 1900
总 计
120406
25944
75298
B.6
WordNet的词汇组织结构
多义词信息(2)
词 性 平均词义(包括单义词)
名 词 1.23
平均词义
2.75
动 词
形容词 副 词
2.17
1.45 1.24
cognition verbs
newWORDNET简介

上下位关系
与同义词和反义词都是词形之间的词汇关系不同, 上位关系吓位关系是词义之间的语义关系。 例如:{枫树}是{树}的下位词,{树}是{植物}的下 位词。下位/上位关系也称为从属/上属关系, 子集/超集关系,或ISA关系。如果以英语为母语 的人接受以“An x is a(kind of)Y”为框架构造的句 子,则同义词集合{X,X...}表示的概念被称 为同义词集合{Y,Y...}表达的概念的下位关 系。这种关系可以这样表示:在{x,x...}中 设一指针指向其上位关系,在{Y,y...}中设 一指针指向其下位关系。 这种方法为WordNet中的名词提供了一种核心的 组织原则。
根据替换原则对同义词加以定义,使得我们有可 能把WordNet分成名词,动词,形容词和副词几 大类。 这就是说,如果概念用同义词来表示,并且同义 词必须是可互换的,那么在不同文法分类中的词 就不可能是同义词(不能构成同义词集合),因为 它们是不可互换的。名词表达一般的概念,动词 表示动词性概念,而修饰语提供了修饰这些概念 的方法。换言之,用同义词集合表达词义这种方 法,与名词,动词,修饰语在记忆的语义存储中 相互独立组织这样的心理语言学现象是一致的。
WordNet的动词
WordNet动词的15个基本语义类(semantic domain)
这张表简单说明了词汇矩阵的 设想:假定表列代表词形,表 行代表词义,矩阵的表项就表 示对应列上的词形可以被用来 表示相应表行上的词义(在一 个适当的上下文环境中)。这 样,表项E1,1就表示:词形 F1可以表示词义M1。如果同 一表列中有两个表项,则该词 形具有两个义项,是个多义词; 如果同一表行中有两个表项, 则对应的两个词形是同义的, 相应的两个词是同义词。 词汇矩阵的表行和表列中的诸 项,分别构成了词义集合与词 形集合。WordNet的工作重点 是在词义集合中建立词义间的 语义关系模式。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
关系英文名词性译名hyponymy名词下位关系
hypernymy名词上位关系
meronymy名词部分关系component of名词部件部分关系member of名词成员部分关系substance of名词物质部分关系holonymy名词整体关系antonymy名词反义关系attribute名词属性关系
Antonymy动词反义关系Troponymy动词下位关系Hypernymy动词上位关系Entailment动词蕴含关系Cause动词致使关系Also See动词相关动词关系Antonymy形容词反义关系
Similarity形容词近义关系Relational形容词关系性形容词Also See形容词相关关系Attribute形容词属性关系Antonymy副词反义关系Derived from副词衍生关系
含义或示例对应于概念关系的类别表示对某个类的细化,即如果X是一种Y,那么X是Y的下位
词(hyponym)
is kind of
表示对多个具体实例的泛化,即如果X是一种Y,那么Y是X 的上位词(hypernym)is a generalization of
如果X是Y的一部分,那么X是Y的部分词(meronym)is part of
例如:“鸟嘴/翅膀-鸟”(beak/wing-bird)is component of 例如:“树木”和“森林”(tree-forest)is member of
例如:“铝”和“飞机”(aluminum-plane)is substance of 如果X是Y的一部分,那么Y是X的整体词(holonym)contains parts 例如:“胜利-失败”(victory-defeat)opposite of
用形容词来表达其值的名词,如“重量”是一个属性,它
的值对应的形容词是“轻”和“重”
attribute of
代表了复杂的若干种语义关系。
如disappear与appear opposite of
如果V1在某个特定语义维度表示了V2,那么V1是V2的下位词。
比如fight的下位词包括battle, war, tourney, joust, duel , feud等等,这些词都是从不同角度更具体地来刻画一个fight is a particulare manner of
如fight是war的上位词is a generalization
of
如snore(打鼾)蕴涵了sleep(睡觉),类似于名词的Meronymy
这种关系连带两个动词概念,一个是因(如give),另一个
是果(如have)。
cause to
如take的相关动词包括take out,take in, take on等等related verb
形容词的反义是对词而言的,不是对概念而言的。
比如
large/small;big/little构成反义关系,而large跟
little,big跟small并不构成反义关系
opposite of
如heavy与weighty是近义关系similar to
这种形容词只能出现在定语位置上,意义上跟一个名词非
常相关。
如:dental与tooth相关
如beautiful的相关词语是attractive,pleasing和
grateful
related adjective
如heavy是weight的属性attribute of
如carefully与carelessly opposite of
副词W1是从形容词变化衍生得到的,如happily衍生于
happy。