一个在线义类词库:词网WordNet
十个最好的翻译学习网站
1. 译言网人气最高的协作翻译平台,你可以在上面阅读翻译好的文章,有译文和原文对照便于学习,你也可以参与翻译锻炼能力。
2. 知网翻译助手这个网站的专业术语翻译功能非常强大,一般查不到的专业词汇基本爱上都可以再这里找到答案,就是没有的还有相关信息供你参考,极大提高你翻译专业文献的能力3. Proz国际翻译平台这个是访问量巨大的国际性翻译人社区,你要是水平高的可以在上面接国外的翻译做赚外汇,也可以在上面学习提高翻译能力。
4. 51UC英语角之所以把这个聊天网站选上来是因为其英语聊天室人气非常高,加入聊天需要下载新浪 UC聊天软件,类似QQ的,然后进入英语角聊天室那里人气非常高,你可以马上找到人和你语音或视频练习口语。
5. 007翻译培训这个网站由一群精英自由翻译人创办,不同于一般的翻译培训,其目的是培训成为能独立接到翻译独立完成翻译的自由翻译人,算是个独一无二的特殊翻译培训网站。
6. 译网情深翻译界比较有名的翻译人才和资讯网站,可以在上面了解翻译行业和查看翻译招聘信息。
7. 沪江外语/沪江英语论坛有海量的外语学习资料,可以到这里看看是否有你要学习的内容8. 54翻译论坛一个比较专业的翻译人网络社区,可以在上面交翻译朋友,讨论翻译话题,其特色是有做翻译相关的问题发上去马上就有人给你解答,还算不错吧。
9. China Daily /中国日报的网络版,相信很多外语学习者对这份报纸都非常熟悉,现在网络版阅读的也非常方便了,而且电脑上众多翻译工具会让你很方便理解文章意思。
10. 谷歌翻译/language_tools?hl=zh-CNGoogle搜索引擎上的翻译工具,这个应该是目前最好的整段文字翻译工具,比较接近正确译文,不过也是有很多问题的还远不能取代人工翻译,其对有些专业词汇的翻译也非常准,可以利用其查询。
基于WordNet的情感词库构建研究
基于WordNet的情感词库构建研究情感词库是自然语言处理中的重要组成部分,通常用于文本情感分析、情感极性判断以及舆情分析。
WordNet是一种常用的语义网络,可以通过它来构建情感词库,本文主要介绍基于WordNet的情感词库构建研究。
一、WordNet简介WordNet是由普林斯顿大学的心理学家George Miller教授领导的一项项目,它是一种英语词汇数据库,用于自然语言处理和语义计算。
WordNet将英语单词分解为词义,每个词义都与一个或多个单词相关联。
这些词义之间以及单词之间都存在着语义关系,比如同义词、反义词、上位词、下位词等等。
二、情感词库介绍情感词库(Sentiment Lexicon)是包含情感极性和情感强度等信息的一组单词或短语列表。
情感词库可以帮助计算机自动分析文本的情感倾向,以此为根据来进行情感分类、情感极性判断、舆情分析等工作。
情感词库的构建通常需要基于人工标注和机器学习技术。
传统的构建方法在标注大量的文本后,利用MMI(最大相互信息)或PMI(点间互信息)等方法计算情感单词或短语准确率。
但是这种方法对人的时间和精力的要求太大,也不够灵活。
因此开始使用WordNet构建情感词库。
三、基于WordNet构建情感词库的方法基于WordNet的情感词库构建方法主要分为两种:查找词性和语义相似度。
1. 查找词性在WordNet中,每个单词在其定义中有多个释义和词性标记:名词(Noun)、动词(Verb)、形容词(Adjective)和副词(Adverb)。
在这种情况下,可以使用名词、动词、形容词和副词标记,选择有情感信息的单词。
然后借助WordNet上语义关系(如同义词、反义词、上位词、下位词等)来扩展情感词库。
例如,将“love”作为基本情感词,利用同义词“adore”,反义词“hate”,上位词“comfort”、下位词“hug”等扩展情感词表。
2.语义相似性利用WordNet关系结构中词之间的关系,计算两个单词之间的语义相似性,从而将与情感相关的单词添加到情感词库中。
WORDNET与HOWNET之比较
WORDNET与HOWNET之比较作者:张笛来源:《青年文学家》2011年第13期摘要:本文在对Wordnet和Hownet进行简单介绍的基础上,从理论基础,设计原理与建设方法,目的与应用这三个大方面进行了比较。
从而找出两个系统的相似之处和差异,以期对自然语言处理有所帮助。
关键词:Wordnet;Hownet ;比较;语义作者简介:张笛,临沂大学外国语学院讲师,语言学。
近年来,随着计算机本身以及信息高速公路的飞速发展,人们开始更加重视语义的研究。
各国都致力于可用于自然语言处理的大规模语义词典或大规模知识库的建设。
例如:普林斯顿大学的英语Wordnet,微软的Mindnet,欧洲有基于Wordnet的Eurowordnet,日本的日语和英语的概念词典,韩国的Koreanwordnet,中国有以Wordnet为框架而研制的现代汉语概念词典——中文概念辞书(CCD)和董振东、董强的Hownet(知网)。
Wordnet是一个在线的英语词汇数据库(词汇参照系统),而Hownet是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。
现在两者都被放在网上,供人们使用,并且可以参与他们的完善、扩展和发展。
所以,本文拟把二者放在一起进行比较研究,找出两个系统的相似之处与差异,取长补短,以期为自然语言处理寻求一个较为完善的语义关系系统。
一、理论基础首先,二者都以一种“模式假设”(patterning hypothesis)为前提和理论基础。
其次,“理解性假设”(comprehensiveness hypothesis)也是二者的理论基础。
但二者的理论基础不同之处也很多。
Wordnet的一个较主要的理论基础是“可分离性假设”(separability hypothesis)即语言的词汇成分可以被离析出来并专门针对它加以研究。
Hownet的最重要的理论基础是它的哲学。
一个在线义类词库:词网WordNet
/paper_110583811_1/论文标题:中文信息处理专题研究:语义研究一个在线义类词库:词网WordNet论文作者陈群秀(论文关键词,论文来源语言文字应用,论文单位京,点击次数184,论文页数69~104页1998年1998月论文网/paper_110583811/ 计算机的自然语言理解和处理,依赖于计算语言学的研究成果。
)与计算词汇学和计算句法学相比,计算语义学是计算语言学领域里一门比较年轻的学科。
相对而言,句法分析的理论和技术发展得比较成熟、完善,而语义分析的理论和技术起步比较晚,尚处于探索阶段,空白点较多而且难度最大。
目前,自然语言理解正处于一个关键时期,处在取得重大突破的前夜,而语义研究领域的进展和突破对全局的进展和突破有至关重要的作用。
语义包括词汇义、句义、篇章义等,其中最根本最重要的是词汇义的研究。
词汇义的研究和表示的方法有多种,很重要的一种是语义分类。
人读的义类词典几乎各国都有,机读的(即信息处理用的)义类词典在日本、美国等先进国家也都有研究或成果。
在国内外同类课题中,最著名的是普林斯顿大学Miller等人研制的英语词网数据库WordNet。
该词网旨在从心理语言学角度建立英语词汇基本语义关系的实际模型。
本文简要介绍这个在线的义类词库。
一词网WordNet的概况WordNet是一个在线词汇参照系统(在网上可机读的英语词库),是一个基于心理语言学原则的机器词典。
WordNet用大家熟悉的拼法来表示词形,用同义词集Synsets(在一定上下文中可以互换的同义词形的列表)来表示词义。
有两种关系:词汇的和语义的。
词汇关系存在于词形间,语义关系存在于词义间。
通常的人读词典或机读词典是按字母顺序组织词汇信息,将拼写相似的词放在一起,而让意思上相近的或相关的词随意地散置。
WordNet 则想为广大读者依概念而不是依字母顺序查找词典获取词汇语义知识提供帮助。
WordNet 目前包含大约95600个词条(51500个简单词和44100个复合词,它们被组织成约70100个词义或同义词集),描写了上下位、同义、反义、部分—整体等词汇语义关系。
wordnet关系词
English Chinese list of wordnet-related terms 3.3.1A 各类词网|B 词义关系|C 词类及其他术语|D 语意属性A 各类词网Bilingual Wordnet (Bi-WN) 双语词网Chinese Wordnet (CWN) 汉语词网EuroWordNet (EWN) 欧语词网WordNet (WN) 词网(特指Princeton WN)B 词义关系antonym 【反义词】antonymy反义关系autoantonymy反义多义(关系)autohyponymy下位多义(关系)hypernym【上位词】泛称词hypernymy上位关系hyponym 【下位词】特指词hyponymy 下位关系holonym整体词holonymy整体-部份关系meronym部份词meronymy部份-整体关系metonym 转指词metonymy 转指关系near-synonym 近义词near-synonymy 近义关系polysemy 【多义性】synonym 【同义词】synonymy同义关系taxonomy 分类架构troponym方式词troponymy方式关系C 词类及其他术语adjective 【形容词】adverb 【副词】agreement 【对谐】,一致性algorithm 【算法/算法】ambiguity 歧义associations 关联attributes 【属性】auxiliary verbs 助动词basic-level categories 基层范畴,底层范畴buffers 【缓冲区】case propagation 格位相沿,格位沿袭categories 范畴causative 【使动】cause relation 因果关系cause 原因change-of-state verbs 易态动词collocations 【连用语】common nouns 普通名词component-object meronyms组成部份(关系)compounds 复合词concepts概念conceptual semantic relation 概念语意关系concordances【关键词(前后文)排序】,汇编connectivity 连结性constraints 【限制】context 【语境】,上下文co-occurrence 共现count nouns 可数名词cousins in hyponyms 特指亲属,下位亲属data mining 数据挖掘database 数据库decomposition 分解derived adverbs 衍生副词descriptive adjectives 描述性形容词determiners 限定符dictionaries 辞典disambiguation 排歧distance in lexical trees 词汇树间距domain-specific knowledge 特定领域知识,领域知识encyclopedic knowledge 百科全书知识,通识知识entail 蕴涵entailment 【蕴涵】entry 词条euphemisms 委婉用法exceptions 例外factive叙实familiarity index 熟悉度索引frames 【框架】frequency 频率functional hyponymies功能性上位词functions 功能gadability具层级性gender 性别glosses 注释gradable 可分级的gradation/gradability/gradable 层级head synsets同义词集主语hierarchies 层级homographs 同形异义词,同形词idioms 【成语】intension 内涵Inter-Lingual-Index (ILI) 中介索引intransitive verbs 不及物动词IS-A relations 【IS-A关系】lexical chains 词链Lexical Conceptual Structure (LCS) 【词汇概念结构】lexical knowledge link (LKL) 词汇知识链接lexical relation 词汇关系lexical subordination 词汇从属lexical superordination词汇上属lexical tree (LexTree) 词树lexicon 【词汇库】词汇malapropism 近音误用;近音误用词markedness有标mass nouns 物质名词meaning extension 意义延伸meaning facet(s) 义面meaning 意义metaphor 【隐喻】metaphoric extension 隐喻延伸modeling 模型制作;模制models 模型morphology 构词法nano-hyponymynominalization 【名物化】noun 【名词】ontology 本体架构parsing 【剖析】;分析;解析participial adjectives 分词形容词part-of-speech (POS) 【词类】phrases 【词组】proper nouns 专有名词quantifiers 数量值questions and answers 问答repetition 重复resultative结果satellitesynsetsschema analysis 基架分析schema 基架semantic concordance (database) 语意汇编(数据库)semantic distance 语意距离semantic domain 语意范畴semantic field 【语意场】semantic opposition 对立语意semantic tags 语意标记sense disambiguation 词义厘清sense 词义subordination 【从属】stative verbs 状态/况动词synset同义词集syntactic classes 语法词类tags 【标记】thesaurus 【同义词辞典】topical clustering 主题丛聚topic 话题topic continuity话题延续training 训练;练习transitive verbs 及物动词unaccusativity非宾格;宾主格unergative verbs 唯(被)动动词;作动词verb 【动词】verb alternations 动词句型替换verbs of action 行动动词weights 加权word 【词】word association 词汇关联word distance 词义距离wordnet词网D 语意属性go topaccount 簿册addictive 嗜好物adverbial 副状affairs 事务age 年龄agent 施事agreement 条约aircraft 飞行器animal 禽兽animate 生物appearance 外观area 面积army 军队artifact 人工物aspiration 意愿attire 装束attitude 态度attribute 属性bacteria 微生物beast 走兽beneficiary 受益者bill 票据bird 禽boundary 界限building 建筑物cause 原因celestial 天体character 文字chemical 化学物classifier 单位词clothing 衣物cloud 云coagent合作施事color 颜色comment 评论community 团体component 部件computer 计算机concentration 浓度concession 让步condition 条件conjunction 并列connective 关联词content 内容contrast 对比countenance 表情crop 庄稼dampness 湿度degree 程度demeanor 风度density 密度depth 深度descriptive 描写direction 方向disease 疾病distance 距离divergence 分歧document 文书drinks 饮品duration 时段duty 责任earth 大地edible 食物electricity 电emotion 情感emphasis 强调entity 实体event 事件expenditure 费用experience 感受experiencer 经验者facilities 设施fact 事实feeling 情绪fineness 粗细fire 火fish 鱼flora 花草food 食品form 形状frequency 频率fruit 水果fund 资金furniture 家具gas 气体hardness 硬度height 高度house 房屋human 人humanized 拟人ice 冰implement 器具inanimate 无生物information 信息insect 昆虫institution 机构instrument 工具kind 类型knowledge 知识land 陆地language 语言law 律法length 长度letter 信件lights 光liquid 液体livestock 牲畜location 位置location 处所machine 机器manner 方式mark 标志material 材料means 手段measurement 量度medicine 药物mental 精神metal 金属method 方法modality 语气modifier 描述money 货币music 音乐natural 天然物negation 否定news 新闻occupation 职位organization 组织paper 纸张part 部分particle 助词partof部分patient 受事phenomena 现象place 地方plans 规划plant 植物possession 领属possessor 领有者posture 姿势price 价格problem 问题process 过程property 属性publications 书刊purpose 目的quality 质量quantity 数量range 幅度readings 读物,读数reason 道理regulation 规则relationship 关系restrictive 限定result 结果rights 权利room 房间scene 景象scope 范围sequence 次序sex 性别shape 物形ship 船situation 状况size 尺寸sky 空域slope 坡度software 软件sound 声音source 来源space 空间speed 速度state 状态static 静态stationery 文具stone 石style 风格supplement 递进symbol 符号system 系统target 目标taste 味道temperature 温度tense 时态,时式text 语文,文本thickness 厚度thing 万物thinking 思想thought 念头thunder 雷tightness 松紧time 时间tool 用具transition 转折treasure 珍宝tree 树unit 单位vegetable 蔬菜vehicle 交通工具volition 意向,意志(力)volume 容积water 水waters 水域wealth 财富weapon 武器weather 气象weight 重量whole 整体width 宽度wind 风wood 木。
NLP(一)语料库和WordNet
NLP(⼀)语料库和WordNet 访问语料库NLTK数据库的安装:NLTK语料库列表:内部访问(以Reuters corpus为例):import nltkfrom nltk.corpus import reuters# 下载路透社语料库nltk.download('reuters')# 查看语料库的内容files = reuters.fileids()print(files)# 访问其中⼀个⽂件的内容words14826 = reuters.words(['test/14826'])print(words14826[:20])# 输出主题(⼀共90个)reutersGenres = reuters.categories()print(reutersGenres)# 访问⼀个主题,⼀句话⼀⾏输出for w in reuters.words(categories=['tea']):print(w + ' ',end='')if w is '.':print()下载外部语料库并访问(以影评数据集为例)下载数据集:本例下载了1000积极和1000消极的影评from nltk.corpus import CategorizedPlaintextCorpusReader# 读取语料库reader = CategorizedPlaintextCorpusReader(r'D:\PyCharm 5.0.3\WorkSpace\2.NLP\语料库\1.movie_review_data_1000\txt_sentoken',r'.*\.txt',cat_pattern=r'(\w+)/*') print(reader.categories())print(reader.fileids())# 语料库分成两类posFiles = reader.fileids(categories='pos')negFiles = reader.fileids(categories='neg')# 从posFiles或negFiles随机选择⼀个⽂件from random import randintfileP = posFiles[randint(0,len(posFiles)-1)]fileN = negFiles[randint(0,len(negFiles)-1)]# 逐句打印随机的选择⽂件for w in reader.words(fileP):print(w + ' ',end='')if w is '.':print()for w in reader.words(fileN):print(w + ' ',end='')if w is '.':print()CategorizedPlaintextCorpusReader类通过参数的设置,从内部将样本加载到合适的位置语料库中的词频计算和计数分布分析以布朗语料库为例:布朗⼤学 500个⽂本 15个类import nltkfrom nltk.corpus import brownnltk.download('brown')# 查看brown中的类别print(brown.categories())# 挑选出三种类别,并获取其中的疑问词genres = ['fiction','humor','romance']whwords = ['what','which','how','why','when','where','who']# 迭代器分别分析3种类for i in range(0,len(genres)):genre = genres[i]print()print("Analysing '"+ genre + "' wh words")genre_text = brown.words(categories = genre)print(genre_text)# 返回输⼊单词对象的wh类及对应的频率fdist = nltk.FreqDist(genre_text)for wh in whwords:print(wh + ':',fdist[wh],end=' ')print()输出:['adventure', 'belles_lettres', 'editorial', 'fiction', 'government', 'hobbies', 'humor', 'learned', 'lore', 'mystery', 'news', 'religion', 'reviews', 'romance', 'science_fiction'] Analysing 'fiction' wh words['Thirty-three', 'Scotty', 'did', 'not', 'go', 'back', ...]what: 128 which: 123 how: 54 why: 18 when: 133 where: 76 who: 103Analysing 'humor' wh words['It', 'was', 'among', 'these', 'that', 'Hinkle', ...]what: 36 which: 62 how: 18 why: 9 when: 52 where: 15 who: 48Analysing 'romance' wh words['They', 'neither', 'liked', 'nor', 'disliked', 'the', ...]what: 121 which: 104 how: 60 why: 34 when: 126 where: 54 who: 89⽹络⽂本和聊天⽂本的词频分布import nltkfrom nltk.corpus import webtext# nltk.download('webtext')print(webtext.fileids())# 选择⼀个数据⽂件,并计算频率分布,获得FreqDist的对象fdistfileid = 'singles.txt' # 个⼈⼴告wbt_words = webtext.words(fileid)fdist = nltk.FreqDist(wbt_words)# 获取⾼频单词及其计数print('最多出现的词 "' , fdist.max() , '" :' , fdist[fdist.max()])# 获取所有单词的计数print(fdist.N())# 找出最常见的10个词print(fdist.most_common(10))# 将单词和频率制成表格print(fdist.tabulate(5))# 将单词和频率制成分布图fdist.plot(cumulative=True) # 计数显⽰,cumulative=percents为百分⽐显⽰输出:['firefox.txt', 'grail.txt', 'overheard.txt', 'pirates.txt', 'singles.txt', 'wine.txt']最多出现的词 " , " : 5394867[(',', 539), ('.', 353), ('/', 110), ('for', 99), ('and', 74), ('to', 74), ('lady', 68), ('-', 66), ('seeks', 60), ('a', 52)], . / for and539 353 110 99 74None累计计数分布图:使⽤WordNet获取⼀个词的不同含义# import nltk# nltk.download('wordnet')from nltk.corpus import wordnet as wnchair = 'chair'# 输出chair的各种含义chair_synsets = wn.synsets(chair)print('Chair的意思:',chair_synsets,'\n\n')# 迭代输出含义,含义的定义,同义词条,例句for synset in chair_synsets:print(synset,': ')print('Definition: ',synset.definition())print('Lemmas/Synonymous words: ',synset.lemma_names())print('Example: ',synset.examples(),'\n')输出:Chair的意思: [Synset('chair.n.01'), Synset('professorship.n.01'), Synset('president.n.04'), Synset('electric_chair.n.01'), Synset('chair.n.05'), Synset('chair.v.01'), Synset('moderate.v.01')] Synset('chair.n.01') :Definition: a seat for one person, with a support for the backLemmas/Synonymous words: ['chair']Example: ['he put his coat over the back of the chair and sat down']Synset('professorship.n.01') :Definition: the position of professorLemmas/Synonymous words: ['professorship', 'chair']Example: ['he was awarded an endowed chair in economics']Synset('president.n.04') :Definition: the officer who presides at the meetings of an organizationLemmas/Synonymous words: ['president', 'chairman', 'chairwoman', 'chair', 'chairperson']Example: ['address your remarks to the chairperson']Synset('electric_chair.n.01') :Definition: an instrument of execution by electrocution; resembles an ordinary seat for one personLemmas/Synonymous words: ['electric_chair', 'chair', 'death_chair', 'hot_seat']Example: ['the murderer was sentenced to die in the chair']Synset('chair.n.05') :Definition: a particular seat in an orchestraLemmas/Synonymous words: ['chair']Example: ['he is second chair violin']Synset('chair.v.01') :Definition: act or preside as chair, as of an academic department in a universityLemmas/Synonymous words: ['chair', 'chairman']Example: ['She chaired the department for many years']Synset('moderate.v.01') :Definition: preside overLemmas/Synonymous words: ['moderate', 'chair', 'lead']Example: ['John moderated the discussion']上位词和下位词下位词更具体,上位词更⼀般(泛化)以bed.n.01和woman.n.01为例:from nltk.corpus import wordnet as wnwoman = wn.synset('woman.n.01')bed = wn.synset('bed.n.01')# 返回据有直系关系的同义词集,上位词!print(woman.hypernyms())woman_paths = woman.hypernym_paths()# 打印从根节点到woman.n.01的所有路径for idx,path in enumerate(woman_paths):print('\n\nHypernym Path :',idx+1)for synset in path:print((),',',end='')# 更具体的术语,下位词!types_of_bed = bed.hyponyms()print('\n\nTypes of beds(Hyponyms): ',types_of_bed)# 打印出更有意义的lemma(词条)print('\n',sorted(set(() for synset in types_of_bed for lemma in synset.lemmas())))输出:[Synset('adult.n.01'), Synset('female.n.02')]Hypernym Path : 1entity.n.01 ,physical_entity.n.01 ,causal_agent.n.01 ,person.n.01 ,adult.n.01 ,woman.n.01 ,Hypernym Path : 2entity.n.01 ,physical_entity.n.01 ,object.n.01 ,whole.n.02 ,living_thing.n.01 ,organism.n.01 ,person.n.01 ,adult.n.01 ,woman.n.01 ,Hypernym Path : 3entity.n.01 ,physical_entity.n.01 ,causal_agent.n.01 ,person.n.01 ,female.n.02 ,woman.n.01 ,Hypernym Path : 4entity.n.01 ,physical_entity.n.01 ,object.n.01 ,whole.n.02 ,living_thing.n.01 ,organism.n.01 ,person.n.01 ,female.n.02 ,woman.n.01 ,Types of beds(Hyponyms): [Synset('berth.n.03'), Synset('built-in_bed.n.01'), Synset('bunk.n.03'), Synset('bunk_bed.n.01'), Synset('cot.n.03'), Synset('couch.n.03'), Synset('deathbed.n.02'), Synset('double_bed.n.01'), Synset('four-poster.n.01'), Syn ['Murphy_bed', 'berth', 'built-in_bed', 'built_in_bed', 'bunk', 'bunk_bed', 'camp_bed', 'cot', 'couch', 'deathbed', 'double_bed', 'four-poster', 'hammock', 'marriage_bed', 'plank-bed', 'platform_bed', 'sack', 'sickbed', 'single_bed', 'sleigh_bed', 'truckle', 'truckle基于WordNet计算某种词性的多义性以名词n为例:from nltk.corpus import wordnet as wntype = 'n' #动词v,副词r,形容词a# 返回WordNet中所有type类型的同义词集sysnets = wn.all_synsets(type)# 将所有词条合并成⼀个⼤listlemmas = []for sysnet in sysnets:for lemma in sysnet.lemmas():lemmas.append(())# 删除重复词条,list=>setlemmas = set(lemmas)# 计算每个词条type类型的含义数并加到⼀起count = 0for lemma in lemmas:count = count + len(wn.synsets(lemma,type)) # lemma在type类型下的所有含义# 打印所有数值print('%s总词条数: '%(type),len(lemmas))print('%s总含义数: '%(type),count)print('%s平均多义性: '%(type),count/len(lemmas))输出:n总词条数: 119034n总含义数: 152763n平均多义性: 1.2833560159282222。
XHK汉语词义知识库的设计与规范-COLIPS
XHK汉语词义知识库的设计与规范王惠新加坡国立大学中文系chswh@.sg摘 要XHK是一部人机两用、基于语法分布特征的现代汉语词义知识库,它收录了《现代汉语词典》(修订版)中的全部5.6万词条,共8.1万余义项。
不仅提供准确的释义,而且详细标注词语在每个义项上的拼音、词类、语义类、语法功能、语义组合、特殊搭配、语体风格、来源出处,使用频率,以及来自真实语料的丰富例句,从而为大规模、系统的汉语词义分析和计算词典学理论探讨提供一个坚实可靠的研究平台。
同时,作为一个以义项为单位的大型词义知识库,XHK也可直接应用于机器翻译、信息检索、文本处理等多种中文信息处理系统,为词义消歧(WSD)和语义自动分析提供强有力的支持。
本文概要介绍XHK的设计原则、结构规模、属性项目与填写规范。
关键词:词义知识库、多义词、义项、词类、语义类1.引言在相当长的一段时间内,词义和语法曾被认为是两个完全不同的研究领域。
在不少语法学家看来,词义数目庞大、松散,而且随着语言的不同而不同(language-specific);大多数词汇语义学家也是往往仅满足于词汇层面或词义系统内部的描写,不去涉足句法分析的范围。
直到上个世纪70年代,这种情况才开始出现一些改变的迹象。
生成语法学家Kazt 和Fodor最早尝试把词义特征分解引进句法分析之中(Kazt & Fodor,1963; Kazt, 1972)。
80年代以后,随着语言研究的深入,利用词义分析探索形态和句法过程的语义基础,说明词汇和句子之间的语义关系,成为欧美词汇语义学与语法学共同的研究热点。
在这种背景下,如何充分利用词在语法结构中的不同表现来观察词义特征的细微差别,探索词在实际运用中的意义变化、分布特点和组合限制,日益引起国内外越来越多词汇语义学家的关注。
英国著名语义学家Lyons明确指出“任何词义,无论组合受严格限制与否,都应包括该词的替换关系和组合关系(1995:124)”。
近义词词库大全(合集)
近义词词库大全(合集)第一篇:近义词词库大全近义词词库收集大全!阿谀奉承,攀龙趋凤哀悼,悲悼哀鸿遍野,百孔千疮哀求,恳求哀伤,悲悼哀痛,悲伤挨饿,受饿爱财如命,一毛不拔爱崇,尊崇爱戴,恋慕爱好,喜好爱护,敬服爱慕,恋慕爱情,恋爱爱惜,敬服安顿,安置安放,安顿安分,循分安分守纪,循规蹈矩安抚,抚慰安家立业,克绍箕裘安静,平静安居乐业,安身立命安眠,安息安宁,安定安排,摆设安全,宁静安然无恙,平安无事安身立命,安居乐业安慰,慰藉安稳,牢固安详,宁静安心,放心安逸,清闲安置,安顿按摩,推拿按期,定期按时,定时按照,根据暗暗,悄悄暗藏,潜伏暗淡,昏暗暗号,灯号暗箭,冷箭暗箭伤人,含沙射影暗杀,谋害暗示,表示暗算,暗杀昂首,抬头遨游,翱翔熬煎,折磨翱翔,飞翔傲慢,狂妄奥秘,秘密奥妙,玄妙懊悔,悔恨懊丧,悔恨八两半斤,不相上下八门五花,五花八门八面玲珑,八面见光八面受敌,四面楚歌八面威风,气势汹汹巴结,逢迎把脉,切脉把握,掌握把戏,花招罢工,歇工罢免,撤职霸道,蛮横霸占,攻克白痴,呆子白发,鹤发白费,白搭白日,白天白天,白昼白皙,白净百般,千般百里挑一,寥寥无几百无禁忌,童言无忌百姓,黎民百折不挠,百折不回摆架子,搭架子摆设,部署摆脱,挣脱败坏,松弛败类,莠民败露,败事拜别,离别拜访,造访拜见,参见拜年,贺年拜托,托付颁发,发表斑白,花白搬家,搬迁搬弄,挑衅搬弄是非,挑拨离间搬迁,搬家办法,措施办好,办妥办理,管理办事,服务办妥,办好半斤八两,旗鼓相当半途,中途半途而废,功败垂成半推半就,不即不离半信半疑,将信将疑伴侣,朋友伴随,陪同伴同,随同扮演,饰演帮忙,帮助帮手,帮忙帮助,资助绑缚,捆绑榜样,模范傍边,当中傍观,旁观傍门,歪路傍晚,薄暮包办,包揽包庇,容隐包藏祸心,心怀叵测包含,包罗包涵,包容包括,包罗包揽,包办包罗万象,应有尽有包容,包涵包围,困绕褒贬,批驳宝贝,宝物宝贵,名贵宝物,宝贝饱经风霜,坚苦卓绝保藏,收藏保存,生存保护,掩护保留,保存保守,守旧保卫,守卫保养,调养保证,包管报答,报酬报复,抨击报告,陈诉抱不平,行侠仗义抱负,理想抱恨,怀愁抱歉,歉仄抱怨,诉苦暴动,** 暴风,狂风暴露,袒露暴露无遗,原形毕露 **,暴动暴跳如雷,大发雷霆暴躁,急躁爆发,发作卑鄙,鄙俚卑躬屈膝,奴颜媚骨卑贱,猥贱卑劣,卑鄙卑劣手段,鬼蜮伎俩悲哀,悲痛悲惨,悲凉悲观,灰心悲欢离合,离合悲欢悲凉,悲惨悲伤,伤心悲叹,叹伤悲痛,悲伤备案,存案背道而驰,南辕北辙背景,配景背面,反面背叛,叛逆被骗,受骗奔波,奔忙奔驰,疾驰奔放,旷达奔跑,奔驰奔腾,奔驰本地,当地本分,天职本来,原来本领,本事本末倒置,舍本逐末本钱,资本本身,自己本事,本领本性,天性本性难移,个性难改笨蛋,笨伯笨头笨脑,傻里傻气笨重,粗笨笨拙,鸠拙崩溃,瓦解逼近,迫近逼良为娼,迫良为娼逼迫,欺压逼上梁山,铤而走险逼真,传神比比皆是,触目皆是比较,比力比拟,相比比如,好比比赛,角逐比手划脚,指手画脚比武,交锋比翼双飞,夫唱妇随彼此,相互笔迹,字迹笔记,条记笔直,笔挺鄙视,藐视必定,肯定必恭必敬,恭恭敬敬必然,一定必需,必须必要,须要毕竟,究竟毕业,结业闭口,缄口闭月羞花,花容月貌庇护,保护弊端,毛病避讳,避忌避祸,逃难避忌,避讳避免,制止避难,遁迹边界,界限边境,疆域边缘,边沿编缉,主笔编制,体例鞭策,推动鞭挞,鞭笞便宜,自制变成,酿成变动,变更变革,厘革变更,变动变化,变革变化多端,变化无穷变化无穷,变化多端变幻,幻化变幻莫测,变化多端变换,变更变节,背叛变乱,事故变态,失常遍地,各处遍体鳞伤,体无完肤辩驳,反驳辩论,辩说标记,标志标志,标记标准,尺度表白,表明表露,暴露表率,楷模表面,外貌表情,心情表示,表现表态,亮相表现,体现表演,演出表扬,表彰表彰,表扬别出心裁,自出机杼别具一格,别开生面别离,分别别有用心,醉翁之意宾客,来宾冰冷,酷寒冰凉,冰冷冰清玉洁,不染纤尘兵变,叛乱兵力,军力兵马,戎马兵器,武器秉承,承袭禀赋,天禀并且,而且病愈,全愈波动,颠簸波澜,波涛波折,妨害剥削,聚敛驳斥,驳倒博爱,泛爱博古通今,博学多闻博览会,展览会搏斗,屠杀薄弱,单薄补偿,赔偿补充,增补补救,调停补助,补贴捕风捉影,疑神疑鬼捕获,捕捉捕捉,捕获不便,未便不变,稳定不才,鄙人不辞劳苦,不辞劳怨不单,不但不但,不光不当,不妥不断,不停不法,非法不凡,非凡不服,不平不该,不应不够,不敷不顾,掉臂不光,不但不过,不外不好,欠好不和,反面不计其数,不可胜数不仅,不但不肯,不愿不利,倒霉不料,不意不留神,不留心不留余地,杀鸡取卵不伦不类,不正经不论,岂论不免,难免不能自已,不能自制不然,否则不辱使命,幸不辱命不三不四,不伦不类不识时务,不识时变不停,不绝不同,差别不同凡响,与众不同不妥,不当不务正业,吊儿郎当不惜,不吝不相上下,平分秋色不行,不可不修边幅,囚首垢面不言而喻,不问可知不要紧,没关系不遗余力,尽心尽力不用,不消不由自主,情不自禁不愿,不肯不约而同,不谋而合不曾,未曾不只,不但不准,禁绝不着边际,天南地北不自量力,蚍蜉撼树不足,不敷不足为奇,屡见不鲜布景,背景布局,结构布满,充满布置,部署步队,队伍步伐,步调步骤,步调部队,队伍部分,部门部门,部分部署,摆设部属,下属擦过,掠过猜测,推测猜忌,猜疑猜拳,豁拳猜想,料想才干,本领才高八斗,学富五车才华,才气才能,才气才气,才华才人,秀士材料,质料财产,产业财富,财产财迷心窍,见利忘义财气,财运财务,财政财源,财路财政,财务裁缝,成衣裁减,淘汰裁判员,评判员裁员,裁人采集,收罗采纳,采取采取,接纳采用,接纳参差不齐,乱七八糟参观,观光参加,到场参见,拜见参谋,顾问参与,到场残暴,暴虐残害,践踏糟踏残酷,暴虐残缺,残破残忍,暴虐惭愧,内疚惨淡,昏暗惨痛,凄惨惨无天日,天昏地暗灿烂,辉煌光耀仓促,匆匆仓皇,仓促仓库,堆栈沧海一粟,九牛一毛苍白,惨白苍茫,迷茫苍生,百姓苍天,彼苍操练,练习操心,费心操纵,利用操作,操纵草菅人命,滥杀无辜草率,马虎草莽,草泽草木皆兵,杯弓蛇影册封,封爵侧重,偏重厕所,茅厕恻隐,怜悯测量,丈量测验,考试策划,筹谋策略,计谋层次,条理层次分明,井井有条插手,加入查办,核办查访,察访查核,考核查看,检察查问,盘问茶房,跑堂茶馆,茶室茶楼,茶室诧异,惊奇差别,差异差池,不对差错,不对差遣,驱使差异,差别搀杂,搀和谗言,诽语缠绵,缱绻蝉联,连任产品,产物产业,财产阐明,分析阐述,论述忏悔,后悔颤动,颤抖颤抖,颤动昌盛,兴盛猖獗,放肆猖狂,放肆长辈,尊长长处,优点长短,是非长官,主座长进,上进长久,恒久长命,长寿长期,恒久长驱直入,势如破竹长生,永生长寿,长命长途,远程长远,久远长者,父老长子,宗子尝试,实验偿还,归还常常,经常常规,通例常人,凡人常识,知识场地,园地场合,场所场面,局面场所,场合畅快,痛快酣畅畅所欲言,各抒己见畅谈,泛论畅通,流通畅销,脱销畅饮,痛饮倡导,提倡抄录,缮写抄写,誊录超过,凌驾超级,超等超逸,飘逸超越,逾越朝气,生机朝气蓬勃,生机勃勃朝秦暮楚,朝三暮四朝三暮四,朝秦暮楚朝夕,旦夕朝阳,向阳嘲讽,讽刺嘲笑,讽刺潮流,潮水潮湿,湿润潮水,潮流吵架,打骂吵闹,喧华炒鱿鱼,卷铺盖车水马龙,门庭若市撤除,撤消撤退,退却撤销,打消撤职,革职尘埃,灰尘尘间,凡间尘世,凡间尘土,灰尘沉寂,寂静沉浸,沉醉沉沦,迷恋沉没,淹没沉迷,着迷沉默,缄默沉静沉睡,甜睡沉重,极重沉着,冷静沉醉,陶醉陈规,成规陈设,摆设陈述,报告闯祸,肇事闯入,突入衬托,烘托称号,称呼称呼,称谓称谓,称呼称赞,歌颂趁火打劫,攻其不备趁机,乘隙趁热打铁,一气呵成趁早,赶早成本,本钱成长,发展成分,身分成功,乐成成果,结果成婚,结婚成绩,结果成家,立室成见,偏见成就,成绩成立,建立成品,制品成亲,结婚成全,玉成成群结队,三五成群成事在人,谋事在人成天,整天呈现,出现承担,负担承诺,答应承认,认可承受,蒙受诚惶诚恐,坐卧不宁诚恳,老实诚实,老实诚心,恳切城市,都会乘车,搭车乘船,搭船乘客,搭客乘凉,纳凉乘人之危,攻其不备乘虚而入,攻其不备惩办,惩治惩罚,处罚程度,水平程序,步伐吃醋,妒忌吃饭,用饭吃惊,受惊吃苦,刻苦吃亏,亏损迟钝,痴钝迟早,早晚持久,长期持续,连续尺度,标准耻辱,羞耻耻笑,讥笑叱呵,叱喝叱咤风云,气吞山河赤脚,光脚充分,充实充满,布满充数,凑数充足,富足冲动,激动冲锋陷阵,赴汤蹈火冲毁,冲垮冲击,打击冲垮,冲毁冲凉,洗沐冲破,突破冲入,突入冲突,辩论憧憬,向往崇拜,崇敬崇高,高贵崇敬,崇拜宠爱,痛爱宠信,宠任抽空,抽闲抽泣,哭泣抽烟,吸烟仇恨,愤恨仇家,对头仇人,对头仇视,敌视惆怅,难过愁眉不展,愁云满面愁眉苦脸,没精打彩愁闷,烦闷愁云满面,愁眉不展筹办,准备筹备,筹办筹划,操持筹谋,策划酬金,报答酬劳,报酬酬谢,报答踌躇,犹豫踌躇满志,意得志满丑恶,丑陋丑陋,貌寝臭名,污名臭名远扬,声名狼藉出版,出书出兵,发兵出产,生产出场,进场出错,堕落出格,特别出力,着力出面,出头出名,着名出奇制胜,声东击西出人意表,出人意料出入,收支出色,精彩出身,身世出神,入迷出声,作声出事,失事出手,脱手出息,前程出于无奈,必不得已初步,开端初春,早春初级,低级初一,月朔初衷,初志除暴安良,吊民伐罪除掉,撤除除去,撤除锄奸,除奸锄强扶弱,振弱除暴储藏,蕴藏储蓄,储备处处,到处处理,处置惩罚处女,童贞处事,办事处死,正法处所,地方处心积虑,费尽心血处置,处理触犯,冒犯触类旁通,举一反三触目皆是,比比皆是触怒,惹恼矗立,耸立揣测,臆测揣度,推断揣摩,推测川流不息,络绎不绝穿戴,穿着传播,流传传达,转达传递,通报传染,感染传染病,流行症传神,逼真传授,教授传颂,歌颂传闻,听说船员,海员喘气,喘息喘息,喘气串连,勾通串通,勾通创办,开办创立,建立创始,首创吹嘘,吹捧垂老,老迈垂怜,怜爱垂青,看重垂手可得,轻而易举垂死,弥留垂头,低头垂头丧气,没精打采垂危,告急锤炼,磨炼春风,东风春景,春光春联,对联纯熟,熟练纯真,单纯蠢蠢欲动,摩拳擦掌蠢人,笨伯绰号,外号词典,辞书词藻,词采慈爱,慈祥慈善家,善士慈祥,慈爱辞别,告别辞谢,推却辞行,告别雌雄,牝牡此地无银三百两,欲盖弥彰此后,今后此刻,现在此日,这天此生,今生此外,别的次日,越日次序,序次刺耳,难听逆耳刺骨,砭骨刺目,刺眼刺探,密查刺眼,耀眼赐给,赏给赐教,见教赐与,给予从此,今后从古到今,古往今来从容自在,从容自若从头,重新从头到尾,从头至尾从新,重新从属,附属匆匆,急忙聪明,智慧聪明一世,胡涂一时丛林,森林凑合,拼集凑数,充数粗略,大略粗莽,卤莽粗俗,卑鄙粗言,鄙言粗拙,粗糙促膝谈心,把臂而谈窜改,篡改篡夺,夺取篡改,窜改催促,敦促催讨,追讨村落,乡村村庄,乡村村子,村落存亡,生死存心不良,包藏祸心忖测,揣测忖度,揣测忖量,思念寸步不离,跬步不离寸草不留,鸡犬不留磋商,商量撮合,拉拢挫折,波折措辞,说话措施,步伐错爱,谬爱错乱,庞杂错落有致,犬牙交错错杂,庞杂搭车,乘车搭船,乘船搭救,援救达成,告竣达到,到达达官贵人,王侯将相答复,回复答理,答应答谢,报答答应,允许答允,答应打扮,妆扮打倒,打垮打点,办理打定,盘算打动,感动打斗,打架打赌,赌钱打盹,瞌睡打狗不看主人面,罔顾情面打坏,打碎打诨,讥笑打架,打斗打劫,掠夺打垮,打倒打量,审察打猎,狩猎打骂,吵架打破,冲破打扰,打搅打扫,扫除打手势,打手式打算,计划打碎,打坏打听,探询打通,买通打消,取消打鱼,捕鱼打针,注射大白,明白大败,大北大半,泰半大澈大悟,澈底觉悟大盗,暴徒大都,多数大度,漂亮大夫,医生大富,豪富大哥,年老大喊,大呼大好人,好人大呼,大喊大话,谎话大家,各人大驾,台端大奸,巨猾大将,上将大叫,大呼大举,大肆大军,雄师大快人心,民怨沸腾大力,鼎力大举大略,大抵大骂,痛骂大名,台甫大难,浩劫大难不死,劫后余生大逆不道,犯上作乱大年夜,年夜大怒,震怒大权在握,大权独揽大煞风景,焚琴煮鹤大声,高声大师,大家大势,局势大水,洪流大肆,放肆大体,大要大庭广众,稠人广众大小,巨细大雅,风雅大言,狂言大雨滂沱,大雨如注大约,约莫大贼,剧盗大志,雄心大致,大抵大众化,普通化大众文学,民间文学大醉,烂醉陶醉呆头呆脑,目瞪口呆呆子,白痴代办,代庖代劳,代庖代理,署理代替,取代带动,动员带领,领导待价而沽,囤积居奇待遇,报酬怠懈,怠惰单刀赴会,单人独马单方面,片面单据,票据单身,只身单位,单元单元,单位单子,票据担保,包管担当,继承担任,担当担水,挑水担忧,担心耽搁,延误耽误,延长胆大心细,胆大心小胆寒,胆怯胆量,胆子胆战心惊,提心吊胆胆子,胆量但愿,希望弹琴,奏琴弹丸之地,一矢之地弹无虚发,百步穿杨弹指之间,转瞬之间蛋白,卵白当兵,投军当场,就地当代,今世当地,本地当机不断,举棋不定当即,立即当局,政府当令,适时当面,劈面当铺,寺库当然,固然当时,其时当事者,本事儿当真,认真当作,看成荡气回肠,勾魂摄魄刀光剑影,刀光血影导火线,引火线倒背如流,滚瓜烂熟倒戈,背叛倒塌,坍毁捣蛋,作怪祷告,祈祷到场,加入到处,随处到家,抵家到手,得手悼念,哀悼盗匪,伏莽盗汗,冷汗盗窃,偷窃盗取,偷取道别,作别道贺,庆贺道教,玄门道理,原理道路,门路道歉,致歉道士,羽士道听途说,耳食之闻道谢,致谢得病,抱病得偿所愿,心满意足得当,恰当得救,解围得意,自得得罪,冒犯德行,品德德性,德行的确,简直灯火辉煌,灯烛辉煌灯泡,灯胆登峰造极,至高无上登基,登位登陆,登岸登山,爬山等待,等候等到,比及等第,品级等分,平分等候,期待等级,品级等闲,轻易等于,即是低落,低沉滴水不漏,点水不漏滴下,淌下敌人,仇人敌手,对手底稿,稿本底细,本相底蕴,秘闻底子,根本抵偿,补偿抵挡,抵抗抵抗,反抗抵赖,狡辩抵御,抵抗抵制,抵抗地步,田地地道,隧道地点,所在地动,地震地方官,父母官地盘,土地地皮,地盘地痞,流氓地契,方单地区,地域地势,阵势地图,舆图地位,职位地域,地区地震,地动地址,地点地主,田主弟妇,弟媳弟媳,弟妇弟子,门生第三者,圈外人第一流,最高级缔造,创造颠倒错乱,颠三倒四巅峰,顶峰典范,范例典籍,文籍典礼,仪式典型,典范点水不漏,滴水不漏点头,颔首点头答应,颔首应承点缀,粉饰电扇,风扇电影,影戏店铺,店肆店员,伙计店主,东家玷辱,玷污惦念,惦记奠定,奠基奠基,奠定刁悍,强横凋谢,凋落碉堡,堡垒雕残,凋零雕虫小技,虫篆之技雕刻,镌刻雕零,雕落雕落,雕零吊儿郎当,好逸恶劳吊祭,吊丧吊颈,悬梁吊水,打水钓鱼,垂纶调班,转班调查,观察调动,变更调度,调理调换,变更调剂,调度调节,调治调侃,讥讽调理,调治调皮,淘气调养,保养调整,调解掉包,偷换掉队,落后跌宕,跌荡叮咛,吩咐叮嘱,嘱咐顶点,极点顶用,中用顶嘴,顶撞鼎力,大力鼎盛,壮盛订婚,文定订价,定价订亲,订婚定夺,决断定价,订价定亲,订婚定数,定命定心,放心定义,界说定罪,治罪丢魂失魄,魂不附体丢弃,抛弃东奔西走,到处奔跑东倒西歪,乱七八糟东家,店主东西,工具东洋,东瀛冬风,北风冬眠,蛰伏懂得,明白动弹,转动动静,消息动人,感人动人肺腑,沁人心脾动听,动人动员,发动动作,行动恫吓,恐吓洞穴,窟窿都会,都市兜售,兜销斗胆,大胆斗殴,打斗斗气,负气斗志昂扬,意气风发斗嘴,辩论抖动,发抖陡然,蓦地豆浆,豆乳豆蔻年华,及笄年华豆芽,芽菜逗留,停留督工,管工毒害,迫害毒酒,鸩酒毒杀,鸩杀毒手,辣手读书,念书独霸,把持独出机杼,别出心裁独具匠心,别开生面独身,单身独特,奇特独一,唯一独有,独占赌博,打赌赌气,负气赌钱,赌博赌咒,起誓肚量,襟怀度日,过活渡过,度过渡水,涉水端倪,眉目端详,打量短处,弊端短文,漫笔断魂,销魂断绝往来,不相闻问断命,毕命断气,气绝锻练,教练锻炼,熬炼锻造,铸造堆积,聚集队列,行列队伍,步队对比,比拟对待,看待对调,对换对付,敷衍对换,对调对抗,反抗对联,春联对面,劈面对手,敌手对头,仇家对象,工具对奕,奕棋对于,对付对照,比较对证,对质对质,对证对峙,坚持对准,瞄准敦促,鞭策敦朴,敦厚顿脚,跺脚顿然,蓦地顿时,马上多半,多数多此一举,节外生枝多么,何等多如牛毛,不足为奇多少,几多多事之秋,艰屯之际多灾,多难咄咄逼人,不可一世哆嗦,颤抖夺目,醒目躲藏,潜藏躲债,避债堕胎,打胎讹传,谣传额外,分外厄运,恶运扼杀,抹杀扼守,把守恶毒心肠,狼心狗肺恶搞,恶搞恶贯满盈,罪不容诛恶棍,无赖恶疾,顽疾恶梦,噩梦恶人得势,歹徒横行恶徒,暴徒恶语伤人,出言无状恶作剧,开玩笑遏制,停止恩仇,恩怨恩典,恩情恩情,膏泽恩威并用,威德兼施恩义,恩德恩怨,恩仇恩泽,膏泽儿歌,童谣儿女,后代而后,尔后而今,现在而且,并且而已,罢了尔虞我诈,钩心斗角耳环,耳饰耳目,线人耳擩目染,目染耳濡耳饰,耳环耳提面命,谆谆教诲发表,颁发发兵,兴兵发布,公布发财,发达发抖,抖动发奋,发愤发疯,发狂发号施令,发号令发火,生机发家,发财发酒疯,撒酒疯发觉,觉察发掘,掘客发狂,发疯发难,举事发妻,嫡妻发起,提倡发烧,发热发生,产生发誓,立誓发现,发明发行,刊行发芽,抽芽发源,起源发展,生长伐罪,讨伐法宝,宝贝法场,刑场法规,法例法纪,纲纪法例,法则法令,法律法律,执法法门,秘诀法式,程序法术,术数法网恢恢,天道好还法眼,高眼法则,规则法子,办法帆船,风帆番薯,甘薯翻江倒海,排山倒海翻开,掀开翻山越岭,跋山涉水翻腾,翻滚翻天覆地,排山倒海翻译员,通译员凡夫俗子,伧夫俗人凡间,尘寰凡是,通常烦琐,啰嗦烦厌,腻烦烦躁,急躁繁茂,茂盛繁荣昌盛,繁荣富强繁荣富强,繁荣昌盛繁重,沉重反常,变态反对,阻挡反复,重复反复无常,朝三暮四反攻,抨击反悔,忏悔反击,还击反抗,抵抗反客为主,反宾为主反扑,反攻反璞归真,洗净铅华反响,回声反应,反响反映,反应反照,倒映反正,横竖返来,归来回头犯错,出错犯得上,犯得着犯得着,犯得上犯科,不法犯人,监犯犯罪,犯法泛泛,平常泛起,出现饭店,饭馆饭馆,饭店饭桶,脓包范畴,领域范例,典范范围,范畴贩子,市井方才,刚刚方法,要领方式,方法方向,偏向方圆,周遭方针,目标方子,方剂芳华,青春防备,预防防范,防备防线,防地防御,防备防止,防备妨害,波折房契,宅券房屋,衡宇房子,屋子仿佛,好像仿照,模仿访友,探友彷徨,徘徊放荡,纵脱放火,纵火放哨,巡查放肆,放荡放下屠刀,改邪归正放置,安排放逐,充军飞驰,飞奔飞腾,高潮飞舞,飞翔飞翔,翱翔飞跃,奔腾非凡,特殊非命,横死非死即伤,不死即伤蜚短流长,闲言闲语蜚言,浮言蜚语,流言废除,破除废话,空话废料,废物费尽唇舌,舌敝唇焦费尽心机,久有存心费神,费心费心,操心费用,用度分辨,辨别分布,漫衍分担,分管分割,支解分隔,分开分伙,散伙分家,分居分解,剖析分居,分家分开,离开分离,分散分裂,破裂分泌,排泄分娩,临盆分秒必争,争分夺秒分明,明白分派,分配分配,分派分散,疏散分身,两全分身乏术,分身不暇分手,分离分说,辩白分庭抗礼,不相上下分外,特别分文不取,一钱不受分析,阐发吩咐,付托纷乱,庞杂纷歧,不一纷扰,骚动纷至沓来,络绎不绝芬芳,芳香氛围,气氛坟场,墓地坟墓,宅兆焚杀,屠烧焚烧,点火粉墨登场,袍笏登场粉身碎骨,赴汤蹈火粉饰,遮盖粉碎,破坏奋不顾身,不屈不挠奋斗,搏斗奋发,高昂奋发图强,奋发蹈厉奋发向上,奋发图强奋起,抖擞奋起直追,急起直追愤恨,恼恨愤懑,怨愤愤怒,恼怒丰采,神姿丰度,品貌丰富,富厚丰功伟绩,劳苦功高丰厚,丰盛丰满,饱满丰硕,丰富丰衣足食,人给家足丰裕,充裕 **,风浪风采,风范风餐露宿,跋山涉水风尘仆仆,栉风沐雨风驰电掣,追风逐电风度,风采风度翩翩,风姿潇洒风帆,帆船风范,风采风格,气势派头风光,风景风景,风物风卷残云,狼吞虎咽风浪,** 风凉,凉爽风流,风骚风马牛不相及,风马不接风貌,风采风平浪静,海不扬波风起云涌,汹涌澎拜风气,民风风趣,滑稽风扇,电扇风尚,风俗风声鹤唳,土崩瓦解风俗,民俗风行,流行风行一时,不胫而走风言风语,飞短流长风雨飘摇,岌岌可危风雨同舟,休戚相关风韵,风姿风筝,鹞子风烛残年,行将就木封闭,关闭封爵,册封封锁,封闭疯狂,猖獗烽火,狼烟锋利,尖锐蜂拥,簇拥逢场作戏,游戏人间逢凶化吉,化险为夷逢迎,投合缝隙,漏洞讽刺,讥笑凤毛麟角,百里挑一奉承,逢迎奉告,告知奉还,璧还奉命,衔命奉陪,作陪奉劝,劝告奉上,送上奉行,推行奉养,服侍奉迎,讨好佛教,释教佛门,空门否定,否认否极泰来,时来运转否决,反对否认,否定否则,不然夫唱妇随,鹿车共挽夫妇,匹俦夫君,良人夫妻,伉俪肤浅,菲薄敷衍,搪塞敷衍了事,马马虎虎伏法,伏诛伏枥老骥,归隐志士伏诛,伏法伏罪,服罪扶养,抚养扶摇直上,百尺竿头扶助,帮助拂面,掠面拂拭,扫除拂晓,破晓拂袖,拂衣服从,听从服毒,仰药服法,吃法服气,佩服服侍,奉养服饰,衣饰服帖,帖服服务,办事服装,打扮服罪,伏罪浮光掠影,走马看花浮夸,夸诞浮名,谰言浮浅,菲薄浮现,表现浮言,蜚言浮躁,暴躁符号,标记符合,切合福分,福气福祸,休咎福气,福分福寿无疆,福寿绵绵抚琴,弹琴抚玩,观赏抚慰,安慰抚心,扪心抚养,扶养抚育,抚养府上,贵寓俯拾即是,俯拾地芥辅导,领导辅助,帮助辅佐,帮手腐败,糜烂腐烂,腐败腐蚀,腐化腐朽,腐败父母,怙恃父母官,地方官付出,支付负担,包袱负疚,抱歉负气,使气负心,亏心负约,失期负责,卖力负债,欠债附和,赞同附近,四周附属,隶属复活,复生复苏,苏醒复习,温习复兴,再起复原,回复复杂,庞大赴汤蹈火,出生入死副手,帮手富贵,繁华富可敌国,金玉满堂富丽,华丽富强,茂盛富商,巨贾富翁,大亨富裕,。
Rasa聊天机器人测试和优化实践
Rasa聊天机器人测试和优化实践最近,我一直在研究如何使用Rasa框架开发智能聊天机器人。
在开发过程中,我意识到仅仅训练出一个模型是远远不够的,还需要对模型进行全面的测试和优化,才能确保其在实际应用中的性能和稳定性。
今天,我就来分享一下自己在Rasa测试和优化方面的一些心得。
如何测试Rasa NLU模型?NLU(自然语言理解)是聊天机器人的核心功能之一。
要确保NLU模型的性能,就需要对其进行系统的测试。
在Rasa中,我们可以通过rasa test nlu命令来测试NLU模型。
这个命令主要完成以下几个任务:1. 意图识别测试:评估模型在识别用户意图方面的准确率、召回率和F1值。
2. 实体提取测试:评估模型在识别和提取预定义实体方面的性能指标。
3. 交叉验证测试:如果没有提供单独的测试集,命令会自动执行交叉验证,即将数据集分成多个训练/测试组合,评估模型的泛化能力。
4. 生成测试报告:测试完成后,你会在results目录下看到详细的测试报告,包括意图/实体的混淆矩阵、分类报告以及错误预测的样本等。
5. 模型性能对比:如果你训练了多个版本的模型,可以通过该命令在统一的测试集上对比它们的性能差异,从而选出最优的模型。
要运行测试,首先要准备好训练数据(data/nlu.yml)和模型配置(config.yml),然后就可以执行测试命令了。
通过测试,你可以客观地了解模型在实际场景中的表现,并据此进行针对性的优化。
这对于开发高质量的聊天机器人至关重要。
如何使用spaCy增强Rasa性能?spaCy是一个强大的自然语言处理库,它提供了丰富的语言模型和灵活的处理管道。
将spaCy与Rasa相结合,可以显著提升聊天机器人的语言理解能力。
以下是在Rasa中使用spaCy的基本步骤: 1. 安装spaCy及相应的语言模型,如英文的en_core_web_md:pip install spacypython -m spacy download en_core_web_md2. 在Rasa的配置文件(config.yml)中添加spaCy相关的组件:pipeline:- name: SpacyNLPmodel:"en_core_web_md"- name: SpacyTokenizer- name: SpacyFeaturizer- name: SpacyEntityExtractor- name: EntitySynonymMapper- name: SklearnIntentClassifier3. 像往常一样使用rasa train命令训练模型。
WordNet简介
39143个词,这个词表实际上包含在著名的COMLEX词典中。 WordNet当时词表与该词表重合率为74%( 1993年)。
11
WordNet中有什么
WordNet描述的对象 compound(复合词)、phrasal verb(短语动词)、collocation (搭配词)、idiomatic phrase(成语)、word(单词),其中 word是最基本的单位。
e.g. big, beautiful, interesting, possible, married, ……
关系性形容词(relational adjectives)
e.g. fraternal, electrical, sidereal, ……
说明:关系形容词因其跟名词的关系而得名,如 electrical engineer 中的 electrical 实际跟 名词electricity 相关。
WordNet 简介
詹卫东
2003.6 zwd@ /doubtfire/
提纲
1 WordNet概述 2 WordNet中的名词 3 WordNet中的形容词 4 WordNet中的动词 5 WordNet词库与查பைடு நூலகம்软件的设计与实施 6 WordNet的应用与发展 7 小结
很少有超过10到12层的语义树,通常层次比较深的情况是 由于专业词汇造成的,而不是日常语言中的用词。比如:
shetland pony @-> pony @-> horse @-> equid @-> odd-toed ungulate @-> placental mammal @-> mammal @-> vertebrate @-> chordate @-> animal @-> organism @-> entity (12 levels)
在线词典大全
在线词典大全综合类1. http:/// (词霸在线------含多部专业词典)2. http:/// 英-英 (可以下载声音文件)3. http:/// 词汇搜索引擎4. http:///zzjdict/ 郑州大学在线英汉-汉英科技大词典5. http:///default.asp 英汉-汉英翻译语料库6. http:/// 英-英,含大量图片7. http:///reference/ 美国最大的免费在线参考网站。
下有Columbia Encyclopedia, Roget's Thesauri, American Heritage Dictionary, Columbia History of English and American Literature等众多参考词典。
更新快,内容丰富。
8. http:///最常用的提问网站,可以通过查询分类查找问题答案,也可上帖提问。
生命科学类1. http:///search/dict-search.html (life science dictionary)2. http:///glossary/glossary.html包括Biochemistry, Botany, Cell Biology, Ecology, Geology, Life History, Phylogenetics, Zoology3. http:///dictionary.asp4. http:///facu ... /BioBookglossA.htmlOn-Line Biology Book: GLOSSARY5. 基因专业词汇(可以下载声音文件的)http:///Terms/Glossary/findterm.htm6. 细胞与分子生物学词典(第三版) http:///dictionary/该词典囊括了现代细胞与分子生物学领域最新出现的专业名词7. 生化与分子生物学词汇http:///pp/books/online/glick/search.htm8. 遗传学词汇 http:///glossary.cfm(有文本和语音解释)http:///bto/glossary/http://www.weihenstephan.de/~schlind/genglos.html9. 细胞因子词汇集http://www.copewithcytokines.de/cope.cgi10. 生物信息学词汇http:///cgi-bin/search/glossary.pl11. 生物控制词汇http:///ent/biocontrol/glossary.html12. 中科院昆明动物所做的脊椎动物分布名录数据库http:///datasource/datasource-c/animalinquire.htm可按中文或拉丁文查询,也可按照分布地区及类别查询。
WordNet_的同义词典实现同义词检索(C#版)
同义词检索应该很多时候会用得上的,举个简单的例子,我们搜索关键字good 的时候,与well 和fine 等的词条也可能是你想要的结果。
这里我们不自己建立同义词库,直接使用WordNet 的同义词库,本篇介绍C# 版的实现步骤,还会有续篇--Java 版。
由于Lucene 是发源于Java,所以C# 的应用者就没有Java 的那么幸福了,Java 版已经有3.0.2 可下载,C# 的版本还必须从SVN 库里:https:///repos/asf/lucene//tags/_2_9_2/ 才能取到最新的 2.9.2 的源码,二制包还只有 2.0 的。
接下来就是用VS 来编译它的,不多说。
只是注意到在contrib 目录中有 解决方案,这是我们想要的,编译 可得到三个可执行文件:1. Syns2Index.exe 用来根据WordNet 的同义词库建立同义词索引文件,同义词本身也是通过Lucene 来查询到的2. SynLookup.exe 从同义词索引中查找某个词有哪些同义词3. SynExpand.exe 与SynLookup 差不多,只是多了个权重值,大概就是同义程度好啦,有了.dll 和上面那三个文件,我们下面来说进一步的步骤:二. 下载WordNet 的同义词库可以从/3.0/ 下载WNprolog-3.0.tar.gz 文件。
然后解压到某个目录,如D:\WNprolog-3.0,其中子目录prolog 中有许多的pl 文件,下面要用到的就是wn_s.pl三. 生成同义词Lucene 索引使用命令Syns2Index.exe d:\WNprolog-3.0\prolog\wn_s.pl syn_index第二个参数是生成索引的目录,由它来帮你创建该目录,执行时间大约40 秒。
这是顺利的时候,也许你也会根本无法成功,执行Syns2Index.exe 的时候出现下面的错误:Unhandled Exception: System.ArgumentException: maxBufferedDocs must at least be 2 when enabledat .Index.IndexWriter.SetMaxBufferedDocs(Int32 maxBufferedDocs)at .Syns2Index.Index(String indexDir, IDictionary word2Nums, IDictionary num2Words)at .Syns2Index.Main(String[] args)莫急,手中有源码,心里不用慌,只要找到Syns2Index 工程,改动Syns2Index.cs 文件中的writer.SetMaxBufferedDocs(writer.GetMaxBufferedDocs() * 2*/); //GetMaxBufferedDocs() 本身就为0,翻多少倍也是白搭为writer.SetMaxBufferedDocs(100); //所以直接改为100 或大于2 的数就行重新使用新编译的Syns2Index.exe 执行上一条命令即可。
WordNet应用问题研究
t a b l e w  ̄ e ) , 即“ I s — A — K I N D 一 0 F ” 这样 的语义关系 . 名词 , 动词 , 形容词 和副词各 自被组织成一个同义词的网络 . 每个 同义词集合都代表一个 基 本 的语 义 概 念 . 即在 词 的形 式 和 意 义 之 间建 立 起 映 射 关 系 ( m a p p i n g ) 用于描述词汇矩 阵, 并且 这些集 合之间也 由各种关系连 接。 个多义词就有可能 出现在它 的每个意思的同义词集合 中. 对 于这样 个复杂的词库该如何创 建呢 . 是手工 编制还是机器 自动生成 . 选 择 手工构建词典 的优点之一是便于创建更为丰富的词条信息 : 其 次是便 于控制 . 下 面我们将 阐述 以非手动 的方式来设 计 wo r d N e t 。 2 . 半 自动 方 法 设计 W o r d N e t 人工编制显然工程浩 大 , 必然 时间长 , 要花 费大量的人力 、 物力 、 财力 . 而对 于机器 完全 自动生成 . 就是让机器本 身独立判断一 个个 的 概念 , 准确的定位各种关系, 这样产生 的结果往往是 准确 性不高 . 在目 前多方面受限制的前提 下可 以试着 以本体半 自 动 的设计方法 在设计方法前先讲 述“ 本体 ” 和“ 关 系” 概念 本体 : 本体 目前还没有规范 化的统一定 义 。 它是一种概 念模型 的 明确规 范说 明 , 而这个概念模 型又是共享 的 . 它主要表 达了 四个方 面 的含义 : 概念模型 、 明确、 形式化 、 共享。 概念模 型指通 过抽象 出客观世 界 中一些现象的相关概念而得到的模 型 : 明确 是指所使用 的概念及使 用这些概念 的约束都有明确的定义 :形式 化指必须是计算机可读 的 : 共享指概念模 型所 体现的是共 同认可 的知识 , 反映的是相关领域 中公
论文2
在线语义类词库WordNet研究摘要:语义包括词汇义、句义、篇章义等,其中最根本最重要的是词汇义的研究。
词汇义的研究和表示的方法有多种,很重要的一种是语义分类。
在国内外同类课题中,最著名的是普林斯顿大学Miller等人研制的英语词网数据库WordNet。
WordNet是一个在线词汇参照系统,是一个基于心理语言学原则的机器词典。
WordNet用同义词集Synsets来表示词义。
该词网旨在从心理语言学角度建立英语词汇基本语义关系的实际模型。
本文简要介绍这个在线的语义类词库。
关键词:WordNet; 语义类; 同义词; 关系;中图法分类号:TP391 文献标识码:A 文章编号:1000-7024(2009)17-4092-03Research of The Online Semantic Lexicons WordNet 【Abstract】Building ontology is an important process to develop semantic-based information system. For enhancing the efficiency of building domain ontology, an approach for building a domain ontology reusing WordNet was proposed. The approach analyzed the structure and semantic relations of WordNet and abstracted WordNet as a graph model. Regarding domain terms as the concepts of the ontology, a subgraph whose nodes were domain terms was abstracted and a domain sub-ontology was generated. The ontology was modified and complemented using an ontology editor. By means of analyzing and verifying the figures and results of the experiment, it shows that the structure of WordNet can be reused and domain knowledge is able to be acquired in this approach, and a domain ontology can be built semi-automatically and quickly.【Key words】WordNet; reusing; domain ontology; semantic; graph model1 概述信息技术的知识化和智能化发展趋势,使得信息和数据的表示不只是停留在语法层面,更要聚焦到语义层面。
百度词库文档
百度词库简介百度词库是百度公司推出的一项在线词库服务,为用户提供各种领域的词库资源。
词库是指包含大量词语及其相关信息的数据库,用户可以根据自己的需求,在百度词库中搜索并获取相应的词汇资源。
功能特点1. 多领域词库资源百度词库提供了丰富多样的词库资源,涵盖了文化、科技、医学、教育、经济等多个领域。
用户可以根据自己的学习、工作或研究需求,选择相应的词库进行查询和使用。
2. 精准的词汇解释与示例用法百度词库中的词汇解释和示例用法经过专业的编写和审核,保证了其准确性和权威性。
用户可以通过查阅词库,了解词汇的含义、用法、搭配等相关信息,提高自己的语言表达能力。
3. 自定义词库创建与管理除了提供现成的词库资源,百度词库还支持用户自行创建和管理词库。
用户可以将自己的词汇整理成词库,方便日常学习、工作或研究使用。
同时,用户还可以对词库进行编辑、添加、删除等操作,根据自己的需要进行个性化定制。
4. 词库在线同步与分享百度词库支持多平台在线同步,用户可以在不同设备上进行词库的使用和管理。
同时,用户还可以将自己的词库分享给他人,方便大家互相学习和交流。
使用方法1. 在线查询用户可以在百度词库的官方网站上进行在线查询。
在搜索框中输入要查询的词汇,即可得到相关的词汇解释和示例用法。
同时,用户还可以通过点击菜单中的词库分类,浏览和查找自己感兴趣的词汇资源。
2. 词库下载与导入用户可以在百度词库的官方网站上下载词库文件,支持多种格式(如txt、csv等)。
下载后,用户可以将词库文件导入到相关的词汇工具(如文本编辑软件、记事本等)中进行使用。
3. 个性化词库创建与管理用户可以通过百度词库的官方网站或词汇工具软件进行个性化词库创建与管理。
具体操作步骤如下:•创建词库:点击新建词库按钮,输入词库名称和相关信息,点击确认创建。
•编辑词库:打开已有词库,对其中的词汇信息进行编辑,包括添加、删除、修改等操作。
•导出词库:将已创建或编辑好的词库导出为词库文件,方便在其他词汇工具中使用。
在线词典资源大全
查字典bbb://aaahpsti.gdbbb服饰搭配网bbb://aaa021swbbb十二星座运势bbb://aaajl-lyzyaaa在线词典资源大全◆金山词霸在线◆剑桥在线辞典Cambridge Dictionary◆Cambridge Dictionary of American English◆Cambridge Learner's Dictionary◆Cambridge International Dictionary of Phrasal Verbs◆Cambridge International Dictionary of Idioms◆洪恩双语词典(双语)◆Dr.eye译典通(双语)词汇测试◆韦氏在线词典Merriam-Webster◆英语万用词典◆牛津英语词典Oxford English Dictionary◆柯林斯大词典Cobuild.collins (idiom of the day)◆Yahoo学生英汉字典◆高技术辞典网(双语)◆Dictionaryaaa◆Yourdictionaryaaa◆Voycabularyaaa◆Thesaurusaaa◆Multilingual多国语言词典◆多功能在线词典◆英文网站及时翻译◆太阳雨英汉\汉英词典◆English-Chinese Online Dictionary - 含汉英字典、英汉字典、TOEFL及GRE 考试词汇及网上工具。
◆亚洲的言语- 提供东亚和东南亚的外语线上字典连结集。
◆英汉字典- 可输入英文查询中文字。
◆英汉计算机及网络通讯技术词汇◆DictionaryHKaaa - 提供英文对英文、中文和日文的翻译。
◆4U电脑书库- 包括中华文化通志、汉语大词典、中华古汉语字典的网络版。
◆植物病理学在线术语汇编--- 详细的带有解说的大辞典,其中收集了植物病理学的专业术语及其发音查字典bbb://aaahpsti.gdbbb服饰搭配网bbb://aaa021swbbb十二星座运势bbb://aaajl-lyzyaaa◆美国商务专业术语辞典--- 全面收集了美国传媒所用的各种商务词汇◆巴克利金融术语汇编--- 简单易学的金融术语辞典◆华盛顿邮报--- 收集了超过1250个商务术语的专业辞典,无论您是专业交易商或初涉股市,都是您的好帮手◆阴郁的科学家--辞典--- 经贸术语简明辞典◆证券教授的必备辞典--- 投资证券市场人员的好帮手◆金融专业术语大辞典--- 有些词很难找,是不是,来我们这儿试试吧!◆交易商必备辞典--- 完整地收集了交易中可能用到的各种专业术语◆AmosWorld经贸术语汇编--- 由俄克拉荷马州立大学经济学教授Orley Amos博士编写的经贸术语大辞典◆法律与经济学资料库--- 综合性的经贸与法律大辞典,可按类别和题目搜索◆Ctech 网路科技辞典- 提供网路科技名词查询。
英语词义数据集
英语词义数据集
以下是一些常见的英语词义数据集:
1. WordNet:WordNet是一种广泛使用的词义数据库,包含大量英语单词的同义词集合,并且可以显示它们的上位词和下位词关系。
2. 柯林斯词典:柯林斯词典是一部综合性英语词典,提供了详细的词义解释、例句和用法说明。
3. WordSense:WordSense是一个基于WordNet的词义标注工具,可以为输入的英语单词提供最可能的词义。
4. GloVe:GloVe (Global Vectors for Word Representation) 是一种用于词嵌入的方法,可以将英语单词表示为向量,以捕捉它们的语义关系。
GloVe提供了预训练的词向量模型,可以用于词义相关的任务。
5. Word2Vec:Word2Vec是另一种用于词嵌入的方法,它通过将单词表示为连续向量,以捕捉它们的语义关系。
Word2Vec提供了训练好的模型,可以用于获取单词的词义相关性。
这些数据集和工具可以帮助研究者和开发者进行词义相关的任务,如词义消歧、情感分析、语义相似度等。
需要注意的是,这些数据集和工具可能会根据不同的版本和用途有所变化,所以在使用之前最好查阅相关的文档和资料。
WordNet简介
3.52
2.76 2.41
B.7
WordNet的词汇组织结构
词汇的矩阵模型
Word Meanings M1 M2 M3 . . . F1 F2 E2,2 E3,3 . . . Word Forms F3 …… Fn E1,1 E1,2
Mm
Em,n
B.8
WordNet的词汇组织结构
WorNet 中词语间的关系
then
{x1, x2, …, xn} are meronym
{y1, y2, …, ym} are holonymຫໍສະໝຸດ 部分关系是一种不对称的关系
部分关系是名词概念之间的一种语义关系。
B.22
界面说明
B.23
界面说明
B.24
例如,橡树@--->树@--->植物@--->生物
• 下位词汇的词条继承了他们上位词汇的所有属性 (attributes) • 名词的语义元素 • 25个起始概念:一般性概念,作为独立的层次结构 • 各领域的名次数量不等,互不排斥 • 大体覆盖了明确的概念和词汇范围
B.16
WorNet 中词语间的关系
B.3
WordNet的词汇组织结构
同义词集(Synsets)
Example:
地球绕着太阳转, 自然会有寒来暑往的四季交替
自然奥秘
{自然、必然、一定、必定} {自然、天然}
B.4
WordNet的词汇组织结构
词汇(Words) 、同义词集、语义(Senses)的数量
POS Unique Strings Synsets Total Word-Sense Pairs Noun 109195 75804 134716
干货18个免费在线英文词典,学英语必知
干货18个免费在线英文词典,学英语必知1剑桥高阶英语学习词典复制网址:剑桥高阶英语学习词典(又称CALD)收词量大,且带有大量的例句。
与其他词典相比,剑桥词典的释义更加简洁准确,且准确性和可靠度都更高。
同时,词典官网上还设立了一个Grammar语法栏目,会对一些易错语法知识点进行解释),还可以按照单词首字母顺序搜索,非常实用!2柯林斯词典在线版复制网址:柯林斯词典的在线版本。
对于从来没有使用过英语词典的人来说,柯林斯可能是非常适合当作入门词典的。
柯林斯采用“整句释义”的形式,通过一个完整的句子来解释单词的含义,方便初学者理解(虽然这种解释形式有时候会比较啰嗦)。
同时,针对各类英语词汇,它还给出了一星到五星的词频标注(五星词频最高,一星最低),词频高的单词我们可以重点关注。
3麦克米伦词典复制网址:麦克米伦是英国的老牌词典,包含丰富的短语及固定搭配,例证丰富,且全部来自真实语料,贴近生活,纯正地道,很多其他词典上查不到的短语它都会有收录。
同样地,词典将最常用的7500个基础词汇以红色标出,并按使用频率分为三个星级,三星级词是使用频率最高的词汇。
4韦氏词典复制网址:/韦氏词典是美国一个历史悠久的词典品牌,为英语学习者和英语母语者提供了从初级到高级的丰富词汇及用法。
实际上,《韦氏高阶英语词典》收录的例句数丰富,很多单词或短语在其他词典上找不到相应的例句,但在韦氏词典上可以。
同时,由于它是美系词典,因此对很多美式英语用法收录比较全面。
词典包含丰富的释义、用法、例句,对于比较难的例句,还会贴心地在例句后面附带上一句通俗版的解释。
5朗文当代高级英语辞典在线版复制网址:朗文当代高级英语辞典的在线版本,目前词典已经更新到第六版。
朗文词典给出了大量的例句和配图,且每一例句都有真人发音,对于单词的识记和辨音有很大帮助。
此外,词典还给出了丰富的搭配用法:动词搭配、形容词搭配、固定短语等。
这些搭配在写作中可以给大家提供很大的帮助。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
/paper_110583811_1/论文标题:中文信息处理专题研究:语义研究一个在线义类词库:词网WordNet论文作者陈群秀(论文关键词,论文来源语言文字应用,论文单位京,点击次数184,论文页数69~104页1998年1998月论文网/paper_110583811/ 计算机的自然语言理解和处理,依赖于计算语言学的研究成果。
)与计算词汇学和计算句法学相比,计算语义学是计算语言学领域里一门比较年轻的学科。
相对而言,句法分析的理论和技术发展得比较成熟、完善,而语义分析的理论和技术起步比较晚,尚处于探索阶段,空白点较多而且难度最大。
目前,自然语言理解正处于一个关键时期,处在取得重大突破的前夜,而语义研究领域的进展和突破对全局的进展和突破有至关重要的作用。
语义包括词汇义、句义、篇章义等,其中最根本最重要的是词汇义的研究。
词汇义的研究和表示的方法有多种,很重要的一种是语义分类。
人读的义类词典几乎各国都有,机读的(即信息处理用的)义类词典在日本、美国等先进国家也都有研究或成果。
在国内外同类课题中,最著名的是普林斯顿大学Miller等人研制的英语词网数据库WordNet。
该词网旨在从心理语言学角度建立英语词汇基本语义关系的实际模型。
本文简要介绍这个在线的义类词库。
一词网WordNet的概况WordNet是一个在线词汇参照系统(在网上可机读的英语词库),是一个基于心理语言学原则的机器词典。
WordNet用大家熟悉的拼法来表示词形,用同义词集Synsets(在一定上下文中可以互换的同义词形的列表)来表示词义。
有两种关系:词汇的和语义的。
词汇关系存在于词形间,语义关系存在于词义间。
通常的人读词典或机读词典是按字母顺序组织词汇信息,将拼写相似的词放在一起,而让意思上相近的或相关的词随意地散置。
WordNet 则想为广大读者依概念而不是依字母顺序查找词典获取词汇语义知识提供帮助。
WordNet 目前包含大约95600个词条(51500个简单词和44100个复合词,它们被组织成约70100个词义或同义词集),描写了上下位、同义、反义、部分—整体等词汇语义关系。
有一些国家将WordNet进行了本地化。
WordNet和一个标准的词典之间的最明显的区别就在于WordNet将所有英语词汇分成五类:名词、动词、形容词、副词和功能词。
实际上,WordNet只包含名词、动词、形容词和副词。
相对来说较小的英语功能词集被省略掉了,这是基于它们可能被作为语言的语法成分的一部分单独存放的假设。
名词在词汇记忆中被组织成主题的层次,动词被组织成各种推演(蕴涵)关系,而形容词和副词被组织在N维超空间中。
然而,WordNet最雄心勃勃的特点在于它试图以词义而不是词形来组织词汇信息。
从这个角度来说,WordNet更像一部同义词汇编(thes-aurus,义类体系),而不是一部词典。
但是WordNet并不仅仅是一部在线的同义词汇编,它包含同义、反义、上下位义、整体部分义等多种语义关系的描写,对英语单词的多义也想方设法予以表示,另外,它也能处理英语词形的曲折形态。
在词汇语义学的理论中,如何用定义来表示词语化的概念,取决于该理论是打算成为构造性的还是仅仅是区分性的。
对区分性的理论的要求比较低,但也足以构造出所需的映射。
如果阅读该定义的人已经获得了该概念,仅仅需要辨认它,那用一个同义词(或近义词)通常就足够了。
例如,某人已经知道board可以指称一片木材或是一群为了某个目的集合起来的人,只需要得到plank或committee的帮助就可以挑出原义。
同义词集{board,plank(板材)}和{board,committee(委员会)}可以作为board这两个义项的无歧义的指示器。
WordNet 是用区分性理论来表示词义的。
由于英语中同义词很多,synsets通常足以用来作区分的目的。
但有时候,找不到一个合适的同义词,例如,board的另一个义项是“包伙食”,这时WordNet用一个很短的注释来解决这个多义问题,如{board,(包伙食,即定时提供一个人的三餐以赚钱}可以用来区分board的这一意思,它可以被看成一个只有一个成员的synsets。
同义当然是词形之间的词汇关系,但是由于它在WordNet中扮演了中心角色,故特用{和}括起有同义关系的记号以区别于用[和]括起来的其他词汇关系。
WordNet中最重要的关系是同义关系,而且是一种定义较弱的同义关系。
根据一个定义(Leibniz)两个表达式同义,是说用一个去替换另外一个绝不会改变句子的真值。
根据这个定义,真正的同义词即使存在也很少。
这个定义的一个较弱版本是将同义关系和上下文C联系起来,如果在C中将一个换成另一个不会改变句子真值,那么这个表达式是同义的。
例如,在“木工”的上下文中将board替换成plank,基本上不会改变真值,尽管在board的另一些上下文中进行这样的替换将是完全不合适的。
另一个大家熟悉的关系是反义关系。
令人吃惊的是它非常难以定义。
比如说,“贫穷”和“富裕”是反义词,但是说一个人不富裕并不代表他一定贫穷。
看起来仿佛非常简单的对称关系的反义关系实际上相当复杂。
反义关系是一种词形间的词汇关系,而不是词义间的语义关系。
反义关系为WordNet中的形容词和副词提供了一个中心组织原则。
与属于词形间的词汇关系的同义和反义不同。
下位/上位是一个词义间的语义关系:例如,{maple(枫树)}是{tree(树)}的一个下位义,而{tree(树)}是{plant(植物)}的一个下位义。
下位/上位(或称子类/上类,子集/超集,或ISA关系)引起了很多注意。
下位关系是可传递的,反对称的,而且由于一群相关下位义通常只有一个上位义,便产生了一个分层次的语义结构,其中任意一个下位义均位于它的上位义之下。
在信息检索系统中广泛使用这种层次表示法,它们被称为继承系统:一个下位义从比自己更为一般的(上位)概念处继承所有的特征,并且至少加上一个特征,以便和自己的上位义及该上位义的所有其他下位义区分开来。
这个约定为WordNet中的名词提供了中心的组织原则。
另一种为人们所熟悉的语义关系是部分—整体关系,词汇语义学家将它称为部分义/整体义。
部分义关系是传递的(有限制)和反对称的,而且可以用来构造一个整体/部分层次体系(有一些保留,因为一个部分义可以有多个整体义)。
这就是说,部分可以再有部分:手指是手的一部分,手是手臂的一部分,手臂是身体的一部分。
与同义、反义、以及下位义类似,这个关系有一个逆表述:如果Wm是Wh的一个部分义(用#表示),则说Wh是Wm 的一个整体义(用%表示)。
部分义是下位义可以继承的区别性特征。
因此,部分义和下位义以复杂的形式互相缠绕二词网WordNet中的名词:一个词汇继承系统WordNet是一个词汇继承系统。
WordNet中包含了大致57,000个名词词形,它们被组织成大致48,800个词义(Synsets)。
这些数字是一个约数,因为WordNet不断地在扩充——这是在线数据库的好处之一。
对普通的名词的典型定义通常给出它的上位项再加上一些区别性特征:这一信息是在WordNet中组织名词文件的基础。
上下位关系在Word-Net中产生了一个分层次的语义组织形式,该形式在名词文件中用同义词集(synsets)间的有标号的指针再现。
这个层次体系在深度上是有限制的,极少超过12层。
区别性特征是用创建一个词汇语义继承系统的方法进入系统的,在该继承系统中,每个单词都继承了所有的上位词的区别性特征。
有三种区别性特征:属性(修饰),部分(部分义)和功能,但是现在WordNet的名词文件中只实现了部分义,在描述性形容词和表示恰当的属性的名词synsets之间有指针,尚未实现从名词到动词的功能指针。
名词间也有反义,但它不是WordNet中名词的基本组织方法。
只有同义、下位义才是WordNet中名词的基本组织方法。
WordNet中的名词词库分为25个主题文件,每个主题处理一个不同的基础语义成分。
传统的词典或一般的机器词典(尤其是一部好的词典)里存储了大量的信息(比如拼写、发音、词形变化和衍生的形式、词源、词性、定义、用法示例、同义词和反义词、特殊用法说明甚至图示),但缺憾的是:(1)缺少与其上位项的联系,例如tree(树),其上位项是plant (植物),但tree的定义中并没有指明plant的哪一个意思才是正确的上位义;(2)缺少有关同位项的信息,例如要想找到tree的同位项是很费事的;(3)缺少有关下位项的联系,要想知道tree有多少种类是很难的;(4)缺少有关部件(或部分义)的信息以及有关属性和功能的信息。
而WordNet则力图避免这些缺憾或改进(至少是前三项),它通过上下位关系形成一个分层次的语义体系结构(一个词汇继承系统),通过上下位项链及列表形式来使tree与其上位项和同位项、下位项联系起来,继承上位(乃至上位的上位等)的属性,并且与部分义也联系着。
部分义一般被称为“是……的一部分”(也有的称为part of关系),常常被拿来和“是一种……”(亦称ISA关系)关系作比较:两种都是反对称的和(有保留地)传递性的。
一共有多少种部分义呢?有的说有六部分部分义:部件/物体(树枝/树),成员/全集(树/森林),部分/整个(块/蛋糕),物质/物体(铝/飞机),物征/活动(付钱/购物),以及地方/区域(Princeton/New Jersey)。
有人再加入第七种:状态/过程(青春期/成长)。
WordNet中只编写了这些部分义类型中的三种:(1)Wm#p->Wh表示Wm是Wh的一个组成部分;(2)Wm#m->Wh表示Wm是Wh的一个成员;而(3)Wm#s->Wh表示Wm是制造Wh所用的物质。
WordNet如何将下位义与上位义联系起来呢?是通过上位义标识指针"@"和下位义标识指针“~”来联系起来的。
例如一个tree的条目的synsets看起来是这样:{tree,plant,@conifer(针叶树),~alder(桤木),~…}此处的“…”被很多的指向下位义的指针填满。
在数据库中,指向上位义plant的指针"@"会被一个相反的指向plant的synsets中的tree的指针“~”所反射;那个指针被符号“~”标出为“下位义”:{plant,flora,organism,@tree,~…}前面提到同义、下位义才是WordNet中名词的基本组织方法,而反义即语义上的对立不是名词之间的基本组织关系,但它确实存在并在WordNet中理所当然地获得了它自己的表示,例如,男人和女人的syns-ets会包含:(此处用"!"指针表示反义){[man,woman,!],person,@…(一个男性的人)}{[woma n,man,!],person,@…{一个女性的人}}当所有三种语义关系(下位义,部分义和反义)都被包括进来时,结果是一个高度互相连通的名词网络。